როგორ დავადგინოთ მანიპულაცია ციფრების სიხშირის დათვლით

ფიდბექის საფუძველზე სტატია რამდენჯერმე გადამუშავდა.

სტატიის პირველი ნაწილი პოპულარულ ენაზე მოყოლილ ფაქტებსა და ინფორმაციას შეიცავს. მეორე ნაწილში მოყვანილია დასაბუთებული სტატისტიკური ანალიზი.

ციფრები და რიცხვები

საყოფაცხოვრებო მეტყველებაში ხშირად ვურევთ ხოლმე ერთმანეთში სიტყვებს "ციფრი" და "რიცხვი". რიცხვები უსასრულოა, ციფრი კი, სულ 10 ცალი გვაქვს და ამ ფაქტს ჩვენს ანატომიას და არაბებს უნდა ვუმადლოდეთ, რომლებმაც ათობითი სისტემა მოიგონეს.

რიცხვი ბუნებრივ სიდიდეს აღწერს. მისი ციფრული ჩანაწერი კი, როგორც მაგალითად, "1825", ადამიანის მიერ გამოგონილი რამ გახლავთ.

ციფრების სიხშირე

ნებისმიერი სიდიდე რომ გავზომოთ, იგი ციფრების სახით უნდა ჩავწეროთ და მაგალითად, ბოლო ციფრის სიხშირეს (მისი ამოსვლის ალბათობას) დავაკვირდეთ. ვნახავთ, რომ ერთნაირად ხშირად გვხვდება ციფრი 1-ც, 9-ც და 5-იც. ბოლო ციფრის ალბათობა მართლაც ერთი მეათედია, პირველი ციფრის ალბათობა კი ე.წ. ბენფორდის კანონს ემორჩილება.

დიდად არ ჩავუღრმავდები, მაგრამ ბენფორდის კანონი ხშირად გამოიყენება სხვადასხვაგვარი მანიპულაციის დასადგენად. მაგალითად, ადრე ქვითრებზე გადაკეთებული თანხებისა და ნომრების დასადგენად გამოიყენებოდა. ბოლო დროს, ბევრს საუბრობენ ამერიკაში ჩატარებული არჩევნების შედეგების ბენფორდის კანონთან თანხვედრა/აცდენაზე.

აბა, ჩვენთან რა ხდება?

ავიღე ჩვენი მონაცემები უბნების მიხედვით, და დავთვალე N41-სთვის მიცემული ხმების რაოდენობების პირველი ციფრების სიხშირეები.

მეგონა ბენფორდიდან ოდნავ წაძვრებს მივიღებდი, რაც მანიპულაციაზე გარკვეული მინიშნება იქნებოდა მეთქი.

შედეგმა ძალიან გამაოგნა!

1-იანის ალბათობა მოსალოდნელზე მთელი 10%-ით დაბალია, მაშინ როდესაც 2-იანის ალბათობა 15%-ით მეტია მოსალოდნელზე.

ასეთი მასიური გადახრა (10–15%), განსაკუთრებით რიცხვ 1-ში, რომელიც ყველაზე ადვილად გადაკეთებადია, ციფრების გადაჯღაბნის შესახებ ეჭვს ბადებს.

ბენფორდის კანონი ყოველთვის არ მუშაობს

პოსტის გამოქვეყნების შემდეგ ბევრმა გამოთქვა შემდეგი ლეგიტიმური მოსაზრება:

სავარაუდოდ, გარკვეული ზომის უბნები უფრო ხშირია, ვიდრე სხვა ზომის უბნები, ამიტომ მაგალითად, თუ უბანზე დაახლოებით 400 ამომრჩეველი გამოცხადდა და 48%-მა "ოცნებას" მისცა ხმა, ეს ორას-რაღაცა ხმა გამოდის და სავარაუდოდ, 2-იანების ჭარბობის მიზეზი ეგ შეიძლება იყოსო. 1-იანების სიმცირეც მსგავსად შეიძლება აიხსნას.

მეც თავში დამიჯდა ეს აზრი და უბნის ზომასა და პირველ ადგილზე დამჯდარ პირველ ციფრს შორის კავშირის დასადგენად დეტალური სტატისტიკური ანალიზი ჩავატარე.

უბნები სხვადასხვა ზომისაა, რამდენიმე ადამიანიდან 1 080 ამომრჩევლამდე. დაახლოებით ერთნაირი ზომის უბნები შეგვიძლია დავაჯგუფოთ და დავთვალოთ, თითოეული ჯგუფისთვის რამდენი შედეგი (ანუ 41-სთვის მიცემული ხმების რაოდენობა) იწყება ციფრი 1-ით. ამას ვუწოდოთ 1-იანის სიხშირის განაწილება უბნის ზომის მიხედვით.

სვეტის x კოორდინატი უბნის ზომას გვიჩვენებს. სვეტის სიმაღლე იმ უბნების რაოდენობას, სადაც პირველ ადგილზე 1-იანი დაჯდა.

სვეტების სიმაღლე მზარდ უბნის ზომასთან ერთად იკლებს, რაც ბუნებრივია. ვთქვათ, უბანზე 416 ამომრჩეველია და 48%-მა მისცა ხმა 41 ნომერს. ამ შემთხვევაში, მიცემული ხმების რაოდენობა იქნება 199 და ეს უბანი ამ სვეტში მოხვდება. ერთი კაცით მეტმაც რომ მისცეს ხმა, ხმების რაოდენობა უკვე 200 გახდება და ეს უბანი ამ გრაფიკზე აღარ მოხვდება.

ცხადია ქართულ ოცნებას ყველა უბანზე ზუსტად 48% არ მიუღია. ყველაფერი იყო — თითქმის 0%-იდან, თითქმის 100%-მდე, მაგრამ უმრავლეს უბნებში ხმების რაოდენობა 48%-ის გარშემო ტრიალებდა.

ახლა ვაკეთებთ ამ განაწილების ე.წ. gaussian fit-ს და ვახდენთ მოსალოდნელი შედეგების სიმულაციას ამ განაწილებით. ამ სიმულაციაშიც ოცნება ზუსტად იგივე შედეგზე გავიდოდა, ოღონდ რომელ უბანში რა რიცხვი დაჯდებოდა, უკვე ცესკოს თანამშრომელი კი არ წერს, არამედ ბუნებრივი განაწილება განსაზღვრავს.

ახლა ისევ პირველ ციფრს დავუბრუნდეთ და ვნახოთ, როგორი იქნებოდა 1,2,3,4 და ა.შ., 9-მდე ციფრების განაწილება უბნების ზომების მიხედვით (მწვანე), ანუ ის ციფრების განაწილება რაც წესით უნდა დამჯდარიყო უბნის ზომის გათვალისწინებით! მერე შევადაროთ ცესკოს არსებულ რეალობას (ლურჯი).

ციფრების სიხშირეები — უბნის ზომის გათვალისწინებით:

აცდენები გრაფიკულადაც ჩანს. მაგალითად, დაჯდა ბევრად მეტი 2-ები, ვიდრე ამას ბუნებრივი განაწილება მოგვცემდა.

აცდენები არამარტო გრაფიკულად, არამედ რიცხვებითაც არის დადასტურებული (იხ. კოდი) Kolmogorov–Smirnov ტესტის საშუალებით.

კიდევ მეტი სკეპტიკოსებისთვის

კრიტიკოსები იტყვიან, რომ ჩვენი თანაბარი განაწილება შეიძლება არ ემთხვეოდეს რეალობას. მაგალითად, შეიძლება რეგიონებში, სადაც პატარა უბნებია, 41-ს უფრო მეტმა მოქალაქემ მისცა ხმა.

მართლაც, ტერიტორიული და უბნების ზომების ჭრილში რომ ვნახოთ მიცემული ხმების პროცენტული რაოდენობა, არაჰომოგენურ სურათს დავინახავთ. იხილეთ წითელი ისრებით აღნიშნული ლაქები. მაგრამ ამ ეფექტის თავიდან ასაცილებლად, შეგვიძლია ამოვჭრათ ჰომოგენური ქვესიმრავლე და მასში მხოლოდ 1-ებისა და 2-ების განაწილებას დავაკვირდეთ. (ამ გრაფიკზე x ღერძი ტერიტორიულ განაწილებას შეესაბამება.)

1-ები და 2-ები ჰომოგენურ ქვესიმრავლეში

ეს ქვესიმრავლე ჰომოგენურია, ანუ არანაირი კორელაცია უბნის ზომასა და ამომრჩევლის პარტიულ გემოვნებას შორის არ შეიმჩნევა. ანუ ალბათობა, 416-კაციან უბანში პირველ ციფრად 2-იანი დაჯდება თუ 1-იანი, ერთნაირია. დავაკვირდეთ 1-იანების და 2-იანების სიმულირებულ და არსებულ განაწილებას მხოლოდ ამ სიმრავლეში.

ირკვევა, რომ მხოლოდ ამ სიმრავლეში, თითქოს უხილავი ხელი ჩაერიაო, დაჯდა იმაზე ნაკლები 1-იანით დაწყებული შედეგი და მეტი 2-იანით დაწყებული, ვიდრე მოსალოდნელი იყო. მრუდები როგორაა წაძრული 1-იანისა მარცხნივ და ორიანისა კიდევ მარჯვნივ, თვითონაც შეამჩნევდით. მარტო ამ ქვესიმრავლეში, ამ "ანომალიით" გამოწვეულმა განსხვავებამ 124 ათასი ხმა შეადგინა, რაც ჯამურ შედეგს 3.2%-ით შეცვლიდა.