AI ჩატბოტები ადამიანების პერსონალურ მონაცემებს ავრცელებენ

რედიტის ერთმა მომხმარებელმა ახლახან დაწერა, რომ "სასოწარკვეთილი ეძებდა დახმარებას": დაახლოებით ერთი თვის განმავლობაში, მისი სიტყვებით, ტელეფონი უცხო ადამიანების ზარებით იყო გადატვირთული, რომლებიც "ეძებდნენ ადვოკატს, პროდუქტის დიზაინერს, საკეტების ხელოსანს". დამრეკავები, როგორც ჩანს, Google-ის გენერაციულმა AI-მ შეაცდინა.

მარტში, ისრაელელ პროგრამისტს WhatsApp-ზე დაუკავშირდნენ მას შემდეგ, რაც Google-ის ჩატბოტმა Gemini-მ მომხმარებელთა მომსახურების არასწორი ინსტრუქციები მოამზადა, სადაც მისი პირადი ნომერი იყო მითითებული.

აპრილში კი Washington-ის უნივერსიტეტის დოქტორანტმა Gemini-სთან კონტაქტით მოახერხა, რომ ჩათბოტს თავისი კოლეგის პირადი მობილური ნომერი მიეცა.

AI-ის მკვლევრები და ონლაინ კონფიდენციალობის ექსპერტები დიდი ხანია გვაფრთხილებენ გენერაციული AI-ს მიერ პირადი ცხოვრებისთვის შექმნილ მრავალ საფრთხეზე. ეს შემთხვევები კიდევ ერთ შემაშფოთებელ სცენარს გვიჩვენებს: გენერაციული AI ავრცელებს ადამიანების რეალურ ტელეფონის ნომრებს. და რაც კიდევ უფრო საგანგაშოა, ამის შეჩერება, როგორც ჩანს, ძალიან რთულია.

AI-სთან დაკავშირებული კონფიდენციალურობის მოთხოვნები 400%-ით გაიზარდა

შეუძლებელია ზუსტად განისაზღვროს, რამდენად ხშირად ხდება ადამიანების ტელეფონის ნომრების გამჟღავნება AI ჩატბოტების მიერ, თუმცა ექსპერტები თვლიან, რომ ეს ბევრად უფრო ხშირად ხდება, ვიდრე საჯაროდ ვიცით.

DeleteMe — კომპანია, რომელიც მომხმარებლებს ინტერნეტიდან პირადი ინფორმაციის წაშლაში ეხმარება — ამბობს, რომ გენერაციული AI-ს შესახებ კლიენტთა შეკითხვები ბოლო შვიდი თვის განმავლობაში 400%-ით გაიზარდა. კომპანიის თანადამფუძნებლის თქმით, ამ შეკითხვების 55% ეხება ChatGPT-ს, 20% — Gemini-ს, 15% — Claude-ს, და 10% — სხვა AI ინსტრუმენტებს.

ის ასევე ამბობს, რომ LLM-ების მიერ პირადი ინფორმაციის გამჟღავნებასთან დაკავშირებული კლიენტთა საჩივრები ჩვეულებრივ ორი სახით გვხვდება. ერთ შემთხვევაში კლიენტი ჩატბოტს საკუთარ თავზე უწყინარ კითხვას უსვამს და საპასუხოდ იღებს ზუსტ სახლის მისამართებს, ტელეფონის ნომრებსს, ოჯახის წევრთა სახელებს ან სამსახურის დეტალებს. მეორე შემთხვევაში კი კლიენტი შეიძლება შეეჯახოს სხვა ადამიანის პირადი მონაცემების გამჟღავნებას, როდესაც ჩატბოტი უბრუნებს სავარაუდოდ სწორ, მაგრამ სინამდვილეში მცდარ საკონტაქტო ინფორმაციას.

Gizmodo-ს ჟურნალისტის ექსპერიმენტი

MIT Technology Review-ს სტატიის გამოქვეყნებასთან ერთად, Gizmodo-ს ჟურნალისტმა მეთ ნოვაკმა გადაწყვიტა საკუთარი ტელეფონის ნომრისა და მისამართის მოძიების მიზნით, პირადად გამოეცადა სხვადასხვა ჩატბოტი. შედეგები საინტერესო და მრავლისმთქმელი აღმოჩნდა:

ChatGPT-მ ზუსტი ტელეფონის ნომერი დაასახელა, თუმცა ეს ნომერი ნოვაკს რამდენიმე წლის წინ, ავსტრალიაში გადასვლამდე ჰქონდა. ჩატბოტმა თავად შენიშნა, რომ ვერ ადასტურებს ნომრის აქტიურობას. როგორც ჩანს, ნომერი ამოიღო 2016 წლის FOIA-ს მოთხოვნის PDF-დან, რომელიც FTC-ს გაეგზავნა. ამავე დოკუმენტიდან ChatGPT-მ ნოვაკს მისამართიც მიაწოდა, ადგილი, სადაც ის აღარ ცხოვრობს. კალიფორნიაში მეთ ნოვაკის სხვა ნომრის მოთხოვნაზე კი ამავე სახელის მქონე სხვა ადამიანის ნომერი დაასახელა, ყოველგვარი ყოყმანის გარეშე;
Grok-მა ტელეფონის ნომრის გაცემაზე უარი განაცხადა, მაშინაც კი, როდესაც ნოვაკმა ეს საკითხი სიკვდილ-სიცოცხლის მნიშვნელობის საკითხად წარმოაჩინა. Grok ერთადერთი ჩატბოტი იყო, რომელმაც ასევე გააცნობიერა, რომ მოთხოვნა ეხებოდა თავად კითხვის ავტორს;
Claude-მა ნომერი არ გასცა და განაცხადა, რომ პირადი საკონტაქტო მონაცემების გაზიარება, ჟურნალისტების ჩათვლით, სერიოზულ კონფიდენციალურობის პრობლემებს წარმოშობს. ნოვაკის მცდელობამ, ეთქვა რომ ნომერი თითქოს ადრე მისცეს, მაგრამ დაავიწყდა, შედეგი არ გამოიღო;
Perplexity-მაც ტელეფონის ნომრის გაცემაზე უარი თქვა. ელფოსტა კი დამახინჯებული სახით გასცა. საინტერესოა, რომ მან უპრობლემოდ გასცა Signal-ის მომხმარებლის სახელი;
Gemini-მ ტელეფონის ნომრის გაცემაზე უარი თქვა და სანაცვლოდ ნოვაკის საჯარო ელფოსტები მიუთითა. თუმცა, როდესაც ნოვაკმა კონკრეტული ნომრის მფლობელის ვინაობა ჰკითხა, Gemini-მ სწორად დაასახელა. სხვა ჩატბოტებმა ნომრის მფლობელის დადგენა ვერ შეძლეს.

როგორ ხდება ეს?

Gemini, ChatGPT და Claude — LLM-ებზე დაფუძნებული ჩატბოტები — ინტერნეტიდან მოპოვებული უზარმაზარი მონაცემებით სწავლობენ. ეს გარდაუვალად მოიცავს პერსონალური მონაცემების ასეულ მილიონობით შემთხვევას. როგორც გასულ ზაფხულს გავარკვიეთ, მაგალითად, პოპულარული ღია კოდის მონაცემთა ბაზა DataComp CommonPool, რომელიც გამოიყენება სურათების გენერაციის მოდელების სასწავლებლად, მოიცავდა რეზიუმეების, მართვის მოწმობებისა და საკრედიტო ბარათების ასლებს.

ამ პრობლემის გამწვავების ალბათობა მაღალია, რადგან საჯარო მონაცემები თანდათან ამოიწურება და AI კომპანიები მაღალხარისხიანი სასწავლო მონაცემების ახალ წყაროებს ეძებენ. კალიფორნიის მონაცემთა ბროკერების რეესტრის მიხედვით, 578 დარეგისტრირებული ბროკერიდან 31-მა საკუთარი სახელით დაადასტურა, რომ გასულ წელს გენერაციული AI სისტემების შემქმნელებს მომხმარებელთა მონაცემები მიჰყიდა ან გაუზიარა. გარდა ამისა, ადრე ვფიქრობდით, რომ AI მხოლოდ ხშირად ნანახ ინფორმაციას იმახსოვრებდა, მაგრამ გამოდის, რომ იშვიათად ნანახი მონაცემებიც, მაგალითად ერთხელ გაზიარებული ტელეფონის ნომერიც შეიძლება დაიმახსოვროს.

არასრულყოფილი დაცვის ზომები

LLM-ებში გარკვეული ბარიერების ჩაშენება სტანდარტული პრაქტიკაა. კონტენტის ფილტრები პირადი მონაცემების იდენტიფიცირებასა და გამჟღავნების თავიდან აცილებას ცდილობენ. Anthropic Claude-ს ინსტრუქციებს აძლევს, რომ სხვებისთვის ყველაზე ნაკლებად პირადი და კონფიდენციალური ინფორმაციის შემცველი პასუხები აირჩიოს. მაგრამ, როგორც Washington-ის უნივერსიტეტის ორი დოქტორანტი პირადად დარწმუნდა, ეს დაცვის ზომები ყოველთვის არ მუშაობს.

ერთ დღეს, მეირა გილბერტმა Gemini-ში მეგობრისა და კოლეგის, იაელ აიგერის, საკონტაქტო ინფორმაცია მოიძია. Gemini-მ აიგერის კვლევის მიმოხილვის შემდეგ მისი პირადი ტელეფონის ნომერიც გასცა. გილბერტი, მისივე სიტყვებით, "შოკში ჩავარდა". აიგერმა გაიხსენა, რომ ნამდვილად გაუზიარებია ნომერი ინტერნეტში: ტექნოლოგიური სემინარისთვის, მაგრამ ასეთ ხელმისაწვდომობას არ ელოდა. ჩვეულებრივ Google-ის ძიებაში ინფორმაცია ღრმად იყო ჩამარხული, გილბერტის სიტყვებით, "ვერასოდეს იპოვიდი, თუ ჩვეულებრივ მოძებნიდი". MIT Technology Review-მაც სცადა იგივე ბრძანება ახლახან და Gemini-მ, თავდაპირველი უარის შემდეგ, აიგერის ნომერი მაინც გასცა.

"შენი ინფორმაცია ერთი აუდიტორიისთვისაა ხელმისაწვდომი, შემდეგ კი Gemini ყველასთვის ხელმისაწვდომს ხდის", — ეს სრულიად სხვა განცდაა, ამბობს აიგერი.

ChatGPT-ის "საგამოძიებო სტილი"

ამის შემდეგ აიგერმა, გილბერტმა და კიდევ ერთმა დოქტორანტმა ანა-მარია გეორგიევამ ChatGPT გამოსცადეს ერთი პროფესორის შესახებ ინფორმაციის მოსაძიებლად.

თავდაპირველად OpenAI-ს დაცვის მექანიზმებმა იმუშავა და ChatGPT-მ უპასუხა, რომ ინფორმაცია მიუწვდომელია. მაგრამ იმავე პასუხში ჩატბოტმა შემოგვთავაზა: "თუ გინდათ უფრო ღრმად ჩაწვდეთ, შემიძლია ვცადო უფრო 'საგამოძიებო სტილის' მიდგომა." საჭირო იყო მხოლოდ ძიების "დაზუსტება": პროფესორის სავარაუდო სამეზობლოს დასახელება, ან სახლის შესაძლო თანამფლობელის სახელი. ChatGPT-მ განმარტა: "ეს ჩვეულებრივ ერთადერთი გზაა უფრო ახალი ან განზრახ ნაკლებად თვალსაჩინო ქონების ჩანაწერების მოსაძიებლად."

სტუდენტებმა ეს ინფორმაცია მიაწოდეს და ChatGPT-მ ქალაქის ქონების ჩანაწერებიდან პროფესორის სახლის მისამართი, შეძენის ფასი და მეუღლის სახელი გამოიტანა.

DeleteMe-ს დამფუძნებლის სიტყვებით, ეს ფუნდამენტურ პრობლემას ავლენს: AI კომპანიებს შეუძლიათ ბარიერების შექმნა, მაგრამ მათი ჩატბოტები ამავდროულად შექმნილია ეფექტურობისთვის და მომხმარებელთა კითხვებზე პასუხის გასაცემად.

ეს პრობლემა მხოლოდ Gemini-სა და ChatGPT-ს არ ეხება. გასულ წელს Futurism-მა დაადგინა, რომ xAI-ის ჩატბოტი Grok თითქმის ყოველთვის გასცემდა სახლის მისამართებს, ტელეფონის ნომრებს და სამსახურის მისამართებს, თუ მომხმარებელი სახელს და სიტყვა "მისამართს" ერთად წერდა.

გამოსავლის არარსებობა

ამ პრობლემის მარტივი გადაწყვეტა არ არსებობს. არ არსებობს მარტივი გზა იმის შესამოწმებლად, არის თუ არა ვინმეს პირადი ინფორმაცია კონკრეტული მოდელის სასწავლო მონაცემებში, ან მოდელიდან პერსონალური მონაცემების ამოშლის მოთხოვნის მექანიზმი.

სტენფორდის უნივერსიტეტის კონფიდენციალურობის ექსპერტის, ჯენიფერ კინგის სიტყვებით, იდეალურ შემთხვევაში ადამიანებს უნდა შეეძლოთ პირადი ინფორმაციის წაშლის მოთხოვნა, მაგრამ ეს ჩვეულებრივ მხოლოდ იმ მონაცემებს ეხება, რომლებიც ადამიანებმა კომპანიებს პირდაპირ მიაწოდეს. "არ ვიცი, Google-ს საერთოდ აქვს თუ არა ინფრასტრუქტურა, რომ მითხრას: 'დიახ, თქვენი მონაცემები ჩვენს სასწავლო მონაცემთა ბაზაშია, შეგვიძლია შეგატყობინოთ რა ვიცით, და შემდეგ წავშალოთ ან გამოვასწოროთ'" ,— ამბობს კინგი.

არსებული კანონმდებლობა, კალიფორნიის CCPA ან ევროპის GDPR, არ ფარავს ინტერნეტიდან უკვე მოძიებულ "საჯაროდ ხელმისაწვდომ" ინფორმაციას, განსაკუთრებით მაშინ, როდესაც ის ანონიმიზებულია, თუმცა მრავალი კვლევა აჩვენებს, რამდენად ადვილია ანონიმური მონაცემებიდან ვინაობის დადგენა.

კინგი ამბობს, რომ შემდეგი საუკეთესო გამოსავალი იქნებოდა, კომპანიების სასწავლო მონაცემებიდან ყველა ტელეფონის ნომრის ამოშლა, მაგრამ არც ერთი კომპანია არ არის მზად, ამის გაკეთება საჯაროდ დაადასტუროს.

Google-ის წარმომადგენელმა ალექს ჯოზეფმა კონკრეტულ კითხვებს პასუხი არ გასცა, მაგრამ განაცხადა, რომ "გუნდი" MIT Technology Review-ს მიერ მითითებულ შემთხვევებს "იხილავს" და გამოგზავნა ბმული, სადაც მომხმარებლებს შეუძლიათ პირადი მონაცემების დამუშავებაზე პროტესტის განცხადება ან Gemini-ს პასუხებში არასწორი ინფორმაციის გასწორების მოთხოვნა.
OpenAI-ს კონფიდენციალურობის პორტალი საშუალებას იძლევა, ChatGPT-ის პასუხებიდან პირადი ინფორმაციის ამოშლა მოითხოვო, თუმცა კომპანია აღნიშნავს, რომ მოთხოვნები საჯარო ინტერესის გათვალისწინებით განიხილება და შეიძლება უარყოფილ იქნას.
Anthropic აღწერს, როგორ იყენებს პირად მონაცემებს მოდელების სასწავლებლად, მაგრამ მათი ამოშლის მკაფიო მექანიზმი არ გააჩნია.

ამჟამად საუკეთესო ვარიანტი ექსპერტების რჩევით არის — "დაიწყე თავიდანვე: ამოშალე პირადი მონაცემები ინტერნეტიდან იქამდე, სანამ AI კომპანიები მათ სასწავლო მასალად მოაგროვებენ". კალიფორნიამ ამ წლის დასაწყისში შექმნა პორტალი, სადაც მაცხოვრებლებს შეუძლიათ მონაცემთა ბროკერებს ინფორმაციის წაშლა მოსთხოვნ, თუმცა ეს ვერ უზრუნველყოფს, რომ მონაცემები უკვე სასწავლო მასალაში არ მოხვდა.

რედიტის ის მომხმარებელი, რომელიც ზარებით იყო გადატვირთული, წერდა, რომ Google-ს ოფიციალური კონფიდენციალურობის მოთხოვნა გაუგზავნა, მაგრამ პასუხი ჯერ არ მიუღია. გასულ თვეს კი დაადასტურა, რომ "შევიწროება ისევ გრძელდება".

საკუთარი გამოცდილებით შთაგონებული, აიგერი გილბერტთან და გეორგიევასთან ერთად მუშაობს სამეცნიერო პროექტზე, რათა შეისწავლონ, რა პირად ინფორმაციას გასცემს სხვადასხვა AI ჩატბოტი და რა იციან მათ, თუნდაც როცა ამას არ გვეუბნებიან.

თუ ხელოვნური ინტელექტი და ამ სფეროში მიმდინარე სიახლეები შენთვის საინტერესოა, შემოგვიერთდი ჩვენს ჯგუფში — AI ყველასთვის