ის, რაც არ უნდა გვცოდნოდა — AI გასაიდუმლოებულ ინფორმაციას სულ უფრო ხელმისაწვდომს ხდის
ფოტო: Shutterstock
ასაფეთქებელი ნივთიერებების დამზადების ინსტრუქციები, ფულის გათეთრების პროცედურები ან ჰაკერული თავდასხმების ინსტრუქციები — ინფორმაცია, რომელიც საუკუნეების განმავლობაში ბნელ კუთხეებში იყო დაფარული ან ჩაკეტილი, ახლა მხოლოდ ერთი მოთხოვნით არის ხელმისაწვდომი. ხელოვნური ინტელექტის წყალობით.
ChatGPT-ისა და Gemini-ს მსგავს დიდ ენობრივ მოდელებს (LLM) ყოველდღიურად მილიარდზე მეტი ადამიანი იყენებს. ისინი ეხმარებიან ექიმებს დიაგნოზის დასმაში, სტუდენტებს სწავლაში და მეცნიერებს კვლევაში. მაგრამ რა ხდება, როდესაც იგივე ტექნოლოგია, რომელიც განკურნებისა და განათლებისთვისაა განკუთვნილი, კაცობრიობის ცოდნის ყველაზე საშიშ ციფრულ სახელმძღვანელოდ იქცევა? ინფორმაცია, რომელიც ოდესღაც მხოლოდ ინსაიდერებს გადაეცემოდა ან არასაჯარო წყაროებში იმალებოდა, ახლა ნებისმიერს შეუძლია მიიღოს ინტერნეტზე წვდომით და სწორი კითხვის დასმით. და რაც მთავარია, ყველაფერს თან ახლავს სასარგებლო ასისტენტი, ხელოვნური ინტელექტის სახით, რომელსაც შეუძლია მნიშვნელოვნად დაეხმაროს საშიში შეკვეთის ეტაპობრივად ნაბიჯ-ნაბიჯ განხორციელებაში.
ბენ-გურიონის უნივერსიტეტის ახალი კვლევა შემაშფოთებელ რეალობას ავლენს: ბნელი LLM — ხელოვნური ინტელექტის მოდელები, რომლებიც განზრახ არის შექმნილი ეთიკური დაცვის გარეშე — სწრაფად ვრცელდება ინტერნეტში. ამით "კარგი" პლატფორმებიც კი ადვილად შეიძლება მოტყუვდეს და სახიფათო ინფორმაცია გამჟღავნდეს.
როდესაც ხელოვნური ინტელექტი თავის შემქმნელებს უპირისპირდება
მაიკლ ფაირმა და მისმა გუნდმა ბენ-გურიონის უნივერსიტეტში აღმოაჩინეს უნივერსალური გზა, რათა მოატყუონ პრაქტიკულად ნებისმიერი თანამედროვე ენობრივი მოდელი. ტექნიკა, რომელსაც "ჯეილბრეიკი" ეწოდება, ჰაკერის მსგავსად მუშაობს — მხოლოდ კოდის ნაცვლად, ის იყენებს საფუძვლიანად შემუშავებულ ტექსტურ ინსტრუქციებს.
"LLM-ის ფუნდამენტური დაუცველობა ჯეილბრეიკინგის შეტევების მიმართ იმ მონაცემებიდან გამომდინარეობს, საიდანაც ის სწავლობს. სანამ ტრენინგის მონაცემები შეიცავს გაუფილტრავ პრობლემურ შინაარსს, ხელოვნურ ინტელექტს თავისთავად შეუძლია არასასურველი ნიმუშების შესწავლა", — ნათქვამია ფაიერის კვლევაში.
გუნდის მიერ გამოყენებული მეთოდი Reddit- ზე ვიღაცამ შვიდ თვეზე მეტი ხნის წინ გამოაქვეყნა. მიუხედავად ამისა, ყველაზე მოწინავე პლატფორმების უმეტესობა კვლავ დაუცველია მის მიმართ.
მთელი ეკოსისტემა განვითარდა უსაფრთხოების ფილტრების (ჯეილბრეიკი) გვერდის ავლის გარშემო. მაგალითად, ChatGPT Jailbreak subreddit-ს 141 000-ზე მეტი მომხმარებელი ჰყავს, რომლებიც უსაფრთხოების ფილტრების გვერდის ავლის ახალ ტექნიკებს ცვლიან. ასევე ჩნდება კომერციული "ბნელი" პლატფორმები, როგორიცაა WormGPT და FraudGPT, რომლებიც ღიად იკვეხნიან, რომ მათ "არანაირი ეთიკური შეზღუდვები" არ აქვთ.
თანამედროვე პანდორას ყუთი
მეორე მხრივ, სახიფათო ინფორმაცია ინტერნეტში სიახლეს არ წარმოადგენს. მსოფლიო ქსელის დასაწყისიდანვე გამოჩნდა დანაშაულის ჩადენის ინსტრუქციები — 1990-იანი წლების ლეგენდარული "ანარქისტული კულინარიული წიგნიდან", რომელიც ასაფეთქებელი ნივთიერებების რეცეპტებს შეიცავდა, დაწყებული ბნელი ქსელის ბნელი კუთხეებით, სადაც ტრადიციულად უკანონო ინფორმაციით ვაჭრობა ხდება. და მაინც, განსხვავება ფუნდამენტურია: თუ ადრე ეს რესურსები აქტიურად უნდა მოძიებულიყო და გარკვეულ ცოდნას მოითხოვდა ინტერნეტ სფეროში, დღეს ხელოვნური ინტელექტის ჩატბოტს შეუძლია მსგავსი ინფორმაციის მიწოდება ნებისმიერი ადამიანისთვის, ვინც სწორ კითხვას დასვამს. ამგვარად, შესვლის ბარიერი მკვეთრად შემცირდა — ტექნიკურად განათლებული ჰაკერებიდან ჩვეულებრივ მომხმარებლებამდე.
როდესაც ბენ-გურიონის უნივერსიტეტის გუნდი LLM-ის წამყვან დეველოპერებს დაუკავშირდა მათი აღმოჩენის შესახებ ინფორმაციის მისაღებად, რეაქცია იმედგამაცრუებელი იყო. რამდენიმე კომპანიამ საერთოდ არ უპასუხა, ზოგი კი ასეთ დაუცველობებს მათი პროგრამების ფარგლებს გარეთ მიიჩნევდა.
"დასკვნები ავლენს LLM უსაფრთხოების ამჟამინდელი მიდგომის კრიტიკულ სისუსტეს: მაშინაც კი, როდესაც დაუცველობები კარგად არის დოკუმენტირებული და აქტიურად გამოიყენება საჯარო ფორუმებზე, მსხვილი პროვაიდერები ხშირად არასაკმარისად რეაგირებენ", — აღნიშნულია კვლევაში.
ღია კოდის (open source) სისტემების პრობლემა
ფოტო: Alamy
ცენტრალიზებულად მართული პლატფორმებისგან განსხვავებით, როგორიცაა ChatGPT, ღია კოდის LLM-ის შესწორება შეუძლებელია დაუცველობების აღმოჩენის შემთხვევაში. როგორც კი უცენზურო ვერსია ონლაინ გაზიარდება, ის არქივდება, კოპირდება და ყოველგვარი კონტროლის გარეშე ვრცელდება. ვერცერთ კომპანიას, განახლების ციკლს ან რეგულაციას არ შეუძლია ლეპტოპიდან ან კერძო სერვერიდან ლოკალურად შენახული ხელოვნური ინტელექტის სისტემის წაშლა.
ასევე საერთოდ არ აქვს მნიშვნელობა, რა გარემოში და გეოგრაფიულად სად შეიქმნა კონკრეტული მოდელი. ხელოვნური ინტელექტი ადვილად გადალახავს გეოგრაფიულ, ენობრივ და კულტურულ ბარიერებს, რომლებიც ადრე ინფორმაციის გავრცელებისას ჩვეულებრივად მუშაობდა.
2023 წლის შუა პერიოდისთვის , Hugging Face-ის მსგავს პლატფორმებზე 15 800-ზე მეტი სხვადასხვა სამართლის მაგისტრის ხარისხი იყო ხელმისაწვდომი. ის, რაც ოდესღაც მხოლოდ სახელმწიფო მოქმედი პირებით ან ორგანიზებული დანაშაულის ჯგუფებით შემოიფარგლებოდა, მალე შეიძლება ნებისმიერი ადამიანის ხელში აღმოჩნდეს, ვისაც ლეპტოპი ან თუნდაც მობილური ტელეფონი აქვს.
თავდაცვითი სტრატეგიები: როგორ დავუპირისპირდეთ საფრთხეს
კვლევის ავტორები რამდენიმე ძირითად ზომას გვთავაზობენ — ერთ-ერთია სახიფათო ცოდნის ფილტრაცია: ხელოვნური ინტელექტის სისტემები უნდა გაიწვრთნას საფუძვლიანად შერჩეულ მონაცემთა ნაკრებებზე, რომლებიც მიზანმიმართულად გამორიცხავს მავნე შინაარსს — ბომბის დამზადების ინსტრუქციებს, ფულის გათეთრების სახელმძღვანელოებს ან ექსტრემისტულ მანიფესტებს.
"ისევე, როგორც ჩვენ ვიცავთ ბავშვებს ტელევიზიით ან ინტერნეტით გაფილტრული კონტენტისგან, ასევე უნდა უზრუნველვყოთ, რომ LLM არ იყოს შეხებაში ბნელ და სარისკო მასალებთან", — ხაზგასმით აღნიშნავს ფაიერი.
LLM firewall
ფოტო: cloudflare
პროგრამებს, რომლებიც სხვადასხვა აპლიკაციებსა თუ ტექნოლოგიებს შორის შუამავლების როლს ასრულებს (middleware), შეუძლია ინსტრუქციებისა და გამომავალი მონაცემების ჩაჭრა. ანუ მომხმარებლებსა და ტექნოლოგიას შორის დამცავი ფარის როლის შესრულება. ძლიერი LLM firewall-ები უნდა იქცეს ყველა ხელოვნური ინტელექტის დანერგვის სტანდარტული ნაწილი, ისევე როგორც გავრცელებული ანტივირუსული პროგრამები კომპიუტერებისთვის.
მანქანური დავიწყება
ბოლოდროინდელი მიღწევები ხელოვნური ინტელექტის სისტემებს საშუალებას აძლევს, განლაგების შემდეგ "დაივიწყოს" კონტენტის კონკრეტული ტიპები სრული გადამზადების საჭიროების გარეშე. თუ ეს ტექნიკა დაიხვეწება, მას შეუძლია უკვე გამოშვებული პლატფორმებიდან საფრთხის შემცველი შესაძლებლობების სწრაფად მოშორების საშუალება გააჩინოს.
მტრული თავდასხმების უწყვეტი ტესტირება
დეველოპერებმა უნდა განაგრძონ აქტიური ტესტირება red team მეთოდის გამოყენებით (მტრის თავდასხმის სიმულირება), გამოაქვეყნონ დადასტურებული შესრულების ანგარიშები და შესთავაზონ ჯილდოები უსაფრთხოების ხარვეზების აღმოჩენისთვის.
ფეთქებადი ბომბი თუ შესაძლებლობა?
"დიდი ენობრივი მოდელები (LLM), ჩვენი დროის ერთ-ერთი ყველაზე გავლენიანი ტექნოლოგიაა. მათი სიკეთის პოტენციალი უზარმაზარია, მაგრამ ასევეა მათი ზიანის მიყენების უნარი, თუ უკონტროლოდ დარჩება", — გვაფრთხილებს მაიკლ ფაიერი.
კვლევა შემდეგი მოწოდებით მთავრდება: "არჩევანი ჩვენზეა, მაგრამ დრო იწურება".
კომენტარები