როგორ ამოვიცნოთ ხელოვნური ინტელექტის მიერ შექმნილი ტექსტი? — მკვლევრები ახალ მეთოდებს ეძებენ
"გვჭირდება გზები, რომ განვასხვაოთ ადამიანისა და ხელოვნური ინტელექტის დაწერილი ტექსტი, რათა თავიდან ავიცილოთ ტექნოლოგიის ბოროტად გამოყენების შემთხვევები."
თქვენ ახლა კითხულობთ სტატიას, რომელიც, შესაძლოა, ხელოვნური ინტელექტის მიერ იყოს დაწერილი. ეს მტკიცება სასაცილოდ გეჩვენებათ? სინამდვილეში, ორჯერ დაფიქრება გმართებთ, ვიდრე რაიმე ტექსტზე გადაჭრით იტყოდეთ, ადამიანის მიერაა შემუშავებული თუ AI-ის. ინოვაციურმა ჩეთბოტმა, ChatGPT-მ, თითქმის, წაშალა ზღვარი ადამიანისა და AI-ის მიერ გენერირებული ტექსტების გასარჩევად. ადამიანები მას ლექსების, სცენარების, ხუმრობებისა და მეილების დასაწერად იყენებენ.
ასევე იხილეთ: რა არის ChatGPT, რომელზეც ყველა საუბრობს, და შეუძლია თუ არა მას Google-ის ჩანაცვლება?
ვისაც ეს უნიკალური ჩეთბოტი ერთხელ მაინც გამოგიყენებიათ, დამეთანხმებით, რომ მასთან ურთიერთობა ძალიან სახალისო და საინტერესოა, თუმცა, ისედაც პოლარიზებულ და პოლიტიკურად დატვირთულ ონლაინ სამყაროში, ხელოვნური ინტელექტის ამ ხელსაწყოებმა შეიძლება კიდევ უფრო დაამახინჯოს ინფორმაცია, რომელსაც ყოველდღიურად ვიღებთ. აქედან გამომდინარე, შედეგები შეიძლება სავალალო აღმოჩნდეს.
"ამდენად, გვჭირდება გზები, რომ განვასხვაოთ ადამიანისა და ხელოვნური ინტელექტის დაწერილი ტექსტი, რათა თავიდან ავიცილოთ ტექნოლოგიის ბოროტად გამოყენების შემთხვევები", — აღნიშნა აირინე სოლეიმანმა, AI-ის სტარტაპ Hugging Face-ის პოლიტიკის დირექტორმა, რომელიც ადრე იყო AI-ის მკვლევარი OpenAI-ში და სწავლობდა AI-ის გენერირებული პროდუქტების გამოააშკარავებას GPT-3-ის წინამორბედი GPT-2-ის გამოშვებისთვის.
Stack Overflow-მ, ვებსაიტმა, რომელზეც დეველოპერებს დახმარების თხოვნა შეუძლიათ, განაცხადა, რომ ახალი ხელსაწყოები ასევე გადამწყვეტი იქნება ხელოვნური ინტელექტის მიერ გენერირებული ტექსტისა და კოდის აკრძალვისთვის. ChatGPT-ს შეუძლია, დამაჯერებლად გვიპასუხოს პროგრამულ პრობლემებზე, მაგრამ იგი უშეცდომო არ არის. კოდის არასწორად მიღებამ შეიძლება გამოიწვიოს ხარვეზები და გააფუჭოს პროგრამული უზრუნველყოფა, რომლის გამოსწორებაც ძვირი და რთული იქნება.
Stack Overflow-ის სპიკერი ამბობს, რომ კომპანიის მოდერატორები "იკვლევენ საზოგადოების წევრების ათასობით წარდგენილ ანგარიშს რამდენიმე ხელსაწყოს მეშვეობით, მათ შორის, ევრისტიკისა და დეტექტირების მოდელების საშუალებით". თუმცა, უფრო ღრმა დეტალებზე, ჯერჯერობით, არ უსაუბრიათ. რეალურად, ეს ძალიან რთული პროცესია და აღსრულება, სავარაუდოდ, თითქმის, შეუძლებელია.
ამოცნობის დღევანდელი საშუალებები
მკვლევრებმა სცადეს უამრავი გზა AI-ით გენერირებული ტექსტის გამოააშკარავებისთვის. ერთ-ერთი გავრცელებული მეთოდია პროგრამული უზრუნველყოფის გამოყენება ტექსტის სხვადასხვა მახასიათებლის გასაანალიზებლად, მაგალითად: რამდენად თავისუფლად იკითხება ის, რამდენად ხშირად გვხვდება გარკვეული სიტყვები ან პუნქტუაციისა თუ წინადადების სიგრძის კონკრეტული შაბლონები.
"თუ საკმარისი ტექსტი გაქვთ ხელთ, ძალიან მარტივი მინიშნება ის არის, რომ სიტყვა 'the' ძალიან ბევრჯერ გვხვდება", — ამბობს დაფნე იპოლიტო, Google Brain-ის უფროსი მკვლევარი, კომპანიის ღრმა დასწავლის კვლევითი განყოფილებიდან.
იმის გამო, რომ დიდი ენობრივი მოდელები მუშაობს წინადადებაში შემდეგი სიტყვის პროგნოზირებით, ისინი უფრო მეტად იყენებს ჩვეულებრივ სიტყვებს, როგორებიცაა "the", "it" ან "is" — იშვიათი სიტყვების ნაცვლად. იპოლიტომ და Google-ის მკვლევართა ჯგუფმა 2019 წელს გამოქვეყნებულ კვლევაში იპოვეს ზუსტად ასეთი ტექსტი, რომელსაც ავტომატური დეტექციის სისტემები კარგად არჩევს.
მაგრამ იპოლიტოს კვლევამ ასევე აჩვენა რაღაც საინტერესო, კერძოდ, ის, რომ, მონაწილეების თქმით, ასეთი "სუფთა" ტექსტი უკეთესად გამოიყურებოდა, შეიცავდა ნაკლებ შეცდომას და, შესაბამისად, იგი ადამიანის მიერ უნდა ყოფილიყო დაწერილი.
სინამდვილეში, ადამიანის მიერ დაწერილი ტექსტი სავსეა ბეჭდური შეცდომებით და წარმოუდგენლად ცვალებადია, მოიცავს რა სხვადასხვა სტილსა და ჟარგონს, ხოლო "ენობრივი მოდელები ძალიან, ძალიან იშვიათად უშვებს ბეჭდურ შეცდომებს. ისინი ბევრად უკეთ ქმნის სრულყოფილ ტექსტებს. ტექსტში ბეჭდური შეცდომის აღმოჩენა, რეალურად, კარგი ინდიკატორია იმის საჩვენებლად, რომ იგი ადამიანის მიერაა დაწერილი", — ამბობს იპოლიტო.
მუჰამედ აბდულ-მაგიდის თქმით, რომელიც არის კანადის კვლევითი კათედრის წარმომადგენელი ბუნებრივი ენების დამუშავებისა და მანქანური სწავლების საკითხებში ბრიტანეთის კოლუმბიის უნივერსიტეტში, თავად დიდი ენობრივი მოდელები ასევე შეიძლება გამოვიყენოთ ხელოვნური ინტელექტის მიერ გენერირებული ტექსტის გამოსავლენად. ამის გაკეთების ერთ-ერთი ყველაზე წარმატებული გზაა მოდელის გადამზადება ადამიანებისა და ჩეთბოტების მიერ დაწერილ ტექსტებზე, რათა მან ამ ორის ერთმანეთისგან გარჩევა ისწავლოს.
სკოტ აარონსონი, კომპიუტერული მეცნიერი ტეხასის უნივერსიტეტიდან, რომელიც მივლინებული იყო OpenAI-ში მკვლევრად ერთი წლის განმავლობაში, ავითარებს ჭვირნიშნებს GPT-3-ის მსგავსი მოდელების მიერ გენერირებული ტექსტის ვრცელი მონაკვეთებისთვის. მაგრამ ამ ტექნიკური შესწორებების უმეტესობას არ აქვს შანსი უახლესი თაობის ხელოვნური ინტელექტის ენობრივი მოდელების წინააღმდეგ, რადგან ისინი აგებულია GPT-2 ან სხვა უფრო ადრეულ მოდელებზე.
ასევე იხილეთ: ჩეთბოტებთან საუბრისას ფრთხილად უნდა ვიყოთ — რატომ
დეტექციის ამ ხელსაწყოებიდან ბევრი მუშაობს კარგად, როცა მოცულობითი ტექსტია ხელმისაწვდომი, თუმცა, ისინი ნაკლებად ეფექტურია ზოგიერთ კონკრეტულ შემთხვევაში, როგორებიცაა: ჩეთბოტები ან ელ-ფოსტის ასისტენტები, რომლებიც ეყრდნობა მოკლე საუბრებს და იძლევა ნაკლებ მონაცემებს ანალიზისთვის. ამასთანავე, აბდულ მაგიდის მიხედვით, დიდი ენობრივი მოდელების დეტექციის ხელსაწყოებად გამოყენება ასევე მოითხოვს მძლავრ კომპიუტერებსა და წვდომას თვით ხელოვნური ინტელექტის მოდელზე, რის უფლებასაც, ტექნოლოგიური კომპანიები არ იძლევიან.
სოლეიმანის თქმით, რაც უფრო დიდი და მძლავრია მოდელი, მით უფრო რთულია ისეთი AI-ის მოდელების შექმნა, რომლებიც დაადგენს, ტექსტი ადამიანის გენერირებულია თუ ხელოვნური ინტელექტის.
"ყველაზე შემაშფოთებელი ახლა ისაა, რომ ChatGPT-ს, მართლაც, შთამბეჭდავი შედეგები აქვს. დეტექციის მოდელები მას, უბრალოდ, ვერ ეწევა. და მთელი ეს დრო დაჭერობანას ვთამაშობთ", — აღნიშნა მან.
ადამიანის თვალის გაწვრთნა
სოლეიმანის მტკიცებით, არ არსებობს "ჯადოსნური ჯოხი", რომელიც ხელოვნური ინტელექტის გენერირებულ ტექსტებს გამოააშკარავებს. მისი თქმით, პრობლემის გადაჭრის შანსი რომ გვქონდეს, დაგვჭირდება გაუმჯობესებული ტექნიკური შესწორებები და მეტი გამჭვირვალობა, როდესაც ადამიანები ურთიერთობენ AI-სთან. ამას გარდა, ადამიანებმა უნდა ისწავლონ AI-ით დაწერილი წინადადებების მინიშნებების ამოცნობა.
"ძალიან კარგი იქნებოდა, Chrome-ზე ან ნებისმიერ სხვა ვებბრაუზერზე გვქონდეს დანამატი, რომელიც გვეტყოდა, ვებგვერდზე რაიმე ტექსტი ხელოვნური ინტელექტის მიერ თუ არის გენერირებული", — დასძინა იპოლიტომ.
თუმცა, რაღაც საშუალებები უკვე არსებობს, კერძოდ, ჰარვარდისა და IBM-ის მკვლევრებმა განავითარეს Giant Language Model Test Room (GLTR) (გიგანტური ენობრივი მოდელების სატესტო ოთახი), რომელიც ხაზს უსვამს ხელოვნური ინტელექტის მიერ გენერირებულ პასაჟებს.
მაგრამ ხელოვნური ინტელექტი უკვე გვატყუებს. კორნელის უნივერსიტეტის მკვლევრებმა დაადგინეს, რომ ადამიანებმა GPT-2-ის მიერ გენერირებული ყალბი ამბების სტატიები სარწმუნოდ მიიჩნიეს შემთხვევების, დაახლოებით, 66%-ში.
ასევე იხილეთ: ფრანკენშტაინი AI: მატყუარა ხელოვნური ინტელექტი და ეთიკური დილემები
კიდევ ერთმა კვლევამ აჩვენა, რომ ადამიანებს, რომლებსაც სპეციალური წვრთნა არ გაუვლიათ, შეეძლოთ GPT-3-ის მიერ გენერირებული ტექსტის სწორად ამოცნობა მხოლოდ შემთხვევითი შანსის შესაბამის დონეზე.
სასიხარულო ამბავი ისაა, რომ ადამიანებს შეუძლიათ, ივარჯიშონ AI-ის მიერ გენერირებული ტექსტების ამოცნობაში. იპოლიტომ შექმნა თამაში იმის შესამოწმებლად, თუ რამდენი წინადადების გენერირება შეუძლია კომპიუტერს, სანამ მოთამაშე მიხვდება, რომ იგი ადამიანი არ არის. მან აღმოაჩინა, რომ, დროთა განმავლობაში, ადამიანები თანდათან უმჯობესდებიან AI-ის მიერ გენერირებული ტექსტების ამოცნობაში.
GPT-3, ChatGPT-ის წინამორბედი, მხოლოდ 2020 წლიდან არსებობს. OpenAI-ის თქმით, ChatGPT არის საცდელი ვერსია, მაგრამ მხოლოდ დროის საკითხია, სანამ მსგავსი მძლავრი მოდელები — მომხმარებელთა მომსახურების ან ჯანდაცვასთან დაკავშირებული ჩეთბოტები — შემუშავდება და გაეშვება. პრობლემის არსიც სწორედ ეს არის: ამ სექტორში განვითარების სიჩქარე ნიშნავს, რომ ხელოვნური ინტელექტის მიერ გენერირებული ტექსტის ამოცნობის ყველა გზა ძალიან სწრაფად მოძველდება. ეს არის რბოლა, რომელშიც, ჯერჯერობით, ვმარცხდებით.
კომენტარები