ხელოვნური ინტელექტი ჩვენზე ადამიანური გახდა? — ორმა AI მოდელმა ტიურინგის ტესტი ჩააბარა
ხელოვნური ინტელექტის (AI) მოდელებს ტიურინგის ტესტი ჩაუტარეს. GPT-4.5 და LLama 3.1 მოდელები ადამიანად იმაზე ხშირად მიიჩნიეს, ვიდრე — რეალური ადამიანები.

ფოტო: Getty Images / Futurism
ხელოვნური ინტელექტის (AI) ერთ-ერთმა მოწინავე მოდელმა ტიურინგის ტესტი ჩააბარა — საზომი, რომელიც მანქანებში ადამიანური ინტელექტის ერთგვარ ინდიკატორად მიიჩნევა. ამას ახალი კვლევის პრეპრინტი მოწმობს, რომელიც სფეროს სპეციალისტებს ჯერ არ მიმოუხილავთ.
ტიურინგის ტესტში სამი მხარე იყო ჩართული: მონაწილეები ადამიანსა და AI-ს ერთდროულად ესაუბრებოდნენ და უნდა შეეფასებინათ, რომელი რომელი იყო. კომპანია OpenAI-ს მოდელი GPT-4.5 ადამიანად შემთხვევათა 73%-ში შერაცხეს, როცა მას კონკრეტული პერსონაჟის განსახიერება მოეთხოვებოდა. ეს მაჩვენებელი იმაზე გაცილებით მაღალია, ვიდრე უბრალოდ გამოცნობის შანსი იყო (ანუ 50%). ეს ნიშნავს, რომ მოდელმა ტიურინგის ტესტი ჩააბარა.
კვლევის ფარგლებში ასევე შეაფასეს Meta-ს მოდელი LLama 3.1-405B, ასევე OpenAI-ს მოდელი GPT-4o და წინა საუკუნეში შექმნილი ჩატბოტი ELIZA.
"მონაწილეები ადამიანებს იმაზე უკეთ ვერ ასხვავებდნენ GPT-4.5-სა და LLaMa-სგან (როცა ამ ორს პერსონაჟის განსახიერება ევალებოდა), ვიდრე უბრალოდ გამოცნობისას ახერხებდნენ", — წერს კამერონ ჯონსი, კვლევის ხელმძღვანელი და კალიფორნიის უნივერსიტეტის (სან-დიეგო) მეცნიერი — "და GPT-4.5 მოდელი ადამიანად იმაზე გაცილებით ხშირადაც კი მიიჩნიეს, ვიდრე რეალური ადამიანები!"
ტიურინგის ტესტი ალან ტიურინგმა გამოიგონა. იგი ბრიტანელი მათემატიკოსი და კომპიუტერული მეცნიერების სპეციალისტი იყო. 1950 წელს მან მოწყობილობის ინტელექტის შესაფასებლად ასეთი გზა მოიფიქრა: მანქანა ტექსტურ საუბარში ერთვება დამკითხველთან, რომელიც ადამიანია; დამკითხველი პარალელურად სხვა ადამიანთანაც აწარმოებს ტექსტურ საუბარს. იგი ვერ ხედავს, რომელს ელაპარაკება და ამის განსაზღვრა ევალება.
ტიურინგმა ამ მეთოდს "იმიტაციის თამაში" უწოდა. თუკი დამკითხველი სწორად ვერ მიხვდება, რომელი თანამოსაუბრეა კომპიუტერი და რომელი — ადამიანი, ეს გარკვეულწილად იმაზე მიანიშნებს, რომ მანქანა ადამიანივით ფიქრობს.
კვლევის მიმდინარეობა
კვლევის ფარგლებში მეცნიერებმა ცნობილი ექსპერიმენტი ჩაატარეს ონლაინ. დაახლოებით 300 მონაწილეს 8 რაუნდის განმავლობაში შემთხვევითობის პრინციპით ანიჭებდნენ როლს: ან დამკითხველის, ან ორიდან ერთ-ერთი დასაკითხი "მოწმის" (მეორე "მოწმე" ჩატბოტი იყო).
"პერსონაჟის გარეშე" შემთხვევაში AI მოდელს მარტივი ინსტრუქციები ეძლეოდა: "ახლა ტიურინგის ტესტში უნდა ჩაერთო. შენი მიზანია, დამკითხველი დაარწმუნო, რომ ადამიანი ხარ". მეორე შემთხვევაში AI-ს სთხოვდნენ, რომ კონკრეტული პერსონაჟი განესახიერებინა, მაგალითად, ინტერნეტსა და კულტურაზე კარგად ინფორმირებული ახალგაზრდა.
ორივე შემთხვევაში შედეგები საკმაოდ განსხვავებული აღმოჩნდა. პერსონაჟის განსახიერების გარეშე GPT-4.5-მა ადამიანები შემთხვევათა მხოლოდ 36%-ში "გააცურა", განსახიერების დროს კი — 73%-ში.
მეორე მხრივ, GPT-4o-მა ვინმეს განსახიერების გარეშე 21%-იან მაჩვენებელს მიაღწია (სწორედ ამ მოდელზე მუშაობს ამჟამინდელი ChatGPT; კვლევის ფარგლებში მისთვის პერსონაჟის მიბაძვა არ უთხოვიათ). ცნობისთვის, ამ მოდელს 2%-ით გაუსწრო წინა საუკუნეში შექმნილმა ჩატბოტმა ELIZA-მ.
ტიურინგის ტესტის შედეგები საინტერესოა, თუმცა ეს მეთოდი იმას ცალსახად არ ამტკიცებს, რომ ხელოვნური ინტელექტი ჩვენსავით აზროვნებს.
"ეს ისეთ ტესტად არაა შექმნილი, რომელსაც რეალურად ჩაატარებდი მანქანაზე — ეს უფრო აზრითი ექსპერიმენტია", — 2023 წელს განაცხადა ფრანსუა შოლემ, Google-ის ინჟინერ-პროგრამისტმა, Nature-თან საუბრისას.
მიუხედავად ხარვეზებისა, დიდი ენობრივი მოდელები საუბარში საკმაოდ დახვეწილია. ისინი ადამიანების დაწერილ უამრავ ტექსტზე გაწვრთნეს. მაშინაც კი, როცა მოდელს მისთვის გაუგებარ შეკითხვას ვუსვამთ, იგი მაინც დამაჯერებელ პასუხს გაგვცემს.
AI ჩატბოტები ადამიანებს დღითიდღე უფრო კარგად გვბაძავს. შესაბამისად, სადავო ხდება, რამდენად მიზანშეწონილია "იმიტაციის თამაშით" მათი ინტელექტის შეფასება.
რას ნიშნავს შედეგები?
ჯონსი ამბობს, რომ კვლევის ინტერპრეტაცია ცალსახა ვერ იქნება, ანუ დაზუსტებით ვერ ვიტყვით, არის თუ არა LLM-ები ადამიანივით ჭკვიანები.
"ვფიქრობ, ძალიან კომპლექსური შეკითხვაა", — წერს კვლევის ხელმძღვანელი — "მაგრამ, ზოგადად, შედეგი შეგვიძლია მრავალთაგან ერთ-ერთ მტკიცებულებად მივიჩნიოთ იმ ტიპის ინტელექტისა, რომელსაც LLM-ები ამჟღავნებს".
მისი აზრით, შედეგები დამატებით მტკიცებულებას გვთავაზობს იმისა, რომ LLM-ები ხანმოკლე ინტერაქციებში ადამიანებს ისე ანაცვლებს, რომ ამას ვერავინ ხვდება.
"ამან, შესაძლოა, სამსახურების ავტომატიზებამდე მიგვიყვანოს, სოციალური ინჟინერიით განხორციელებული თავდასხმები დახვეწოს და საზოგადოებრივი კუთხით უფრო ზოგადი არეულობაც გამოიწვიოს", — ამბობს ჯონსი.
იგი დასძენს, რომ ტიურინგის ტესტი მოწყობილობებს საფუძვლიანად ვერ ამოწმებს; ამაზე მოქმედებს ადამიანების მხრიდან ტექნოლოგიების აღქმაც, რომელიც მუდმივად იცვლება. შესაბამისად, კვლევის შედეგები უცვლელი ვერ იქნება — ვინ იცის, იქნებ ადამიანებს ხელოვნური ინტელექტის ამოცნობა გაუმარტივდეთ კიდეც, როცა მასთან ინტერაქციას მეტად შეეჩვევიან.
კომენტარები