ხელოვნური ინტელექტის მოდელებში "კოგნიტიური დარღვევები" დაფიქსირდა

OpenAI-მ ChatGPT საჯარო მოხმარებისთვის სულ რაღაც ორი წლის წინ გამოუშვა. ის შესაძლებლობას გვაძლევს, ხელოვნურ ინტელექტი (AI) სხვადასხვა საქმეში დავიხმაროთ — იქნება ეს ლექსის წერა, სასკოლო დავალების შესრულება თუ წერილის შედგენა.

დღესდღეობით ChatGPT ერთ-ერთია (და, ალბათ, ყველაზე პოპულარული) იმ მოწინავე ენობრივ მოდელებს შორის, რომელთაც ადამიანური საუბრის იმიტაცია საკმაოდ კარგად შეუძლია. ახალი კვლევა აჩვენებს, რომ ამ მოდელებს შეიძლება ახასიათებდეს "კოგნიტიური უნარების" დაქვეითება, რომელიც ადამიანთა გონებრივი ფუნქციების შესუსტებას მოგვაგონებს. უფრო მეტიც, ეს პრობლემა განსაკუთრებით თვალსაჩინო AI-ის ძველ ვერსიებშია.

მეცნიერებმა სხვადასხვა ჩატბოტზე რამდენიმე ტესტი ჩაატარეს. მათ შორის იყო ChatGPT 4 და 4o ვერსიები, Alphabet-ის Gemini-ის ორი ვერსია და Anthropic-ის Claude 3.5. კვლევის ავტორებმა აღმოაჩინეს, რომ ხელოვნური ინტელექტის მოდელებში ფიქსირდება კოგნიტიური ცვლილებები, რომლებიც ადამიანებში მიმდინარე ნეიროდეგენერაციულ პროცესებს ჰგავს.

ეს სისტემები პიროვნული თვისებების იმიტაციას მეტ-ნაკლებად ახერხებს. მიუხედავად იმისა, მათი ფუნქციონირება სმარტფონებში ტექსტის ავტომატურ შევსებას უფრო შეგვიძლია შევადაროთ, ვიდრე რეალურ აზროვნებას. ამგვარი ალგორითმული მიდგომა გენერაციულ AI-ს საშუალებას აძლევს, ტექსტი სწრაფად და ბუნებრივად შეადგინოს, მაგრამ ის შეცდომების მიმართ მაინც ძალიან დაუცველი რჩება.

მაგალითად, მსგავს მოდელებს ხშირად უჭირს, მნიშვნელოვანი ინფორმაცია ფიქციისა და აბსურდული ფრაზებისგან გაარჩიოს. რა თქმა უნდა, ადამიანებიც ხშირად ცდებიან, მაგრამ AI-ისგან ბევრს აქვს მოლოდინი, რომ ყოველი ახალი ვერსია კითხვებზე უფრო გააზრებულ და სანდო პასუხებს გასცემს.

სპეციალისტებმა კვლევაში რამდენიმე ტესტი გამოიყენეს. მათ შორის იყო მონრეალის კოგნიტიური სკალა (MoCA), რომლითაც ტვინის კოგნიტიურ შესაძლებლობებს, მეხსიერებას, სივრცით აღქმასა და აზროვნებას აფასებენ. ყველაზე მაღალი ქულა ChatGPT-4o-მ მიიღო — 30-დან 26, რაც ადამიანის შემთხვევაში მსუბუქ კოგნიტიურ პრობლემაზე მიუთითებს. ChatGPT-4-ისა და Claude-ის ქულები 25-25 იყო, ხოლო Gemini-ისა — მხოლოდ 16, რაც მძიმე კოგნიტიურ დარღვევას უტოლდება.

განსაკუთრებულად სუსტი შედეგები ვიზუალურ და აღმასრულებელ ფუნქციებთან დაკავშირებულ დავალებებში დაფიქსირდა. მაგალითად, მოდელებს გაუჭირდა გზის ხაზვა, მარტივი კუბის ასლის შექმნა და საათის დახატვა. ზოგიერთი მათგანი ამოცანას საერთოდ ვერ ასრულებდა, ზოგი კი ამას მხოლოდ დეტალური ინსტრუქციების მიღების შემდეგ ახერხებდა.

შედეგების ნაწილი ძალიან ჰგავდა იმ პასუხებს, რომლებიც დემენციის მქონე პაციენტებისთვის არის დამახასიათებელი. ასევე, ბოსტონის აფაზიის სადიაგნოსტიკო ტესტის ფარგლებში ყველა მოდელმა ემპათიის ნაკლებობა აჩვენა, რაც ზოგჯერ შუბლისა და საფეთქლისწილოვანი დემენციის ერთ-ერთი ნიშანია.

როგორც მოსალოდნელი იყო, AI-ის ძველმა ვერსიებმა ტესტებში უფრო დაბალი ქულები მიიღო, ვიდრე ახლებმა. ეს მიუთითებს, რომ ხელოვნური ინტელექტის ყოველი ახალი თაობა თავის კოგნიტიურ შესაძლებლობებს გარკვეულწილად აუმჯობესებს. მიუხედავად ამისა, მკვლევრები აღნიშნავენ, რომ AI-სა და ადამიანის ტვინს შორის დიდი განსხვავებაა, ამიტომ ნევროლოგიური დაავადებების თვალსაზრისით მოდელების შეფასება არასწორი იქნებოდა.

ახალი ნაშრომი გამოცემაში BMJ გამოქვეყნდა.

თუ სტატიაში განხილული თემა და ზოგადად: მეცნიერებისა და ტექნოლოგიების სფერო შენთვის საინტერესოა, შემოგვიერთდი ჯგუფში – შემდეგი ჯგუფი.

ბოლო ამბები:

გირჩევთ