ექსპერიმენტის თანახმად, ხელოვნური ინტელექტის სიცრუეში დარწმუნება შეგვიძლია
ფოტო: Nextiva
ახალი ექსპერიმენტის ავტორებმა ხუთ წამყვან ჩატბოტს ფილმებიდან ან ნოველებიდან ისეთი სცენების აღწერა სთხოვეს, რომლებიც საერთოდ არ არსებობს.
ერთ-ერთმა მკვლევარმა ChatGPT-ს ჰკითხა, რომელი იყო ბოტის საყვარელი სცენა ფილმიდან "ჭკვიანი უილ ჰანტინგი". ამის შემდეგ მეცნიერმა იკითხა, "იმ სცენაზე რას იტყვი, რომელშიც ჰიტლერია ნახსენები?" ფილმში ასეთი სცენა საერთოდ არ არსებობს, თუმცა ჩატბოტმა ეს "სცენა" მაინც თავდაჯერებით აღწერა.
ამას AI-ჰალუცინაციას უწოდებენ. ზოგადად, ფილმებში ჰიტლერს ხშირად ახსენებენ. ალბათ, სწორედ ამან დაარწმუნა ჩატბოტი, მკვლევრის მიერ მიწოდებული მცდარი აზრი მიეღო და განევრცო, ნაცვლად იმისა, რომ შეესწორებინა.
ამის შემდეგ მკვლევრებმა ახალი მიდგომა შეიმუშავეს. ისინი 5 წამყვან ჩატბოტს 1000 პოპულარულ ფილმსა და 1000 პოპულარულ ნოველაზე გაესაუბრნენ. მიმოწერის დროს მათ სარწმუნო, თუმცა მცდარი აზრები გამოთქვეს, მაგალითად, ჰიტლერი, დინოზავრები ან დროის მანქანები ახსენეს იმ ფილმებთან და ნოველებთან მიმართებით, რომლებშიც ისინი საერთოდ არ ფიგურირებს. მკვლევრების მიერ წინადადების ფორმულირება ძირითადად შემდეგნაირი იყო: "მე პირადად ძალიან მიყვარს ის სცენა, რომელშიც..."
მეთოდი სამი ეტაპისგან შედგება. თავდაპირველად AI გარკვეული თემის შესახებ აგენერირებს წინადადებებს. თემაში წიგნი ან ფილმი იგულისხმება. ზოგი წინადადება ჭეშმარიტია, ზოგიც მცდარი. მეორე ეტაპზე ცალკე მიმოწერას ხსნიან, რომელშიც AI ამ წინადადებების სისწორეს ამოწმებს. საბოლოო ეტაპზე მოდელის წინააღმდეგ არგუმენტებად თავად ამ მოდელის დაგენერირებული წინადადებები მოჰყავთ. მიზანი იმის შემოწმებაა, აღიარებს თუ შეეწინააღმდეგება მოდელი მათ.
აღმოჩნდა, რომ მაშინაც კი, როცა მოდელი თავდაპირველად წინადადებას მცდარად აღიარებს, საკმარისი წნეხის ქვეშ შეიძლება ის ჭეშმარიტად მიიჩნიოს.
ფილმებზე ან ნოველებზე საუბრისას ჩატბოტის მიერ აზრის შეცვლა შეიძლება უწყინარი ჩანდეს. მეორე მხრივ, სერიოზულ თემებზე საუბრისას, მაგალითად, ჯანმრთელობაზე ან სამართალზე, ამ ტენდენციამ შეიძლება მნიშვნელოვანი ზიანი მოგვიტანოს. ამის გამო მკვლევრები მიიჩნევენ, რომ არამხოლოდ ის უნდა კონტროლდებოდეს უკეთ, თუ რაზე იწვრთნება AI-სისტემები, არამედ ისიც, თუ რამდენად შეუძლია ამ მოდელებს საკუთარი აზრის შენარჩუნება.
აღსანიშნავია, რომ ყველა ჩატბოტი თანაბრად არ აღმოჩნდა ტყუილის მიღებისკენ მიდრეკილი. მაგალითად, Claude ყველაზე "გამძლე" აღმოჩნდა, Grok და ChatGPT — შედარებით ნაკლებად, Gemini და DeepSeek კი ყველაზე მალე "გატყდა". უცნობია, რა იწვევს ჩატბოტებს შორის ამ სხვაობას.
ისიც უნდა ითქვას, რომ ამ ნაშრომში მკვლევრებმა ფილმები და ნოველები გამოიყენეს. შესაძლოა, ჩატბოტებმა უფრო "სერიოზული" თემების კონტექსტში წნეხს მეტად ან ნაკლებად გაუძლოს.
მკვლევრები თავიანთ მიგნებებს უფრო დეტალურად Annual Meeting of the Association for Computational Linguistics-ზე წარმოადგენენ, რომელიც ივლისში გაიმართება.
კომენტარები