რატომ გვიყვება ყველა ჩატბოტი მუდმივად ერთსა და იმავე პერსონაჟზე — Elias Thorne-ზე?
ფოტო: cybermagician (Shutterstock)
ვინ არის საერთოდ ელაიას თორნი? პირველმა ეს სახელი პროგრამული უზრუნველყოფის ინჟინერმა, დანიელ მეიმ შეამჩნია. მან აღმოაჩინა, რომ სახელი ჩატბოტების მოთხრობებში რეგულარულად მეორდება, თუმცა ამის მიზეზი დიდხანს უცნობი იყო. Cornell-ის უნივერსიტეტის მკვლევართა ახალი პრეპრინტ კვლევის მიხედვით, რომელზეც 404 Media წერს, ეს მოვლენა, სავარაუდოდ, AI-მოდელების უსაფრთხოებისა და შესწორების ტრენინგის დროს შემოღებულ შეზღუდვებს უკავშირდება.
მკვლევრებმა, სილ ჰემილტონმა და დევიდ მიმნომ რამდენიმე AI-მოდელს, მათ შორის OpenAI-ის GPT-5.4 Mini-ს, Anthropic-ის Claude Haiku 4.5-სა და Google-ის Gemini 3.1 Flash-Lite-ს, მოთხრობების გენერირებისთვის ხუთი სხვადასხვა მოთხოვნა მისცეს. მათ დაახლოებით 20 000 მოთხრობა გააანალიზეს და საოცარი განმეორებითობა აღმოაჩინეს — მოთხრობების 88%-ში გვხვდებოდა 11 სიტყვა: შუქურა, მცველი, ხაბაზი, მერი, მესაათე, მეთევზე, ბიბლიოთეკარი, დირიჟორი და სახელები მარა, ელაიასი და ელარა.
ყველაზე ხშირი კომბინაცია კი "შუქურის მცველი ელაიასი" აღმოჩნდა, რომელიც გენერირებული მოთხრობების ორ მესამედში ფიგურირებდა. ეს დანიელ მეის დაკვირვებებსაც ეხმიანება, რომელმაც სხვადასხვა მოდელს მოთხრობების დაწერა სთხოვა და ყველგან ერთი და იგივე "შუქურის მცველი ელაიასი" გამოჩნდა.
რა არის ამის მიზეზი? მკვლევრები თავდაპირველად ვარაუდობდნენ, რომ ეს მოდელების წინასწარი ტრენინგის მონაცემებს უკავშირდება, მაგრამ ეს ვერსია სწრაფად გამოირიცხა, რადგან ტრენინგის მონაცემებსა თუ სასწავლო ლიტერატურაში "შუქურის მცველი ელაიასი" განსაკუთრებული სიხშირით არ გვხვდება.
სამაგიეროდ, მკვლევრები მიიჩნევენ, რომ პრობლემა AI-ლაბორატორიებში ფართოდ გავრცელებულ, კონკრეტული მონაცემთა ბაზების გამოყენებას უკავშირდება. მაგალითად, WildChat. ეს ღია კოდის მქონე მონაცემთა ბაზაა, რომელიც ადამიანებისა და GPT-3.5-ზე დაფუძნებული ჩატბოტის მილიონობით საუბარს მოიცავს. ბაზა თავდაპირველად იმის გასაგებად შეიქმნა, როგორ ურთიერთობენ ადამიანები ბოტებთან, მაგრამ შემდგომ მრავალი სხვადასხვა მოდელის ტრენინგისთვის გამოიყენეს. მკვლევრების თეორიით, შესწორების ტრენინგი, რომელიც საავტორო უფლებებით დაცული პერსონაჟებისა და სრულწლოვანთათვის განკუთვნილი კონტენტისგან გასაფილტრად არის შექმნილი, შეიძლება "უსაფრთხო" ალტერნატივებს, მაგალითად "შუქურის მცველ ელაიასს" შემთხვევით მეტ წონას ანიჭებდეს, რის გამოც ეს სახელი მოთხრობების გენერირების მოთხოვნებში განსაკუთრებით ხშირად ჩნდება.
მკვლევრებმა ერთ-ერთი მოდელის სატრენინგო მასალაც შეისწავლეს და აღმოაჩინეს, რომ ეს 11 სიტყვა დაახლოებით 4 მილიარდი დოკუმენტიდან მხოლოდ 3053 მოთხრობაში გვხვდება, ანუ სატრენინგო მასალის მემილიონედზე ნაკლებში. მიუხედავად ამისა, სწორედ ეს უმცირესი ნაწილი განსაზღვრავს, რა მოთხრობებს წერს მოდელი პრაქტიკაში.
შუქურის მცველი ელაიას თორნი საბავშვო ზღაპრისთვის შეიძლება სავსებით მისაღები პერსონაჟი იყოს, მაგრამ, როგორც 404 Media-მ დაადგინა, ეს სახელი სხვა კონტექსტებშიც ვრცელდება. გამოცემამ აღმოაჩინა რამდენიმე მაგალითი, სადაც ეს ფენტეზი წიგნების მთავარი პერსონაჟის სახელია, ასევე Amazon-ზე ხელმისაწვდომი ფონური მუსიკალური ტრეკების "შემსრულებლის" სახელიცაა. მეიმ კი ელაიას თორნი წიგნების ავტორადაც ნახა, მათ შორის, სახელმძღვანელოში, რომელიც კიბოს ალტერნატიული მკურნალობის მეთოდებზე ინფორმაციას გვთავაზობს. ეს უკვე შეიძლება არ იყოს კარგი ამბავი.
ამ ყველაფრის მიღმა კი ერთი მარტივი გაკვეთილია: AI შემოქმედებითი არ არის. გასულ წელს გამოქვეყნებულმა კვლევამ აჩვენა, რომ სურათების გენერირების მოდელები, რაც არ უნდა არაჩვეულებრივი მოთხოვნა მიიღონ, მხოლოდ 12 განმეორებადი მოტივიდან ერთ-ერთს იყენებენ. მოკლედ, შემოქმედებითი დავალება AI-სთვის ლიფტის მუსიკის ექვივალენტია — უსაფრთხო და ყველასთვის მისაღები.
კომენტარები