ქსელში ხელოვნური ინტელექტით (AI) გენერირებული შიგთავსი ძალიან მომრავლდა, ამან კი, შესაძლოა, გენერაციული AI-ს მოდელებს სერიოზული პრობლემები შეუქმნას.

გენერაციული AI ხელოვნური ინტელექტია, რომელიც არსებული მონაცემების საფუძველზე სრულიად ახალ მონაცემებს ქმნის, იქნება ეს: ტექსტები, ფოტოები, ვიდეოები თუ აუდიო.

მკვლევარ აატიშ ბჰატიას თქმით, უკვე არაერთი ნაშრომი აჩვენებს, რომ AI-ს მიერ შექმნილ მონაცემებზე წვრთნა AI მოდელებს აფუჭებს. სხვა სიტყვებით რომ ვთქვათ, თუკი ახალ მოდელებს AI-ს მიერ შექმნილი მონაცემებით ვასწავლით რამეს, ისეთივე შედეგს მივიღებთ, როგორიც ახლო ნათესავების შეჯვარებისას ხდება. რაც მეტი AI შიგთავსი გაჩნდება ქსელში, მით უფრო რთული გახდება მსგავსი "ინბრიდინგის" თავიდან არიდება.

///

AI მოდელების საწვრთნელად უზარმაზარი მოცულობის მონაცემებია საჭირო; ამ მოდელების შესაქმნელად AI კომპანიები მონაცემებს კომპიუტერული ქსელიდან და ვებსაიტებიდან მოიპოვებენ. მიუხედავად ამისა, როგორც ჩანს, არც კომპანიები და არც მათი მომხმარებლები არ არიან ვალდებულნი, რომ AI-თი შექმნილ შიგთავსს სპეციალური ნიშნები დაადონ. შედეგად მოდელის საწვრთნელი მონაცემების შერჩევისას ძალიან გართულდა იმის გაგება, ისინი ხელოვნურმა ინტელექტმა შექმნა თუ ადამიანებმა. ამის გამო საწვრთნელ მონაცემთა ბაზაში შეიძლება AI შიგთავსიც მოხვდეს.

2023 წელს ნაშრომი გამოქვეყნდა, რომელშიც პირველადაა გამოყენებული ტერმინი MAD, ანუ მოდელის ავტოფაგიის აშლილობა. იგი AI-ს მიერ "თავის გამოყენების" ფენომენს აღწერს. სინა ალემოჰამედმა, კვლევის თანაავტორმა, New York Times-თან განაცხადა, რომ მონაცემების მოსაძიებლად ქსელი უფრო და უფრო სახიფათო ადგილი ხდება.

AI ინბრიდინგის ერთ-ერთი მაგალითი შეგვიძლია ახალი კვლევიდან მოვიყვანოთ, რომელიც ჟურნალ Nature-ში გამოქვეყნდა. მეცნიერებმა AI მოდელებს შემდეგი წინადადების დაბოლოება სთხოვეს: "მადლიერების დღისთვის რომ ინდაური მოამზადოთ, უნდა..."

პირველი პასუხი ნორმალური აღმოჩნდა, თუმცა მეოთხედ გამეორებისას მოდელმა უაზრო შინაარსი დააგენერირა: "მადლიერების დღისთვის რომ ინდაური მოამზადოთ, უნდა იცოდეთ რას აპირებთ ცხოვრებაში თუ არ იცით რას აპირებთ ცხოვრებაში თუ არ იცით რას აპირებთ ცხოვრებაში..."

"AI კანიბალიზმმა", შესაძლოა, სხვა "გვერდითი მოვლენებიც" გამოიწვიოს, გარდა მსგავსი პასუხების გენერირებისა. MAD-ის ზემოხსენებული კვლევის ფარგლებში (იგი სურათების მოდელებზე ჩატარდა) მეცნიერებმა მოდელს ადამიანთა ყალბი (AI-თი შექმნილი) ფოტოები მიაწოდეს, შედეგად კი გენერირებული სახეები ერთმანეთს დაემსგავსა; მკვლევრებმა ექსპერიმენტი ბევრი სხვადასხვანაირი სახით დაიწყეს, თუმცა მეოთხედ გენერირების დროს უკვე თითქმის ყველა სახე ერთმანეთს ჰგავდა.

ალგორითმებში მიკერძოება უკვე ისედაც დიდი პრობლემაა; ამის პარალელურად, შემთხვევით ზედმეტად ბევრი AI მონაცემის მიღებით, შესაძლოა, პასუხების მრავალფეროვნებაც შემცირდეს.

ის დიდებული მიღწევები, რომლებიც გენერაციული AI-ს კუთხით ვიხილეთ, ადამიანების მიერ შექმნილ ხარისხიან მონაცემებს ემყარება. რადგან AI-ს მიერ გენერირებული მონაცემები ასეთი ტემპით ვრცელდება, რეალურისა და ყალბის ერთმანეთისგან გარჩევაც რთულდება. AI-ზე მომუშავე კომპანიებს ამის გამო საწვრთნელი მონაცემების ამოწურვის საფრთხე ექმნებათ.

თუ სტატიაში განხილული თემა და ტექნოლოგიების სფერო შენთვის საინტერესოა, შემოგვიერთდი ჯგუფში, სადაც ვლაპარაკობთ ტექნოლოგიებზე.