AI მოდელთა უმრავლესობა ადამიანების მიერ შექმნილ მონაცემებზე იწვრთნება. ზოგიერთი კომპანია ამისათვის უკვე ისეთი მონაცემების გამოყენებას იწყებს (ან არკვევს, როგორ დაიწყოს), რომლებიც თავად ხელოვნურმა ინტელექტმა დააგენერირა.

ამის წარმატებით განხორციელება ძალიან სასარგებლო შეიძლება აღმოჩნდეს. მეორე მხრივ, შესაძლოა, მთელი AI სისტემა ალგორითმთა დაუსრულებელ მარყუჟს დაემსგავსოს.

Financial Times-ის მოხსენებით, კომპანიები — მათ შორის OpenAI, Microsoft და სტარტაპი Cohere — უფრო და უფრო აქტიურად იკვლევენ ე.წ. სინთეზური მონაცემების საკითხს, რათა მათზე თავიანთი დიდი ენის მოდელები (LLM-ები) გაწვრთნან. ამის ერთ-ერთი მიზეზი მეტად მოსახერხებელი ფასია.

"ადამიანის მიერ შექმნილი მონაცემები ძალიან ძვირია", — Financial Times-ს განუცხადა Cohere-ის აღმასრულებელმა დირექტორმა ეიდენ გომესმა.

გარდა იმისა, რომ სინთეზური მონაცემები შედარებით იაფია, გასათვალისწინებელია მასშტაბის საკითხიც. დიდი ენის მოდელების (LLM-ები) საწვრთნელად ადამიანების შექმნილი უამრავი მონაცემია საჭირო. შესაბამისად, უფრო მძლავრი მოდელების შექმნას მით უფრო მეტი მონაცემი დასჭირდება.

"ფანტასტიკური იქნებოდა, ქსელიდან ყველა საჭირო მონაცემის მიღება რომ შეგძლებოდათ", — განაცხადა გომესმა — "რეალურად, ქსელი ისეთი ხმაურიანი და არეულ-დარეულია, რომ იმ მონაცემებს ბოლომდე არ გამოხატავს, რომლებიც გჭირდებათ. ქსელი უბრალოდ არ აკეთებს ყველაფერს, რაც გვჭირდება".

აღმასრულებელმა დირექტორმა აღნიშნა, რომ Cohere და სხვა კომპანიები ჩუმად უკვე იყენებენ სინთეზურ მონაცემებს, რათა თავიანთი მოდელები გაწვრთნან.

სავარაუდოდ, ამ ხერხს სამომავლოდ ChatGPT-ის შემქმნელი კომპანია OpenAI-ც მიმართავს. მაისში სემ ალტმენმა, ამ კომპანიის აღმასრულებელმა დირექტორმა, თქვა, რომ საკმაოდ დარწმუნებულია, მალე ყველა მონაცემი სინთეზური იქნება.

Microsoft-მა, მეორე მხრივ, კვლევების გამოქვეყნება დაიწყო იმასთან დაკავშირებით, თუ როგორ გააუმჯობესებს ნაკლებად დახვეწილ LLM-ებს ხელოვნური მონაცემები. ზოგიერთი სტარტაპი მთლიანად იმაზეა ორიენტირებული, რომ კომპანიებს სინთეზური მონაცემები მიჰყიდოს.

თავისთავად, არსებობს რისკებიც. შეცდომები თავს მაშინაც კი იჩენს, როდესაც მოდელი ადამიანის შექმნილ მონაცემებზე იწვრთნება. შესაბამისად, სინთეზურ მონაცემების სანდოობა ამ კუთხით მეტად საეჭვო იქნება.

შეიძლება ითქვას, კომპანიები ისეთი "თვითნასწავლი" AI მოდელების შექმნისაკენ ილტვიან, რომლებიც თავიანთ სინთეზურ მონაცემებს ქმნიან.

"რეალურად ის გვინდა, რომ მოდელებს თავიანთი თავებისთვის სწავლება შეეძლოთ", — განაცხადა გომესმა — "გვინდა შეეძლოთ, რომ თავიანთი შეკითხვები დასვან, ახალი სიმართლე აღმოაჩინონ და თავიანთი ცოდნა შექმნან. ესაა ოცნება".

თუ სტატიაში განხილული თემა და ტექნოლოგიების სფერო შენთვის საინტერესოა, შემოგვიერთდი ჯგუფში, სადაც ვლაპარაკობთ ტექნოლოგიებზე.