მსოფლიო ენობრივი ბარიერების გარეშე? — Meta-ს ახალი AI მოდელი 200-მდე ენას თარგმნის
მეტამ ახალი open-source AI-ის მოდელი განავითარა, რომელიც 200-მდე ენას თარგმნის. ამ ენების უმეტესობის თარგმნა აქამდე არსებული პროგრამებით არ იყო უზრუნველყოფილი. პროექტზე მუშაობა მიმდინარე წლის დასაწყისში დაიწყეს.
"ჩვენ ამ პროექტს შემდეგნაირად ვეძახით — არც ერთი ენა არ უნდა დარჩეს უკან (NLLB) და ხელოვნური ინტელექტის ტექნიკა, რომელსაც ჩვენ აქ ვიყენებთ, ძალიან კარგი ხარისხით თარგმნის ენებს Facebook-სა და Instagram-ზე", — აღნიშნა საკუთარ FB პოსტში მარკ ცუკერბერგმა.
NLLB ფოკუსირდება ისეთ ენებზე, როგორიცაა, მაგალითად, მაორი ან მალტეზე. მსოფლიო მოსახლეობის უმეტესობა ასეთი ტიპის ენებზე საუბრობს, მაგრამ იმის გამო, რომ არაა საკმარისი მონაცემი AI-ის გასავარჯიშებლად, თარგმნა ძალიან ჭირს. მეტას ახალი მოდელი კი, როგორც ჩანს, ამ გამოწვევას უმკლავდება.
ინიციატივის წამოწყებამდე მკლევრები გაესაუბრნენ ამ ენებზე მოსაუბრეებს, რათა მათი საჭიროებები გაეთვალისწინებინათ. ამის შემდეგ მათ განავითარეს data mining-ის ახალი ტექნიკა (data mining - დიდი მოცულობის მონაცემბში გარკვეული პატერნების აღმოჩენისა და ამოღების პროცესი), რომელიც ამ ენებზე აგენერირებს წინადადებებს.
შემდეგ მათ თავიანთი მოდელი გაწვრთნეს იმ მონაცამებით, რომელიც, ერთი მხრივ, data mining-ის შედეგად დაგენერირდა და, მეორე მხრივ, ადამაინის მიერ იყო თარგმნილი.
შედეგი არის NLLB-200 — მასიური მულტილინგვისტური სათარგმნი სისტემა, რომელიც 202 ენას აერთიანებს.
მეტას გუნდმა მოდელის მიერ შესრულებული სამუშაო FLORES-101-ის მონაცემებზე დაყრდნობით შეამოწმა. FLORES-101 არის მონაცემთა ბაზა, რომელიც ვიკიპედიიდან ამოღებული 3001 ინგლისურენოვანი წინადადებისგან შედგება, რომლებიც 101 ენაზე პროფესიონალმა თარჯიმნებმა თარგმნეს. მონაცემთა ეს ბაზა გამოიყენება სათარგმნი სისტემების ხარისხის შესამოწმებლად.
"მიუხედავად იმისა, რომ ენების რაოდენობა გავაორმაგეთ, ჩვენი ეს მოდელი 40%-ით უკეთ მუშაობს, ვიდრე ის (SOTA - State of the Art model), რომელიც თავიდან გამოვცადეთ". — აცხადებენ კვლევის ავტორები.
მეტას ტექნიკურმა ჯგუფმა უკვე გააუმჯობესმა მანქანური თარგმნა Facebook-ზე, Instagram-სა და Wikipedia-ზე. მეტამ ასევე გაასაჯაროვა თავიანთი მწარმოებლის ტესტის (benchmark), მონაცემთა სკრიპტისა და მოდელის კოდები, რათა კვლევას განვითარების ფართო გასაქანი მიეცეს. ეს, რა თქმა უნდა, მეტასთვისაც სასარგებლოა.
Open-source ყველასთვის
ცუკერბერგის სწრაფვამ, რომ მოკლე დროში სწრაფად გაზრდილიყო მისი კომპანია, ბევრი პრობლემა გააჩინა. მარტო თებერვალში Facebook ბოლო 18 წლის მანძილზე პირველად დაკარგა ყოველდღიური მომხმარებლები.
თუ მეტა ახლა მოახერხებს საკუთარი სათაგრმნი სისტემის ხარისხის გაუმჯობესებას, ეს ბევრ მომხმარებელს მოიზიდავს.
თარგმნამ მეტას ბევრი პრობლემა შეუქმნა. 2017 წელს ისრაელის პოლიციამ დააპატიმრა პალესტინელი, რომელის პოსტიც "დილა მშვიდობისა" Facebook-მა თარგმნა როგორც "შეუტიეთ მათ".
კომპანიას შედარებით იშვიათ ენებში დიდი პრობლემები ჰქონდა არასწორი ინფორმციისა და სიძულვილის ენის გამო. ახალ კვლევას კი ყველა ამ გამოწვევასთან გამკლავება შეუძლია. მეტამ საკუთარ კონკურენტებაც კი მისცა ამ კვლევაზე მუშაობის საშუალება და პროექტის ყველა თავდაპირველი კოდი გაასაჯაროვა.
თუ მეტას გამოუვა ამ პროექტის წარმატებით განხორციელება, უნივერსალური თაჯიმნის იდეა და სამყარო ენობრივი ბარიერის გარეშე რეალობად იქცევა.
კომენტარები