როდესაც საუბარია ხელოვნურ ინტელექტსა და ხმის აღქმაზე, ჩვეულებრივ ორი სცენარი გვახსნებდება ხოლმე. პირველში ამაზონის ალექსა უგდებს ყურს ჩვენს ყოველდღიურ საუბარს და შემდეგ შესაბამის რეკლამებს გვთავაზობს, რომ პროდუქტები ვიყიდოთ, ხოლო მეორე შემთხვევაში კი პროგრამული უზრუნველყოფა ავტომატურად სუბტიტრებად თარგმნის ფილმის ან გადაცემის ხმას და ხშირად ეს არაზუსტად (სასაცილოდაც) კი გამოსდის.

რეალურად, არის მეტად გასაოცარი გარღვევები, რაც AI-ის ხმის აღქმაში გვაქვს. ხელოვნურ ინტელექტში ბოლოდროინდელი წინსვლები შესაძლებელს ხდის, რომ მეტად კომპლექსური პროგრამები და მოდელები შეიქმნას, რომლებიც საუბრის ანალიზს შეძლებენ. დღეს უკვე არსებობს მსგავსი პროგრამები, რომლებიც ბევრი ნიშნით (გრამატიკული სიზუსტე, ლექსიკონი, გამოთქმა) ზუსტად ასრულებენ დავალებას.

ვერბალური გამოხატულების ეფექტური შეფასება ბევრ რამეს შეცვლის ენების შესწავლასა და საგანმანათლებლო სფეროში. წარმოიდგინეთ სამყარო, სადაც არ გჭირდებათ ადამიანი-მასწავლებელი, რომელიც შეცდომებს შეგისწორებთ. წარმოიდგინეთ, რომ ეს არა მარტო შესაძლებლობა, არამედ რელაობაა. ამ ტექნოლოგიური წინსვლით უამრავი ხარჯის დაზოგვაც იქნება შესაძლებელი.

უახლეს სისტემებზე დაკვირვება ცხადყოფს, რომ გამართული AI ტექნოლოგიისა და მოდელის პირობებში თეორიულად შესაძლებელია, ნებისმიერი ენის შემსწავლელმა სტუდენტმა რეალურ დროში საკუთარ მეტყველებასთან დაკაშირებით რჩევები, შენიშვნები მიიღოს — არის თუ არა მათი გამოთქმა სწორი და როგორ და კერძოდ რა ნაწილში უნდა გაიუმჯობესონ ენის ცოდნა. ეს ჰგავს (თუმცა მეტად გაუმჯობესებულია) იმ უკვე არსებულ AI აპლიკაციებს, რომლებიც ავტომატურად აღიქვამენ საუბარს და შემდეგ ტექსტად თარგმნიან.

მსგავსი AI მოდელის ოპტიმალური სისტემა შემდეგ ხუთ კომპონენტს უნდა მოიცავდეს:

  • ხმის გადამუშავება — გადაამუშავებს სხვადასხვა პლატფორმიდან მიღებულ უხეშ, ნედლ ხმებს;
  • ხელოვნური ნეირონული ქსელი (ANN), რომელიც იღებს ამ აუდიო ხმებს და მათგან სფიჩის, საუბრის რეპრეზენტაციას ქმნის;
  • პოსტ-გადამუშავების საფეხური, რომელიც ადამიანისთვის წაკითხვად შეფასებას აყალიბებს;
  • Application-composer (AP) საფეხური, რომელიც უზრუნველყოფს შეფასებისა და პროდუქტის მოთხოვნების თანხვედრას;
  • საფირმო სისტემა, რომელიც აკონტროლებს პროდუქტის ხარისხსა და ქმედუნარიანობას.

იმისათვის, რომ სისტემამ რეალურ დროში შეძლოს რეაგირება, ამიტომ ლატენტური პერიოდი (დროის მონაკვეთი სიგნალის მიღების მომენტიდან საპასუხო რეაქციამდე) ერთ წამზე ნაკლები უნდა იყოს. ეს ნიშნავს, რომ ყველა ANN-ს პასუხისთვის აქვს მხოლოდ რამდენიმე მილიწამი, რაც თავისთავად პრობლემაა, რადგან მსგავსი მოდელები ასობით მილიონი პარამეტრისგან შედგება, რომლებიც შედარებით დიდ აუდიო მასალას ამუშავებენ.

ერთი გზა, რათა ამას გავუმკლავდეთ, არის გრაფემების ნაცვლად ფონემების (ერთეული, რომელიც სხვადასხვა მნიშვნელობის მქონე ჟღერადობებს განასხვავებს და სამეტყველო ბგერის სახით აღიქმება) ან უფრო დიდი ენის ერთეულების გამოყენება. ინგლისურში სულ 44 ფონემაა: 20 ხმოვანი და 24 თანხმოვანი, ხოლო თანამედროვე სალიტერატურო ქართულში კი — 33 სხვადასხვა ფონემა, რომელიც შეესაბამება 33 სხვადასხვა ასოთი აღნიშნულ სამეტყველო ბგერას.

ეს ეხმარება ხელოვნურ ინტელექტს, რომ შეაფასოს, რამდენად კარგად ჟღერს ენის მატარებელი ან რამდენად არასწროად გამოთქვამს ამა თუ იმ ბგერას. მაგალითისთვის, როდესაც ენის შემსწავლელი ამბობს "მეგობარი", სისტემა ამას 8 ფომენას მიხედვით 100-ქულიან შკალაზე აფასებს. ამაზე დაყრდნობით, პლატფორმა აფასებს ჯერ ფომენებს, მერე სიტყვას და ბოლოს მთელ წინადადებას. თუ გამოთქმა არ იყო სწორი, მაშინ ის აგენერირებს იმ სიტყვას, რომლის გამოთქმასთანაც ის ყველაზე ახლოს იყო, მაგალითად, "დალი" ჟღერდა როგორც "ლალი" და ა.შ.

მსგავსი სისტემების პოპულარობა იზრდება. დღეს კომპანიები იყენებენ არსებულ მოდელებს და ინვესტიციებს დებენ მათ დახვეწაში. მეტად დახვეწილი მოდელების საფუძველში, უდაოდ, უნდა იყოს:

  1. უნიკალურად დამუშავებული მონაცემები;
  2. ენის ზეპირი სწავლისას საკუთარი ცოდნის გამოყენება;
  3. ტექნიკური შესაძლებლობები და ცოდნა მოდელის ძლიერი და სუსტი მხარეების შესახებ.

ცხოვრებისეული გამოცდილების, აკდემიური ცოდნისა და ტექნიკური სპეციალობის გაერთიანებით შესაძლებელია ისეთი ხელოვნური ინტელექტის შექმნა, რომელიც რეალურ დროში დაგეხმარებათ იმის გაგებაში, თუ რამდენად სწორად საუბრობთ ამა თუ იმ ენაზე.

რაც შეეხება მათ წარმოებას, GCP-ს (Google Cloud Platform) შეუძლია ოპერაციული ხარჯების შემცირება და ამავე დროს მასშტაბისა და სტაბილურობის შენარჩუნება.

გასაგები მიზეზების გამო მსგავსი ტექნოლოგიები ბევრ რამეს შეცვლიან განათლების სფეროში. ერთ-ერთი ბენეფიტი არის ხარჯების დაზოგვა. თანამედროვე სამყაროში საერთაშორისო კომპანიაში დისტანციური დასაქმების მთავარი ბარიერი არა გეორგაფიული დაშორება, არამედ ინგლისურის არცოდნაა. თუ პროგრამული უზრუნველყოფა ვინმეს უფრო დაბალ ფასად ასწავლის უცხო ენას, მაშინ გლობალური ბაზარი ამ ადამიანისთვის იქნება მეტად ხელმისაწვდომი.

არ იქნება გადამეტებული, თუ ვიტყვით, რომ ხელოვნური ინტელექტის ეს მოდელი საერთაშორისო ბაზრის ტალანტების რაოდენობას მნიშვნელოვნად გაზრდის. ჩვენ მხოლოდ მისი შექმნაღა დაგვრჩა.