ქართული ენის ტექნოლოგიურ განვითარებაში წვლილის შეტანა ყველას შეგვიძლია — როგორ
ამისათვის შესაბამის საიტზე წინადადებების წაკითხვაც საკმარისია
არავისთვის იქნება სიახლე, თუ ვიტყვით, რომ ქართული ენის ტექნოლოგიური განვითარება ჩამორჩება ინგლისური, თუ სხვა "დიდი" ენების განვითარების დონეს. შორს რომ არ წავიდეთ, საკმარისია Google-ის თარჯიმანი გახსნათ და სცადოთ ქართული ტექსტის გახმოვანება. ამ დროს ამოხტება შეტყობინება — Voice output isn’t available for Georgian (გახმოვანება არ არის ხელმისაწვდომი ქართული ენისთვის).
ან შეგიძლიათ სცადოთ Google-ის თარჯიმნით თარგმნა და ნახავთ, რომ (ხანდახან) გადააწყდებით უხეშად არასწორ თარგმანს. Google-ის STT-ით თქვენი საუბარი რომ დააწერინოთ, აღმოაჩენთ, რომ ზოგ სიტყვას არასწორად იგებს და ა.შ. პრობლემების ეს სია, რომელიც სხვადასხვა ტექნოლოგიური პროდუქტის გამოყენებისას ქართულ ენასთან დაკავშირებულ შეზღუდვებს ეხება, სამწუხაროდ, საკმაოდ გრძელია და გვხვდება არა მარტო Google-ის პროდუქტებში.
რა არის ამ პრობლემიდან გამოსავალი? ამ კითხვაზე მოკლე პასუხი არ არსებობს, რადგან ეს ზედმეტად კომპლექსური საკითხია.
საჭიროა, როგორც საერთაშორისო და ადგილობრივი ტექ-კომპანიების, ისე სამთავრობო და არასამთავრობო, ისე კვლევითი და სასწავლო დაწესებულებების ძალისხმევა, რომ ქართული ენის თანამედროვე ტექნოლოგიები იყოს სათანადოდ განვითარებული.
სისტემური პრობლემაა, რომელიც საჭიროებს სისტემურ გადაწყვეტას
ამ სტატიაში უნდა ვისაუბროთ არა იმაზე, რა უნდა გააკეთოს სხვამ, არამედ რისი გაკეთება შეგვიძლია ჩვენ — რიგით მოქალაქეებს. როგორ ვიყოთ სისტემური გადაწყვეტის ნაწილი? მაგალითად, როგორ მივიღოთ პროგრამა, რომელსაც კარგად შეუძლია ქართული მეტყველების ცნობა?
ამისთვის უნდა ვასწავლოთ კომპიუტერს ქართული ხმის ცნობა!
Mozilla-ს Common Voice-ის საიტზე (commonvoice.mozilla.org/ka) წინადადებების გახმოვანებით ჩვენ ხელს შევუწყობთ ქართული მეტყველების ამომცნობი პროგრამების (STT-ის) განვითარებას!
რა არის STT?
STT (Speech-to-Text) არის პროგრამა, რომელსაც შეუძლია თქვენი ზეპირი მეტყველება გადააქციოს ციფრულ ტექსტად.
რა საჭიროა წინადადებების გახმოვანება?
STT პროგრამების განვითარება ხდება მანქანური სწავლების (Machine Learning) მეთოდით, რაც საჭიროებს მაგალითები "ვუჩვენოთ" პროგრამას, რომ გარკვეული კანონზომიერება დაიჭიროს. STT-ის შემთხვევაში პროგრამას ვასმენინებთ წინადადების აუდიო ჩანაწერს და ვაჩვენებთ იმავე წინადადებას დაწერილი სახით. ასეთი წყვილების ბევრ, ძალიან ბევრ მაგალითს რომ ნახავს პროგრამა, ისწავლის ქართული მეტყველების ცნობას.
ძალიან ბევრი რამდენია?
Common Voice-ზე წერია რომ დაახლოებით 10 000 საათის გახმოვანებული წინადადებაა საჭიროა, რომ ქართული ენის კარგად მომუშავე STT შეიქმნას. 10 000 საათი ბევრი ჩანს, მაგრამ სულ რაღაც 6 თვეში შეგვიძლია შევაგროვოთ თუ 1000 ადამიანი დღეში 45 წინადადებას გავახმოვანებთ.
შეიძლება გაგიჩნდეთ კითხვა: კრებული თუ Mozilla-სი არის, Google-ის ქართული ენის STT-ის განვითარება რა ნაირად მოხდება?
კრებულს აქვს Creative Commons-ის CC0, იგივე Public Domain ლიცენზია, რაც ნებისმიერ მსურველს აძლევს ნებართვას, როგორც უნდა ისე გამოიყენოს ის. ქართული ენის კრებული თავისუფლად და უფასოდ შეგიძლიათ გადმოწეროთ აქედან https://commonvoice.mozilla.org/ka/datasets.
ამის მაგალითი უკვე გვაქვს. იმ მცირე კრებულიზე დაყრდნობით, რომელიც მოხალისეებს აქვთ შექმნილი, Enagramm-ის გუნდს უკვე აქვს ქართული ენის STT-ის საკუთარი პროტოტიპი — https://enagramm.com/Tools/SpeechRecognition.
ვის შეუძლია მონაწილეობის მიღება?
ფაქტობრივად ყველას! საკმარისია საუბრობდეთ ქართულ ენაზე. პროგრამირების, ლინგვისტიკის, თუ რაიმე სხვა პროფესიის ფლობა არ არის საჭირო.
მეტიც, ჩანაწერების მრავალფეროვნებისთვის სასურველიცაა, რომ სხვადასხვა ასაკის, სქესის, საქართველოს სხვადასხვა კუთხის წარმომადგენელმა გაახმოვანოს წინადადებები. როგორც უკვე ვახსენეთ, პროგრამა სწავლობს იმ მაგალითებით რასაც ვუჩვენებთ. თუ მაგალითების უმრავლესობა იქნება, სიტყვაზე, 30-40 წლის მამაკაცების მიერ გახმოვანებული პროგრამა მიკერძოებული იქნება მსგავსი ხმების უკეთ გარჩევაზე; სხვა ასაკისა, თუ სქესის ხმების გარჩევას კი ისე კარგად ვერ შეძლებს.
ერთადერთი შეზღუდვა ამ მხრივ ასაკს ეხება. 19 წლის ქვემოთ თუ ხართ მხოლოდ მშობლის ნებართვითა და თანხლებით შეგიძლიათ მონაწილეობის მიღება.
მიზანი: დედაენის დღისთვის 100 საათი შევაგროვოთ!
დღეისთვის, ქართული ენის 46 საათიანი კრებული გვაქვს. 10 000 საათამდე ჯერ კიდე შორია, თუმცა სავსებით რეალურია დედაენის დღისთვის, 14 აპრილისთვის, 100 საათამდე გავზარდოთ.
შეიტანეთ თქვენი წვლილი ქართული ენის განვითარების საქმეში! გაახმოვანეთ წინადადებები ამ ბმულზე — https://commonvoice.mozilla.org/ka/speak. დამატებითი ინფორმაციისთვის, ფეისბუქზე შესაბამისი ჯგუფის პოვნას ამ ბმულზე შეძლებთ.
კომენტარები