ეს გუნდი ცდილობს, ხელოვნური ინტელექტი ქართულად "აალაპარაკოს"

"გვინდა ისეთმა სისტემებმა, როგორებიც არის ChatGPT და სხვა LLM-ები, უკეთ ისაუბროს ქართულად".

ბოლო ხანებში ChatGPT და სხვა ჩატბოტები უამრავი ადამიანის ერთგვარი ასისტენტები გახდა სხვადასხვა საქმეში. თუ რომელიმე AI ჩატბოტით ერთხელ მაინც გისარგებლიათ, შენიშნავდით, რომ ქართულად საუბარი მისი ძლიერი მხარე ნაკლებადაა. ზოგი ადამიანისთვის ეს მნიშვნელოვან ენობრივ ბარიერს ქმნის.

ხელოვნური ინტელექტის ბაზაზე შექმნილი მოდელებისგან, ანუ AI მოდელებისგან, ქართულის "არცოდნა" ბუნებრივიცაა — ქართულენოვანი რესურსები საკმაოდ მწირია, ამ მოდელებს კი ძალიან დიდი მოცულობის მონაცემები სჭირდება, რომ რაიმე ისწავლოს. ამის გათვალისწინებით, არც ისაა გასაკვირი, რომ უცხოურ ტექნოლოგიურ კომპანიებს უჭირთ, AI ქართულ ენაზე გამართულად "აამეტყველონ".

ამ პრობლემის გადაჭრა ქართველმა ინჟინრებმა და მკვლევრებმა გადაწყვიტეს. მათ ახალი ინიციატივა KALMO შეიმუშავეს, რომელიც მიზნად ისახავს, ენობრივმა მოდელებმა ქართული ენა უკეთ აითვისოს. ამის შესახებ უფრო ვრცლად გიორგი ჯვარიძე, KALMO-ს ერთ-ერთი წევრი, მოგვიყვება.

თქვენი გუნდი და საქმიანობა რომ გაგვაცნოთ — რას აკეთებს KALMO?

KALMO (KArtvelian Language Modelling Open initiative) არის არაკომერციული კვლევითი ინიციატივა, რომლის მიზანია ქართული და სხვა ქართველური ენების განვითარება ენის მოდელირების მიმართულებით".

როგორც იცით, დიდი ენობრივი მოდელები ძლიერი ინსტრუმენტებია კომპიუტერის მიერ ადამიანის ენის გაგებისთვის, გენერირებისა და დამუშავებისთვის. მათი გამოყენება შესაძლებელია სხვადასხვა მიმართულებით, მათ შორის ჯანდაცვის, განათლების, კვლევისა და ტექნოლოგიების სფეროებში.

ChatGPT-ს გამოსვლამ საკმაოდ შეცვალა არამხოლოდ ხელოვნური ინტელექტის სფერო, არამედ ზოგადად სამყარო. გაჩნდა ისეთი შესაძლებლობები, როგორებიც რამდენიმე წლის წინ წარმოუდგენელიც კი იყო, თუმცა მსგავს სისტემებში ქართული ენის მხარდაჭერა საკმაოდ შეზღუდულია.

OpenAI და სხვა მსგავსი კომპანიები თავისი მოდელების გასაწვრთნელად იყენებენ დიდი რაოდენობის ტექსტურ მონაცემებს, მათ შორის ინტერნეტში ღიად ხელმისაწვდომ ტექსტებს, როგორიცაა ვიკიპედია და სხვა. იმის გამო რომ ქართული ენა ე.წ. low resource ენაა, ქართული ტექსტები საკმაოდ მცირე ნაწილია იმ ერთიან მონაცემებში. სწორედ ამის გამო საუბრობს ChatGPT არასაკმარისად კარგად.

KALMO (KArtvelian Language Modelling Open initiative) არის არაკომერციული კვლევითი ინიციატივა, რომლის მიზანია ქართული და სხვა ქართველური ენების განვითარება ენის მოდელირების მიმართულებით. სხვა სიტყვებით, გვინდა ისეთმა სისტემებმა, როგორებიც არის ChatGPT და სხვა LLM-ები, უკეთ ისაუბროს ქართულად.

KALMO-ს წევრები (მე გიორგი ჯვარიძე, ანზორ გოზალიშვილი, სანდრო ბარნაბიშვილი, ზურა ძინძიბაძე და მიხეილ ლომიძე) ვართ ხელოვნური ინტელექტის ინჟინრები და მკვლევრები. გვაქვს ისეთ კომპანიებში მუშაობის გამოცდილება, როგორებიცაა: TripAdvisor, Zalando, Roche, Pfizer, Microsoft Bing, Qdrant, საქართველოს ბანკი და MaxinAI.

რამ გადაგაწყვეტინათ ამ საკითხზე მუშაობა?

საქართველოში საბაზისო ენობრივი მოდელები (ე.წ. Foundation Models) არ არსებობის.

პრობლემა წამოიჭრა DataFest-ის (datafest.ge) სიძულვილის ენის იდენტიფიცირების შესახებ გამართული ჰაკათონის ფარგლებში. მასში მე და ჩემი მეგობრები ვიღებდით მონაწილეობას. კერძოდ, გამოიკვეთა "სიძულვილის ენის" იდენტიფიცირების პრობლემა ფაქტობრივად ყველა მონაწილის მიერ. რეალურად, შეუძლებელი იყო ქართული ენის საბაზისო ინსტრუმენტების არარსებობის გამო სიძულვილის ენის აღმოჩენა.

ერთ-ერთი მიზეზი, რატომაც ქართული ენის საბაზისო მოდელების შექმნა რთულია, არის სწორედ ის, რომ მაღალი ხარისხის ქართული ტექსტური მონაცემები ხელმისაწვდომი არაა. სწორედ ამიტომ დავიწყეთ KALMO-ს პროექტზე მუშაობა.

კონკრეტულად რა ნაბიჯების გადადგმაა საჭირო, რომ AI მოდელებმა ქართული ენაც ისწავლოს? რა გააკეთეთ და როგორ?

საბოლოო ჯამში, მიზანია ენობრივად მაღალი ხარისხის მონაცემების მიღება, რათა LLM-მა შეძლოს ქართული ენის კარგად შესწავლა".

სხვადასხვა წყაროდან შევაგროვეთ ღიად ხელმისაწვდომი ტექსტური მონაცემები, HuggingFace-ის DataTrove-ის გამოყენებით დავწერეთ ე.წ. Data Pipeline. DataPipeline-ის შექმნისას გავითვალისწინეთ ინგლისური ენისთვის არსებული საუკეთესო მიდგომები ისეთი პროექტებიდან, როგორიცაა, მათ შორის, The Pile.

Data Pipeline პროცესთა ერთობლიობაა, რომლის ფარგლებშიც სხვადასხვა წყაროდან მონაცემები გროვდება; შემდეგ ისინი რედაქტირდება და იწმინდება, საბოლოოდ კი გასაანალიზებლად ინახება.

შეგროვებული მონაცემების დამუშავების დიდი ნაწილი PDF-ებიდან ქართული ტექსტების ამოღებას დაეთმო.

ასევე, ქართული ენისთვის დამუშავების სპეციფიკური მეთოდები შევიმუშავეთ, მაგალითად, ტრანსლიტერირებული ქართული ტექსტების კონვერტაცია. ამას გარდა, წლების წინ ქართული უნიკოდი არც ისე ხშირად გამოიყენებოდა და სისტემაში ტექსტი ხშირად ლათინური განლაგების მქონე ქართული ფონტებით შეჰყავდათ, ამიტომ საჭირო გახდა მსგავსი ტექსტების დეტექცია და ქართულ უნიკოდში გადაყვანა.

ხელოვნური ინტელექტის გასაწვრთნელად შექმნილი მონაცემები საჭიროა გულმოდგინედ გაიფილტროს. მაგალითად, საჭიროა პერსონალური ინფორმაციის (ე.წ. PII-ების) წაშლა, უხამსი შინაარსისა და ენობრივად გაუმართავი ტექსტების გაფილტვრა. საბოლოო ჯამში, მიზანია ენობრივად მაღალი ხარისხის მონაცემების მიღება, რათა LLM-მა შეძლოს ქართული ენის კარგად შესწავლა.

დეტალურად აღვწერეთ ტექსტების დამუშავების ყველა დეტალი სამეცნიერო ნაშრომში, რომელიც გავაგზავნეთ ერთ-ერთ ყველაზე პრესტიჟულ სამეცნიერო ჟურნალში ACL.

ამჟამად მიმდინარეობს ჩვენი ნაშრომის ანონიმური განხილვა, რისი დასრულების შემდეგაც ნაშრომს გამოვაქვეყნებთ პლატფორმებზე Arxiv.org და Huggingface.co. ამასთანავე, გავასაჯაროებთ ჩვენ მიერ შექმნილ Data Pipeline-სა და დამუშავებულ მონაცემთა ბაზას".

ზოგიერთი უცხოური LLM ქართულს სრულყოფილად ვერა, თუმცა რაღაც დონეზე მაინც ფლობს. ხომ არ შეიძლება, ეს რამეში დაგვეხმაროს?

ჩვენ აქტიურად ვაკვირდებით ხელოვნური ინტელექტის ახალ მოდელებს და ვაფასებთ მათ შესაძლებლობებს ქართულ ენასთან მიმართებით. მაგალითად, ხელსაწყო Suno-ს ქართულად სიმღერა შეუძლია. ამას გარდა, ახლახან გამოქვეყნებული Claude 3 გაცილებით უკეთ საუბრობს ქართულად, ვიდრე GPT 4. ასევე, შევამჩნიეთ, რომ ერთსა და იმავე ტექსტზე Claude 3 ტოკენიზატორი ნაკლებ ტოკენს ქმნის, ვიდრე GPT 4. ეს რაღაც მხრივ მიუთითებს, რომ Claude 3-ს ქართული ენის კუთხით უკეთესი შესაძლებლობები აქვს.

ვფიქრობთ, Claude 3-ის გამოყენება უკვე შესაძლებელია სხვადასხვა ამოცანაში, თუმცა, ვინაიდან იგი საკმარისად დახვეწილად არ ფლობს ქართულ ენას, აუცილებელია განსაკუთრებული სიფრთხილით გამოვიყენოთ ის, რათა შეცდომები (ე.წ. ჰალუცინაციები) არ გაიპაროს.

რა გამოწვევებს აწყდებით მუშაობისას? რა არის ყველაზე რთული, თუნდაც ჩვენი ქვეყნის კონტექსტში?

საჭიროა ღიად ხელმისაწვდომი მაღალი ხარისხის მონაცემების არსებობა".

იმისათვის, რომ ხელოვნურმა ინტელექტმა სრულყოფილად შეისწავლოს ქართული ენა, საჭიროა, ქართული ტექსტები მისთვის წაკითხვად ფორმაში მივაწოდოთ. რაც უფრო ხარისხიანია ტექსტი, ანუ ენობრივად გამართულია, მრავალფეროვანია, მით უკეთ ხდება ენის შესწავლაც. ამიტომაც საჭიროა ღიად ხელმისაწვდომი მაღალი ხარისხის მონაცემების არსებობა.

ერთ-ერთი გამოწვევა, რომელსაც გადავაწყდით, არის საავტორო უფლებების ქართული რეგულირება. იგი ჯერჯერობით ნათლად არ აღწერს, თუ როგორ უნდა გამოიყენოს ხელოვნურმა ინტელექტმა ინტერნეტში განთავსებული ნაწარმოებები ქართული ენის მანქანური სწავლებისთვის.

აშშ-ში ასეთი ინოვაციების ხელშეწყობის მიზნით განვითარდა ე.წ. Fair Use-ის დოქტრინა, რომელიც ინოვატორებს ეხმარება, უფრო მოქნილად/თავისუფლად შექმნან ახალი, ინოვაციური, გამოგონებები. ამ დოქტრინას, რა თქმა უნდა, თავისი წინაპირობები აქვს, რომლებიც დაცული უნდა იყოს, როცა გამოგონების მიზნით საავტორო უფლებებით დაცულ ობიექტებს იყენებენ. როგორც ვიცით, ამ მიმართულებით დაწყებულია მუშაობა და ვიმედოვნებთ, რომ ეს საკითხი მალე გადაიჭრება.

ახლა რა ეტაპზე ხართ, რა მიღწევები გაქვთ და როგორია თქვენი მისწრაფებები/მოლოდინები?

პროექტის პირველი ვერსია უკვე მზად გვაქვს და სამეცნიერო ნაშრომის განხილვის დასრულების შემდეგ საჯაროდ გამოვაქვეყნებთ ჩვენს ნამუშევარს. ვფიქრობთ, ეს საფუძველი გახდება, რომ ქართული ენის უკეთ მცოდნე LLM-ები შეიქმნას.

ჩვენი მოლოდინია, რომ ხელოვნური ინტელექტის ინჟინრები და მეცნიერები გამოიყენებენ ჩვენ მონაცემებს, იმისათვის, რომ შექმნან ქართულად უკეთესად მოსაუბრე მოდელები. ამ მოდელების გამოყენება შესაძლებელი იქნება სხვადასხვა ამოცანების გადასაჭრელად.

ზოგადად, ვიმედოვნებთ, რომ ამ წამოწყებაში ავიყოლიებთ სხვა ქართველ კოლეგებსაც, რათა საქართველოში განვითარდეს ხელოვნური ინტელექტის ღია კვლევების მიმართულება".

საქართველოს სიტუაციას როგორ შეაფასებდით ამ მხრივ, რამდენად დიდი გგონიათ პოტენციალი, რომ AI ტენდენციებს ფეხი ავუწყოთ? სფეროში მომუშავე სხვა სპეციალისტებთან თუ თანამშრომლობთ?

საქართველოში საკმაოდ ბევრი ინჟინერი და მეცნიერია, რომლებიც ხელოვნური ინტელექტის მიმართულებით მუშაობენ ან დაინტერესებულნი არიან ამ სფეროთი. თუმცა გვაქვს იმ რესურსების ნაკლებობა, რომლებიც საჭიროა თანამედროვე ხელოვნური ინტელექტის სისტემების შესაქმნელად. კერძოდ, არის სპეციალიზებული გამოთვლით რესურსებისა (GPU) და ხელმისაწვდომი ქართული მონაცემების ნაკლებობა.

ჩვენ შარშან შექმნილი "საქართველოს ხელოვნური ინტელექტის ასოციაციის" (GAIA-ს) აქტიური წევრები ვართ, რომელიც საქართველოში ხელოვნური ინტელექტის სფეროს განვითარებას ემსახურება. აღნიშნული ასოციაციის საქმიანობის ფარგლებში აქტიურად ვთანამშრომლობთ სფეროში მომუშავე სხვა სპეციალისტებთანაც.

საქართველოში არსებობს რამდენიმე ჯგუფი რომელიც მსგავს მიმართულებებზე მუშაობს. მაგალითად, ქართული TTS და STT (ხმის ტექსტში გადაყვანა და ტექსტიდან ხმის სინთეზის) სისტემების განვითარებისთვის არსებობს ინიციატივა. მის ფარგლებში ცდილობენ შეაგროვონ აუდიომონაცემები იმისთვის, რომ შემდეგ ეს ღიად იყოს ხელმისაწვდომი ყველასთვის.

ასევე იხილეთ: ქართული ენის ტექნოლოგიურ განვითარებაში წვლილის შეტანა ყველას შეგვიძლია — როგორ

რა გჭირდებათ იმისთვის, რომ თქვენი ძალისხმევა შედეგიანი იყოს?

მნიშვნელოვანია, რომ საქართველოში გააქტიურდეს ღია მეცნიერული მუშაობა, ჩაერთოს ბევრი ორგანიზაცია და უნივერსიტეტი. ძალიან ბევრი გადასაჭრელი ამოცანა გვიდგას წინ, რომელთა დიდ ნაწილს სჭირდება სპეციალიზებული მონაცემთა ნაკრებების არსებობა. მნიშვნელოვანია ასეთი მონაცემები იყოს ღიად ხელმისაწვდომი (open source), რათა ხელი შევუწყოთ ღია კვლევების განვითარებას.

გვსურს, ქართულ ენაზე მონაცემები ღიად ხელმისაწვდომი გავხადოთ. ამის საფუძველზე ქართველი პროფესიონალები შეძლებენ შექმნან მაღალი ხარისხის ქართულენოვანი LLM-ები".

უცხოურ კომპანიათა ნაწილი ღიად არ აქვეყნებს თავის მოდელებსა თუ მონაცემებს (მაგ: ირონიულად, OpenAI), თუმცა ასევე არსებობენ კომპანიები (მაგ: Meta, Mistral, Cohere, EleutherAI), რომლებიც ღიად აწარმოებენ კვლევებს, ღიად აქვეყნებენ ხელოვნური ინტელექტის მოდელებს და რიგ შემთხვევაში მონაცემებსაც. ამ ღია მოდელების საფუძველზე (LLaMa2, Mistra, Command+R) კი არაერთი მნიშვნელოვანი პროექტი იქმნება.

ჩვენი მიზანიც სწორედ ესაა — საქართველოში განვითარდეს ღია კვლევები. ამისათვის გვსურს, ქართულ ენაზე მონაცემები ღიად ხელმისაწვდომი გავხადოთ. ამის საფუძველზე ქართველი პროფესიონალები შეძლებენ შექმნან მაღალი ხარისხის ქართულენოვანი LLM-ები. გარდა იმისა, რომ შესაძლებელი იქნება ჩვენ მიერ მომზადებული მონაცემების როგორც საქართველოში, ისე მის ფარგლებს გარეთ გამოყენება, ვფიქრობთ, ეს მონაცემები დამატებით ხელს შეუწყობს იმას, რომ ChatGPT-ის შემდგომმა ვერსიებმა ქართული ენა უკეთ შეისწავლოს, თუ OpenAI ჩვენი მონაცემების გამოყენებას გადაწყვეტს.

თუ სტატიაში განხილული თემა და ტექნოლოგიების სფერო შენთვის საინტერესოა, შემოგვიერთდი ჯგუფში, სადაც ვლაპარაკობთ ტექნოლოგიებზე.