AI, რომელიც წინადადებებს კითხულობდა, ახლა კორონავირუსის მუტაციებს წინასწარმეტყველებს

გალილეო გალილეიმ ერთხელ შენიშნა, რომ "ბუნების აღწერა მათემატიკით შეიძლება, ბიოლოგიის კი სიტყვებით". ეს ციტატა ბუნებრივი ენის დამუშავების ალგორითმების (NLP) შესაფერისია, რადგან მეცნიერები სხვადასხვა NLP AI მოდელებს ახლა უკვე კორონავირუსის პოტენციური მუტაციების ამოსაცნობად იყენებენ.

ვირუსები, მათ შორის ახალი კორონავირუსი, მუტაციებს ხშირად განიცდის. ვირუსის გენომში ცვლილებები განსაკუთრებით ყურადსაღები მაშინაა, როცა ვირუსი ამ მუტაციებით ჩვენი სხეულის იმუნური სისტემისგან თავდაცვას სწავლობს. ამიტომ, მეცნიერები კორონავირუსის სხვადასხვა შტამებს ყურადღებით აკვირდებიან.

აღსანიშნავია, რომ ბიოლოგიურ სისტემებს მიღმა გარკვეული წესებია, რომლებიც წინადადებებს მიღმა არსებულ სინტაქსურ წესებს წააგავს. ანუ, ბიოლოგიური სისტემები შეგვიძლია "სიტყვებად და წინადადებებად" ჩავწეროთ. ასე "ჩვენ ევოლუციის ენას ვსწავლობთ", — ამბობს ბიოლოგი და კომპიუტერული მეცნიერი ბონი ბერგერი.

ბოლო წლების მანძილზე, მკვლევრებმა აჩვენეს, რომ ცილების წყობის და გენეტიკური კოდის მოდელირება NLP ტექნიკებით შეიძლება.

Science-ში გამოქვეყნებულ კვლევაში ბონი ბერგერი და კოლეგები აჩვენებენ, რომ NLP ალგორითმებით ისეთი მუტაციების წინასწარმეტყველება შეიძლება, რომლებიც ვირუსს ჩვენი იმუნური სისტემისგან "დამალვის" საშუალებას აძლევს. იდეა ისაა, რომ ჩვენი იმუნური სისტემა ვირუსებს ისევე აღიქვავს, როგორც ადამიანები წინადადებებს.

ბერგერის გუნდი ვირუსების და იმუნური სისტემის ურთიერთქმედებას შემდეგნაირად განიხილავს: ვირუსის ევოლუციური შეგუებულობა, ანუ ისეთი ნიშან-თვისებები, რომლებიც მას სხეულის წარმატებით ინფიცირების საშუალებას აძლევს, შეგვიძლია გრამატიკურ სისწორედ აღვიქვათ. ანუ, თუ ვირუსი წარმატებულია თავის საქმეში (ინფიცირებაში), მაშინ ის გრამატიკულად სწორია, თუ არა — მაშინ ის გრამატიკულად არასწორია.

ადამიანურ კომუნიკაციაში ამის პარალელი შეგვიძლია გავავლოთ: თუ წინადადება მავანისთვის გასაგებია, მაშინ ის "წარმატებული" წინადადებაა. ანუ, გრამატიკულად გამართულია. გრამატიკა რაც უფრო გამართულია, ის უფრო გასაგებია. თუ წინადადება გრამატიკულად იმდენად გაუმართავია, რომ მავანმა ის ვერ გაიგო, მაშინ წინადადება "წარუმატებელია".

ვირუსის მუტაციები გრამატიკული კუთხის გარდა, შეგვიძლია სემანტიკურადაც გავიგოთ. მუტაციები, რომელიც ვირუსს გარემოსგან გამოარჩევს, როგორიცაა მაგალითად ზედაპირის ცილების ცვლილება ისე, რომ ის ანტისხეულებისთვის შეუძლებელი აღმოსაჩენი გახდეს, ვირუსს წარმატების შანსს უზრდის. თუ ვირუსის ბუნებასთან ურთიერთობისთვის განკუთვნილ ნიშანთვისებებს, "მნიშვნელობად", სემანტიკად განვიხილავთ, მაშინ მისი ცვლილება, "მნიშვნელობის ცვლილება" იქნება. სხვადასხვა მუტაციის მქონე ვირუსებს ანუ სხვადასხვა მნიშვნელობები აქვთ, განსხვავებული მნიშვნელობის მუტაციების გასაგებად კი ჩვენ სხეულს განსხვავებული ანტისხეულები ჭირდებათ.

როგორ ვკითხულობთ ვირუსებს

მკვლევრების გუნდმა NLP მოდელი ისე გაწვრთნა, რომ მას სამი სხვადასხვა ვირუსიდან აღებული ათასობით თანმიმდევრობა "გაეგო". ინფლუენზას ერთ-ერთი შტამის გენომიდან 45 000 თანმიმდევრობა აიღეს, HIV-ის შტამიდან 60 000, ხოლო Sars-CoV-2-ის (COVID-19-ის გამომწვევი) ერთ-ერთი შტამიდან 3 000- 4 000 თანმიმდევრობა.

იმისთვის, რომ გავიგოთ როგორ "აღიქვამს" NLP ალგორითმი მუტაციებს, უნდა გვესმოდეს როგორ აღიქვამს ის სიტყვებს. NLP-ის ალგორითმის გაწვრთნა ისე შეიძლება, რომ მსგავსი მნიშვნელობის სიტყვები ერთად დაჯგუფდეს. მაგალითად, NLP-ის მოდელმა შეიძლება ისწავლოს, რომ წითელი, ყვითელი და შავი ფერებია და ამ კატეგორიაში გააერთიანოს. ამას პროგრამირების ენაზე embedding ქვია.

გენომურ თანმიმდევრობაზე გაწვრთნილმა NLP მოდელმა გენომური თანმიმდევრობის დაჯგუფებით, ვირუსები მათი მუტაციების მსგავსებებით დააჯგუფა. უფრო მეტი სიცხადისთვის, შეგვიძლია ენობრივი ანალოგი მოვიყვანოთ:

მაგალითად, წინადადებაში (1)"ფერმერებს კარგი სეზონი უხარიათ", შეგვიძლია ერთ სიტყვა შევცვალოთ და დავწეროთ (2)"ფერმერებს ძლიერი მოსავალი უხარიათ". ფერმერობის კონტექსტში კარგი და ძლიერი სეზონი სინონიმურია. მიუხედავად იმისა, რომ სასაუბრო ენაში "ძლიერ მოსავალს" შეიძლება არ ვამბობდეთ, წინადადება გრამატიკულად გამართულია და ორივე შემთხვევაში ზედსართავი სახელი გამოიყენება. თუმცა, თუ წინადადებას შემდეგნაირად გადავაკეთებთ: (3)"ფერმერებს გრიპის სეზონი უხარიათ", თავდაპირველი წინადადების მნიშვნელობა რადიკალურად იცვლება.

(1) და (2) მნიშვნელობით უფრო ახლოა ერთმანეთთან, ვიდრე (1) და (3). გაწვრთნილი NLP მოდელი ამ განსხვავებას "ხდება". იგივენაირად, NLP მოდელი სახეცვლილ ვირუსებს, სახეცვლილ წინადადებებად აღიქვამს. ანუ, კომპიუტერული მოდელი ისევე განასხვავებს მცირე და მნიშვნელოვან მუტაციებს, როგორც მცირე და მნიშვნელოვან ცვლილებებს წინადადებებში.

მეცნიერებმა ეს მიდგომა შეამოწმეს კიდეც. NLP მოდელის აკურატულობა მათ 0,5 და 1-ის შკალაზე გაზომეს. თუ მოდელის წინასწარმეტყველების სიზუსტე 0,5-ია, მაშინ ის არაზუსტია და თუ 1-ია მაშინ მოდელის წინასწარმეტყველება სრულყოფილია. NLP მოდელის მიერ აღმოჩენილი მუტაციები, მეცნიერებმა ლაბორატორიულ პირობებში არსებული ვირუსების მუტაციებს შეადარეს. გაირკვა, რომ შიდსის ვირუსის მუტაციების წინასწარმეტყველების სიზუსტე 0,69 იყო, ახალი კორონავირუსის კი —0,85.

რატომაა AI მნიშვნელოვანი კორონავირუსთან ბრძოლაში

ამ დროისთვის, მკვლევრების მიერ გაკეთებული მიგნებების რეალურ სამყაროში იმპლემენტაცია არ ხდება. მუტაციების წინასწარმეტყველებაში NLP მოდელების გამოყენება ძალიან ახალი პრაქტიკაა. კონკრეტულად ეს კვლევა ამ წლის 14 იანვარს გამოქვეყნდა. თუმცა, მომავალში მსგავსი მოდელები შეიძლება მნიშვნელოვნად დაგვეხმაროს.

მოსალოდნელი მუტაციების შესახებ ცოდნა, მეცნიერებს და საავადმყოფოებს შეიძლება მომზადებაში დაეხმაროს. მაგალითად, NLP მოდელს რომ "ვკითხოთ" რამდენად შეიცვალა გრიპის ვირუსი შარშანდლიდან მოყოლებული, ანუ რამდენად შეიცვალა მან "მნიშვნელობა", ექიმებს წარმოდგენას შეუქმნის თუ რამდენადაა ადამიანების ანტისხეულები გრიპთან გამკვლავებისთვის მზად წელს.

NLP-ის ამ კუთხით გამოყენება პროცესს მნიშვნელოვნად აჩქარებს. ტრადიციულად, ვირუსის გენომს მეცნიერები COVID-19-ის მქონე პაციენტიდან აგროვებენ, შემდეგ მის სეკვენირებას აკეთებენ და ლაბორატორიაში სწავლობენ. "ამას შეიძლება კვირები დაჭირდეს", — ამბობს კვლევის ერთ-ერთი მონაწილე ბრაიან ბრაისონი. NLP მოდელი კი პოტენციურ მუტაციებს პრაქტიკულად მომენტალურად წინასწარმეტყველებს, რაც ლაბორატორიებს მინიშნებას აძლევს კონკრეტულად რას უნდა უყურონ და რას უნდა ელოდნენ.