Nvidia-მ და Microsoft-მა ყველაზე მძლავრი ერთიანი გარდამქმნელი ენის მოდელი გამოავლინეს, რაც აქამდე შექმნილა: Megatron-Turing-ის ბუნებრივი ენის გენერატორი (MT-NLG), რომელშიც, პრეს რელიზის მიხედვით, მთელი 530 მილიარდი პარამეტრია ჩაშენებული ერთად.

MT-NLG ამ ორი კომპანიის მიერ შექმნილ გარდამქმნელზე დაფუძნებულ სისტემებთან შედარებით უფრო ეფექტიანია. იგი არსებითად ბევრად დიდი და კომპლექსური მოდელია, ვიდრე Microsoft-ის Turing-NLG და NVIDIA-ის Megatron-LM, მასში 105 ფენაზე სამჯერ უფრო მეტი პარამეტრია განაწილებული.

როგორც Turing NLG 17B-ისა და Megatron-LM-ის მემკვიდრემ, MT-NLG-მა შეუდარებელ სიზუსტეს მიაღწია ბუნებრივი ენის ამოცანების ფართო სპექტრში. მათ შორისაა წინადადებების დასრულება შინაარსის წინასწარმეტყველების გზით, წაკითხულის გააზრება, საღი აზრის გამოტანა და ორაზროვანი სიტყვის მნიშვნელობის გარკვევა.

მსოფლიოში ერთ-ერთი ყველაზე ძლიერი გენერაციული ენის მოდელი

MLT-NLG გაწვრთნილია Microsoft Azure NDv4-ისა and Nvidia's Selene მანქანური დასწავლის სუპერკომპიუტერზე, რომელიც 560 DGX A100 სერვერებისგან შედგება, თითოეული მათგანი კი, თავის მხრივ, რვა A100 80GB გრაფიკული პროცესორითაა აღჭურვილი Pile-ის სახელით ცნობილ მასიურ მონაცემთა ბაზაზე.

მოდელი რამდენიმე შედარებით პატარა მონაცემთა ბაზისგან შედგება, რომელთა საერთო მოცულობა 825 გიგაბაიტს შეადგენს. ტექსტები ინტერნეტიდანაა მოპოვებული, წყაროებს კი Wikipedia-ის სტატიები, აკადემიური ჟურნალების არქივები და ახალი ამბები შეადგენენ.

ამ ყველაფრის წყალობით, MT-NLG თავის წინამორბედებთან შედარებით ბევრად ეფექტიანად ართმევს თავს ბუნებრივი ენის მთელ რიგ დავალებებს, როგორებიცაა ფრაზების ავტომატურად დასრულება, კითხვებზე პასუხის გაცემა, კითხვა და მსჯელობა. ყველა სიკეთესთან ერთად, მას მსგავსი დავალებების შესრულება თითქმის ნულოვანი ზუსტი რეგულირებით შეუძლია.

მოდელის გასაწვრთნელად მკვლევრებმა უდიდესი რაოდენობის მონაცემები გამოიყენეს, თუმცა მათ ვერ შეძლეს იმ სიტყვების ამოღება, რომლებიც წესით არ უნდა გამოეყენებინათ. მიღებული მონაცემებიდან MT-NLG ადვილად სწავლობს სტერეოტიპებსა და მიკერძოებულ მოსაზრებებს, აქედან გამომდინარე, სამწუხაროდ, მას შეუძლია შექმნას შეურაცხმყოფელი ტექსტი, რომელიც პოტენციურად რასისტული ან სექსისტურია.

Microsoft-ისა და Nvidia-ის მკვლევრები ამ საკითხთან გამკლავებას ცდილობენ. მიუხედავად იმისა, რომ ჯერ უცნობია, იქნება თუ არა იგი კომერციულად ხელმისაწვდომი, პრეს რელიზში მტკიცედაა აღნიშნული, რომ MT-NLG-ის გამოყენების შემთხვევაში საჭირო მექანიზმები გამართული, მომხმარებელზე შესაძლო ზიანი კი — შემცირებული უნდა იყოს.

"ხარისხი და შედეგები, რომლებიც დღეს მივიღეთ, წინ გადადგმული დიდი ნაბიჯია AI ბუნებრივი ენის სრული პოტენციალის გამოაშკარავებისკენ. DeepSpeed-ისა და Megatron-LM-ის ინოვაციები სარგებლიანი იქნება არსებული და მომავალი AI მოდელების განვითარებისთვის, დიდი AI მოდელების გაიაფებისთვის და მათი უფრო სწრაფად გაწვრთნისთვის", — წერია პრეს რელიზში.

თუ სტატიაში განხილული თემა და ტექნოლოგიების სფერო შენთვის საინტერესოა, შემოგვიერთდი ჯგუფში, სადაც ვლაპარაკობთ ტექნოლოგიებზე