2016 წელს, Alphabet-ის DeepMind-მა ხელოვნური ინტელექტი, სახელად AlphaGo წარადგინა, რომელმაც თამაშ Go-ში მის საუკეთესო მოთამაშეებს მოუგო. მომავალ წელს კი გამოჩნდა AlphaGo Zero, რომელიც წინამორბედისგან იმით განსხვავდებოდა, რომ საკუთარ თავთან თამაშით სწავლობდა. ანუ, თუ AlphaGo-მ თამაში პროფესიონალი მოთამაშეების მატჩებზე დაყრდნობით ისწავლა, AlphaGo Zero-მ უძველეს თამაშებში საკუთარი თავი საკუთარ თავთან თამაშის შედეგად გაწვრთნა. მოგვიანებით, DeepMind-მა შექმნა AlphaZero, რომელსაც Go-ს, ჭადრაკისა და შოგის (იაპონური ჭადრაკი) თამაში ერთიდაიგივე ალგორითმის გამოყენებით შეეძლო. ზემოხსენებულ ყველა ალგორითმს ერთი რამ აერთიანებდა — მათ წინასწარ ასწავლეს ამა თუ იმ თამაშის წესები, სანამ მათ გაწვრთნას დაიწყებდნენ.

DeepMind-ის უახლეს ხელოვნურ ინტელექტს კი, სახელად MuZero, ამ წესების წინასწარ სწავლება არ სჭირდება, რადგან მან ყველა ასეთი თამაშის წესები თვითონ, თამაშის პროცესში ისწავლა. ეს (და არამხოლოდ ეს) ამ ალგორითმს წინამორბედებთან შედარებით დიდ უპირატესობას ანიჭებს.

მკვლევართა გუნდის მიერ ჟურნალ Nature-ში გამოქვეყნებულ ნაშრომზე დაყრდნობით, MuZero-მ state-of-the-art პერფორმანსს მიაღწია. ეს კი Atari-ს თამაშში მოახერხა, რომელიც წარმოადგენს ვიდეოთამაშს ხელოვნური ინტელექტის ტექნიკების დასატესტად. რაც შეეხება სხვა თამაშებს, როგორც ნაშრომშია აღნიშნული, კანონიკურ გარემოებებში, რომლებიც ალგორითმის სტრატეგიული დაგეგმვის უნარს აჩვენებს, MuZero-მ Go-ს, ჭადრაკსა და შოგის ისე გაართვა თავი, რომ ამ თამაშების დინამიკისა თუ წესების შესახებ ინფორმაცია (მონაცემები) არ ჰქონდა.

ისეთი ალგორითმის შექმნა, რომელსაც შეუძლია მისთვის უცნობ სიტუაციებში, უცნობი წესების მოქმედების პირობებში ადაპტირდეს, საკმაო ხანია მკვლევრების გამოწვევას წარმოადგენს. DeepMind ამ გამოწვევის დაძლევას დიდი ხანია ცდილობს, lookahead search-ის სახელით ცნობილი მიდგომის დახმარებით. ამ მიდგომით, ალგორითმი განიხილავს მომავალ შესაძლო მოქმედებებს და ამის მიხედვით გეგმავს, თუ როგორ მოიქცეს.

სხვა ალგორითმებისგან განსხვავებით, იმის ნაცვლად, რომ ყველა მოქმედების წინასწარი მოდელირებით დაკავდეს, MuZero მხოლოდ იმ ფაქტორებზე ახერხებს კონცენტრაციას, რომელიც გადაწყვეტილების მიღებისთვისაა მნიშვნელოვანი. როგორც DeepMind აღნიშნავს, ეს ის მიდგომაა, რომელიც ადამიანებს გვახასიათებს. მაგალითად, ადამიანთა უმეტესობა, როცა ფანჯრიდან ვიყურებით და გარეთ ღრუბლიან ამინდს ვხედავთ, არ ვფიქრობთ კონდენსაციასა და წნევაზე. ამის ნაცვლად, უფრო პრაქტიკული ნაწილისკენ მივმართავთ ჩვენს ფიქრებს, მაგალითად, იმისკენ, თუ როგორ ჩავიცვათ კონკრეტულ დღეს, რათა გარეთ გადაადგილებისას არ შეგვცივდეს, ან არ დავსველდეთ. MuZero-საც მსგავსი პრაქტიკული აქცენტები ახასიათებს.

ის ითვალისწინებს 3 ფაქტორს გადაწყვეტილების მიღებისას — წინა გადაწყვეტილებას, მიმდინარე სიტუაციას/პოზიციას და მომავლის საუკეთესო სვლას. ეს კი MuZero-ს საუკეთესო ალგორითმად აქცევს, რაც კი DeepMind-ს აქამდე შეუქმნია. თუ გავითვალისწინებთ იმასაც, რომ ალგორითმმა ცდებისას ნაჩვენები შედეგებით ყველა წინამორბედს აჯობა, ეს წინადადება კიდევ უფრო მართებულად შეგვიძლია ჩავთვალოთ.

ფოტო: MuZero-ს შეედეგები წინამორბედ ალგორითმებთან შედარებით

მიუხედავად ექსპერიმენტში ნაჩვენები შთამბეჭდავი შედეგებისა, მაინც აქტუალურია კითხვა, თუ რამდენად პრაქტიკული იქნება DeepMind-ის უახლესი ალგორითმი რეალურ გამოწვევებთან გასამკლავებლად. ჯერჯერობით, ისეთ სამყაროში არ ვცხოვრობთ, სადაც მსგავსი ალგორითმები არიან ინტეგრირებული, თუმცა, მისი დასწავლის შესაძლებლობები მომავალში ძალიან გამოსადეგი შეიძლება იყოს. მათ შორის, ისეთ სფეროებში, როგორიცაა რობოტიკა ან სხვა ნებისმიერი მიმართულება, სადაც წესები წინასწარ ნაკლებადაა გაწერილი.