Google-ის ახალი ხელოვნური ინტელექტი ფოტოდან ხმით კონტროლირებად ავატარს ქმნის
კომპანია Google ხელოვნურ ინტელექტზე საკმაოდ აქტიურად მუშაობს და ახლებურ მოდელებსა თუ იდეებს განიხილავს. ამის უკანასკნელი მაგალითი მისი AI სისტემაა, რომელსაც VLOGGER ეწოდება.
ის საშუალებას იძლევა, რომ მხოლოდ ფოტოს საშუალებით ადამიანმა საკუთარი რეალისტური, მოძრავი, ავატარი შექმნას, რომელსაც ხმით გააკონტროლებს. მომხმარებლებს ჯერჯერობით VLOGGER-ის სარგებლობა არ შეუძლიათ, რადგან დღესდღეობით ის ერთგვარი კვლევითი პროექტის სახით არსებობს.
ამის მიუხედავად, დემო ვიდეოები, რომლებიც კომპანიამ გამოაქვეყნა, წარმოდგენას გვიქმნის, რას უნდა ველოდოთ. არაა გამორიცხული, რომ როცა VLOGGER უკვე ნამდვილ და ხელმისაწვდომ პროდუქტად გადაიქცევა, მას Teams-ისა და Slack-ის მსგავს პლატფორმებზე საკომუნიკაციოდ აქტიურად გამოიყენებენ.
მომხმარებელი უძრავი ფოტოს მიხედვით შექმნილ ავატარს უკვე საკუთარი ხმით აამეტყველებს. ამ პროცესში "ციფრული ორეული" პირს, თავსა და თვალებს აამოძრავებს, სახის გამომეტყველებას შეიცვლის და ხელის ჟესტებსაც დაიხმარს. მნიშვნელოვანია, რომ ამას ის კონკრეტული ბრძანებების ან დამატებითი მონაცემების გარეშე გააკეთებს.
ეს AI სისტემა დიფუზიურ ტექნოლოგიას იყენებს, რომელზეც ტექსტიდან სურათების მაგენერირებელი და სამგანზომილებიანი მოდელებიც კია დამყარებული. ასეთია, მაგალითად, MidJourney და Runway, მაგრამ VLOGGER-ს დამატებითი საკონტროლო მექანიზმებიც აქვს.
მის მიერ ავატარის შექმნა რამდენიმე ეტაპს მოიცავს. პირველ რიგში, ვიზუალურ და აუდიო მონაცემს იყენებს და სამგანზომილებიანი გენერაციის პროცესს იწყებს. შემდეგ ე.წ. ტემპორალური დიფუზიის მოდელის დახმარებით მოძრაობის შესაბამის დროით ინტერვალებს ადგენს, ბოლოს კი მიღებული ვიდეოს ხარისხი უმჯობესდება და საბოლოო შედეგი მიიღება.
სახის, თვალებისა თუ სხეულის პოზიციის წარმოსაჩენად სისტემა ხელოვნურ ნეირონულ ქსელს იყენებს, რომლისთვისაც ფოტო პირველი საყრდენი კადრია, აუდიო კი შემდგომი კადრების გენერირებას უწყობს ხელს. VLOGGER-ის გაწვრთნას მულტიმედია მონაცემების დიდი ბაზა დასჭირდა, რომელსაც MENTOR ეწოდება. მასში სხვადასხვა ადამიანის საუბრის ამსახველი 800 000 ვიდეოა გაერთიანებული, რომელთა ყოველ კადრშიც ამ ინდივიდების სახისა თუ ტანის თითოეული ნაწილის მდგომარეობაა გაანალიზებული.
რა თქმა უნდა, ავატარის რეალისტურობის მიუხედავად, ის შესაძლოა, ადამიანის ნამდვილ მოძრაობებსა თუ მიმიკებს იდეალურად ვერ იმეორებდეს. სპეციალისტები ამბობენ, რომ ეს ხელოვნური ინტელექტი ჯერჯერობით მხოლოდ მოკლე ვიდეოებს აგენერირებს და რთული მოძრაობები ან მრავალფეროვანი გარემო მისთვის ჯერ კიდევ გარკვეულ დაბრკოლებას ქმნის.
შესაძლებელია, VLOGGER-ის საშუალებით ერთ ენაზე მორგებული ვიდეოდან სულ სხვა ენაზე მოსაუბრე ავატარი შევქმნათ. ასევე, ავატარებად ვაქციოთ ვირტუალური ასისტენტები, ჩატბოტები ან ვიდეოთამაშის პერსონაჟები. მართალია, ასეთი სისტემები უკვე არსებობს, მაგრამ VLOGGER უფრო მარტივად მუშაობს.
კომენტარები