Microsoft-ის ახალ ხელოვნურ ინტელექტს ჩვენი ხმის იმიტაციისთვის სამწამიანი საუბრის მოსმენაც ჰყოფნის
მიუხედავად იმისა, თუ რამდენად შორს წავიდა ხელოვნური ინტელექტით ვიდეოს შექმნის ტექნოლოგიები, მას ჯერ მაინც სჭირდება გარკვეული მასალის, სხვადასხვა მხრიდან გადაღებული ფოტოებისა და ვიდეოების მიწოდება, რათა სრულყოფილი გამოსახულება, Deepfake-შექმნას. როცა საქმე ხმის გაყალბებას ეხება, საქმე ბევრად მარტივადაა, რადგან Microsoft-მა წარადგინა ხელოვნური ინტელექტი, რომელსაც თქვენი ხმის ზუსტი ანალოგის შექმნა სამწამიანი საუბრის მოსმენით შეუძლია.
ახალი ტექნოლოგია, სახელწოდებით VALL-E, Meta-ს მიერ გასულ წელს გამოშვებულ EnCodec-ის ხმის შეკუმშვის სისტემაზეა აგებული, რომელიც ცუკერბერგის კომპანიამ მობილურის ზარების ხარისხის გასაუმჯობესებლად შექმნა. Microsoft-მა სისტემას გამოყენების განსხვავებული გზა მოუძებნა და მას ტექსტი-საუბრის სინთეზის ხარისხის გასაუმჯობესებლად იყენებს.
ტექსტის აუდიოჩანაწერად გადაქცევის თანამედროვე სისტემები საკმაოდ განვითარებულია და მაღალი ხარისხის კონტენტს ქმნის, თუმცა ამისათვის მას ასევე მაღალი ხარისხის აუდიომასალა სჭირდება. რაც შეეხება VALL-E-ს, ის ხმის ჩამწერ სტუდიაში საათობით ყოფნის ნაცვლად, ნებისმიერ საშუალო ხარისხის ჩანაწერს პროფესიონალური იმიტაციის შესაქმნელად გამოიყენებს. ხელოვნური ინტელექტი Meta-ს მონაცემთა ბაზას იყენებს, რომელშიც ინგლისურ ენაზე 7000 ადამიანის მიერ ჩაწერილი ტექსტების ჯამური დრო 60000 საათია.
Microsoft-მა VALL-E-ით შექმნილი აუდიოჩანაწერები გაასაჯაროვა და მისი საკუთარი ყურით მოსმენაც შეგვიძლია. ფაქტია, კონცეპტი ძალიან მძლავრი და საინტერესოა, თუმცა მცირე პრობლემები მაინც აქვს. მაგალითად, ჯერჯერობით აქცენტების იმიტირება არ შეუძლია, რაც ირლანდიური აქცენტის შემთხვევაში ყველაზე შესამჩნევია. თუმცა უფრო ხშირად ეს ჩანაწერები ბუნებრივია და მისი გარჩევა რეალური ადამიანის ხმისგან ძალიან რთულია.
ამ ეტაპზე VALL-E უნაკლო არ არის და ხმის იმიტაცია მხოლოდ ინგლისურ ენაზე შეუძლია, თუმცა ეჭვი არ უნდა შეგვეპაროს იმაში, რომ ის დროთა განმავლობაში დაიხვეწება. შემქმნელები მისგან მომდინარე რისკებსაც (თაღლითობა, გაყალბება და ა.შ) აბსოლუტურად აცნობიერებენ და მუშაობენ ინსტრუმენტზე, რომელიც ხელოვნური ინტელექტით შექმნილ აუდიოჩანაწერს მარტივად ამოიცნობს.
კომენტარები