ნახეთ, რა ინფორმაცია იმალება თითოეული ჩვენგანის ხმაში და რატომაა ის ასეთი ღირებული

კომპანია Voicesense კლიენტებს ამბიციურ დაპირებას აძლევს: მოგვეცით ნებისმიერი ადამიანის საუბრის ჩანაწერი და ჩვენ გვეტყვით, თუ რას საქმიანობს ის.

ისრაელში დაფუძნებულ კომპანიას სატელეფონო ზარების რეალურ დროში გაანალიზება შეუძლია, იმის დასადგენად, თუ რამდენად არსებობს შანსი, რომ მომხმარებელი თქვენს მიერ შეთავაზებულ საბანკო სესხს, ან უფრო ძვირი პროდუქტის ყიდვას დათანხმდეს.

Voicesense მხოლოდ ერთ-ერთი კომპანიაა, რომელიც ჩვენს ხმაში "დაშიფრული" ინფორმაციის წაკითხვას ცდილობს. ბოლო რამდენიმე წლის განმავლობაში არაერთი სტარტაპი ჩამოყალიბდა, რომლებიც ჩვენს ხმაში არსებული დიდი რაოდენობის ინფორმაციის ღირებულებაზე საუბრობენ. აღსანიშნავია ისიც, რომ ჩვენ ყოველდღიურ ცხოვრებაში უფრო და უფრო ხშირად გვხვდება ისეთი ხმოვანი ასისტენტები, როგორიც არის, მაგალითად, Amazon-ის Alexa, ადამიანები ნელ-ნელა ასეთ მოწყობილობებთან საუბარს უფრო და უფრო ეჩვევიან.

ანალიტიკური კომპანია IdTechEx-ის ვარაუდით, 2029 წლისთვის ხმოვანი ტექნოლოგიების ბაზრის ღირებულება $15,5 მილიარდს მიაღწევს.

"ადამიანების თითქმის სრული უმრავლესობა საუბრობს და არსებობს მრავალი სხვადასხვა მოწყობილობა, რომელსაც ხმის ჩაწერა შეუძლია, იქნება ეს ტელეფონი, Alexa, თუ რაიმე სხვა. ხმოვანი ინფორმაცია ცხოვრების ყოველ ნაბიჯზე გვხვდება", - აცხადებს მასაჩუსეტსის ტექნოლოგიური ინსტიტუტის მაკგოვერნის სახელობის ტვინის კვლევითი ცენტრის მეცნიერი სატრაჯი გოში, რომელსაც მსგავსი ტექნოლოგიების გამოყენება ფსიქიკური ჯანმრთელობის სფეროში სურს.

გარდა იმისა, რომ ხმა "ყველგანმყოფია", ის ასევე პირადი და უნიკალურია, ხოლო მისი გაყალბება ძალიან რთულია.

აშკარაა, რომ ადამიანები მოწყობილობებს უფრო და უფრო ხშირად ესაუბრებიან. ხმოვან ასისტენტებს უფრო და უფრო ხშირად იყენებენ ისეთ სფეროებშიც, როგორიც არის, მაგალითად, საავადმყოფოები.

Maslo-ს მსგავს აპლიკაციებს კი ადამიანები დღიურების შესაქმნელად იყენებენ და მათთან პირად საკითხებზე გულწრფელად საუბრობენ.

ხმას ინფორმაციის წყაროდ ჯერჯერობით ცოტა ადამიანი აღიქვამს.

ადამიანების უმეტესობამ იცის, რომ ჩვენს ტვიტებს, ინსტაგრამის, ფეისბუქისა და სხვა ტიპის ინტერნეტ-აქტივობებს ჩვენი ინტერესებისა და სურვილების გამოსაცნობად სხვადასხვა კომპანია შეიძლება აკვირდებოდეს, თუმცა ხმას ინფორმაციის წყაროდ ჯერჯერობით ცოტა ადამიანი აღიქვამს.

ახლა კი მივდივართ იმ საინტერესო კვლევებამდე, რომლებშიც განხილულია, თუ როგორ შეიძლება იქნეს აღნიშნული ინფორმაცია გამოყენებული, რამდენად ზუსტია ხმის ანალიზით მიღებული დასკვნები და როგორ შეიძლება წაგვადგეს ეს ყველაფერი ყოველდღიურ ცხოვრებაში.

შეიძლება ფიქრობდეთ, რომ ხმის გაანალიზების პროცესში ყველაზე მთავარი ადამიანის მიერ წარმოთქმული სიტყვების მნიშვნელობაა, თუმცა ცდებით. ხმის გაანალიზებისას ყველაზე მთავარი არა ის არის, თუ რას ამბობს ადამიანი, არამედ ის, თუ როგორ ამბობს: ტონი, სიჩქარე, აქცენტები, პაუზები. აქ კი საქმეში ხელოვნური ინტელექტი, კერძოდ კი მანქანური დასწავლა ერთვება.

შეგვიძლია შევქმნათ ადამიანების ორი ჯგუფი, მაგალითად, ერთ-ერთ ჯგუფში მშფოთვარე და მღელვარე ადამიანები მოვახვედროთ, მეორეში კი ისინი, ვისაც ეს პრობლემა არ აწუხებს, შემდეგ მათი ხმები ჩავწეროთ, ჩანაწერები კი დასამუშავებლად ალგორითმს გადავცეთ. ამით ალგორითმი ხმაში იმ უმნიშვნელო დეტალებისა და ნიშნების ამოცნობას ისწავლის, რომლითაც შეიძლება დადგინდეს, თუ რომელ ჯგუფს მიეკუთვნება ამა თუ იმ ხმის მქონე ადამიანი. მთავარი კი ისაა, რომ სწავლის შემდეგ ალგორითმს იგივე პროცესის გამეორება ხმის ახალ ნიმუშებზეც შეუძლია.

კარნეგი-მელონის უნივერსიტეტის კომპიუტერული მეცნიერებების პროფესორი ლუის-ფილიპ მორენსის თქმით, რომელმაც ხმაში დეპრესიის ნიშნების ამოსაცნობად პროექტი SimSensei შექმნა, აცხადებს, რომ ალგორითმით მიღებული შედეგები ზოგჯერ შესაძლოა ალოგიკური იყოს. წინამორბედ კვლევებში, რომელთა ფარგლებშიც ორენსის გუნდი ადამიანების ხმით ცდილობდა გაერკვია, რამდენად მოსალოდნელი იყო, რომ მათ სუიციდი მეორედაც ეცადათ, აღმოაჩინეს, რომ ნაზი, ჰაეროვანი და რბილი ხმის მქონე ადამიანებს სუიციდის მეორედ ცდის უფრო მეტი რისკი ჰქონდათ.

თუმცა ეს მხოლოდ წინასწარი კვლევა იყო, კავშირები, როგორც წესი, ასეთი მარტივი არასდროს არის. მსგავსი დასკვნების გასაკეთებლად მახასიათებლის დიდი ჯგუფი და ჩანაწერში არსებული შეუმჩნეველი დეტალების აღქმაა საჭირო — დავალება, რომლის შესრულებაც მხოლოდ სპეციალიზირებულ ალგორითმებს შეუძლიათ.

მიუხედავად იმისა, რომ ტექნოლოგია შესაძლოა ჯერ დასახვეწი იყოს, მეცნიერებს უკვე აქვთ შექმნილი ალგორითმები, რომლებსაც ხმის გამოყენებით პარკინსონის დაავადებით დაწყებული პოსტტრავმატული სტრესული აშლილობით დამთავრებული ყველაფრის ამოცნობა შეუძლიათ.

მრავალი ადამიანი ამ ტექნოლოგიას ფსიქიკური ჯანმრთელობის კუთხით განიხილავს, მათ ეფექტური და მარტივი მეთოდის შექმნა სურთ, რომლითაც ფსიქიკური აშლილობის რისკის ქვეშ მყოფი ადამიანების მონიტორინგი და დახმარება იქნება შესაძლებელი.

ალგორითმებს ადამიანის ხმაში სხვადასხვა ფსიქიკური დარღვევების ამოცნობა წარმატებით შეუძლიათ.

ფსიქიკური პრობლემების მქონე ადამიანებს საავადმყოფოებში დეტალურად აკვირდებიან, თუმცა ბრიგჰემისა და ქალთა საავადმყოფოს ციფრული ჯანდაცვის პროგრამის ხელმძღვანელი დეივიდ ოჰერნი აცხადებს, რომ ფსიქიკური პრობლემები ადამიანებს ყოველდღიურ ცხოვრებაში ექმნებათ, ანუ მაშინ, როდესაც ისინი საავადმყოფოებში არ იმყოფებიან. ამ შემთხვევაში კი ძალიან სასარგებლო იქნებოდა ისეთი მეთოდის არსებობა, რომლითაც ადამიანების ფსიქიკურ მდგომარეობაზე დაკვირვებას მუდმივ რეჟიმში შევძლებდით. ახლა ბაზარზე არსებობს რამდენიმე კომპანია, რომლებიც მსგავსი პროდუქტის შექმნაზე მუშაობს. კვლევები მიუთითებს, რომ ალგორითმებს ადამიანის ხმით დეპრესიისა და პოსტტრავმატული სტრესული აშლილობის ამოცნობა წარმატებით შეუძლიათ.

ჯანდაცვა ამ ტექნოლოგიის გამოყენების მხოლოდ ერთ-ერთი მხარეა. ისეთი კომპანიები, როგორიც არის Voicesense, Callminer, Rankminer და Cogito გვპირდებიან, რომ ხმოვანი ანალიზის გამოყენება ბიზნეს კუთხითაც შეიძლება.

უმეტეს შემთხვევებში, ეს ტექნოლოგია ახლა უბრალოდ კლიენტთა მომსახურების განყოფილებებში გამოიყენება, თუმცა Voicesense-ს უფრო დიდი გეგმები აქვს.

"დღეს ჩვენ შეგვიძლია, რომ ხმის საშუალებით ადამიანის პიროვნებისა და ხასიათის სრული პროფილი შევქმნათ", - აცხადებს კომპანიის დამფუძნებელი იოავ დეგანი. თუმცა, მის კომპანიას სურს იწინასწარმეტყველოს, მაგალითად, შეძლებს თუ არა ადამიანი სესხის ყოველთიურად გადახდას, რამდენად პრეტენზიული იქნება მომხმარებელი სადაზღვევო კომპანიის მიმართ, აპირებს თუ არა თანამშრომელი სამსახურიდან წასვლას, სურს თუ არა მომხმარებელს პროდუქტის ყიდვა და ა.შ.

"ჩვენი შედეგები შემთხვევების ასივე პროცენტში სწორი არ არის, თუმცა ჩვენს ალგორითმს შემთხვევების საკმაოდ შთამბეჭდავ რაოდენობაში სწორ დასკვნამდე მივყავართ. ჩვენ შეგვიძლია ვიწინასწარმეტყველოთ ჯანმრთელობასთან, სამსახურთან და გართობასთან დაკავშირებული საკითხები, თანაც ეს კატეგორიების სრული სია არ არის", - აცხადებს დეგანი.

დეგანმა ერთი კვლევაც წარმოადგინა, რომელშიც Voicesense-მა ერთ-ერთ დიდ ევროპულ ბანკთან თანამშრომლობისას საკუთარი ტექნოლოგია გამოსცადა. ბანკმა კომპანიას რამდენიმე ათასი მოვალის ხმის ნიმუშები გადასცა. (ბანკმა იცოდა, მოცემულ სიაში ვის ჰქონდა ჰქონდა სესხის პირობები დარღვეული და ვის არა).

Voicesense-მა კი ეს ჩანაწერები ალგორითმით გააანალიზა და ჩანაწერები სამ კატეგორიად, დაბალი, საშუალო და მაღალი რისკის მქონედ დაყო. მიღებული შედეგების გაანალიზებისას აღმოჩნდა, რომ სესხის პირობები დაბალი რისკის ჯგუფში მოხვედრილი ადამიანების მხოლოდ ექვსმა პროცენტმა დაარღვია, შესადარებლად, მაღალი რისკის მქონე ადამიანების ჯგუფში სესხის პირობები 27-მა პროცენტმა დაარღვია.

მეორე შემთხვევაში კომპანიამ ხმის მიხედვით იწინასწარმეტყველა, რომელი თანამშრომელი წავიდოდა სამსახურიდან. შედეგებმა აჩვენა, რომ იმ ადამიანებიდან, რომლებიც კომპანიამ სამსახურიდან წასვლის დაბალი რისკის მქონე ჯგუფში მოახვედრა, ეს გადაწყვეტილება მხოლოდ 13-მა პროცენტმა მიიღო, შესადარებლად, Voicesense-ის მიერ მაღალი რისკის ჯგუფში მოხვედრილი თანამშრომლებიდან სამსახური თითქმის 40-მა პროცენტმა დატოვა.

ალგორითმი წამში ხმის 200 სხვადასხვა პარამეტრს აანალიზებს.

გოშის თქმით, ეს ვარაუდები მეტნაკლებლად დამაჯერებელია და მათში რაიმე დიდი ხარვეზი არ იკვეთება. თუმცა, მსგავსი ტექნოლოგიების გამოყენებისას მიღებული შედეგების გათვალისწინებისას ფრთხილად უნდა ვიყოთ. Voicesense-ის ალგორითმი ყოველ წამში ხმის 200 სხვადასხვა პარამეტრს აანალიზებს.

"ზოგადად, სანამ არ ვნახავ საბუთს, რომ ესა თუ ის მოსაზრება კონკრეტული რაოდენობის ადამიანებზე, განსაზღვრული მრავალფეროვნების პოპულაციაზე იყო შემოწმებული, რაიმე მოსაზრების ჭეშმარიტებად მიღებამდე თავს შევიკავებ. თუ ძალიან დიდი რაოდენობის ნიმუშებთან არ გვაქვს საქმე, ხმის მახასიათებლები შესაძლოა მნიშვნელოვნად განსხვავდებოდეს. სწორედ ამის გამო ამბიციური განცხადებებს ჯერ არ ვაკეთებთ. ალგორითმი ჯერ კიდევ ჩამოყალიბების პროცესშია, თუმცა დიდ ბანკებთან და სხვა კორპორაციებთან მოლაპარაკებებს უკვე ვაწარმოებთ. ამ ტექნოლოგიის პოტენციალით ყველა აღტაცებულია ", - აცხადებს გოში.

დრექსელის უნივერსიტეტის კრიმინოლოგიის პროფესორი რობერტ დ'ოვიდიო აცხადებს, რომ ეს ტექნოლოგია შეიძლება დისკრიმინაციული იყოს. წარმოიდგინეთ, თქვენ იპოთეკური სესხის აღებას ცდილობთ, ამ დროს კომპანიამ თქვენი ხმა შესაძლოა იმის გასარკვევად გამოიყენოს, გაქვთ თუ არა მიდრეკილება რაიმე დაავადებების მიმართ, დადებითი პასუხის შემთხვევაში კი თქვენთვის სესხის დამტკიცება შესაძლოა მაღალ რისკად ჩაითვალოს, რის გამოც უარს გეტყვიან.

"ვფიქრობ, რომ ჩვენ მალე მომხმარებელთა დაცვის ახალი კანონები გვექნება, რომელიც მსგავსი ტიპის ინფორმაციის მოპოვებასა და გამოყენებას დაარეგულირებს. ასევე ვიმედოვნებ, რომ ტექნოლოგიის დახვეწასთან ერთად ნელ-ნელა გავიაზრებთ, რომ ეს უბრალოდ ინფორმაციაა, ხოლო რა ფორმით იქნება ის მოცემული — ცხრილში ჩამოწერილი რიცხვებით, თუ ჩაწერილი ხმის ტემბრით, — მეორეხარისხოვანია. მომხმარებელთა დაცვის კუთხით კი ამ სფეროში მსურს, რომ მეტი აქტივობა და ინტერესი დავინახო. ყველაზე მინიმალური, რაც უნდა მოვითხოვოთ ისაა, რომ ვიცოდეთ, როდესაც მსგავსი ტექნოლოგია ჩვენთან მიმართებაში გამოიყენება ", - აცხადებს დ'ოვიდიო.

ვაშინგტონის უნივერსიტეტის პროფესორი რაიან კალო აცხადებს, რომ გარკვეული კანონები ამ საკითხთან დაკავშირებით უკვე არსებობს. ხმა ბიომეტრულ მახასიათებლად ითვლება, ხოლო ზოგიერთ შტატში, მაგალითად, ილინოისში, ეს საკითხი კანონით რეგულირდება.

რაიან კალო აცხადებს, რომ ისეთ სენსიტიურ საკითხებთან მიმართებაში, როგორიც არის რასა და სქესი, მიკერძოება მანქანური დასწავლისათვის დამახაიათებელი პრობლემაა. ანტიდისკრიმინაციული კანონები უკვე არსებობს, თუმცა როდესაც საქმე ხმოვანი ინფორმაციის დამუშავებას ეხება, ჩნდება მრავალი კითხვა იმის შესახებ, თუ როდის შეიძლება იქნეს ეს ინფორმაცია გამოყენებული და რა შეიძლება ჩაითვალოს დისკრიმინაციად, ამ საკითხებთან გასამკლავებლად საზოგადოება მზად აშკარად არ არის.

"და რა ხდება იმ შემთხვევაში, თუ ალგორითმი შეცდომას დაუშვებს?", - აცხადებს დ'ოვიდიო.