ტექსტი, კოდი, აუდიო, ფოტო და ვიდეო — ყველაფერი, რაც Google-ის რევოლუციურ AI მოდელზე უნდა ვიცოდეთ

Google-ის აღმასრულებელი დირექტორის, სუნდარ პიჩაის თქმით, Gemini ხელოვნური ინტელექტის ახალ ეპოქას დაუდებს სათავეს.

ალბათ, რამდენიმე წლის წინ ვერ წარმოვიდგენდით, რომ ჩვენს მთავარ ციფრულ ასისტენტებად ჩატბოტები იქცეოდნენ. დღეს ბევრი ჩვენგანის ყოველდღიური ცხოვრება, სამსახური, შემეცნების პროცესი, რუტინული აქტივობები ChatGPT-ის გარეშე წარმოუდგენელია.

ხელოვნური ინტელექტის ბუმის დასაწყისში ყველას წარმოედგინა, რომ პროცესების სათავეში ისეთი ტექნოლოგიური გიგანტები იდგებოდნენ, როგორებიც Google, Apple, Microsoft და ა.შ არიან, თუმცა, მოულოდნელად, მთავარ როლში OpenAI წარმოგვიდგა თავისი პროდუქტით, რომელიც ბოლო ერთი წლის განმავლობაში, ამ სფეროში ნამდვილად მთავარი სიახლეა.

მიუხედავად ამისა, რა თქმა უნდა, AI რბოლას სფეროს წამყვანი კომპანიები არ გამოეთიშებიან, რისი მაგალითიც Google-ის ახალი პროდუქტი, Gemini-ია, რომელზეც ამ სტატიაში ვისაუბრებთ.

რა არის Google Gemini?

Gemini ახალი და მძლავრი ხელოვნური ინტელექტის მოდელია, რომელიც არა მხოლოდ ტექსტით მიღებულ მასალას, არამედ ფოტოებს, ვიდეოებსა და ხმოვან ჩანაწერსაც აანალიზებს. როგორც მრავალმხრივ მოდელს, მას შეუძლია ამოხსნას რთული თავსატეხები მათემატიკაში, ფიზიკასა და სხვა სფეროებში, ისევე როგორც გაიგოს და დააგენერიროს მაღალი ხარისხის კოდი პროგრამირების სხვადასხვა ენაზე.

ასევე იხილეთ: Google-მა წარადგინა ხელოვნური ინტელექტი, რომელსაც დიდხანს ველოდით

"Gemini Google-ის გუნდების, მათ შორის Google Research-იდან ჩვენი კოლეგების, ფართომასშტაბიანი ერთობლივი შრომის შედეგია. მისი შენება ნულიდან დავიწყეთ რათა ყოფილიყო მულტიმოდალური, რაც ნიშნავს, რომ მას შეუძლია გაიგოს, დაამუშაოს და შეკრიბოს სხვადასხვა სახის ინფორმაცია, მათ შორის ტექსტი, კოდი, აუდიო, ფოტო და ვიდეო", — განაცხადა დენის ჰასაბისმა, Google DeepMind-ის აღმასრულებელმა დირექტორმა და თანადამფუძნებელმა.

Google-ის აღმასრულებელი დირექტორის, სუნდარ პიჩაის თქმით, Gemini ხელოვნური ინტელექტის ახალ ეპოქას დაუდებს სათავეს. ის არ იქნება მხოლოდ განცალკევებით მდგომი ჩატბოტი, არამედ კომპანიის ყველა პროდუქტის გაუმჯობესებაში მიიღებს მონაწილეობას.

ძალიან საინტერესო სიახლეა Gemini Nano, რომელიც Android მოწყობილობებზე ინტერნეტის გარეშე იმუშავებს. რაც შეეხება Gemini Pro-ს, ის ბევრად მრავალმხრივი იქნება და Google-ის არაერთი პროდუქტის მომსახურებას მცირე ხანში დაიწყებს. არსებობს Gemini Ultra ვერსიაც, რომელიც Google-ის მიერ დღემდე შექმნილი ყველაზე ძლიერი LLM-ია (Large Language Model) და, როგორც ჩანს, განკუთვნილი იქნება მონაცემთა ცენტრებისა და კორპორატიული აპლიკაციებისთვის.

Google მოდელს რამდენიმე კუთხით უკვე იყენებს: მაგალითად, Bard უკვე აღჭურვილია Gemini Pro-ით, ხოლო Pixel 8 Pro-ს მომხმარებლები მალე Gemini Nano-ს დამსახურებით სიახლეებს მიიღებენ. დეველოპერები Gemini Pro-ს გამოყენებას Google Generative AI Studio-ს ან Vertex AI-ის საშუალებით შეძლებენ. რაც შეეხება Gemini Ultra-ს, ის მომავალ წლამდე არ იქნება ხელმისაწვდომი.

ჯერჯერობით Gemini მხოლოდ ინგლისურ ენაზეა ხელმისაწვდომი, ხოლო სხვა ენები თანდათან დაემატება. პიჩაის თქმით, საბოლოო მიზანი მოდელის საძიებო სისტემასა და Chrome-ში ჩაშენებაა.

მნიშვნელოვანი კითხვაა, შეუძლია თუ არა Gemini-ს, კონკურენცია გაუწიოს GPT-4-ს? ფაქტია, ეს Google-ისათვის მნიშვნელოვანი ასპექტია. ჰასაბისის თქმით, მათ ეს ორი მოდელი ერთმანეთს 32 სხვადასხვა ასპექტში შეადარეს, რომელთაგან 30-შიც Gemini-მ გაიმარჯვა. უნდა დავაზუსტოთ ის, რომ Google-ის მოდელის უპირატესობას, ამ შემთხვევაში, დიდწილად ვიდეოსა და აუდიო მასალასთან მუშაობის შესაძლებლობა ქმნის. ეს მულტიმოდალურობაა, რომელის პროექტის ნაწილი თავიდანვე იყო. Google-ის გუნდს არ გაუწრთვნია ცალკეული მოდელები ფოტოებისა და ხმისთვის, როგორც ეს OpenAI-მ გააკეთა DALL-E-სა და Whisper-ის შემთხვევაში, Gemini თავიდანვე ერთიან მოდელად იყო ჩაფიქრებული.

რასაკვირველია, მსგავსი შედარებები მნიშვნელოვანია, თუმცა ახალ მოდელს ნამდვილი გამოცდა მოხმარებაში საბოლოოდ ჩაშვების შემდეგ ელოდება, როცა მომხმარებელი მას ყოველდღიურ ცხოვრებაში ინფორმაციის მოსაპოვებლად, კოდის საწერად, იდეების დასაგენერირებლად და სხვა მიზნების მისაღწევად გამოიყენებს, რომელთაც ChatGPT თავს იდეალურად ართმევს. როგორც ჩანს, Google კოდის წერის უნარებზე დიდ იმედებს ამყარებს, რადგან Gemini იყენებს კოდის დასაგენერირებელ ახალ სისტემას, AlphaCode 2-ს, რომელიც, კომპანიის მტკიცებით, კოდის წერის შეჯიბრის მონაწილეთა 85%-ზე უკეთეს შედეგს აჩვენებს, რაც წინა მოდელთან შედარებით 35%-იანი ზრდაა.

პიჩაისა და ჰასაბისს თუ ვენდობით, ნათელია, რომ ისინი Gemini-ს გაშვებას ხედავენ როგორც ახალი, უფრო დიდი პროექტის დასაწყისს, ისევე როგორც ცვლილებისკენ გადადგმულ მორიგ ნაბიჯს.

Gemini მოდელია, რომელსაც კომპანია ელოდებოდა მას შემდეგ, რაც ChatGPT-ის გამოჩენამ "წითელი კოდის" ამუშავება აიძულა. ჩვენ კი ისღა დაგვრჩენია, დაველოდოთ ტექნოლოგიური ინოვაციების ერთ-ერთი უდიდესი შემოქმედისა და ახალგაზრდა OpenAI-ის ჭიდილს; თუმცა რიგითი მომხმარებლისთვის მეორეხარისხოვანია, ვის დარჩება გამარჯვება. ხელოვნური ინტელექტის მომავალი ამ დაპირისპირებით მხოლოდ იხეირებს.