15 თებერვალს Google-მა Gemini 1.5 Pro წარადგინა — GenAI მოდელების Gemini ხაზის უახლესი წარმომადგენელი. იგი Gemini 1.0 Pro ვერსიას ჩაანაცვლებს. ამ უკანასკნელთან შედარებით უახლეს ვერსიას არაერთი უპირატესობა აქვს. განსაკუთრებით მნიშვნელოვანია ის, რომ Gemini 1.5 Pro-ს ბევრად დიდი მოცულობის მონაცემების დამუშავება შეუძლია.

უფრო ზუსტად, მას დაახლოებით 700 ათასი სიტყვა ანდა 30 ათასი მწკრივი კოდი შეგვიძლია მივაწოდოთ. ეს იმაზე 35-ჯერ მეტია, ვიდრე Gemini-ს წინა ვერსიას შეუძლია დაამუშაოს. მოდელის განახლებული ვერსია მულტიმოდალურია, ანუ მხოლოდ ტექსტით არ შემოიფარგლება. შეგვიძლია ისიც, რომ მას 11-საათიანი აუდიო ან ერთსაათიანი ქრონომეტრაჟის ვიდეო მივცეთ გასაანალიზებლად. იგი სხვადასხვა ენაზე მუშაობს.

ახლად წარდგენილი Gemini 1.5 Pro ერთ ჯერზე მხოლოდ 100 ათას სიტყვას უმკლავდება. მოდელი ჯერჯერობით მხოლოდ ექსპერიმენტულია, ანუ მის გამოცდას მხოლოდ დეველოპერთა გარკვეული ჯგუფი შეძლებს კომპანიის ხელსაწყოდან, AI Studio-დან.

ფოტო: Google

ორიოლ ვინიალსი, Google DeepMind-ის სპეციალისტი, ნაშრომს მნიშვნელოვან მიღწევად მიიჩნევს.

"როდესაც GenAI მოდელებთან ინტერაქციაში შედიხართ, თქვენ მიერ შეყვანილი და მიღებული ინფორმაცია კონტექსტი ხდება. რაც უფრო ხანგრძლივი და კომპლექსურია თქვენი კითხვები და ინტერაქცია, მით უფრო იზრდება კონტექსტიც, რომელსაც მოდელი უნდა გაუმკლავდეს", — განაცხადა ვინიალსმა გამართულ ბრიფინგზე — "ვრცელ კონტექსტებთან გამკლავების უნარი მნიშვნელოვნად გავაუმჯობესეთ".

კონტექსტის ფანჯარა

მოდელის კონტექსტი, იგივე კონტექსტის ფანჯარა, შეყვანილი მონაცემებია (მაგალითად, ტექსტი), რომელთაც მოდელი პასუხის გენერირებამდე (მაგალითად, დამატებითი ტექსტი) ამუშავებს. მაგალითად, კონტექსტი შეიძლება იყოს რაიმე შეკითხვა, ფილმის სცენარი, მეილი ანდა ელექტრონული წიგნი.

მოდელები, რომლებსაც კონტექსტის ფანჯარა პატარა აქვს, როგორც წესი, ახალი საუბრების შინაარსს მალევე ივიწყებს. შესაძლოა, გენერირებული პასუხები ამის გამო ზედმეტად არარელევანტური იყოს. დიდი კონტექსტის მქონე მოდელების შემთხვევაში ეს ასე ნაკლებად ხდება.

საგულისხმოა, რომ დიდი კონტექსტის ფანჯრის მქონე მოდელების შექმნა აქამდეც არაერთხელ უცდიათ.

გასულ წელს AI სტარტაპი Magic ამტკიცებდა, რომ დიდი ენის მოდელი (LLM) შექმნა, რომელსაც 5 მილიონტოკენიანი კონტექსტის ფანჯარა ჰქონდა. წარსულში გამოქვეყნებულა ორი [1, 2] ისეთი ნაშრომიც, რომლებშიც დეტალურადაა აღწერილი, როგორ შეიძლება კონტექსტის მილიონობით ტოკენამდე გაზრდა. ახლახან ისიც შევიტყვეთ, რომ მეცნიერებმა ტექნიკა შეიმუშავეს, რომელიც კონტექსტის ფანჯრის ზომის შეზღუდვას საერთოდ აქრობს.

ცნობისთვის, ტოკენები ნედლი მონაცემების დანაწევრებული ნაწილებია — მონაცემებიც დაახლოებით ისე იყოფა, როგორც სიტყვა ფან-ტას-ტი-კუ-რი იმარცვლება.

მეორე მხრივ, Google პირველი კომპანიაა, რომელიც ფართო საზოგადოებას სთავაზობს ამ მასშტაბის კონტექსტის ფანჯრის მქონე მოდელს. ამ მხრივ აქამდე Anthropic-ის 200 ათასტოკენიანი კონტექსტის ფანჯარა ლიდერობდა — თუ, რა თქმა უნდა, კომერციულად ხელმისაწვდომში გარკვეული ჯგუფისათვის სატესტოდ ჩვენებას მოვიაზრებთ.

ფოტო: Google

Gemini 1.5 Pro-ს მაქსიმალური კონტექსტის ფანჯარა ერთ მილიონ ტოკენს შეადგენს. მოდელის იმ ვერსიას, რომელიც ფართო საზოგადოებისთვის არის ხელმისაწვდომი, 128 ათასტოკენიანი კონტექსტის ფანჯარა აქვს, ანუ იგივე, რაც — OpenAI-ს GPT-4 Turbo-ს.

რა შეუძლია Gemini 1.5 Pro-ს

გუგლის მტკიცებით, მილიონტოკენიანი კონტექსტის ფანჯრით მოდელს არაერთი კომპლექსური მოქმედებს შესრულება შეუძლია: კოდის მთლიანი ბიბლიოთეკის გაანალიზება, ვრცელი დოკუმენტებისა თუ კონტრაქტების დამუშავება, ჩატბოტის მეშვეობით გრძელი საუბრების წარმოება და ვიდეოების შიგთავსის ანალიზი/შედარება.

ბრიფინგის მიმდინარეობისას კომპანიამ წინასწარ ჩაწერილი დემონსტრაციები წარადგინა. ისინი მილიონტოკენიანი კონტექსტის ფანჯრის მქონე Gemini 1.5 Pro-ს შესაძლებლობებს გვიჩვენებს.

პირველ ვიდეოში დემონსტრატორი Gemini 1.5 Pro-ს სთხოვს, რომ Apollo 11 მისიასთან დაკავშირებული გადაცემის ტრანსკრიპტში (რომელიც დაახლოებით 402 გვერდისგან შედგება) ხუმრობების შემცველი ციტატები მოიძიოს, შემდეგ კი გადაცემაში ისეთი სცენა მონახოს, რომელიც ფანქრის ჩანახატს წააგავს. მეორე შემთხვევაში დემონსტრატორი მოდელს მიუთითებს, რომ ერთ-ერთ ფილმში აღწერისა და სხვა ჩანახატის მიხედვით კონკრეტული სცენები მონახოს.

ფოტო: Google

Gemini 1.5 Pro-მ ყველა ქმედება წარმატებით შეასრულა, თუმცა იგი არც ისე სწრაფი ყოფილა. თითოეულ შემთხვევაში მას 20-იდან 60 წამამდე დასჭირდა. ეს იმაზე გაცილებით დიდი დროა, ვიდრე ChatGPT-ს საშუალოდ სჭირდება ხოლმე საპასუხოდ.

ვინიალს თუ დავუჯერებთ, მოდელი ჯერჯერობით მხოლოდ გამოცდის ფაზაშია და მის ოპტიმიზაციასთან ერთად დროის მაჩვენებელიც გაუმჯობესდება.

"ეს პრობლემები, ვიტყოდი, ნებისმიერ სხვა მოდელს აქვს", — ამბობს ის.

უნდა აღინიშნოს, რომ კომპანიის წარმომადგენელს არ უხსენებია, რა დროში ასრულებს მოდელი სხვა მოქმედებებს.

კომპანია უკვე ტესტავს Gemini 1.5 Pro-ს ისეთ ვერსიას, რომელსაც 10 მილიონტოკენიანი კონტექსტის ფანჯარა აქვს.

სხვა სიახლეების ზოგადი მიმოხილვა

კონტექსტის ფანჯრის გაფართოების გარდა, Gemini 1.5 Pro არაერთ სხვა სიახლეს გვპირდება.

Google ამტკიცებს, რომ ხარისხის თვალსაზრისით Gemini 1.5 Pro არ ჩამოუვარდება Gemini Ultra-ს (გუგლის საფლაგმანო GenAI მოდელი) არსებულ ვერსიას. ეს ახალი არქიტექტურის წყალობით, რომელიც სპეციალურ ფუნქციებზე გათვლილ უფრო პატარა "ექსპერტ" მოდელებს აერთიანებს. Gemini 1.5 Pro მოქმედებებს შედარებით პატარა მოქმედებებად ანაწევრებს, შემდეგ კი მათ შესაბამის ექსპერტებს აწვდის. იგი თავისივე პროგნოზებით საზღვრავს, თუ რომელი მოქმედება სად უნდა "გადაამისამართოს".

მსგავსი მიდგომა უკვე რამდენიმე წელია არსებობს და არც ისე ახალია. ეფექტიანობიდან და მოქნილობიდან გამომდინარე მას მოდელის შემსყიდველები აქტიურად ირჩევენ.

დაზუსტებით ვერ ვიტყვით, რა იგულისხმება ხარისხის მსგავსებაში — GenAI მოდელების, მით უმეტეს მულტიმოდალური მოდელების, შეფასება არც ისე მარტივია, განსაკუთრებით მაშინ, როდესაც ისინი ყველასათვის არ არის ხელმისაწვდომი. გუგლს თუ დავუჯერებთ, იმ სტანდარტებით, რომლებსაც ენის მოდელების შექმნისას იყენებენ, Gemini 1.5 Pro დაახლოებით Ultra-ს მსგავსად მუშაობს და მნიშვნელოვნად უსწრებს Gemini 1.0 Pro-ს.

კომპანიის განცხადებით, ტესტირების ფარგლებში Gemini 1.5 Pro-ს გამოყენება უფასო იქნება. მეორე მხრივ, კომპანია მალე სპეციალურ ფასებს შემოიღებს. კონტექსტის ფანჯრის სტანდარტული ვერსია 128 ათასი ტოკენიდან დაიწყება და მილიონამდე ავა.

Google-ის წარმომადგენელს ბრიფინგზე ფასის შესახებ არ უსაუბრია, თუმცა შეგვიძლია ვივარაუდოთ, რომ მასშტაბური კონტექსტის ფანჯარა იაფი ნამდვილად არ იქნება. თუკი Anthropic-ის ფასებით ვიმსჯელებთ, შესაძლოა, თითო მილიონ ბრძანებაზე იგი $8 ღირდეს, მილიონ გენერირებულ ტოკენზე კი — $24.

საინტერესოა ისიც, თუ როგორ განაახლებენ Gemini ოჯახის სხვა მოდელებს, თუნდაც Gemini Ultra-ს. Ultra-საც ისეთივე ფუნქციები დაემატება, როგორებიც Pro-ს თუ მუდმივად იქნება ისეთი პერიოდი, როდესაც Pro მოდელები გაუსწრებს Ultra-ს? გუგლის მარკეტინგის მიხედვით, ეს უკანასკნელი Gemini ხაზის საუკეთესო მოდელია...

უპასუხო კითხვა მართლაც ბევრია, ამასობაში კი ისღა დაგვრჩენია, მოვლენების განვითარებას მივადევნოთ თვალი. ცნობისთვის, Google-ის სიახლეების საპასუხოდ კონკურენტი კომპანიებიც აქტიურობენ.

OpenAI-მ, ჩატბოტ ChatGPT-ს შემქმნელმა კომპანიამ, ვიდეოების AI გენერატორი გამოუშვა, რომელსაც ბრძანების მიხედვით ერთ წუთამდე ქრონომეტრაჟის მქონე ვიდეოების შექმნა შეუძლია.

იხილეთ: გაიცანით Sora, OpenAI-ს ახალი მოდელი, რომელიც ვიდეოს ტექსტური აღწერის მიხედვით ქმნის

მაშასადამე, თამამად შეიძლება ითქვას, რომ ტექგიგანტების ამგვარი კონკურენცია სამომავლოდ არაერთ საინტერესო სიახლეს გვიმზადებს.

თუ სტატიაში განხილული თემა და ტექნოლოგიების სფერო შენთვის საინტერესოა, შემოგვიერთდი ჯგუფში, სადაც ვლაპარაკობთ ტექნოლოგიებზე.