ChatGPT-ს შემქმნელმა კომპანიამ უახლესი მოდელი გამოუშვა — რა გაუმჯობესდა GPT-5.4-ით
ფოტო: Techlusive
5 მარტს OpenAI-მ, ChatGPT-ს შემქმნელმა კომპანიამ, ხელოვნური ინტელექტის (AI) ახალი მოდელი გამოუშვა. ესაა GPT-5.4, რომელსაც კომპანია პროფესიული საქმიანობისთვის თავის "ყველაზე უნარიან და ეფექტიან მოწინავე მოდელს" უწოდებს.
სტანდარტული ვერსიის გარდა, ხელმისაწვდომია მოდელის სააზროვნო (GPT-5.4 Thinking) და მაღალ წარმადობაზე ორიენტირებული (GPT-5.4 Pro) ვერსიები.
მოდელის API ვერსიას მილიონ ტოკენამდე მოცულობის კონტექსტური ფანჯარა ექნება, რაც OpenAI-ს ისტორიაში ყველაზე მაღალი მაჩვენებელია. კომპანიამ ხაზგასმით აღნიშნა ისიც, რომ ტოკენებს მოდელი უფრო ეფექტიანად გამოიყენებს, ანუ GPT-5.4 იმავე ამოცანებს წინამორბედზე გაცილებით ნაკლები ტოკენით შეასრულებს.
ახალმა მოდელმა სპეციალურ ტესტებში შედეგები მნიშვნელოვნად გააუმჯობესა, მათ შორის — რეკორდული ქულები მიიღო პლატფორმებზე OSWorld-Verified და WebArena Verified. მოდელმა ასევე რეკორდული 83% დააგროვა OpenAI-ს GDPval ტესტში, რომელიც ცოდნაზე დამყარებულ შრომით ამოცანებს აფასებს.
გარდა ამისა, GPT-5.4 მოდელი Mercor-ის APEX-Agents რეიტინგში ლიდერობს; ეს უკანასკნელი იურიდიულ და ფინანსურ სფეროებში პროფესიული უნარების შესამოწმებლად შეიქმნა.
Mercor-ის აღმასრულებელი დირექტორის, ბრენდან ფუდის, განცხადებით:
"GPT-5.4 ბრწყინვალედ ასრულებს კომპლექსურ დავალებებს, იქნება ეს პრეზენტაციების მომზადება, ფინანსური მოდელირება თუ იურიდიული ანალიზი. იგი მოწინავე შედეგებს აჩვენებს, თანაც უფრო სწრაფად და ნაკლები დანახარჯით მუშაობს, ვიდრე კონკურენტი მოდელები".
კომპანია GPT-5.4 მოდელის ჭრილშიც ცდილობს, ჰალუცინაციები და ფაქტობრივი შეცდომები შეამციროს. OpenAI-ს განცხადებით, ახალი მოდელი ცალკეულ მტკიცებებში 33%-ით იშვიათად უშვებს შეცდომებს GPT 5.2 მოდელთან შედარებით; მთლიან პასუხებში ხარვეზების ალბათობა 18%-ით შემცირდა.
საგულისხმოა, რომ GPT-5.4-ის API-ში სპეციალური ინსტრუმენტი Tool Search არის ჩაშენებული, რომელიც მოდელებს საშუალებას აძლევს, ინსტრუმენტის განმარტებები საჭიროებისამებრ მოძებნოს, ნაცვლად მათი წინასწარ ჩატვირთვისა. ეს ტოკენების მოხმარებასა და, შესაბამისად, ხარჯებსაც ამცირებს ასეთი კომპლექსური სისტემებისთვის.
განახლების ფარგლებში მოდელს უსაფრთხოების ახალი ტესტიც დაემატა ე. წ. აზროვნების ჯაჭვის შესამოწმებლად. ზოგიერთმა მოდელმა შეიძლება საკუთარი ლოგიკა არასწორად გამოამჟღავნოს (ანუ სხვა "იფიქროს" და სხვა გვიპასუხოს), თუმცა ტესტებმა აჩვენა, რომ ამის ალბათობა GPT-5.4-ის სააზროვნო რეჟიმში დაბალია. გამოდის, მოდელი თავისი მსჯელობის პროცესს მარტივად ვერ დამალავს, მისი მონიტორინგი კი უსაფრთხოების კვლავაც ეფექტიანი ბერკეტი იქნება.
კომენტარები