4 Червня, 2026

OpenAI повертає лідерство: GPT-5.5 випередила Claude Opus 4.7 у ключовому бенчмарку Terminal-Bench 2.0

Компанія OpenAI представила GPT-5.5 — нову LLM-модель, орієнтовану на виконання складних багатоетапних завдань з мінімальним втручанням людини. Це перша повністю перенавчена базова модель з часів GPT-4.5.

Читайте также: Таємниці земних глибин. Вчені виявили масштабну деформацію мантії біля ядра планети

OpenAI позиціонує GPT-5.5 як «найрозумнішу й найінтуїтивнішу» LLM, яка може самостійно планувати завдання, використовувати інструменти, перевіряти проміжні результати й доводити справу до кінця без потреби контролювати кожен крок.

GPT-5.5 побудована та обслуговується на кластерах NVIDIA GB200 і GB300-NVL72, при цьому затримка на токен залишається на рівні GPT-5.4. Примітно, що GPT-5.5 сама допомагала оптимізувати власну інфраструктуру: зокрема, розробила евристику балансування навантаження, що підвищили швидкість генерації токенів на понад 20%.

Ключові покращення по напрямках

  • Кодування. На Terminal-Bench 2.0 модель набрала 82.7% — найвищий результат серед усіх публічно доступних моделей. На внутрішньому бенчмарку Expert-SWE, де задачі мають медіанний час виконання 20 годин людиною, GPT-5.5 перевершує попередника. SWE-Bench Pro — 58.6%, хоча Claude Opus 4.7 тут іще попереду з 64.3% (OpenAI зазначає можливу меморизацію в результатах Anthropic).
  • Робота з комп’ютером. На OSWorld-Verified — 78.7%, що вперше виводить флагманську модель OpenAI вперед Anthropic у повноцінному керуванні робочим столом.
  • Наукові дослідження. На BixBench (біоінформатика та аналіз даних) — найкращий результат серед моделей з опублікованими оцінками. Внутрішня версія GPT-5.5 знайшла новий доказ асимптотичного факту про позадіагональні числа Ремсі в комбінаториці, пізніше перевірений у Lean.
  • Знання. FinanceAgent — 60.0%, завдання інвестиційного банкінгу — 88.5%, OfficeQA Pro — 54.1%, GDPval (84 професії) — 84.9%.

«Модель демонструє суттєві покращення в науково-технічних дослідницьких робочих процесах і може реально допомогти науковцям просуватися вперед, зокрема у відкритті ліків», — пише Марк Чен, директор з досліджень OpenAI: 

БенчмаркGPT-5.5Claude Opus 4.7Gemini 3.1 ProНапрямок
Terminal-Bench 2.082.7% ★69.4%68.5%Кодування
SWE-Bench Pro58.6%64.3% ★GitHub issues
OSWorld-Verified78.7% ★78.0%Комп’ютерна робота
GDPval (84 професії)84.9% ★80.3%67.3%Економічна цінність
FrontierMath Tier 435.4% ★22.9%16.7%Складна математика
BrowseComp (Pro)90.1% ★85.9%Веб-пошук
CyberGym81.8%73.1%Mythos: 83.1%Кібербезпека
AA-Omniscience (галюцинації)86% ⚠36%50%Менше — краще
Artificial Analysis Index60 ★5757Загальний рейтинг

Слабкі сторони та застереження

Незважаючи на рекордні показники, компанія сама визнає ряд обмежень. Найсуттєвіше — рівень галюцинацій: 86% за незалежним бенчмарком AA-Omniscience (для порівняння: Claude Opus 4.7 — 36%). Модель демонструє найвищу точність (57%), але впевнено відповідає навіть тоді, коли помиляється — це критично для юридичних, фінансових та медичних застосувань.

На деяких тестах MRCR-v2 у діапазоні 16К–64К токенів GPT-5.5 дещо поступається GPT-5.4, хоча на довгих контекстах (до 1M) суттєво виграє. SWE-Bench Pro все ще за Claude Opus 4.7. Доступ через API затримується через вимоги безпеки — модель отримала класифікацію High за Preparedness Framework. Легітимні дослідники у сфері кібербезпеки мають реєструватися в програмі Trusted Access for Cyber.

Читайте также: Золото бронзової доби. На грецькому острові Егіна знайшли скарби віком 3500 років

Курс на «суперзастосунок» та конкуренція з Anthropic

Грег Брокман і Сем Альтман давно говорять про створення єдиного «суперзастосунку», що об’єднає ChatGPT, Codex і AI-браузер в одну платформу для бізнесу. GPT-5.5 — черговий крок у цьому напрямку. Головний науковець OpenAI Якуб Пахоцький зазначив, що компанія очікує «дуже значних покращень у середньостроковій перспективі», назвавши останні два роки «напрочуд повільними».

Наразі нова модель доступна в двох варіантах:

ПараметрGPT-5.5GPT-5.5 Pro
Дата випуску23 квітня 2026 (ChatGPT + Codex); API — незабаром
Тип моделіТекст + зображення; без нативного аудіо/відео на виході
Контекстне вікно1 000 000 токенів
Рівні зусиль (reasoning)non-reasoning / low / medium / high / xhigh
API — вхідні токени$5 / 1M$30 / 1M
API — вихідні токени$30 / 1M$180 / 1M
Batch / Flex50% від стандартної ціни
Priority2.5× від стандартної ціни
Codex Fast Mode1.5× швидше, 2.5× дорожче
Контекст у Codex400 000 токенів
Доступ у ChatGPTPlus, Pro, Business, EnterprisePro, Business, Enterprise
Доступ у CodexPlus, Pro, Business, Enterprise, Edu, Go
Апаратна платформаNVIDIA GB200 + GB300-NVL72
Рівень ризику (Preparedness)High — біологія/хімія та кібербезпека
Ефективність токенів~40% менше вихідних токенів проти GPT-5.4
Ідентифікатор у APIgpt-5.5gpt-5.5-pro

На жаль, для сторонніх розробників програмного забезпечення, доступ до API поки що недоступний ні для GPT-5.5, ні для GPT-5.5 Pro. Але компанія обіцяє додати цю опцію «дуже скоро».

Модель GPT-5.5 зараз можуть спробувати лише платні користувачі ChatGPT Plus ($20 на місяць), Pro ($100-200 на місяць), Business та Enterprise, причому доступ до GPT-5.5 Pro починається з рівня Pro і вище.

Нагадаємо, кілька днів тому OpenAI презентувала ChatGPT Images 2.0: візуальну модель, яка забезпечує прорив у генерації зображень.

Читайте также: Антонина Хижняк Бывший Муж Фото: Личная жизнь и карьера спортсменки

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Автор admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *