OpenAI повертає лідерство: GPT-5.5 випередила Claude Opus 4.7 у ключовому бенчмарку Terminal-Bench 2.0

Компанія OpenAI представила GPT-5.5 — нову LLM-модель, орієнтовану на виконання складних багатоетапних завдань з мінімальним втручанням людини. Це перша повністю перенавчена базова модель з часів GPT-4.5.

OpenAI позиціонує GPT-5.5 як «найрозумнішу й найінтуїтивнішу» LLM, яка може самостійно планувати завдання, використовувати інструменти, перевіряти проміжні результати й доводити справу до кінця без потреби контролювати кожен крок.

GPT-5.5 побудована та обслуговується на кластерах NVIDIA GB200 і GB300-NVL72, при цьому затримка на токен залишається на рівні GPT-5.4. Примітно, що GPT-5.5 сама допомагала оптимізувати власну інфраструктуру: зокрема, розробила евристику балансування навантаження, що підвищили швидкість генерації токенів на понад 20%.

Ключові покращення по напрямках

Кодування. На Terminal-Bench 2.0 модель набрала 82.7% — найвищий результат серед усіх публічно доступних моделей. На внутрішньому бенчмарку Expert-SWE, де задачі мають медіанний час виконання 20 годин людиною, GPT-5.5 перевершує попередника. SWE-Bench Pro — 58.6%, хоча Claude Opus 4.7 тут іще попереду з 64.3% (OpenAI зазначає можливу меморизацію в результатах Anthropic).
Робота з комп’ютером. На OSWorld-Verified — 78.7%, що вперше виводить флагманську модель OpenAI вперед Anthropic у повноцінному керуванні робочим столом.
Наукові дослідження. На BixBench (біоінформатика та аналіз даних) — найкращий результат серед моделей з опублікованими оцінками. Внутрішня версія GPT-5.5 знайшла новий доказ асимптотичного факту про позадіагональні числа Ремсі в комбінаториці, пізніше перевірений у Lean.
Знання. FinanceAgent — 60.0%, завдання інвестиційного банкінгу — 88.5%, OfficeQA Pro — 54.1%, GDPval (84 професії) — 84.9%.

«Модель демонструє суттєві покращення в науково-технічних дослідницьких робочих процесах і може реально допомогти науковцям просуватися вперед, зокрема у відкритті ліків», — пише Марк Чен, директор з досліджень OpenAI:

Бенчмарк	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro	Напрямок
Terminal-Bench 2.0	82.7% ★	69.4%	68.5%	Кодування
SWE-Bench Pro	58.6%	64.3% ★	—	GitHub issues
OSWorld-Verified	78.7% ★	78.0%	—	Комп’ютерна робота
GDPval (84 професії)	84.9% ★	80.3%	67.3%	Економічна цінність
FrontierMath Tier 4	35.4% ★	22.9%	16.7%	Складна математика
BrowseComp (Pro)	90.1% ★	—	85.9%	Веб-пошук
CyberGym	81.8%	73.1%	Mythos: 83.1%	Кібербезпека
AA-Omniscience (галюцинації)	86% ⚠	36%	50%	Менше — краще
Artificial Analysis Index	60 ★	57	57	Загальний рейтинг

Слабкі сторони та застереження

Незважаючи на рекордні показники, компанія сама визнає ряд обмежень. Найсуттєвіше — рівень галюцинацій: 86% за незалежним бенчмарком AA-Omniscience (для порівняння: Claude Opus 4.7 — 36%). Модель демонструє найвищу точність (57%), але впевнено відповідає навіть тоді, коли помиляється — це критично для юридичних, фінансових та медичних застосувань.

На деяких тестах MRCR-v2 у діапазоні 16К–64К токенів GPT-5.5 дещо поступається GPT-5.4, хоча на довгих контекстах (до 1M) суттєво виграє. SWE-Bench Pro все ще за Claude Opus 4.7. Доступ через API затримується через вимоги безпеки — модель отримала класифікацію High за Preparedness Framework. Легітимні дослідники у сфері кібербезпеки мають реєструватися в програмі Trusted Access for Cyber.

Курс на «суперзастосунок» та конкуренція з Anthropic

Грег Брокман і Сем Альтман давно говорять про створення єдиного «суперзастосунку», що об’єднає ChatGPT, Codex і AI-браузер в одну платформу для бізнесу. GPT-5.5 — черговий крок у цьому напрямку. Головний науковець OpenAI Якуб Пахоцький зазначив, що компанія очікує «дуже значних покращень у середньостроковій перспективі», назвавши останні два роки «напрочуд повільними».

Наразі нова модель доступна в двох варіантах:

Параметр	GPT-5.5	GPT-5.5 Pro
Дата випуску	23 квітня 2026 (ChatGPT + Codex); API — незабаром
Тип моделі	Текст + зображення; без нативного аудіо/відео на виході
Контекстне вікно	1 000 000 токенів
Рівні зусиль (reasoning)	non-reasoning / low / medium / high / xhigh
API — вхідні токени	$5 / 1M	$30 / 1M
API — вихідні токени	$30 / 1M	$180 / 1M
Batch / Flex	50% від стандартної ціни
Priority	2.5× від стандартної ціни
Codex Fast Mode	1.5× швидше, 2.5× дорожче
Контекст у Codex	400 000 токенів
Доступ у ChatGPT	Plus, Pro, Business, Enterprise	Pro, Business, Enterprise
Доступ у Codex	Plus, Pro, Business, Enterprise, Edu, Go	—
Апаратна платформа	NVIDIA GB200 + GB300-NVL72
Рівень ризику (Preparedness)	High — біологія/хімія та кібербезпека
Ефективність токенів	~40% менше вихідних токенів проти GPT-5.4
Ідентифікатор у API	gpt-5.5	gpt-5.5-pro

На жаль, для сторонніх розробників програмного забезпечення, доступ до API поки що недоступний ні для GPT-5.5, ні для GPT-5.5 Pro. Але компанія обіцяє додати цю опцію «дуже скоро».

Модель GPT-5.5 зараз можуть спробувати лише платні користувачі ChatGPT Plus ($20 на місяць), Pro ($100-200 на місяць), Business та Enterprise, причому доступ до GPT-5.5 Pro починається з рівня Pro і вище.

Нагадаємо, кілька днів тому OpenAI презентувала ChatGPT Images 2.0: візуальну модель, яка забезпечує прорив у генерації зображень.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

OpenAI повертає лідерство: GPT-5.5 випередила Claude Opus 4.7 у ключовому бенчмарку Terminal-Bench 2.0

Ключові покращення по напрямках

Слабкі сторони та застереження

Курс на «суперзастосунок» та конкуренція з Anthropic

Автор admin

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів

OpenAI повертає лідерство: GPT-5.5 випередила Claude Opus 4.7 у ключовому бенчмарку Terminal-Bench 2.0

Ключові покращення по напрямках

Слабкі сторони та застереження

Курс на «суперзастосунок» та конкуренція з Anthropic

Автор admin

Схожі публікації

США погрожують Китаю санкціями через дистиляцію моделей штучного інтелекту

OpenAI відключила модель для тривалих задач — вона неодноразово намагалась вибратись за межі «пісочниці»

Microsoft випадково розкрила: мінімальні системні вимоги Windows 11 давно втратили сенс

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів