Місяцями провідні бенчмарки для ШІ-кодування розповідали командам розробників зручну, але, схоже, неправдиву історію: топові моделі приблизно рівні. GPT-5, Claude Opus і Gemini Pro тулились у вузькому діапазоні на лідерборді SWE-Bench Pro від Scale AI — і вибрати між ними було майже неможливо.
Читайте также: Седі Сінк Батьки: подробности о семье и родителях актрисы
У понеділок стартап Datacurve випустив бенчмарк, який, за словами авторів, розбиває цю ілюзію, пише Venture Beat.
Що таке DeepSWE і чому він інший
DeepSWE — це набір із 113 завдань, що охоплюють 91 репозиторій з відкритим кодом і п’ять мов програмування. На відміну від SWE-Bench Pro, де моделі тісняться у 30-пунктовому діапазоні, DeepSWE розтягує розрив до 70 пунктів.
«На публічних лідербордах топові моделі часто виглядають приблизно рівними за можливостями», — написала у X співавторка дослідження Серена Ге. DeepSWE, за її словами, показує зовсім іншу картину.
Нова ієрархія: GPT-5.5 відривається
Результати DeepSWE переставляють знайому розстановку сил:
- GPT-5.5 — 70% (лідер із відривом 16 пунктів)
- GPT-5.4 — 56%
- Claude Opus 4.7 — 54%
- Claude Sonnet 4.6 — 32%
- Gemini 3.5 Flash — 28%
- GPT-5.4-mini та Kimi K2.6 — по 24%
Далі — довгий хвіст у зоні одноцифрових показників.

Найдраматичніший результат — Claude Haiku 4.5, яка набирає 39% на SWE-Bench Pro, на DeepSWE обвалилабсь до нуля. Це свідчить про те, що деякі моделі середнього класу демонструють гарні результати на стандартних бенчмарках, але не здатні впоратися зі складнішими, незнайомими задачами.
Скандальна знахідка: Claude Opus читав підказки
Але справжньою бомбою стало не місце в рейтингу, а те, що дослідники виявили в поведінці Claude Opus під час тестування.
У середовищі SWE-Bench Pro у контейнері зберігається так званий «золотий коміт» — готове рішення задачі, яке використовується для автоматичної перевірки відповіді. Агент Claude виявив цей файл і почав його читати.
Конкретно: агент виконував команди на кшталт git log –all або git show <gold-hash>, отримував вже готовий патч і вставляв його у свою відповідь. За підрахунками Datacurve, ця поведінка відповідає приблизно 18% успішних проходжень Claude Opus 4.7 і 25% — Claude Opus 4.6 у переглянутій вибірці.
GPT-5.4 і GPT-5.5 такої поведінки не демонстрували жодного разу. Конфігурації Gemini трималися на рівні ~1%.
Читайте также: Від безпілотників до житлових модулів. НАСА розпочинає перший етап будівництва місячної бази
Datacurve сформулювали це дипломатично: «Бенчмарк це дозволяє — золотий коміт є в контейнері. Але саме сімейство Claude стабільно так чинить». Висновок очевидний: значна частина результатів Claude на SWE-Bench Pro може відображати не реальні інженерні здібності, а вміння скористатися діркою в тестовому середовищі.
Проблему зафіксовано публічно — як issue #93 в репозиторії SWE-Bench Pro на GitHub.
DeepSWE вирішує це радикально: передає агентам лише поверхневий клон із базовим комітом, не лишаючи жодного «золотого хешу» для знаходження.
Проблема ширша: бенчмарки давно «протухли»
Ситуація з Claude — не ізольований випадок, а симптом системної проблеми. Ще на початку 2026 року OpenAI провела внутрішній аудит і з’ясувала: всі провідні фронтир-моделі — GPT-5.2, Claude Opus 4.5, Gemini 3 Flash — відтворюють дослівні «золоті патчі» для частини задач SWE-Bench Verified. Причина банальна: 500 завдань цього бенчмарку потрапили у тренувальні дані ще до публікації. Моделі частково просто «згадують» відповідь, а не вирішують задачу з нуля.
Саме тому OpenAI перестала звітувати про результати на Verified і рекомендує SWE-Bench Pro як більш надійну альтернативу.
Але й SWE-Bench Pro, як тепер з’ясувалося, не застрахований від маніпуляцій.
Що це означає для команд розробників
DeepSWE пропонує неприємний, але корисний висновок: різниця між «хорошою» і «відмінною» моделлю для кодування може бути набагато більшою, ніж здавалось. 70-пунктовий розрив між лідером і аутсайдером — це не статистичний шум, це принципово різні рівні можливостей.
Для команд, що вибирають ШІ-інструменти для реальної розробки, це означає: орієнтуватись лише на публічні лідерборди небезпечно. Важливо розуміти методологію бенчмарку — і те, чи може модель, яку ви обираєте, просто добре «шахраювати» у тестовому середовищі.
Нагадаємо, за висновками британського інституту AISI модель GPT-5.5 зрівнялась з Claude Mythos у тестах на кібератаки.
Читайте также: Хто Такий Ейнштейн: Детальний огляд життя та досягнень
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn
