Про це пише видання ScienceDaily.
Старі тести більше не виявляють справжніх знань штучного інтелекту, тому майже 1 000 експертів з усього світу розробили новий масштабний іспит. Він охоплює математику, гуманітарні науки, природничі дисципліни, стародавні мови та вузькоспеціалізовані теми. Кожне питання мало чітку перевірювану відповідь і не могло бути швидко вирішене через пошук в інтернеті.
Читайте также: Прихована загроза невагомості. Вчені виявили специфічний ризик тромбозу у астронавток
«Коли ШІ починає добре виконувати людські тести, здається, що він наближається до людського рівня розуміння. Але цей іспит нагадує, що інтелект — це не лише впізнавання шаблонів, а глибина, контекст і спеціалізовані знання,» — пояснив Тунг Нгуєн, професор комп’ютерних наук в Texas A&M.
Тестування показало, що GPT‑4o набрав 2,7%, Claude 3.5 Sonnet — 4,1%, OpenAI o1 — 8%. Найсильніші системи, включно з Gemini 3.1 Pro та Claude Opus 4.6, показали 40−50% правильних відповідей.
Читайте также: Небо без заторів. Що таке eVTOL і чи стануть вони летючим таксі майбутнього
Мета іспиту — не перемогти штучний інтелект, а виявити, де системи ще відстають, і створити надійний довгостроковий еталон для оцінки ШІ. За словами Нгуєна, високі бали на старих тестах не означають справжнього інтелекту, бо вони перевіряють лише здатність виконувати конкретні завдання, розроблені для людей.
Проєкт об’єднав експертів з різних галузей: істориків, фізиків, лінгвістів, медичних дослідників і комп’ютерних вчених, щоб створити тест, який показує реальні обмеження сучасного ШІ.
Читайте также: Як обрати посудомийну машину для вашої кухні
- Економія — понад трильйон доларів. Штучний інтелект вже здатний замінити 11,7% працівників США
- Штучний інтелект замість людей. Європа готується до скорочення 200 тисяч робочих місць у банківському секторі
- Абсолютний рекорд. Світовий борг сягнув $348 трильйонів через витрати на оборону та штучний інтелект
