Останній іспит людства. Найсучасніші системи ШІ не змогли набрати більше 50% на новому іспиті від вчених

Про це пише видання ScienceDaily.

Старі тести більше не виявляють справжніх знань штучного інтелекту, тому майже 1 000 експертів з усього світу розробили новий масштабний іспит. Він охоплює математику, гуманітарні науки, природничі дисципліни, стародавні мови та вузькоспеціалізовані теми. Кожне питання мало чітку перевірювану відповідь і не могло бути швидко вирішене через пошук в інтернеті.

«Коли ШІ починає добре виконувати людські тести, здається, що він наближається до людського рівня розуміння. Але цей іспит нагадує, що інтелект — це не лише впізнавання шаблонів, а глибина, контекст і спеціалізовані знання,» — пояснив Тунг Нгуєн, професор комп’ютерних наук в Texas A&M.

Тестування показало, що GPT‑4o набрав 2,7%, Claude 3.5 Sonnet — 4,1%, OpenAI o1 — 8%. Найсильніші системи, включно з Gemini 3.1 Pro та Claude Opus 4.6, показали 40−50% правильних відповідей.

Мета іспиту — не перемогти штучний інтелект, а виявити, де системи ще відстають, і створити надійний довгостроковий еталон для оцінки ШІ. За словами Нгуєна, високі бали на старих тестах не означають справжнього інтелекту, бо вони перевіряють лише здатність виконувати конкретні завдання, розроблені для людей.

Проєкт об’єднав експертів з різних галузей: істориків, фізиків, лінгвістів, медичних дослідників і комп’ютерних вчених, щоб створити тест, який показує реальні обмеження сучасного ШІ.

Читайте також:

Економія — понад трильйон доларів. Штучний інтелект вже здатний замінити 11,7% працівників США
Штучний інтелект замість людей. Європа готується до скорочення 200 тисяч робочих місць у банківському секторі
Абсолютний рекорд. Світовий борг сягнув $348 трильйонів через витрати на оборону та штучний інтелект

Останній іспит людства. Найсучасніші системи ШІ не змогли набрати більше 50% на новому іспиті від вчених

Автор admin

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів

Останній іспит людства. Найсучасніші системи ШІ не змогли набрати більше 50% на новому іспиті від вчених

Автор admin

Схожі публікації

На основі власного досвіду. ШІ може самостійно формувати нові упередження під час найму

Нова система. Сервери дата-центрів NVIDIA тепер охолоджують водою температурою до 45 °C

Через продаж підробок. AliExpress отримав рекордний штраф від ЄС у 550 мільйонів євро

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів