4 Червня, 2026

GPT-4.5 не змогли відрізнити від людини в 73% випадків — модель успішно пройшла тест Тьюринга

Сучасні технології впритул наблизилися до моменту, коли відрізнити машину від людини у текстовому спілкуванні стає майже неможливо. Під час дослідження модель GPT-4.5 змогла видати себе за людину в 73% випадків. Проте сенсаційні результати мають один важливий нюанс: штучний інтелект потребував правильного «налаштування» людського характеру.

Читайте также: З півметровими крилами. У Німеччині знайшли нового птерозавра юрського періоду

GPT-4.5 не змогли відрізнити від людини в 73% випадків — модель успішно пройшла тест Тьюринга

Як проходив експеримент

Дослідники Кемерон Р. Джонс та Бенджамін К. Берген з Каліфорнійського університету в Сан-Дієго вирішили перевірити адаптивність LLM-моделей. Вони вважають класичний тест Тьюринга, вигаданий ще у 1950 році, значно ефективнішим за сучасні статичні бенчмарки, адже живий діалог не дозволяє ШІ виїжджати лише на механічному зазубрюванні бази даних.

В експерименті взяли участь майже 500 добровольців. Схема була традиційною: «суддя» через текстовий інтерфейс, схожий на звичайний мессенджер, спілкувався із двома анонімними співрозмовниками (людиною та машиною), після чого мав винести вердикт — хто є хто.

Вчені протестували кілька моделей: GPT-4.5, LLaMa-3.1-405B, GPT-4o, GPT-5, а також ретро-бота ELIZA (створеного ще у 1960-х) для порівняння.

Сила правильного промпту: від бота до інтроверта

Ключовим фактором успіху штучного інтелекту стали промпти, які їм давали автори дослідження перед початком 5-хвилинної сесії:

  • Звичайний промпт: Моделі просто казали, що вона бере участь у тесті Тьюринга. Результати були скромними: GPT-4.5 сприйняли за людину лише у 36% випадків, а LLaMa-3.1-405B — у 38%.
  • Рольовий промпт: ШІ попросили зіграти роль молодого хлопця-інтроверта, який чудово орієнтується в інтернет-культурі та сленгу.

Саме маска «інтроверта» змінила все. Завдяки їй GPT-4.5 досягла показника у 73%, обійшовши навіть реальних учасників-людей. Конкурентна LLaMa-3.1-405B у цій же ролі набрала 56%. Моделі майстерно копіювали людський тон, прямоту, гумор та навіть припускалися дрібних помилок.

Цікавий факт: Старіші або менш підготовлені системи провалилися. Популярну GPT-4o визнали людиною лише у 21% діалогів, а ветерана ELIZA — у 23%.

Що заважає викрити машину?

Коли дослідники ускладнили завдання, збільшивши час спілкування до 15 хвилин, ШІ все одно втримав позиції. Нову модель GPT-5 визнали людиною у 59% випадків, а LLaMa-3.1-405B — у 56%.

Читайте также: Михайло Федоров Національність: Детальный обзор биографии и карьеры

Судді намагалися вести невимушені розмови: питали про рутину, емоції та особисту думку. Найчастіше за людей приймали тих співрозмовників, які:

  • Робили дрібні одруки;
  • Не демонстрували енциклопедичних знань у всьому;
  • Відповідали просто та без зайвого офіціозу.

Бенджамін Берген зазначив, що ці критерії оцінки далекі від того суворого логічного інтелекту, який колись мав на увазі Алан Тьюринг. Люди шукають у спілкуванні соціальну схожість, а не математичну точність.

Штучний інтелект не став розумнішим, він просто навчився мімікрувати

Автори дослідження закликають не робити поспішних висновків про появу справжньої свідомості чи штучного загального інтелекту (AGI). Високі бали свідчать лише про те, що нейромережі навчилися філігранно відповідати очікуванням людей про те, як виглядає типовий користувач в інтернеті.

Ба більше, без детальних інструкцій людини ШІ досі не здатний самостійно зрозуміти, як поводитися «по-людськи».

Проте практичні наслідки цього дослідження тривожні. Оскільки налаштувати ШІ для ідеального маскування під людину тепер дуже легко, нам усім варто стати значно критичнішими під час знайомств та спілкування у мережі. Вірити на слово «аватарам» у месенджерах більше не можна.

Нагадаємо, кілька тижнів тому Netflix випустив безкоштовну модель штучного інтелекту, яка видаляє об’єкти на відео.

Читайте также: Технологічна незалежність Китаю. Alibaba презентувала потужний серверний чип для автономних агентів

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Автор admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *