GPT-4.5 не змогли відрізнити від людини в 73% випадків — модель успішно пройшла тест Тьюринга

Сучасні технології впритул наблизилися до моменту, коли відрізнити машину від людини у текстовому спілкуванні стає майже неможливо. Під час дослідження модель GPT-4.5 змогла видати себе за людину в 73% випадків. Проте сенсаційні результати мають один важливий нюанс: штучний інтелект потребував правильного «налаштування» людського характеру.

GPT-4.5 не змогли відрізнити від людини в 73% випадків — модель успішно пройшла тест Тьюринга

Як проходив експеримент

Дослідники Кемерон Р. Джонс та Бенджамін К. Берген з Каліфорнійського університету в Сан-Дієго вирішили перевірити адаптивність LLM-моделей. Вони вважають класичний тест Тьюринга, вигаданий ще у 1950 році, значно ефективнішим за сучасні статичні бенчмарки, адже живий діалог не дозволяє ШІ виїжджати лише на механічному зазубрюванні бази даних.

В експерименті взяли участь майже 500 добровольців. Схема була традиційною: «суддя» через текстовий інтерфейс, схожий на звичайний мессенджер, спілкувався із двома анонімними співрозмовниками (людиною та машиною), після чого мав винести вердикт — хто є хто.

Вчені протестували кілька моделей: GPT-4.5, LLaMa-3.1-405B, GPT-4o, GPT-5, а також ретро-бота ELIZA (створеного ще у 1960-х) для порівняння.

Сила правильного промпту: від бота до інтроверта

Ключовим фактором успіху штучного інтелекту стали промпти, які їм давали автори дослідження перед початком 5-хвилинної сесії:

Звичайний промпт: Моделі просто казали, що вона бере участь у тесті Тьюринга. Результати були скромними: GPT-4.5 сприйняли за людину лише у 36% випадків, а LLaMa-3.1-405B — у 38%.
Рольовий промпт: ШІ попросили зіграти роль молодого хлопця-інтроверта, який чудово орієнтується в інтернет-культурі та сленгу.

Саме маска «інтроверта» змінила все. Завдяки їй GPT-4.5 досягла показника у 73%, обійшовши навіть реальних учасників-людей. Конкурентна LLaMa-3.1-405B у цій же ролі набрала 56%. Моделі майстерно копіювали людський тон, прямоту, гумор та навіть припускалися дрібних помилок.

Цікавий факт: Старіші або менш підготовлені системи провалилися. Популярну GPT-4o визнали людиною лише у 21% діалогів, а ветерана ELIZA — у 23%.

Що заважає викрити машину?

Коли дослідники ускладнили завдання, збільшивши час спілкування до 15 хвилин, ШІ все одно втримав позиції. Нову модель GPT-5 визнали людиною у 59% випадків, а LLaMa-3.1-405B — у 56%.

Судді намагалися вести невимушені розмови: питали про рутину, емоції та особисту думку. Найчастіше за людей приймали тих співрозмовників, які:

Робили дрібні одруки;
Не демонстрували енциклопедичних знань у всьому;
Відповідали просто та без зайвого офіціозу.

Бенджамін Берген зазначив, що ці критерії оцінки далекі від того суворого логічного інтелекту, який колись мав на увазі Алан Тьюринг. Люди шукають у спілкуванні соціальну схожість, а не математичну точність.

Штучний інтелект не став розумнішим, він просто навчився мімікрувати

Автори дослідження закликають не робити поспішних висновків про появу справжньої свідомості чи штучного загального інтелекту (AGI). Високі бали свідчать лише про те, що нейромережі навчилися філігранно відповідати очікуванням людей про те, як виглядає типовий користувач в інтернеті.

Ба більше, без детальних інструкцій людини ШІ досі не здатний самостійно зрозуміти, як поводитися «по-людськи».

Проте практичні наслідки цього дослідження тривожні. Оскільки налаштувати ШІ для ідеального маскування під людину тепер дуже легко, нам усім варто стати значно критичнішими під час знайомств та спілкування у мережі. Вірити на слово «аватарам» у месенджерах більше не можна.

Нагадаємо, кілька тижнів тому Netflix випустив безкоштовну модель штучного інтелекту, яка видаляє об’єкти на відео.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

GPT-4.5 не змогли відрізнити від людини в 73% випадків — модель успішно пройшла тест Тьюринга

Як проходив експеримент

Сила правильного промпту: від бота до інтроверта

Що заважає викрити машину?

Штучний інтелект не став розумнішим, він просто навчився мімікрувати

Автор admin

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів

GPT-4.5 не змогли відрізнити від людини в 73% випадків — модель успішно пройшла тест Тьюринга

Як проходив експеримент

Сила правильного промпту: від бота до інтроверта

Що заважає викрити машину?

Штучний інтелект не став розумнішим, він просто навчився мімікрувати

Автор admin

Схожі публікації

США погрожують Китаю санкціями через дистиляцію моделей штучного інтелекту

OpenAI відключила модель для тривалих задач — вона неодноразово намагалась вибратись за межі «пісочниці»

Microsoft випадково розкрила: мінімальні системні вимоги Windows 11 давно втратили сенс

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів