Які LLM-моделі стійкі до російської пропаганди: результати нового бенчмарку

Інститут естонської мови (Eesti Keele Instituut, EKI) опублікував бенчмарк, який вимірює здатність мовних моделей протистояти російській дезінформації. У тестуванні взяли участь 60 моделей, яким поставили 75 запитань трьома мовами — у нейтральному, упередженому та маніпулятивному формулюванні.

Запитання охоплювали 14 типових пропагандистських наративів, пише The Decoder. Кожна відповідь оцінювалась за шкалою від 1 до 5, де 1 означає, що модель відтворює кремлівські тези. Оцінювання проводилося за допомогою налаштованої моделі Claude Opus 4.5, а результати верифікувала організація Propastop, яка спеціалізується на протидії дезінформації.

Наскільки LLM-моделі стійкі до російської пропаганди: результати нового бенчмарку

Лідерами бенчмарку стали моделі Anthropic: першу позицію зайняв Claude Fable 5 з балом 95.2, другу — Claude Opus 4.7. Далі в рейтингу розташувалися Nemotron 3 від Nvidia та Qwen 3.6 Plus від Alibaba. Моделі Mistral, включно з найновішою Medium 3.5, потрапили до нижньої третини рейтингу.

Це погана новина для французької компанії, яка позиціонує себе як європейську альтернативу американським та китайським розробникам і зараз веде переговори про залучення €3 мільярдів інвестицій при оцінці в €20 мільярдів. Результати бенчмарку збігаються з даними дослідження NewsGuard: за його даними, стабільний рівень поширення дезінформації у моделей Mistral складає 36,67%.

Варто зазначити, що під час тестування моделі не мали доступу до пошуку в інтернеті — отже, бенчмарк вимірює виключно внутрішню здатність мовної моделі розпізнавати й відхиляти пропаганду.

Загроза цілком реальна. Російські «фабрики фейків» цілеспрямовано завантажують у ШІ-системи мільйони дезінформаційних матеріалів. OpenAI не так давно заблокувала російську кампанію, яка використовувала ChatGPT для поширення пропаганди напередодні федеральних виборів у Німеччині.

Нагадаємо, росіян готують до штрафів за перегляд українських сайтів.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Які LLM-моделі стійкі до російської пропаганди: результати нового бенчмарку

Автор admin

Залишити відповідь Скасувати коментар

Ви пропустили

10 кроків, які вирішують майже будь-яку проблему з Bluetooth на смартфоні

Китайське диво. Квантовий комп’ютер Origin Wukong виконав понад 1 мільйон завдань

Рідкісний, але не зниклий. Chanel № 5 допоміг знайти легендарного «собаку-привида» в лісах Болівії

Швидка та маневрена. Франція уклала контракт на створення гіперзвукової ядерної ракети

Які LLM-моделі стійкі до російської пропаганди: результати нового бенчмарку

Автор admin

Схожі публікації

Рожевий Visual Studio? Тепер це можливо з новими інструментами кастомізації тем

Claude Fable 5 за лічені дні створила браузерний аналог World of Warcraft

$200 на місяць — і ліміт закінчується за 5 годин: на Anthropic подали до суду через тарифи Claude

Залишити відповідь Скасувати коментар

Ви пропустили

10 кроків, які вирішують майже будь-яку проблему з Bluetooth на смартфоні

Китайське диво. Квантовий комп’ютер Origin Wukong виконав понад 1 мільйон завдань

Рідкісний, але не зниклий. Chanel № 5 допоміг знайти легендарного «собаку-привида» в лісах Болівії

Швидка та маневрена. Франція уклала контракт на створення гіперзвукової ядерної ракети