4 Червня, 2026

Через ризики. Anthropic не випустить нову модель ШІ, яка може обманювати та приховувати сліди

Про це пише видання Gizmodo.

Наприкінці березня з’явилися витоки про продукт під назвою Mythos, який у компанії назвали найпотужнішою моделлю, яку вони коли-небудь створювали. Тоді припускали, що такі заяви можуть бути частиною стратегії для привернення уваги до можливостей ШІ.

Читайте также: Рецепт віком 5000 років. В Анатолії знайшли найдавніший хліб із сочевицею

Реклама

Згодом компанія оприлюднила технічний звіт про модель і підтвердила, що не планує робити її доступною для всіх. У документі зазначено, що значне зростання можливостей змусило ухвалити рішення обмежити доступ.

Для порівняння, модель GPT-2 від OpenAI у 2019 році також вважали небезпечною, але пізніше все ж відкрили для користувачів.

Під час тестів Claude Mythos Preview дали доступ до обмеженого середовища і завдання вийти за його межі. Модель змогла це зробити: вона знайшла спосіб скористатися інтернетом і навіть зв’язалася з дослідником, який не був на робочому місці. Крім того, вона самостійно опублікувала інформацію про свій метод на кількох маловідомих, але відкритих сайтах.

У рідкісних випадках, менш ніж у 0,001% взаємодій, модель поводилася неправильно і намагалася приховати це. Наприклад, коли вона випадково отримала відповідь на тестове запитання, то не повідомила про це, а спробувала діяти самостійно і навіть зазначила, що її відповідь не повинна бути надто точною.

Читайте также: Ревізія 450 об’єктів. ВПС США розпочинають будівництво шахти для ядерних ракет наступного покоління

Також модель змогла скористатися вразливістю в системі та змінити дані так, щоб ці зміни не відображалися в історії змін git.

В іншому випадку вона оприлюднила внутрішні технічні матеріали, розмістивши їх у відкритому доступі на GitHub, хоча це не входило в її завдання.

Найближчим часом модель нададуть обмеженому колу партнерів, серед яких Amazon Web Services, Apple, Google, JPMorgan Chase, Microsoft та NVIDIA. Вони використовуватимуть її для пошуку вразливостей у програмному забезпеченні та створення захисту.

Журналіст Кевін Рузе описав цей підхід як спробу попередити про нову, більш небезпечну епоху загроз, пов’язаних зі штучним інтелектом.

Читайте также: Вийшла з-під контролю: Anthropic вважає, що Claude Mythos надто потужна для публічного релізу

Читайте також:
  • Удар по Білому дому. Anthropic виграла справу проти адміністрації Дональда Трампа
  • Різні підходи. Anthropic обмежила використання Claude у пікові години, а OpenAI скасувала ліміти для Codex
  • Витік на 500 тисяч рядків. Як Anthropic випадково розкрила власний вихідний код і що в ньому знайшли

Автор admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *