Про це пише видання Gizmodo.
Наприкінці березня з’явилися витоки про продукт під назвою Mythos, який у компанії назвали найпотужнішою моделлю, яку вони коли-небудь створювали. Тоді припускали, що такі заяви можуть бути частиною стратегії для привернення уваги до можливостей ШІ.
Читайте также: Рецепт віком 5000 років. В Анатолії знайшли найдавніший хліб із сочевицею
Згодом компанія оприлюднила технічний звіт про модель і підтвердила, що не планує робити її доступною для всіх. У документі зазначено, що значне зростання можливостей змусило ухвалити рішення обмежити доступ.
Для порівняння, модель GPT-2 від OpenAI у 2019 році також вважали небезпечною, але пізніше все ж відкрили для користувачів.
Під час тестів Claude Mythos Preview дали доступ до обмеженого середовища і завдання вийти за його межі. Модель змогла це зробити: вона знайшла спосіб скористатися інтернетом і навіть зв’язалася з дослідником, який не був на робочому місці. Крім того, вона самостійно опублікувала інформацію про свій метод на кількох маловідомих, але відкритих сайтах.
У рідкісних випадках, менш ніж у 0,001% взаємодій, модель поводилася неправильно і намагалася приховати це. Наприклад, коли вона випадково отримала відповідь на тестове запитання, то не повідомила про це, а спробувала діяти самостійно і навіть зазначила, що її відповідь не повинна бути надто точною.
Читайте также: Ревізія 450 об’єктів. ВПС США розпочинають будівництво шахти для ядерних ракет наступного покоління
Також модель змогла скористатися вразливістю в системі та змінити дані так, щоб ці зміни не відображалися в історії змін git.
В іншому випадку вона оприлюднила внутрішні технічні матеріали, розмістивши їх у відкритому доступі на GitHub, хоча це не входило в її завдання.
Найближчим часом модель нададуть обмеженому колу партнерів, серед яких Amazon Web Services, Apple, Google, JPMorgan Chase, Microsoft та NVIDIA. Вони використовуватимуть її для пошуку вразливостей у програмному забезпеченні та створення захисту.
Журналіст Кевін Рузе описав цей підхід як спробу попередити про нову, більш небезпечну епоху загроз, пов’язаних зі штучним інтелектом.
Читайте также: Вийшла з-під контролю: Anthropic вважає, що Claude Mythos надто потужна для публічного релізу
- Удар по Білому дому. Anthropic виграла справу проти адміністрації Дональда Трампа
- Різні підходи. Anthropic обмежила використання Claude у пікові години, а OpenAI скасувала ліміти для Codex
- Витік на 500 тисяч рядків. Як Anthropic випадково розкрила власний вихідний код і що в ньому знайшли
