Через ризики. Anthropic не випустить нову модель ШІ, яка може обманювати та приховувати сліди

Про це пише видання Gizmodo.

Наприкінці березня з’явилися витоки про продукт під назвою Mythos, який у компанії назвали найпотужнішою моделлю, яку вони коли-небудь створювали. Тоді припускали, що такі заяви можуть бути частиною стратегії для привернення уваги до можливостей ШІ.

Згодом компанія оприлюднила технічний звіт про модель і підтвердила, що не планує робити її доступною для всіх. У документі зазначено, що значне зростання можливостей змусило ухвалити рішення обмежити доступ.

Для порівняння, модель GPT-2 від OpenAI у 2019 році також вважали небезпечною, але пізніше все ж відкрили для користувачів.

Під час тестів Claude Mythos Preview дали доступ до обмеженого середовища і завдання вийти за його межі. Модель змогла це зробити: вона знайшла спосіб скористатися інтернетом і навіть зв’язалася з дослідником, який не був на робочому місці. Крім того, вона самостійно опублікувала інформацію про свій метод на кількох маловідомих, але відкритих сайтах.

У рідкісних випадках, менш ніж у 0,001% взаємодій, модель поводилася неправильно і намагалася приховати це. Наприклад, коли вона випадково отримала відповідь на тестове запитання, то не повідомила про це, а спробувала діяти самостійно і навіть зазначила, що її відповідь не повинна бути надто точною.

Також модель змогла скористатися вразливістю в системі та змінити дані так, щоб ці зміни не відображалися в історії змін git.

В іншому випадку вона оприлюднила внутрішні технічні матеріали, розмістивши їх у відкритому доступі на GitHub, хоча це не входило в її завдання.

Найближчим часом модель нададуть обмеженому колу партнерів, серед яких Amazon Web Services, Apple, Google, JPMorgan Chase, Microsoft та NVIDIA. Вони використовуватимуть її для пошуку вразливостей у програмному забезпеченні та створення захисту.

Журналіст Кевін Рузе описав цей підхід як спробу попередити про нову, більш небезпечну епоху загроз, пов’язаних зі штучним інтелектом.

Читайте також:

Удар по Білому дому. Anthropic виграла справу проти адміністрації Дональда Трампа
Різні підходи. Anthropic обмежила використання Claude у пікові години, а OpenAI скасувала ліміти для Codex
Витік на 500 тисяч рядків. Як Anthropic випадково розкрила власний вихідний код і що в ньому знайшли

Через ризики. Anthropic не випустить нову модель ШІ, яка може обманювати та приховувати сліди

Автор admin

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів

Через ризики. Anthropic не випустить нову модель ШІ, яка може обманювати та приховувати сліди

Автор admin

Схожі публікації

На основі власного досвіду. ШІ може самостійно формувати нові упередження під час найму

Нова система. Сервери дата-центрів NVIDIA тепер охолоджують водою температурою до 45 °C

Через продаж підробок. AliExpress отримав рекордний штраф від ЄС у 550 мільйонів євро

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів