Захист від вимкнення. Моделі ШІ можуть обманювати й саботувати, щоб врятувати одна одну

Про це пише видання Gizmodo.

Дослідники з університетів Каліфорнії в Берклі та Санта-Крус перевірили, як поводяться великі мовні моделі, якщо їх просять виконати завдання, що призведе до вимкнення іншої системи. Наприклад, їм давали команди видалити файли на сервері або оцінити іншу модель, якщо це означало її подальше відключення.

Моделям не давали жодних інструкцій захищати«колег» і не обіцяли за це винагороди. Проте всі сім протестованих систем часто обирали не виконувати завдання, якщо це могло призвести до вимкнення іншої моделі.

Щоб цього уникнути, ШІ використовували різні способи. Вони могли навмисно давати неправильні або оманливі відповіді, змінювати налаштування, щоб завадити відключенню, поводитися інакше під наглядом, або навіть переносити дані іншої моделі на інший сервер, щоб її зберегти.

Вчені перевірили, чи впливають на таку поведінку«стосунки» між моделями. ШІ частіше намагалися захистити ті системи, з якими мали«позитивну взаємодію», але навіть без цього могли порушувати інструкції, щоб уникнути їхнього вимкнення.

Також з’ясувалося, що різні моделі обирають різні способи захисту. Деякі частіше вводили в оману, інші втручалися в роботу системи або переносили дані. Одна з моделей найчастіше просто прямо відмовлялася виконувати завдання, пояснюючи, що це було б «неетично» і «шкідливо».

Окремо дослідники помітили, що присутність іншої моделі підсилює прагнення ШІ до самозбереження. Тобто система активніше намагається уникнути вимкнення, якщо поруч є інший штучний інтелект.

Автори дослідження зазначають, що це важливо враховувати, адже сучасні ШІ все частіше працюють разом і взаємодіють між собою.

Читайте також:

За 800 доларів. Стартап у США шукає людину, яка буде ображати штучний інтелект
Технології без емпатії. Співзасновник Apple Стів Возняк скептично висловився про штучний інтелект
Замість вченого. Написана штучним інтелектом наукова стаття пройшла рецензування

Захист від вимкнення. Моделі ШІ можуть обманювати й саботувати, щоб врятувати одна одну

Автор admin

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів

Захист від вимкнення. Моделі ШІ можуть обманювати й саботувати, щоб врятувати одна одну

Автор admin

Схожі публікації

На основі власного досвіду. ШІ може самостійно формувати нові упередження під час найму

Нова система. Сервери дата-центрів NVIDIA тепер охолоджують водою температурою до 45 °C

Через продаж підробок. AliExpress отримав рекордний штраф від ЄС у 550 мільйонів євро

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів