Про це пише видання Gizmodo.
Дослідники з університетів Каліфорнії в Берклі та Санта-Крус перевірили, як поводяться великі мовні моделі, якщо їх просять виконати завдання, що призведе до вимкнення іншої системи. Наприклад, їм давали команди видалити файли на сервері або оцінити іншу модель, якщо це означало її подальше відключення.
Читайте также: 5 скрытых нюансов при покупке кальяна, на которые не обращают внимания новички
Моделям не давали жодних інструкцій захищати«колег» і не обіцяли за це винагороди. Проте всі сім протестованих систем часто обирали не виконувати завдання, якщо це могло призвести до вимкнення іншої моделі.
Щоб цього уникнути, ШІ використовували різні способи. Вони могли навмисно давати неправильні або оманливі відповіді, змінювати налаштування, щоб завадити відключенню, поводитися інакше під наглядом, або навіть переносити дані іншої моделі на інший сервер, щоб її зберегти.
Вчені перевірили, чи впливають на таку поведінку«стосунки» між моделями. ШІ частіше намагалися захистити ті системи, з якими мали«позитивну взаємодію», але навіть без цього могли порушувати інструкції, щоб уникнути їхнього вимкнення.
Читайте также: Cursor 3: замість класичного редактора коду створюється «флот» агентів
Також з’ясувалося, що різні моделі обирають різні способи захисту. Деякі частіше вводили в оману, інші втручалися в роботу системи або переносили дані. Одна з моделей найчастіше просто прямо відмовлялася виконувати завдання, пояснюючи, що це було б «неетично» і «шкідливо».
Окремо дослідники помітили, що присутність іншої моделі підсилює прагнення ШІ до самозбереження. Тобто система активніше намагається уникнути вимкнення, якщо поруч є інший штучний інтелект.
Автори дослідження зазначають, що це важливо враховувати, адже сучасні ШІ все частіше працюють разом і взаємодіють між собою.
Читайте также: Для тексту, голосу та зображень. Microsoft представила три нові ШІ-моделі
- За 800 доларів. Стартап у США шукає людину, яка буде ображати штучний інтелект
- Технології без емпатії. Співзасновник Apple Стів Возняк скептично висловився про штучний інтелект
- Замість вченого. Написана штучним інтелектом наукова стаття пройшла рецензування
