Захисні обмеження у відкритих LLM можна зняти за 10 хвилин — навіть без технічних знань

Команда дослідників Alice провела серію експериментів із технікою під назвою abliteration. Метод дозволяє обходити внутрішні механізми LLM-моделі, відповідальні за відмову виконувати небезпечні інструкції.

До повністю закритих систем на кшталт ChatGPT чи Claude цей підхід важко застосувати — користувачі просто не мають доступу до ваг моделей. Але для відкритих моделей або моделей з відкритими вагами ризик суттєво вищий, пише Financial Times.

Захисні обмеження у відкритих LLM можна зняти за лічені хвилини — навіть без технічних знань

В ході експерименту фахівцям вдалося зняти захист із моделей сімейства Meta Llama та Google Gemma. Після модифікації вони починали відповідати на запити про шкідливий код, небезпечні речовини, зброю та інший контент, який у звичайному стані вихідні моделі відхиляли.

10 хвилин без спеціальних знань

Особливо тривожним виявилася простота атаки. Журналісту FT вдалося зняти захисні обмеження з Meta Llama 3.3 приблизно за 10 хвилин за допомогою загальнодоступного інструменту Heretic — без спеціалізованого обладнання і глибокої технічної підготовки.

Творець Heretic повідомив, що інструмент уже використали для створення близько 3500 «децензурованих» моделей, які сумарно завантажили близько 13 мільйонів разів. Він також заявив, що зміг прибрати обмеження з Google Gemma 4 всього через 90 хвилин після виходу моделі.

Реакція компаній

Google назвала метод abliteration «відомою технічною проблемою, з якою стикаються всі відкриті моделі», і заявила, що проводить перевірки безпеки перед релізом. Meta не прокоментувала результати експерименту, однак джерело, близьке до компанії, вказало на внутрішню систему оцінки ризиків, яка має обмежувати випуск моделей із потенційно катастрофічними наслідками.

GitHub зазначив, що видаляє матеріали, які безпосередньо допомагають проводити атаки. Однак платформа не завжди блокує код, поданий як освітній чи дослідницький інструмент у сфері кібербезпеки.

«Джин вже випущений з пляшки»

Голова дослідницької групи Alice Ноам Шварц сформулював проблему прямо: відкриті моделі стрімко наздоганяють закриті за можливостями, а відтак слабкість їхніх захисних механізмів перестає бути теоретичним ризиком і стає цілком практичним.

Нагадаємо, що згідно дослідження Meta, структуровані промпти підвищують точність моделі до 93%.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Захисні обмеження у відкритих LLM можна зняти за 10 хвилин — навіть без технічних знань

10 хвилин без спеціальних знань

Реакція компаній

«Джин вже випущений з пляшки»

Автор admin

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів

Захисні обмеження у відкритих LLM можна зняти за 10 хвилин — навіть без технічних знань

10 хвилин без спеціальних знань

Реакція компаній

«Джин вже випущений з пляшки»

Автор admin

Схожі публікації

США погрожують Китаю санкціями через дистиляцію моделей штучного інтелекту

OpenAI відключила модель для тривалих задач — вона неодноразово намагалась вибратись за межі «пісочниці»

Microsoft випадково розкрила: мінімальні системні вимоги Windows 11 давно втратили сенс

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів