4 Червня, 2026

Захисні обмеження у відкритих LLM можна зняти за 10 хвилин — навіть без технічних знань

Команда дослідників Alice провела серію експериментів із технікою під назвою abliteration. Метод дозволяє обходити внутрішні механізми LLM-моделі, відповідальні за відмову виконувати небезпечні інструкції. 

Читайте также: Михайло Клименко Адам Біографія: детальний огляд життя та діяльності

До повністю закритих систем на кшталт ChatGPT чи Claude цей підхід важко застосувати — користувачі просто не мають доступу до ваг моделей. Але для відкритих моделей або моделей з відкритими вагами ризик суттєво вищий, пише Financial Times.

Захисні обмеження у відкритих LLM можна зняти за лічені хвилини — навіть без технічних знань

В ході експерименту фахівцям вдалося зняти захист із моделей сімейства Meta Llama та Google Gemma. Після модифікації вони починали відповідати на запити про шкідливий код, небезпечні речовини, зброю та інший контент, який у звичайному стані вихідні моделі відхиляли.

10 хвилин без спеціальних знань

Особливо тривожним виявилася простота атаки. Журналісту FT  вдалося зняти захисні обмеження з Meta Llama 3.3 приблизно за 10 хвилин за допомогою загальнодоступного інструменту Heretic — без спеціалізованого обладнання і глибокої технічної підготовки.

Творець Heretic повідомив, що інструмент уже використали для створення близько 3500 «децензурованих» моделей, які сумарно завантажили близько 13 мільйонів разів. Він також заявив, що зміг прибрати обмеження з Google Gemma 4 всього через 90 хвилин після виходу моделі.

Читайте также: Молодим спеціалістам приготуватись. Майже всі CEO готуються до скорочень через ШІ — дослідження

Реакція компаній

Google назвала метод abliteration «відомою технічною проблемою, з якою стикаються всі відкриті моделі», і заявила, що проводить перевірки безпеки перед релізом. Meta не прокоментувала результати експерименту, однак джерело, близьке до компанії, вказало на внутрішню систему оцінки ризиків, яка має обмежувати випуск моделей із потенційно катастрофічними наслідками.

GitHub зазначив, що видаляє матеріали, які безпосередньо допомагають проводити атаки. Однак платформа не завжди блокує код, поданий як освітній чи дослідницький інструмент у сфері кібербезпеки.

«Джин вже випущений з пляшки»

Голова дослідницької групи Alice Ноам Шварц сформулював проблему прямо: відкриті моделі стрімко наздоганяють закриті за можливостями, а відтак слабкість їхніх захисних механізмів перестає бути теоретичним ризиком і стає цілком практичним.

Нагадаємо, що згідно дослідження Meta, структуровані промпти підвищують точність моделі до 93%.

Читайте также: Апокаліпсис скасовується: Сем Альтман більше не вірить у масове безробіття через штучний інтелект

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Автор admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *