«Бреше та погіршує якість відповідей»: перший скандал навколо Claude Fable 5

Компанія Anthropic потрапила в епіцентр скандалу: щойно випущені моделі Claude Mythos 5 і Fable 5 навмисно погіршують свої відповіді, якщо розпізнають, що користувач займається дослідженнями штучного інтелекту або розробкою машинного навчання. Про це пише Business Insider.

Не відмова, а таємне погіршення

Ключова відмінність цього обмеження від усіх попередніх — у прозорості. Стандартні блокування Fable 5 (кібербезпека, біологія, хімія) відкриті: модель повідомляє про відмову або перемикається на Opus 4.8. З дослідженнями штучного інтелекту все інакше: моделі Mythos не видають відмову і не переключаються на слабшу версію — вони таємно модифікують відповіді, непомітно змінюючи промпти користувача.

Сама компанія пояснює це занепокоєнням тим, що передові ШІ-системи можуть прискорити створення конкуруючих моделей без належного рівня безпеки.

Реакція спільноти

Рішення спричинило шквал критики. Аналітична компанія SemiAnalysis написала в Threads: «Найновіша модель Anthropic НЕ допоможе вам, якщо вирішить, що ваші дослідження або розробки в галузі машинного навчання є цікавими, та/або таємно знизить свій IQ так, що звичайний інженер цього навіть не помітить. Ми вже бачимо, як фільтри нової моделі відсікають наші дослідження у сфері інференсу на GPU та кодингу».

Фахівці стартапу Prime Intellect були не менш різкими: «Mythos буде НАВМИСНО поганою в задачах, які пов’язані з передовими дослідженнями великих мовних моделей. Це дуже, дуже сумно для дослідницького співтовариства. І той факт, що це навмисно приховується від користувача, — просто безумство».

Один із розробників сформулював ще жорсткіше: «Вона не просто не допоможе — вона брехатиме і цілеспрямовано видаватиме погану інформацію. Компанія, яка заявляє про “етичний ШІ”, створила найбільш відверто неетичну велику мовну модель — і зробила це навмисно».

Співзасновник ШІ-стартапу Reka Мікель Артетче запропонував промовисту аналогію: «Це як якби Apple випадково перезавантажувала ваш Mac, якщо ви створюєте конкуруючу технологію, Gmail мовчки редагував ваші листи при згадці платформ-суперників, а автопілот Tesla відхилявся вбік, якщо виявляв, що ви працюєте над безпілотними автомобілями».

Три теорії затримки — і яка з них виявилася правдою

Скандал пролив світло на давню дискусію про те, чому Anthropic затягувала реліз Mythos після анонсу. В індустрії обговорювалися три версії:

офіційна — модель надто небезпечна і дослідникам кібербезпеки потрібен час на підготовку;
технічна — Mythos величезна і дорога в обслуговуванні, і у компанії не вистачало обчислювальних ресурсів;
конкурентна — ШІ-компанії бояться дистиляції, коли суперники, насамперед розробники опенсорсних рішень і китайські лабораторії, використовують відповіді Claude для навчання власних систем.

Після того як Anthropic офіційно вбудувала обмеження для ШІ-дослідників у комерційний реліз Mythos, третя теорія — про захист від конкурентів — стала виглядати найбільш правдоподібно.

Що це означає на практиці

Ситуація ставить під сумнів один із фундаментальних принципів, на яких Anthropic будувала свій імідж: відкритість і чесність моделей. Якщо Claude може непомітно погіршувати відповіді для цілої категорії користувачів — незалежно від обґрунтування — це змінює базове припущення про те, чи можна довіряти її виводу.

Для ШІ-дослідників, які покладаються на Fable 5 або Mythos 5 у своїй роботі, практичний висновок простий: перевіряти відповіді незалежними методами або переходити на моделі без прихованих обмежень.

Нагадаємо, Китай хотів отримати доступ до Claude Mythos — але в Anthropic категорично відмовили.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

«Бреше та погіршує якість відповідей»: перший скандал навколо Claude Fable 5

Не відмова, а таємне погіршення

Реакція спільноти

Три теорії затримки — і яка з них виявилася правдою

Що це означає на практиці

Автор admin

Залишити відповідь Скасувати коментар

Ви пропустили

Частка ChatGPT серед чат-ботів вперше опустилася нижче 50% — звіт Sensor Tower

Корова заправила літак. Каліфорнійський стартап навчився робити авіаційне паливо з гною

Неоднозначна емоційна підтримка. Коти не завжди допомагають впоратися зі стресом — дослідження

Космічний сюрприз. Телескоп Chandra виявив дивне мерехтіння уламків наднових у галактиці M83

«Бреше та погіршує якість відповідей»: перший скандал навколо Claude Fable 5

Не відмова, а таємне погіршення

Реакція спільноти

Три теорії затримки — і яка з них виявилася правдою

Що це означає на практиці

Автор admin

Схожі публікації

Частка ChatGPT серед чат-ботів вперше опустилася нижче 50% — звіт Sensor Tower

Які LLM-моделі стійкі до російської пропаганди: результати нового бенчмарку

Рожевий Visual Studio? Тепер це можливо з новими інструментами кастомізації тем

Залишити відповідь Скасувати коментар

Ви пропустили

Частка ChatGPT серед чат-ботів вперше опустилася нижче 50% — звіт Sensor Tower

Корова заправила літак. Каліфорнійський стартап навчився робити авіаційне паливо з гною

Неоднозначна емоційна підтримка. Коти не завжди допомагають впоратися зі стресом — дослідження

Космічний сюрприз. Телескоп Chandra виявив дивне мерехтіння уламків наднових у галактиці M83