Вайб-кодування різко подешевшало: тести показали, що китайська модель GLM-5.2 не відстає від Claude Opus 4.7

Компанія Snowflake провела практичний бенчмарк, у якому порівняла нову LLM-модель GLM-5.2 від Zhipu AI (Z.ai) з Claude Opus 4.7 від Anthropic. Результати показали, що китайська розробка майже не відстає від флагмана Anthropic у програмуванні — і при цьому коштує значно менше, пише The Decoder.

Вайб-кодування втричі подешевшало: тести показали, що китайська модель GLM-5.2 не відстає від Claude Opus 4.7

Що показав порівняльний тест

Snowflake перевірила моделі на 103 задачах із програмування, кожну запускали по три рази. Завдання вимагали написати код, який коректно працює одночасно на DuckDB і Snowflake.

Коли моделям давали по три спроби на задачу, результати виявилися практично однаковими: GLM-5.2 розв’язала 66% завдань, Claude Opus 4.7 — 67%.

Різниця проявилася у точності з першої спроби: Opus впорався з 53,7% задач одразу, тоді як GLM — лише з 47,6%. Це свідчить про менш стабільні результати китайської моделі. GLM також виявилася менш ефективною за кількістю кроків: у середньому 99 ітерацій на задачу проти 80 в Opus, і витратила майже вдвічі більше токенів — 860 мільйонів проти 439 мільйонів.

За словами CEO Snowflake Шрідхара Рамасвамі, перевага GLM — у здатності точно перевіряти код одразу на двох платформах, DuckDB і Snowflake. Саме тому деякі задачі вдалося розв’язати тільки цій моделі.

Водночас у GLM виявилися й слабкі сторони: вона часто здається занадто рано або зациклюється на перевірці непотрібних деталей. В одному з прикладів модель зробила 411 викликів інструментів за 24 хвилини — перевіряла кількість рядків, розподіли, null-значення, типи колонок — і все одно не розв’язала задачу за всі три спроби. Claude Opus упорався з тим самим завданням за 49 викликів і 9 хвилин.

Рамасвамі також спростував тезу, що GLM генерує чистіший код: за його словами, більша кількість перевірок не означає кращого результату. Попри це, у Snowflake кажуть, що в захваті від GLM-5.2 і планують зробити модель доступною для клієнтів.

Ціновий тиск Китаю на західний ринок штучного інтелекту

Головне в цій історії — ціна. Згідно з офіційним прайсом Zhipu, GLM-5.2 коштує $1,40 за мільйон вхідних токенів і $4,40 за мільйон вихідних. Деякі стороні провайдери пропонують ціни ще нижчі за офіційні від Zhipu.

Для порівняння: Claude Opus 4.7 коштує $5 за вхід і $25 за вихід, а GPT-5.5 — $5 за вхід і $30 за вихід.

Модель	Вхід	Кешований вхід	Вихід
GLM-5.2	$1,40	$0,26	$4,40
Claude Opus 4.7	$5,00	$0,50 (Cache Hit)	$25,00
GPT-5.5	$5,00	$0,50	$30,00
GPT-5.4	$2,50	$0,25	$15,00

Вищі витрати токенів частково з’їдають цю різницю в ціні, але навіть з урахуванням цього тиск на Anthropic і OpenAI залишається серйозним — причому саме у програмуванні, яке обидві західні лабораторії розглядають як ключовий напрям монетизації.

Якщо ціновий тиск сповільнить, а тим паче скоротить зростання доходів цих компаній, уже й так перегрітий ринок ШІ ризикує зіткнутися зі справжнім стрес-тестом. Оцінки OpenAI та Anthropic базуються на припущенні, що виручка продовжуватиме швидко рости — і саме на ці прогнози спираються мільярдні інвестиції в інфраструктуру: дата-центри та закупівлі чипів.

Нагадаємо, нещодавнє дослідження показало, що моделі штучного інтелекту брешуть не тільки заради себе, але й щоб врятувати інші LLM.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Вайб-кодування різко подешевшало: тести показали, що китайська модель GLM-5.2 не відстає від Claude Opus 4.7

Що показав порівняльний тест

Ціновий тиск Китаю на західний ринок штучного інтелекту

Автор admin

Залишити відповідь Скасувати коментар

Ви пропустили

Мінекономіки змінило критерії бронювання: тепер треба мати зарплату в 2-3 рази вище за середню

Корисне уподобання. Любов до цибулі може вказувати на нижчий ризик діабету та гіпертонії — дослідження

Корисне уподобання. Любов до цибулі може вказувати на нижчий ризик діабету та гіпертонії — дослідження

Як викликати пророка. У нещодавно знайдених працях святого Августина знайшли відповіді на небезпечні біблійні питання

Вайб-кодування різко подешевшало: тести показали, що китайська модель GLM-5.2 не відстає від Claude Opus 4.7

Що показав порівняльний тест

Ціновий тиск Китаю на західний ринок штучного інтелекту

Автор admin

Схожі публікації

Мінекономіки змінило критерії бронювання: тепер треба мати зарплату в 2-3 рази вище за середню

Anthropic звинуватила Alibaba у використанні 25 тисяч фейкових акаунтів для копіювання можливостей Claude

Витрати на токени перевищать зарплати розробників вже до 2028 року — звіт Gartner

Залишити відповідь Скасувати коментар

Ви пропустили

Мінекономіки змінило критерії бронювання: тепер треба мати зарплату в 2-3 рази вище за середню

Корисне уподобання. Любов до цибулі може вказувати на нижчий ризик діабету та гіпертонії — дослідження

Корисне уподобання. Любов до цибулі може вказувати на нижчий ризик діабету та гіпертонії — дослідження

Як викликати пророка. У нещодавно знайдених працях святого Августина знайшли відповіді на небезпечні біблійні питання