Компанія Snowflake провела практичний бенчмарк, у якому порівняла нову LLM-модель GLM-5.2 від Zhipu AI (Z.ai) з Claude Opus 4.7 від Anthropic. Результати показали, що китайська розробка майже не відстає від флагмана Anthropic у програмуванні — і при цьому коштує значно менше, пише The Decoder.
Читайте также: Голод чи спрага. Вчені розповіли, чому в спеку мозок так легко плутає одне з одним

Що показав порівняльний тест
Snowflake перевірила моделі на 103 задачах із програмування, кожну запускали по три рази. Завдання вимагали написати код, який коректно працює одночасно на DuckDB і Snowflake.
Коли моделям давали по три спроби на задачу, результати виявилися практично однаковими: GLM-5.2 розв’язала 66% завдань, Claude Opus 4.7 — 67%.
Різниця проявилася у точності з першої спроби: Opus впорався з 53,7% задач одразу, тоді як GLM — лише з 47,6%. Це свідчить про менш стабільні результати китайської моделі. GLM також виявилася менш ефективною за кількістю кроків: у середньому 99 ітерацій на задачу проти 80 в Opus, і витратила майже вдвічі більше токенів — 860 мільйонів проти 439 мільйонів.
За словами CEO Snowflake Шрідхара Рамасвамі, перевага GLM — у здатності точно перевіряти код одразу на двох платформах, DuckDB і Snowflake. Саме тому деякі задачі вдалося розв’язати тільки цій моделі.
Водночас у GLM виявилися й слабкі сторони: вона часто здається занадто рано або зациклюється на перевірці непотрібних деталей. В одному з прикладів модель зробила 411 викликів інструментів за 24 хвилини — перевіряла кількість рядків, розподіли, null-значення, типи колонок — і все одно не розв’язала задачу за всі три спроби. Claude Opus упорався з тим самим завданням за 49 викликів і 9 хвилин.
Рамасвамі також спростував тезу, що GLM генерує чистіший код: за його словами, більша кількість перевірок не означає кращого результату. Попри це, у Snowflake кажуть, що в захваті від GLM-5.2 і планують зробити модель доступною для клієнтів.
Читайте также: Весь світ у деталях. Які гаджети насправді варто купити для крутого зуму і не тільки
Ціновий тиск Китаю на західний ринок штучного інтелекту
Головне в цій історії — ціна. Згідно з офіційним прайсом Zhipu, GLM-5.2 коштує $1,40 за мільйон вхідних токенів і $4,40 за мільйон вихідних. Деякі стороні провайдери пропонують ціни ще нижчі за офіційні від Zhipu.
Для порівняння: Claude Opus 4.7 коштує $5 за вхід і $25 за вихід, а GPT-5.5 — $5 за вхід і $30 за вихід.
| Модель | Вхід | Кешований вхід | Вихід |
|---|---|---|---|
| GLM-5.2 | $1,40 | $0,26 | $4,40 |
| Claude Opus 4.7 | $5,00 | $0,50 (Cache Hit) | $25,00 |
| GPT-5.5 | $5,00 | $0,50 | $30,00 |
| GPT-5.4 | $2,50 | $0,25 | $15,00 |
Вищі витрати токенів частково з’їдають цю різницю в ціні, але навіть з урахуванням цього тиск на Anthropic і OpenAI залишається серйозним — причому саме у програмуванні, яке обидві західні лабораторії розглядають як ключовий напрям монетизації.
Якщо ціновий тиск сповільнить, а тим паче скоротить зростання доходів цих компаній, уже й так перегрітий ринок ШІ ризикує зіткнутися зі справжнім стрес-тестом. Оцінки OpenAI та Anthropic базуються на припущенні, що виручка продовжуватиме швидко рости — і саме на ці прогнози спираються мільярдні інвестиції в інфраструктуру: дата-центри та закупівлі чипів.
Нагадаємо, нещодавнє дослідження показало, що моделі штучного інтелекту брешуть не тільки заради себе, але й щоб врятувати інші LLM.
Читайте также: 30 000 років разом. Нове дослідження показало, що дружба людини і собаки закладена в еволюції, а не в культурі
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn
