4 Червня, 2026

Програміст Netflix скоротив витрати на ШІ-токени на 90% — і виклав інструмент у відкритий доступ

Старший інженер-програміст Netflix Теджас Чопра розробив безкоштовний open-source інструмент під назвою Project Headroom, який дозволяє радикально знизити витрати на токени. Утиліта автоматично очищає та стискає контекст перед відправкою розробником запиту до LLM, видаляючи до 90% зайвих токенів, пише The Register.

Читайте также: Розгадка космічних сигналів. Астрономи виявили джерело аномальних спалахів у Чумацькому Шляху

Інженер Netflix скоротив витрати на ШІ на 90% — і виклав інструмент у відкритий доступ

Хоча Headroom є особистою ініціативою Чопри, а не офіційним продуктом Netflix, утиліту вже протестували та впровадили кілька внутрішніх команд стрімінгового гіганта, а також сторонні розробники. Наприкінці травня 2026 року на конференції Open Source Summit автор повідомив, що з моменту релізу в січні інструмент допоміг користувачам заощадити близько $700 000, вивільнивши понад 200 мільярдів токенів. Поточна версія проєкту на GitHub (v0.22) уже зібрала близько 2000 зірок та понад 120 форків.

Передісторія: як домашній проєкт призвів до оптимізації

Ідея створення Headroom з’явилася після того, як Чопра отримав неочікуваний рахунок на $287 від Anthropic за використання моделі Claude Sonnet у власному домашньому проєкті (розробка, рефакторинг коду та робота з базами даних через MCP-інструменти).

Аналіз витрат показав, що ШІ-провайдери стягують плату не за унікальні інструкції користувача, а за величезні масиви супутнього «машинного сміття». Мова йде про занадто деталізовані JSON-схеми, вкладені шаблони в API-відповідях, повторювані назви колонок баз даних та серверні логи. Чопра схарактеризував це як «доступну для стискання технічну інформацію, що маскується під текст».

Проблема критично загострилася з появою автономних ШІ-агентів. Їм у контекстне вікно постійно передається величезна кількість системних метаданих, що не лише спустошує бюджети, але й призводить до «гниття контексту» (context rot) — явища, коли LLM починає плутатися та ігнорувати суть запиту через інформаційне перевантаження.

Як працює Project Headroom

Утиліта написана на Python та Node.js. Вона запускається локально на комп’ютері розробника як проксі-сервер (порт 8787) і вбудовується безпосередньо в робочий процес через командний рядок (CLI).

Головні технологічні особливості інструменту:

  • Розумне розпізнавання та маршрутизація: Програма аналізує тип вхідних даних і відправляє їх на відповідні компресори. Для коду використовується алгоритм на основі Abstract Syntax Tree (AST), а для вебсторінок та API — спеціальні DOM та JSON-компресори.

  • Зворотне (оборотне) стиснення: На відміну від сервісів, які безповоротно видаляють текст, Headroom замінює громіздкі блоки метаданих короткими маркерами. Оригінальний контекст зберігається локально у швидких базах даних (Redis або SQLite). Якщо моделі під час генерації знадобиться повна версія інформації, вона надсилає запит до локального MCP-інструменту Headroom і миттєво отримує вихідні дані.

    Читайте также: Скільки Дітей Було У Ярослава Мудрого: Імена та Їхня Роль у Історії

  • Вирівнювання кешу (CacheAligner): Функція бореться з проблемою швидкого скидання кешу у провайдерів (наприклад, у Claude префіксний кеш оновлюється кожні 5 хвилин). Якщо у системному промпті регулярно змінюється дрібниця на кшталт дати або UUID сесії, провайдер сприймає весь масив даних як новий і знову стягує повну вартість. CacheAligner виявляє такі мінімальні зміни й надсилає до хмари лише оновлені фрагменти.

Ефективність у цифрах

Згідно з тестами розробника, Headroom демонструє найкращі результати при роботі зі специфічними технічними даними:

  • Серверні логи: видаляється до 90% надлишкового тексту;

  • JSON-вивід MCP-інструментів: обсяг токенів зменшується в середньому на 70%;

  • Списки файлів та бази даних: стискаються завдяки усуненню повторюваних схем та метаданих.

Окрім фінансової вигоди, скорочення обсягу вхідних токенів дозволяє значно знизити затримку (latency) ШІ-відповідей, що критично для голосових та real-time додатків. Також зменшення навантаження на контекстні вікна знижує споживання електроенергії дата-центрами.

У найближчих планах Теджаса Чопри — додати нові компресори (зокрема для фінансових даних), покращити точність тестування, а також випустити супутній open-source інструмент Headlight, який відстежуватиме походження кожного окремого токена в мультимодельних архітектурах.

Нагадаємо, кілька тижнів тому Netflix випустив безкоштовну модель штучного інтелекту, яка видаляє об’єкти на відео.

Читайте также: Є на кожній кухні. У Німеччині виявили несподіване джерело забруднення мікропластиком

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Автор admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *