Програміст Netflix скоротив витрати на ШІ-токени на 90% — і виклав інструмент у відкритий доступ

Старший інженер-програміст Netflix Теджас Чопра розробив безкоштовний open-source інструмент під назвою Project Headroom, який дозволяє радикально знизити витрати на токени. Утиліта автоматично очищає та стискає контекст перед відправкою розробником запиту до LLM, видаляючи до 90% зайвих токенів, пише The Register.

Інженер Netflix скоротив витрати на ШІ на 90% — і виклав інструмент у відкритий доступ

Хоча Headroom є особистою ініціативою Чопри, а не офіційним продуктом Netflix, утиліту вже протестували та впровадили кілька внутрішніх команд стрімінгового гіганта, а також сторонні розробники. Наприкінці травня 2026 року на конференції Open Source Summit автор повідомив, що з моменту релізу в січні інструмент допоміг користувачам заощадити близько $700 000, вивільнивши понад 200 мільярдів токенів. Поточна версія проєкту на GitHub (v0.22) уже зібрала близько 2000 зірок та понад 120 форків.

Передісторія: як домашній проєкт призвів до оптимізації

Ідея створення Headroom з’явилася після того, як Чопра отримав неочікуваний рахунок на $287 від Anthropic за використання моделі Claude Sonnet у власному домашньому проєкті (розробка, рефакторинг коду та робота з базами даних через MCP-інструменти).

Аналіз витрат показав, що ШІ-провайдери стягують плату не за унікальні інструкції користувача, а за величезні масиви супутнього «машинного сміття». Мова йде про занадто деталізовані JSON-схеми, вкладені шаблони в API-відповідях, повторювані назви колонок баз даних та серверні логи. Чопра схарактеризував це як «доступну для стискання технічну інформацію, що маскується під текст».

Проблема критично загострилася з появою автономних ШІ-агентів. Їм у контекстне вікно постійно передається величезна кількість системних метаданих, що не лише спустошує бюджети, але й призводить до «гниття контексту» (context rot) — явища, коли LLM починає плутатися та ігнорувати суть запиту через інформаційне перевантаження.

Як працює Project Headroom

Утиліта написана на Python та Node.js. Вона запускається локально на комп’ютері розробника як проксі-сервер (порт 8787) і вбудовується безпосередньо в робочий процес через командний рядок (CLI).

Головні технологічні особливості інструменту:

Розумне розпізнавання та маршрутизація: Програма аналізує тип вхідних даних і відправляє їх на відповідні компресори. Для коду використовується алгоритм на основі Abstract Syntax Tree (AST), а для вебсторінок та API — спеціальні DOM та JSON-компресори.
Зворотне (оборотне) стиснення: На відміну від сервісів, які безповоротно видаляють текст, Headroom замінює громіздкі блоки метаданих короткими маркерами. Оригінальний контекст зберігається локально у швидких базах даних (Redis або SQLite). Якщо моделі під час генерації знадобиться повна версія інформації, вона надсилає запит до локального MCP-інструменту Headroom і миттєво отримує вихідні дані.
Читайте также: Скільки Дітей Було У Ярослава Мудрого: Імена та Їхня Роль у Історії
Вирівнювання кешу (CacheAligner): Функція бореться з проблемою швидкого скидання кешу у провайдерів (наприклад, у Claude префіксний кеш оновлюється кожні 5 хвилин). Якщо у системному промпті регулярно змінюється дрібниця на кшталт дати або UUID сесії, провайдер сприймає весь масив даних як новий і знову стягує повну вартість. CacheAligner виявляє такі мінімальні зміни й надсилає до хмари лише оновлені фрагменти.

Ефективність у цифрах

Згідно з тестами розробника, Headroom демонструє найкращі результати при роботі зі специфічними технічними даними:

Серверні логи: видаляється до 90% надлишкового тексту;
JSON-вивід MCP-інструментів: обсяг токенів зменшується в середньому на 70%;
Списки файлів та бази даних: стискаються завдяки усуненню повторюваних схем та метаданих.

Окрім фінансової вигоди, скорочення обсягу вхідних токенів дозволяє значно знизити затримку (latency) ШІ-відповідей, що критично для голосових та real-time додатків. Також зменшення навантаження на контекстні вікна знижує споживання електроенергії дата-центрами.

У найближчих планах Теджаса Чопри — додати нові компресори (зокрема для фінансових даних), покращити точність тестування, а також випустити супутній open-source інструмент Headlight, який відстежуватиме походження кожного окремого токена в мультимодельних архітектурах.

Нагадаємо, кілька тижнів тому Netflix випустив безкоштовну модель штучного інтелекту, яка видаляє об’єкти на відео.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Програміст Netflix скоротив витрати на ШІ-токени на 90% — і виклав інструмент у відкритий доступ

Передісторія: як домашній проєкт призвів до оптимізації

Як працює Project Headroom

Ефективність у цифрах

Автор admin

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів

Програміст Netflix скоротив витрати на ШІ-токени на 90% — і виклав інструмент у відкритий доступ

Передісторія: як домашній проєкт призвів до оптимізації

Як працює Project Headroom

Ефективність у цифрах

Автор admin

Схожі публікації

США погрожують Китаю санкціями через дистиляцію моделей штучного інтелекту

OpenAI відключила модель для тривалих задач — вона неодноразово намагалась вибратись за межі «пісочниці»

Microsoft випадково розкрила: мінімальні системні вимоги Windows 11 давно втратили сенс

Залишити відповідь Скасувати коментар

Ви пропустили

Флагман фармацевтики. BMS та NVIDIA створюють ШІ-суперкомп’ютер для розробки ліків

2000 годин під напругою. У Гонконзі створили сонячні елементи, які не бояться затінення

Займав майже 8 гектарів. В Словаччині знайшли римський військовий табір часів Марка Аврелія

Холодне захоплення. У США навчилися добувати рідкісний гелій-3 для квантових комп’ютерів