4 Червня, 2026

Netflix випустив безкоштовну модель штучного інтелекту, яка видаляє об’єкти на відео

Стрімінговий сервіс Netflix спільно з дослідниками Університету Софії (Каліфорнія) випустив VOID (Video Object and Interaction Deletion) — нову відкриту модель штучного інтелекту, яка обіцяє революцію в кіномонтажі та обробці відео.

Читайте также: Квантовий прорив. Рентгенівські імпульси виявили складні взаємодії всередині атомів

Модель доступна на Hugging Face та GitHub під ліцензією Apache 2.0, пише The Register. Для її локального запуску потрібна відеокарта з 40 ГБ відеопам’яті.

У чому її особливість?

Головна відмінність VOID від існуючих інструментів — здатність розуміти причинно-наслідкові зв’язки у сцені. Вона розуміє фізику взаємодії та здатна повністю переписати логіку сцени.

Netflix випустив безкоштовну модель штучного інтелекту, яка видаляє об'єкти на відео

Звичайні методи просто зафарбовують область за віддаленим об’єктом та коригують тіні та відображення, але не справляються з фізичними взаємодіями. VOID використовує спеціальну чотирикомпонентну маску (quadmask), яка позначає як сам об’єкт, а й зони, куди він впливає — зокрема, предмети, які він підтримував чи зміщував. Для визначення таких зон модель використовує мультимодальну модель Gemini та систему сегментації SAM2.

Хоча зараз існують інші інструменти для зміни сцен на відео, такі як Runway, Generative Omnimatte, DiffuEraser, ROSE, MiniMax-Remover та ProPainter, представники Netflix стверджують, що VOID значно їх перевершує. Згідно з опитуванням 25 осіб за кількома сценаріями роботи, VOID віддали перевагу у 64,8% випадків, тоді як найближчий конкурент Runway посів друге місце з великим відривом — 18,4%.

Читайте также: Чому тексти перевіряють на AI і як це впливає

Технічно VOID побудована на базі CogVideoX-Fun — відеодифузійного трансформера з 5 млрд параметрів від Alibaba PAI. Модель навчали на синтетичних парних відео, де сцени з об’єктом і без нього генерувалися в Blender з фізичною симуляцією (набір даних HUMOTO) та на рушії Kubric від Google. Для навчання використовували 8 GPU A100 80 ГБ.

Як це працює на практиці:

  • ДТП без аварії: Якщо на відео зафіксовано зіткнення двох автомобілів, VOID може видалити один із них. При цьому ШІ не просто «замаже» машину, а згенерує відео, де інший автомобіль продовжує спокійно їхати порожньою дорогою — без диму, вогню чи уламків, які були в оригіналі.
  • Спокійна вода: Якщо людина стрибає в басейн, створюючи купу бризок, VOID може видалити людину так, що поверхня води залишиться абсолютно нерухомою, ніби в неї ніхто й не стрибав.

Доступність

Найцікавішим є те, що Netflix не став закривати технологію всередині компанії. Модель уже опублікована на платформі Hugging Face, що дає можливість розробникам та монтажникам у всьому світі випробувати її у власних проєктах.

Цей крок підкреслює стратегію стрімінгового гіганта на впровадження генеративного ШІ у виробничі цикли, що дозволяє значно економити на перезйомках та складних візуальних ефектах.

Нагадаємо, що Netflix збирається створювати ігри за допомогою штучного інтелекту.

Читайте также: Де найлегше знайти роботу в українському ІТ: MilTech і C++

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Автор admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *