
Световен пробив в обработката на видео с изкуствен интелект обяви Институтът за компютърни науки, изкуствен интелект и технологии (INSAIT) към Софийския университет „Св. Климент Охридски” в съвместен проект с Netflix.
Специалисти от INSAIT и една от най-големите световни стрийминг платформи са разработили нов AI модел VOID (Video Object and Interaction Deletion), който може да премахва обекти от видео и едновременно с това да пресъздава реалистично как се променя сцената.
За разлика от стандартните инструменти, които просто „запълват” изтритите части, VOID разбира как обектите си взаимодействат. Ако, например, човек държи предмет и бъде премахнат, моделът симулира как предметът пада или се движи естествено, сякаш сцената е заснета без него.
Тази разработка може да даде много по-голяма свобода на производителите на видео съдържание и би спестила значителен финансов ресурс за презаснемане на различни сцени, заявиха от INSAIT.
Технологията стъпва върху CogVideoX и използва специален подход с т.нар. quadmask, който позволява да се разграничат обектите, зоните на взаимодействие и фонът. Това помага на системата да запази логиката и динамиката на кадъра, без видими артефакти.

Тъй като реални тренировъчни данни почти липсват, екипите на Netflix и INSAIT използват симулирани сцени, генерирани чрез Blender. Така моделът се учи какво се случва в реалния свят, когато даден обект изчезне.
В сравнение със съществуващи решения, VOID постига по-добра визуална последователност и по-реалистично поведение на обектите, твърдят разработчиците.
Моделът е с отворен код, което дава възможност на разработчици и изследователи от цял свят да работят и надграждат технологията, подчертаха от INSAIT.

