Новый ИИ от ByteDance создает реалистичные видео из одной фотографии.
Исследователи ByteDance разработали систему искусственного интеллекта, которая преобразует отдельные фотографии в реалистичные видеоролики, на которых люди говорят, поют и двигаются естественным образом. Это прорыв, который может изменить сферу цифровых развлечений и коммуникаций.
Новая система под названием OmniHuman генерирует видеоролики в полный рост, на которых люди жестикулируют и двигаются в соответствии с речью, превосходя предыдущие модели искусственного интеллекта, которые могли анимировать только лица или верхнюю часть тела.
Как OmniHuman использует 18 700 часов обучающих данных для создания реалистичного движения
«В последние годы сквозная человеческая анимация претерпела заметные улучшения», — пишут исследователи ByteDance в статье, опубликованной на arXiv . «Однако существующие методы по-прежнему с трудом масштабируются в качестве больших общих моделей генерации видео, что ограничивает их потенциал в реальных приложениях».
Команда обучила OmniHuman на более чем 18 700 часах человеческих видеоданных, используя новый подход, который объединяет несколько типов входных данных — текст, аудио и движения тела. Эта стратегия обучения «всеобщих условий» позволяет ИИ обучаться на гораздо более крупных и разнообразных наборах данных, чем предыдущие методы.
Прорыв в создании видео с помощью искусственного интеллекта демонстрирует движения всего тела и естественные жесты
«Наша главная идея заключается в том, что включение в процесс обучения множественных кондиционирующих сигналов, таких как текст, аудио и поза, может значительно сократить потери данных», — пояснила исследовательская группа.
Технология знаменует собой значительный прогресс в медиа, созданных с помощью ИИ , демонстрируя возможности, которые варьируются от создания видеороликов людей, произносящих речи, до изображения субъектов, играющих на музыкальных инструментах. В ходе тестирования OmniHuman превзошел существующие системы по нескольким показателям качества.
Технологические гиганты соревнуются за разработку систем видеоискусственного интеллекта следующего поколения
Развитие происходит на фоне усиливающейся конкуренции в области генерации видео с использованием искусственного интеллекта, когда такие компании, как Google , Meta и Microsoft, разрабатывают схожие технологии. Прорыв ByteDance может дать её материнской компании TikTok преимущество в этой быстро развивающейся области.
Эксперты отрасли говорят, что такая технология может трансформировать производство развлечений, создание образовательного контента и цифровые коммуникации. Однако она также вызывает опасения относительно потенциального злоупотребления при создании синтетических медиа в обманных целях.
Исследователи представят свои выводы на предстоящей конференции по компьютерному зрению, хотя пока не уточнили, когда и на какой именно.
Автор Надежда Сарычева
Контакты, администрация и авторы