ИИ модели для генерации видео

Обновлено: 19.10.2024
Технологии машинного обучения позволяют автоматически генерировать видео по описанию. Генерация видео может применяться для бизнеса в следующих приложениях:
- маркетинг в Youtube и социальных сетях
- корпоративные новости
- обучение сотрудников

Примеры использования генерации видео для бизнеса с помощью искусственного интеллекта приведены ниже.

Пользователи, которые искали Генерация видео, потом также интересовались следующими продуктами:

См. также: Топ 10: ИИ ассистенты

2024. Meta представила ИИ-инструмент для создания видео со звуком


Meta анонсировала ИИ-генератор Movie Gen, который позволяет создавать видеоролики со звуком по текстовым запросам. Пользователю достаточно описать свой запрос словами, а потом при необходимости уточнить, какие изменения он хотел бы внести в полученное видео — например, в фон или цвета предметов, — и инструмент скорректирует нужную деталь. На видеоряд инструмент накладывает звуковое сопровождение в соответствии с его содержанием. Например, звук работающего двигателя при движении авто в кадре, шум водопада или грозы, а также музыкальные фрагменты. Озвучивать человеческую речь он пока не умеет.


2024. Adobe представила AI-инструмент, который превращает текст и изображения в видео


Компания Adobe представила новый инструмент на базе генеративного искусственного интеллекта, позволяющий создавать видеоклипы из статических изображений и описания. Он не только позволяет создавать видео, но и корректировать результат с помощью различных средств управления камерой, имитирующих изменение угла обзора, ее движение и расстояние, с которого ведется съемка. Также была продемонстрирована функция преобразования изображений в видео, которая может генерировать клипы на основе конкретных изображений. Новый инструмент расширит возможности видео-модели Adobe Firefly.


2024. Stability AI представила модель Stable Video 4D для генерации альтернативных ракурсов видео



Stability AI показала модель машинного обучения Stable Video 4D, предназначенную для генерации новых ракурсов для видео. На входе нейросети надо передать видео, на основе которого она будет создавать новые ракурсы. После этого надо указать желаемые углы обзора. За один раз модель по умолчанию может сгенерировать до восьми ракурсов, но это количество можно изменить. Главная неприятность пока в том, что Stable Video 4D пока создаёт по пять кадров для каждого ракурса. В будущем разработчики планируют увеличить этот показатель. Нейросеть можно установить локально, она опубликовали на портале Hugging Face. Компаниям и частным лицам, которые будут использовать Stable Video 4D для коммерческой деятельности и зарабатывают больше миллиона долларов, надо запросить разрешение.


2024. Google добавил озвучку в свой ИИ-генератор видео Veo


Месяц назад Google Deepmind показал новую нейросеть для генерации видео Veo. Она может создавать короткие видео с разрешением 1080p в различных визуальных и кинематографических стилях на базе текстового описания и (опционально) изображений и видео-промптов. А теперь она еще и генерирует звуковую дорожку к видео. При чем, речь не просто о подборе саундтрека, подходящего по настроению к видео, а об осмысленном звуковом сопровождении. Например, если в кадре идет человек, будут слышны звуки его шагов, если пронеслась машина - (удаляющийся) шум мотора. Более того, модель может генерить речь персонажей (пока по текстовому описанию).


2024. OpenAI выпустил нейросеть Sora, которая превращает текст в реалистичные видео



OpenAI представила новую генаративную нейросеть под названием Sora, генерирующую реалистичные видео на основе текстового описания. Sora может создавать ролики продолжительностью до минуты, с высоким качеством изображения и четким соблюдением запроса пользователя. Она способна создавать сложные сцены с несколькими персонажами, динамичным поведением и детальной проработкой объектов и фона. Модель умеет понимать подсказки и знает, как ведут себя разные объекты в физическом мире. Sora доступна только для ограниченного количества пользователей, в частности, из-за опасений безопасности. Доступ имеют специалистов по исследованию уязвимостей для оценки потенциальных проблем и рисков.


2024. Google запустила нейросеть Lumiere для создания видео на основе текста


Google запустила открытую нейросеть для создания видео на основе текста. Сервис получил название Lumiere. По словам разработчиков, в отличие от конкурирующих проектов Lumiere создает видео от начала до конца в рамках одного процесса. Другие похожие сервисы сначала генерируют ключевые части кадров, после чего увеличивают их разрешение. Lumiere работает в нескольких режимах, например, производит преобразование текста в видео, конвертирует статические изображения в динамические, создаёт видеоролики в заданном стиле на основе образца, позволяет редактировать существующее видео по письменным подсказкам, анимирует определенные области статического изображения или редактирует видео фрагментарно — например, может изменить предмет гардероба на человеке.


2023. Stable Diffusion представила ИИ-сервис для создания видео по картинке или тексту


Предварительная версия модели Stable Video Diffusion с генеративным искусственным интеллектом доступна на GitHub. Stable Video Diffusion включает две модели: первая по одному изображению размером 576x1024 пикселей может сгенерировать 14 кадров, вторая — 25 кадров. Из них можно сделать видео с частотой кадров от трёх до 30 в секунду. Безопасность и качество нейросетей доработают на основе обратной связи от пользователей. Использовать модели в коммерческих целях пока запрещено — они доступны только для исследований. Можно также записаться в список ожидания для тестирования онлайн-сервиса, который генерирует видео по текстовому описанию.


2023. Представлена нейросеть Gen-2, которая создает видеоклипы по текстовому запросу пользователя


Компания Runway, которая участвовала в создании популярного генератора изображений Stable Diffusion, представила новую нейросеть Gen-2, которая предлагает создавать видео по текстовому запросу пользователя. Нейросеть на данный момент способна преобразовать текстовое описание в трехсекундный видеоклип, открывая широчайшие возможностей для создателей видеоконтента. Gen-2 не будет с самого начала открыта для широкого доступа из соображений безопасности. Вместо этого пользователи могут получить доступ к революционной технологии искусственного интеллекта через Discord, присоединившись к списку ожидания на сайте Runway.


2022. Google представил нейросеть для генерации видео по тексту Imagen Video



Буквально через несколько дней, после того, как Meta представила свою нейросеть для генерации видео Make-A-Video, Гугл объявил о разработке собственной аналогичной системы искусственного интеллекта Imagen Video, способной по языковому описанию генерировать видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду. Инструмент базируется на алгоритме Imagen, являющемся аналогом DALL-E 2 и Stable Diffusion. Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель, и сочетает в себе «глубокий уровень понимания слов с беспрецедентной степенью фотореализма». Как поясняют исследователи Google, Imagen Video берет текстовое описание и создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения.


2022. Meta представила нейросеть, которая по текстовым описаниям генерирует видео



Meta представила нейросеть Make-A-Video, которая по текстовым описаниям генерирует короткие ролики. Она работает на манер популярных нейросетей вроде DALL-E 2 и Midjourney. Нейросеть создаёт ролики без звука и не дольше пяти секунд, однако уже сейчас она может распознавать самые разные запросы. Нейросети пока нет даже в закрытом доступе, а все готовые ролики журналистам предоставила сама Meta. Поэтому пока до конца неясно, насколько на самом деле Make-A-Video хорошо понимает предложения и создаёт на их основе ролики. Пользователи могут подписаться на обновления.


2022. Нейросети Apple достаточно видео длиной 10 секунд, чтобы сделать реалистичный дипфейк



Компания Apple разработала нейронную сеть NeuMan, которая обучается на коротких видео и может генерировать «дипфейк»-видео. Для обучения нейросети достаточно видеоролика длиной 10 секунд, снятого движущейся камерой. Программа извлекает из видео изображение человека и окружающей среды. После этого NeuMan может синтезировать ролики, на которых тот же персонаж будет выполнять разные действия. Например, танцевать, кувыркаться или подпрыгивать. У нового видео меньшая резкость, но в целом они похожи на реальную съемку плохого качества. Основное назначение программы, как указывают разработчики, — это приложения для дополненной реальности. Они также отмечают, что для обучения нейросети используется две модели NeRF (нейрорадиального излучения): первая из них изучает человека, а вторая — фон. С помощью этих моделей нейросеть изучает грубую геометрию человека и сцены. А потом может воссоздать ее в новых формах.


2020. Сервис Synthesia создает видеообращения из произвольного текста



Онлайн платформа Synthesia позволяет преобразовать любой текст в видео, где его начитывает виртуальный персонаж. Чтобы воспользоваться новой функцией, введите свой текстовый сценарий и нажмите на кнопку «Генерировать». Видео будет готово через несколько минут, при стандартном объеме это займет 15 минут. Новая платформа доступна на 34 языках, в частности на русском. При стандартной генерации ваш текст читает актриса Анна, помимо нее можно выбрать из еще десяти персонажей. Создатели предлагают использовать новый сервис для организации рабочих презентаций, отправки видео-сообщений и других целей.