ИИ модели для генерации музыки

Обновлено: 13.12.2024

Технологии машинного обучения позволяют автоматически генерировать музыки по описанию. Генерация музыки может применяться для создания бизнес-видеороликов и презентаций.

2024. Gemini 2.0 позволяет генерировать изображения, аудио и исполнять программный код

Google представил новую версию своей ИИ модели - Gemini 2.0 Flash, которая может генерировать не только текст, но и изображения и аудио. Кроме того, модель способна работать с сторонними приложениями и сервисами: например, использовать поиск Google Search, выполнять код и многое другое. По данным Google, Gemini 2.0 Flash работает в два раза быстрее, чем предыдущая версия Gemini 1.5 Pro, и значительно лучше справляется с задачами, связанными с программированием и анализом изображений. Вместе с анонсом Gemini 2.0 Flash компания представила функцию Deep Research. Она позволяет ИИ просматривать веб-страницы и составлять аналитические отчёты на основе начального запроса. В сравнении с первой версией Gemini, новая модель улучшила способности к рассуждению, понимает более сложные инструкции, поддерживает работу с более длинным контекстом и стала более "агентной" — то есть способной выполнять многошаговые задачи самостоятельно, по запросу пользователя.

2024. Google добавил озвучку в свой ИИ-генератор видео Veo

Месяц назад Google Deepmind показал новую нейросеть для генерации видео Veo. Она может создавать короткие видео с разрешением 1080p в различных визуальных и кинематографических стилях на базе текстового описания и (опционально) изображений и видео-промптов. А теперь она еще и генерирует звуковую дорожку к видео. При чем, речь не просто о подборе саундтрека, подходящего по настроению к видео, а об осмысленном звуковом сопровождении. Например, если в кадре идет человек, будут слышны звуки его шагов, если пронеслась машина - (удаляющийся) шум мотора. Более того, модель может генерить речь персонажей (пока по текстовому описанию).

2024. Stable Audio 2.0 увеличила длительность генерируемой музыки до 3 минут

Стартап Stability AI представил языковую модель Stable Audio 2.0, которая позволяет генерировать полноценные музыкальные треки из аудиозаписи и подсказок, а также добавлять в них звуковые эффекты. Продолжительность итогового продукта около 3 минут, что равно стандартной песне на радио. Первая версия Stable Audio генерировала файлы продолжительностью в 90 секунд, которые подходили скорее для баловства, чем для коммерческого применения. Пришедшая ей на смену модель создаёт полноценные песни с вокалом и классической структурой: куплетами, припевом и финалом. Главное достоинство Stable Audio 2.0 — решенный вопрос с авторскими правами. Stability AI обучала модель на более чем 800 тысячах записей в музыкальной библиотеки AudioSparx, причём исполнители могли запретить использовать свои работы. Stable Audio 2.0 полностью бесплатна и доступна всем желающим на сайте и по API.

2024. Adobe представил AI, который может создавать музыку

Компания Adobe представила Project Music GenAI Control – искусственный интеллект, который может генерировать музыку. Он генерирует аудио из текстовых описаний (нечто типа «веселый танец» или «печальный джаз») или схожей мелодии. Пользователи могут настраивать темп, интенсивность, повторяющиеся паттерны и структуру, или растянуть трек до любой длины, ремиксовать его или сделать бесконечный цикл. Пока этот проект находится на стадии разработки, и у него даже нет пользовательского интерфейса, но в будущем может стать доступным для всех.

2023. YouTube сделал ИИ-инструмент для генерации музыки

YouTube показал ИИ-сервисы для генерации музыки — один имитирует стиль реальных музыкантов, другому можно напеть партию. С помощью инструмента Dream Track можно сгенерировать 30-секундную композицию в стиле одного из девяти исполнителей, которые захотели поучаствовать в эксперименте. Инструмент можно использовать при создании коротких роликов Shorts, он уже доступен «небольшой группе блогеров из США». Достаточно дать нейросети текстовое описание — например, «солнечное утро во Флориде, жанр R&B» или «баллада о том, что противоположности притягиваются, акустика».

2023. Stability AI выпустила ИИ модель для генерации музыки

Stability AI выпустила модель Stable Audio для генерации музыки. Она генерирует аудиозаписи по текстовым запросам. Её обучали на дата-сете из текстовых метаданных и более чем 800 тысяч аудиофайлов с готовыми композициями, звуковыми эффектами и инструментальными партиями общей длительностью свыше 19,5 тысячи часов. Пользователям предлагают три тарифа. Первый — бесплатный: можно генерировать по 20 фрагментов в месяц длиной не более 45 секунд. Профессиональный обойдётся в $11,99 в месяц без учёта налогов и позволит генерировать 500 треков в месяц продолжительностью по полторы минуты. Условия корпоративного тарифа обговариваются в индивидуальном порядке.

2023. ИИ-модель MusicLM от Google сочиняет музыку по текстовому описанию

Google представила систему MusicLM, которая создает музыку в любом жанре по текстовым описаниям. Это не первый музыкальный генератор ИИ — такие проекты как AudioML от Google и Jukebox от OpenAI уже занимались этой темой. MusicLM использует обширную обучающую базу данных из 280 000 часов музыки и умеет писать композиции по абстрактным описаниям. MusicLM может не только комбинировать жанры и инструменты, но и писать треки, используя абстрактные концепции, которые обычно трудно понять компьютерам. В одном из примеров модель создала трек, сочетающий танцевальную музыку с реггетоном, обладающий «космической, потусторонней» мелодией, которая вызывает «чувство трепета и благоговения». В качестве задания может выступать описание картины, еще желаемую композицию можно напеть или просвистеть. В режиме истории можно объединить несколько текстовых описаний для создания диджейского сета или саундтрека.