ТЕХНИКА  Миллиарды гармоний

Нейросеть от Google создает музыку по текстовому описанию

Компания Google представила нейросеть MusicLM, генерирующую музыку из текстовых подсказок. Они не собираются выкладывать ее в открытый доступ и публиковать исходный код, но решили поделиться результатами ее работы.

Разработчики выложили 5500 сэмплов, созданных с использованием MusicLM, и мелодий к ним, чтобы "поддержать дальнейшие исследования". Создатели считают, что MusicLM "превосходит предыдущие системы как по качеству звука, так и по соответствию текстовому описанию". Упоминается также, что он может воспринимать звук и копировать мелодию.

Примеры впечатляют. Есть 30-секундные фрагменты, которые звучат как настоящие песни, созданные из длинных описаний, описывающих жанр, атмосферу и даже конкретные инструменты, которые должны звучать в композиции. Есть даже пятиминутные фрагменты, созданные на основании одного или двух слов, - например, "мелодичное техно” или "песня для медитации рядом с рекой'. Чтобы пользователи смогли оценить возможности платформы, разработчики добавили режим "история", где демонстрируется сценарий трансформации мелодии между подсказками.

Примеры сгенерированной композиции можно услышать здесь. MusicLM может даже имитировать человеческий вокал, и хотя кажется, что он правильно передает тон и общее звучание голосов, в них определенно есть нечто искусственное.

Разработчики также заставили MusicLM сгенерировать музыку по описанию картин Сальвадора Дали, Анри Матисса, Эдварда Мунка, Пабло Пикассо и других известных художников.

Нейросеть обучена на 280 тысячах часах музыки. Она создает мелодии на частоте 24 кГц. При этом ее авторы обнаружили, что 1% сгенерированной музыки напрямую повторяет мелодии из набора для обучения, поэтому сделать MusicLM доступной для всех не получится, чтобы избежать возможных проблем с авторскими правами.

28.01.2023, Михаил БАСМАНОВ (ЗВУКИ РУ)

ТЕХНИКА - свежие публикации: