Статья опубликована в рамках: Научного журнала «Студенческий» № 19(147)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6
ПРИМЕНЕНИЕ МЕТОДОВ СОЗДАНИЕ МУЗЫКИ С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ
АННОТАЦИЯ
В наше время, нас везде окружает музыка, начиная от надоедливой музыки в рекламе, и заканчивая расслабляющим музыкальным сопровождением при поездке в лифте. И такую музыку, которая не несет за собой никакой творческой ценности, тоже пишут люди. А следовательно, написанная музыка нравится не всем людям, так как у всех людей музыкальные вкусы субъективны. Но что, если подобную музыку будет писать машина? В этой статье будут изучены методы создания музыки с помощью нейронных сетей, проведено исследование наличия подобных инструментов, а также изучена целесообразность внедрения данной технологии.
ABSTRACT
Nowadays, we are surrounded by music everywhere, from annoying music in advertisements to relaxing musical accompaniment when traveling in an elevator. And such music, which carries almost no creative value, is also written by people. Consequently, not all people like the written music, since all people have subjective musical tastes. But what if that kind of music was written by a machine? This article will explore methods of creating music using neural networks, research the availability of such tools, and also examine the feasibility of introducing this technology.
Ключевые слова: Нейронные сети, музыка.
Keywords: Neural networks, music.
Нейронные сети представляют собой самообучающиеся модели, имитирующие деятельность человеческого мозга. Они действуют не только в соответствии с заданным алгоритмом и формулами, но и сами анализируют вновь поступающую информацию. Нейронные сети также способны не только анализировать входящую информацию, но и воспроизводить ее из своей памяти. Основным достоинством нейронных сетей является возможность эффективно строить нелинейные зависимости, более точно описывающие наборы данных по сравнению с линейными методами статистики[1].
Нейронная сеть представляет собой структуру, состоящую из искусственных нейронов, определенным образом связанных друг с другом и внешней средой с помощью связей, каждая из которых имеет определённый коэффициент, на который умножается поступающее через него значение, эти коэффициенты называют весами[2].
Нейронные сети представляют собой модели, основанные на машинном обучении, т.е. приобретают необходимые свойства в процессе обучения, который заключается в итеративной подстройке весов сети по некоторому правилу, называемому алгоритмом обучения[2].
Нейронные сети широко используются в анализе данных, а нейросетевые модули входят в состав практически любой аналитической платформы. Основные задачи, решаемые с помощью нейронных сетей в анализе данных, это численное предсказание, классификация, кластеризация и прогнозирование[2].
Но что, если попробовать с помощью нейронных сетей создавать музыку, то бишь на основе полученных данных, параметров, сеть будет генерировать либо MIDI файл, который может изменить человек, либо уже готовую звуковую дорожку, которую можно изменить только путем пересоздания.
Проведя небольшое исследование, оказалось, что компания OpenAI уже реализовала данные способы создания музыки.
Первым инструментом является Jukebox, система искусственного интеллекта, которая способна генерировать полноценные песни с музыкой, осмысленными текстами и вокалом. По заверению авторов, их модели могут создавать песни самых разных музыкальных жанров, например, рок, хип-хоп и джаз. Они могут имитировать мелодию, ритм и звучание самых разных инструментов, а также вокал, который будет звучать вместе с музыкой[3].
Модель автоэнкодера Jukebox сжимает звук в дискретное пространство, используя подход, основанный на квантовании, который называется VQ-VAE. VQ-VAE может иерархически генерировать короткие инструментальные пьесы из нескольких наборов инструментов, однако они страдают от коллапса иерархии. Упрощенный вариант под названием VQ-VAE-2 позволяет избежать этих проблем за счет использования только кодеров и декодеров с прямой связью[3].
Разработчики используют три уровня VQ-VAE, которые сжимают необработанный звук 44 кГц в 8, 32 и 128 раз, с размером кодовой книги 2048 для каждого уровня. При этой понижающей дискретизация теряется большая часть деталей звука и возникает множество помех, когда идет спуск дальше по уровням. Однако он сохраняет важную информацию о высоте, тембре и громкости звука. А затем идет обучение моделей, которые в дальнейшем и создают музыку[3].
Но так как в идет обработка звуковых файлов, то присутствуют лишние шумы и помехи, которые мешают комфортному прослушиванию созданной музыки, но по заверению разработчиков, в дальнейшем они хотят создавать аудио файлы с чистейшим звуком.
А вот уже более интересным инструментом является MuseNet, нейросеть, которая генерирует четырехминутные музыкальные композиции с использованием 10 разных инструментов. Модель может комбинировать музыку в разных стилях (от кантри до Моцарта). Нейросеть устроена так, что предсказывает следующую ноту. Это позволяет ей самостоятельно выучивать такие концепты, как ритм, жанр, гармония, без необходимости отдельно задавать их при обучении[4].
Нейросеть обучается с помощью GPT-2, который работает, пытаясь на основе огромного массива данных предсказать следующее слово в англоязычном тексте. MuseNet делает то же самое, но с MIDI-файлами, и обработав гигабайты музыкальных файлов, нейросеть сформировала законы музыкальной гармонии, то бишь на вход подается набор музыкальных нот, на выходе модель генерирует следующую ноту. И теперь генерирует произведения, исходя из нот данного ей сэмпла и инструментов, в нем представленных[4].
Стоит отметить, что немало важным являлось исследование пользователей, на основании которого мы можем сделать следующие выводы: 68% опрошенных относятся положительно к тому, что нейросеть будет генерировать музыку не в творческих целях, 20% нейтрально относятся к данной идее, и только 12% оказались против, так как считают, что любую музыку должен писать человек, и нейросеть не способна на творчество.
Рисунок 1.
Из всего вышесказанного, можно сделать вывод, что пользователи хотели бы иметь данный инструмент, и данные инструменты уже присутствуют на рынке, но в связи с недостаточным уровнем развития технологий, они находятся не в том виде, в котором их хотел бы видеть конечный пользователь.
В дальнейшем планируется полноценное внедрение технологии создания музыки с помощью нейронных сетей в не творческие сферы жизни, но для начала, планируется поддержка текущих алгоритмов создания музыки (так как они являются open source), для развития проектов и дальнейшего внедрения данной технологии.
Список литературы:
- BaseGroup Labs “Нейросеть”. [Электронный ресурс]. – Режим доступа: URL – https://basegroup.ru/deductor/function/algorithm/neuronet
- Платформа Loginom “Нейронная сеть”. [Электронный ресурс]. – Режим доступа: URL – https://wiki.loginom.ru/articles/neural-network.html
- Компания OpenAI “Jukebox”. [Электронный ресурс]. – Режим доступа: URL – https://openai.com/blog/jukebox/
- Компания OpenAI “MuseNet”. [Электронный ресурс]. – Режим доступа: URL – https://openai.com/blog/musenet/
Оставить комментарий