Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Перейти на страницу:

В 2017 г. появилась интересная альтернативная модель на основе генеративных состязательных сетей — MidiNet[2953]. В ней авторы использовали в качестве генератора и дискриминатора свёрточные сети (модель была создана под впечатлением от DCGAN). К сожалению, авторы этой работы тоже избежали сравнения своих результатов с музыкой, сочинённой людьми, однако в небольшом эксперименте показали превосходство своей модели над более ранней моделью — MelodyRNN, созданной специалистами исследовательской лаборатории Google под названием Magenta. Основой MelodyRNN были LSTM-сети, причём модель существовала в двух вариантах (LookbackRNN и AttentionRNN), принципиальным отличием второго было использование в нём механизма внимания[2954].

В общем, во второй половине 2010-х гг. было создано немало генеративных моделей, оперирующих музыкой на уровне нот или аккордов и использующих техники, характерные для эпохи первой революции в обработке естественного языка. Помимо упомянутых выше, среди них можно отметить также Song from PI[2955], MusicVAE[2956], BALSTM[2957], MuseGAN[2958], HRNN[2959], PerformanceRNN[2960] и BachProp[2961].

В 2017 г. уже знакомые нам Алексей Тихонов и Иван Ямщиков использовали вариационный рекуррентный автокодировщик для генерации музыки в стиле знаменитого русского композитора Александра Скрябина. Создание музыкальных композиций в стиле Скрябина было приурочено ко дню 175-летия композитора. Треки, сгенерированные нейросетью, свела вместе Мария Чернова, композитор и эксперт по творчеству Скрябина. 30 мая 2017 г., на открытии конференции YaC 2017, получившееся произведение исполнил камерный оркестр в составе скрипки, арфы и терменвокса, на котором играл Пётр Термен — правнук создателя этого музыкального инструмента Льва Термена[2962], [2963], [2964].

С подробным описанием модели, лежавшей в основе этого эксперимента, можно ознакомиться в статье «Генерация музыки при помощи вариационного рекуррентного автокодировщика, поддержанного историей» (Music generation with variational recurrent autoencoder supported by history)[2965], опубликованной в 2017 г. Модель, предложенная Тихоновым и Ямщиковым, как можно догадаться из названия их статьи, получила название VRASH. Это довольно любопытная архитектура, построенная на основе парадигмы «кодировщик — декодер». При этом в основе моделей кодировщика и декодера лежит четырёхслойная рекуррентная сеть‑хайвей. В отличие от классического вариационного автокодировщика VRASH использует предыдущие выходы в качестве дополнительных входов. Таким образом, можно сказать, VRASH «слушает» ноты, которые сгенерировал, и использует их как дополнительный «исторический» вход.

В начале 2019 г. модель, созданная Тихоновым и Ямщиковым, стала соавтором композитора Кузьмы Бодрова при создании пьесы для альта с оркестром. «Я получил около двадцати с чем-то файлов от нейросети [компании] Яндекс, — говорит композитор. — Это были мелодические линии, изложенные на фортепиано. Как ни странно, в них были интересные зёрна, за которые цепляется слух. Но они были не оформлены. Это шло единым бессмысленным потоком, как бывает речь у нездоровых людей. Хотя возникали иногда ритмические образования в этом потоке. Я взял оттуда несколько таких тем и немножко отшлифовал их. Затем продолжил более осознанное выстраивание формы, сделал оркестровку и вывел партию солирующего альта. Получилось такое произведение». Даже нейросеть, которая неспособна в промышленных объёмах производить музыкальные шедевры, может генерировать музыкальный материал, помогающий авторам в поисках идей. Бодров говорит об этом так: «Композиторы, когда начинают сочинять, обычно сталкиваются с проблемой: за что зацепиться, за какую ниточку дёрнуть, чтобы найти мелодический оборот, либо аккорд, либо тембр. И это найденное начинает, как бы, обрастать. В этом поиске всегда состоит трудность. А в этом случае было легче. Эти зёрна уже были заданы. Я получил кирпичики, из которых начал строить здание. Это можно назвать соавторством, потому что мелодические линии были предложены не мной, а нейронной сетью»[2966].

Среди отечественных исследований, посвящённых генерации музыки при помощи нейросетевых моделей, следует отметить также выпускную квалификационную работу Сергея Иванова, выполненную им на факультете вычислительной математики и кибернетики МГУ под руководством профессора Дьяконова[2967]. Предлагаемая автором модель, обученная на подборке произведений с сайта classicalarchives.com, основана на комбинации LSTM-сети, оснащённой механизмом внимания, с RBM-сетью (ограниченной машиной Больцмана). Эта модель показала неплохой результат на соревнованиях по созданию музыки при помощи ИИ [AI‑generated Music Challenge], организованных в 2017 г. на платформе crowdAI Федеральной политехнической школой Лозанны (École Polytechnique Fédérale de Lausanne)[2968]. К сожалению, оценка сгенерированной музыки в ходе соревнований была основана только на автоматизированной метрике.

Вполне закономерным результатом второй революции в обработке естественного языка было появление музыкальных генеративных моделей, основанных на трансформерах. Первой такой моделью стало новое творение Magenta (кстати говоря, среди ведущих исследователей этой лаборатории — уже знакомый нам пионер нейросетевой генеративной музыки Дуглас Экк), модель под незатейливым названием «Музыкальный трансформер» (Music Transformer)[2969]. Авторы использовали датасет классической фортепианной музыки под названием Piano-e-Competition, содержащий около 1100 музыкальных произведений[2970]. В ходе эксперимента по оценке качества музыкальных произведений создатели музыкального трансформера использовали по десять мелодий, созданных двумя версиями модели (с двумя разными типами механизма внимания — с абсолютным и относительным способом кодирования позиции токена), десять мелодий, созданных моделью на основе LSTM, и десять мелодий, написанных людьми. В эксперименте участвовало, к сожалению, всего три оценщика, в итоге было осуществлено 160 попарных сравнений с использованием шкалы Ликерта, включающей пять возможных значений оценки степени согласия с некоторым утверждением (в данном случае с утверждением, что композиция A является более мелодичной [musical], чем композиция B): полностью не согласен, не согласен, где-то посередине, согласен, полностью согласен. В итоге лучшей из двух версий трансформера удалось победить LSTM (52 победы в сравнениях против 39), с небольшим отставанием от музыки, сочинённой людьми (61 победа в сравнениях). Согласно подсчётам авторов (включавших среди прочего поправку на множественную проверку гипотез, что является признаком весьма качественного статистического исследования; такая проверка позволяет учесть возможность того, что статистически значимый результат был получен случайно — лишь потому, что исследователи перебрали очень много гипотез), превосходство трансформерной модели с относительным кодированием позиции токена над моделью с абсолютным кодированием позиции токена оказалось статистически значимым, однако статистически значимое превосходство над LSTM ей показать не удалось, что неудивительно при таких скромных объёмах выборки. Конечно, в исследованиях, претендующих на уровень SOTA, хотелось бы видеть эксперименты с большим количеством оценщиков.

ВПЕРЕД

Перейти на страницу: