Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Охота на электроовец. Большая книга искусственного интеллекта читать книгу онлайн
Новый этап в области компьютерных технологий часто называют очередной «весной искусственного интеллекта». Её начало обычно отсчитывают с момента появления нейронной сети, сегодня известной под названием AlexNet, успех которой в распознавании зрительных образов возвестил о начале «революции глубокого обучения». В результате этой революции машинам удалось превзойти человеческий уровень при решении множества задач. Сегодня уже мало кого удивляют победы машин над сильнейшими игроками в го, создание ими музыки и картин, предсказание нейронными сетями пространственной структуры белков и другие вещи, которые десять лет назад мы посчитали бы чудесами. Алгоритмы искусственного интеллекта (ИИ) быстро вошли в нашу жизнь и стали её неотъемлемой частью. Например, каждый раз, когда вы делаете фотографию при помощи смартфона, её обработку выполняет нейронная сеть.
На смену весне искусственного интеллекта приходит лето. Эта книга рассказывает о том, какие события в истории науки привели к началу этого лета, о современных технологиях ИИ и их возможностях, а также пытается приоткрыть завесу, скрывающую от нас мир ближайшего будущего.
Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта».
Среди отечественных исследований, посвящённых генерации музыки при помощи нейросетевых моделей, следует отметить также выпускную квалификационную работу Сергея Иванова, выполненную им на факультете вычислительной математики и кибернетики МГУ под руководством профессора Дьяконова[2967]. Предлагаемая автором модель, обученная на подборке произведений с сайта classicalarchives.com, основана на комбинации LSTM-сети, оснащённой механизмом внимания, с RBM-сетью (ограниченной машиной Больцмана). Эта модель показала неплохой результат на соревнованиях по созданию музыки при помощи ИИ [AI‑generated Music Challenge], организованных в 2017 г. на платформе crowdAI Федеральной политехнической школой Лозанны (École Polytechnique Fédérale de Lausanne)[2968]. К сожалению, оценка сгенерированной музыки в ходе соревнований была основана только на автоматизированной метрике.
Вполне закономерным результатом второй революции в обработке естественного языка было появление музыкальных генеративных моделей, основанных на трансформерах. Первой такой моделью стало новое творение Magenta (кстати говоря, среди ведущих исследователей этой лаборатории — уже знакомый нам пионер нейросетевой генеративной музыки Дуглас Экк), модель под незатейливым названием «Музыкальный трансформер» (Music Transformer)[2969]. Авторы использовали датасет классической фортепианной музыки под названием Piano-e-Competition, содержащий около 1100 музыкальных произведений[2970]. В ходе эксперимента по оценке качества музыкальных произведений создатели музыкального трансформера использовали по десять мелодий, созданных двумя версиями модели (с двумя разными типами механизма внимания — с абсолютным и относительным способом кодирования позиции токена), десять мелодий, созданных моделью на основе LSTM, и десять мелодий, написанных людьми. В эксперименте участвовало, к сожалению, всего три оценщика, в итоге было осуществлено 160 попарных сравнений с использованием шкалы Ликерта, включающей пять возможных значений оценки степени согласия с некоторым утверждением (в данном случае с утверждением, что композиция A является более мелодичной [musical], чем композиция B): полностью не согласен, не согласен, где-то посередине, согласен, полностью согласен. В итоге лучшей из двух версий трансформера удалось победить LSTM (52 победы в сравнениях против 39), с небольшим отставанием от музыки, сочинённой людьми (61 победа в сравнениях). Согласно подсчётам авторов (включавших среди прочего поправку на множественную проверку гипотез, что является признаком весьма качественного статистического исследования; такая проверка позволяет учесть возможность того, что статистически значимый результат был получен случайно — лишь потому, что исследователи перебрали очень много гипотез), превосходство трансформерной модели с относительным кодированием позиции токена над моделью с абсолютным кодированием позиции токена оказалось статистически значимым, однако статистически значимое превосходство над LSTM ей показать не удалось, что неудивительно при таких скромных объёмах выборки. Конечно, в исследованиях, претендующих на уровень SOTA, хотелось бы видеть эксперименты с большим количеством оценщиков.
В начале 2020 г. на свет появился Pop Music Transformer, описанный в статье Ю-Сян Хуана и И-Сюань Яна под названием «Трансформер для поп-музыки: моделирование на основе тактовых долей [beat-based] и создание выразительных поп-композиций для фортепиано» (Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions)[2971].
Основой данного музыкального трансформера стала популярная модель для моделирования естественного языка под названием Transformer-XL. В качестве обучающего датасета был использован набор из 775 фортепианных композиций. Изюминкой модели стало новое представление музыкальных данных, получившее название REMI (REvamped MIdi-derived events, Скорректированные события, полученные из MIDI-представления). MIDI (Musical Instrument Digital Interface, Цифровой интерфейс музыкальных инструментов) — стандартный формат для обмена данными между электронными музыкальными инструментами. Музыка в формате MIDI представлена в виде последовательности событий [events], которыми могут быть нажатия клавиш, выбор тембра, темпа, тональности и так далее.
Основная идея REMI заключается в том, чтобы в явном виде добавить в представление информацию о начале каждого такта и его долей. Получив на вход информацию о временной сетке произведения в явном виде, трансформер, как оказалось, способен обучаться гораздо эффективнее. К сожалению, в ходе эксперимента по оценке качества музыки авторы исследования сравнивали свои результаты только с результатами различных вариантов обычного музыкального трансформера (который им весьма убедительно удалось превзойти).
В целом наиболее продвинутой, основанной на трансформерах генеративной моделью для музыки является MuseNet от OpenAI. Её архитектура основана на тех же принципах, что и текстовые генеративные модели GPT-2 и GPT-3 (в MuseNet, как и в GPT-3, используются блоки разреженного трансформера). Длина контекста 72-слойной модели составляет 4096 токенов. По примерным прикидкам, в MuseNet должно быть около 2–3 млрд весов.
Для обучения модели был создан огромный датасет MIDI-файлов, в который вошли коллекции classicalarchives.com и bitmidi.com, датасет MAESTRO[2972], а также ряд тематических и этнических сборников MIDI-музыки, собранных авторами в интернете. Этот датасет был затем дополнительно аугментирован путём небольших изменений темпа. Также в модель был включён специальный механизм, предназначенный для снижения вероятности прямого плагиата, когда модель просто воспроизводит достаточно длинные фрагменты, представленные в обучающей выборке. К сожалению, хотя MuseNet и можно воспользоваться онлайн, информация о самой модели в настоящее время ограничивается лишь популярным постом[2973] в блоге OpenAI, то есть препринт исследования не был опубликован. Будем надеяться, что OpenAI рано или поздно поделится с сообществом деталями своих экспериментов.
В целом генеративные музыкальные модели, работающие на уровне нотного текста, стали в наши дни помощниками композиторов, а иногда способны и на создание вполне самостоятельных произведений на уровне лучших композиторов. В 2019 г. впервые в истории был подписан контракт между крупным музыкальным лейблом (Warner Music) и компанией, создавшей систему для алгоритмической генерации музыки — Endel[2974].
Семейство генеративных музыкальных моделей SymFormer, работающих в нотном домене, создано у нас в Управлении экспериментальных систем машинного обучения департамента SberDevices «Сбера» командой под руководством Алексея Минина[2975], [2976]. С творчеством этих нейросетей можно познакомиться в сервисе «Звук», где оно размещается от имени нейросетевого ансамбля Aiphoria[2977].
Концерт, где генеративная нейросеть впервые в мире стала солистом и импровизатором, состоялся в рамках культурной программы Восточного экономического форума (ВЭФ) в сентябре 2023 г. Это выступление стало результатом нашей совместной работы с известным российским музыкантом и композитором Петром Дрангой[2978].
Но нельзя ли добиться столь же впечатляющих результатов, работая с акустическими данными? В конце концов, мы же упоминали, что модель WaveNet, обученная на записях фортепианных концертов, способна на самостоятельную импровизацию? Почему бы не избавиться раз и навсегда от всех этих библиотек инструментов и математически точного исполнения
