Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Name: Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков
Author: Сергей Сергеевич Марков

ВПЕРЕД

Перейти на страницу:

человек снова подбирает рифму, на этот раз к слову big. Допустим, это wig (парик).

If wires be hairs, her circuits are a wig:

[Проводнички — как волос, схемы — как парик][2516]

Ну и так далее.

Впрочем, первые попытки обуздания семантики и создания моделей, претендующих на генерацию чего-то большего, чем просто тонн рифмованной чепухи, были также осуществлены в эпоху GOFAI. Здесь стоит упомянуть автоматического «Скальда», созданного под руководством уже знакомого нам Раймунда Пиотровского — основателя группы «Статистика речи».

Скальдами называли древнескандинавских поэтов-певцов IX–XIV вв. Обычно скальды жили при дворах и дружинах князей (конунгов), а основными жанрами их поэзии были «драпа» (боевая песня, прославлявшая подвиги конунга, его дружины и выражавшая героические идеалы), «нид» (хулительная песнь) и «отдельная виса» (стих, построенный приблизительно по тем же канонам, что и драпа, но допускающий более свободный выбор темы: например, отдельная виса могла быть написана о сделке, краже, случайной встрече, свидании, сновидении и т. д.).

С фонетической точки зрения поэзия скальдов весьма затейлива — стихи содержат множество аллитераций (повторений одинаковых или однородных согласных в стихотворении, придающих ему особую звуковую выразительность) и внутренних рифм. Особенностью же содержательной стороны скальдической поэзии является использование довольно сложной системы образов. Например, корабль скальды могли именовать «конём моря», море — «домом угрей» или «полем корабля», ворона — «осою трупов», «чайкой ран», «лебедем крови», «соколом битвы», а битву — «вьюгой мечей». Такие образы называют «кеннингами».

В процессе изучения поэзии скальдов учёные заметили, что кеннинги образуются на основе весьма жёсткой схемы. Вот, к примеру, кеннинги ворона: «гусь битвы», «оса трупов», «кукушка трупов», «лебедь крови», «чайка ран», «гусь крови». Можно заметить, что первые слова в этих кеннингах — это названия различных летающих существ (гусь, оса, кукушка, чайка, лебедь). Вторая же часть основана на словах, связанных с битвой. Корабль у скальдов мог быть «конём» не только «моря», но и «влаги», «воды», «устья», «пучины», «прибоя» и так далее — то есть вторым словом становились различные понятия, связанные с водой. Впрочем, и первая часть кеннинга была подвержена изменчивости. На месте «коня» вполне мог оказаться «лось», «тур» или даже «лев».

В общем, кеннинги образовываются путём сочетания двух существительных: первое стоит в именительном падеже, а второе — в родительном. При этом важно учитывать, что кеннинги давались довольно ограниченному числу понятий: воину, женщине, ворону, щиту, мечу, кораблю, смерти, бороде, крови, огню, золоту, солнцу, божествам вроде Одина и Тора[2517], [2518] (кстати, название известной англосаксонской эпической поэмы «Беовульф», т. е. дословно «волк пчёл», — это, по всей видимости, кеннинг медведя[2519]) и тому подобное, и каждое из этих понятий имело своё смысловое поле, которое можно определить в виде двух списков слов, соответствующих первой и второй позициям каждого из кеннингов. Таким образом, кеннинг можно построить путём комбинации случайно выбранного слова из первого списка со случайно выбранным словом второго. Поскольку составление таких перечней — задача весьма трудоёмкая, создатели «автоматического скальда» ограничились в своём эксперименте односложными существительными, которых, впрочем, набралось не так уж мало — около 3000, что позволило достичь весьма приличной вариативности. Как лучше назвать ворона: «гриф ран» или, может быть, «сыч сеч»? На выбор конкретного кеннинга влияла как стихотворная форма, так и содержание произведения. Список возможных слов в каждой позиции стиха определялся требованиями наличия рифм и аллитераций, а также тематикой стихотворения. В начале сеанса работы с программой оператор выбирал, кому будет посвящено стихотворение (воину, мечу, ворону, кораблю, Одину или Тору), будет оно хвалебным или хулительным, а также стихотворный размер, тип рифмовки и длину стихотворения. Затем машина выполняла заказ, перебирая слова и образовывая кеннинги, отвечающие заданным требованиям рифмовки и строфики. Чтобы стихотворение не стало простым перечнем кеннингов, в программу внесли ряд добавлений. Так, например, в текст стихотворения включались краткие прилагательные, также отнесённые к различным смысловым полям (например, ворон мог быть «чёрн», но не «бел» и т. п.), а также глаголы в повелительном наклонении. Вот примеры творчества программы:

Нид ворону

Ври, вран —

вор ран,

гриф гроз,

гусь слёз.

Сохл, плох,

трухл, рухл,

дряхл, чахл,

затхл, тухл.

Жухл, слаб

жрун жаб.

Дрянь — вран,

дрянн, дран!

Драпа мечу

Меч, меч —

серп сеч,

бич битв,

брат бритв.

Быстр, остр,

шустр, востр,

страж страд,

страх стад.

Мчи, меч,

бей, меч —

битв бич,

серп сеч![2520]

6.6.3 Рождение нейросетевой литературы

Первая революция в области обработки естественного языка дала второе дыхание экспериментам в области генерации стихотворных (и не только) текстов. В середине 2010-х гг. нейронные сети уже вовсю использовались для создания небольших текстов. Например, в мае 2016 г. издание BuzzFeed сообщило[2521] читателям, что группа разработчиков Google под руководством Эндрю Дая и уже знакомого нам по работам в области машинного перевода Ориола Виньялса «скормила» нейронной сети целых 2865 любовных романов, чтобы «сделать свои продукты более разговорными». Из текста статьи, эпиграфом которой послужила весьма фривольная цитата из одного из романов, можно узнать, что Google планирует использовать новую модель, чтобы сделать речь виртуального ассистента, встроенного в мобильное приложение Google, более естественной, перейдя от ответов, скупо сообщающих справочную информацию, к разнообразной по стилю и тональности разговорной речи. Отвечая на вопросы журналистов BuzzFeed, Дай также упомянул возможность использовать новую модель для улучшения работы функции Smart Reply, предназначенной для генерации черновиков ответов на сообщения в электронной почте.

Препринт работы «Генерация предложений из непрерывного пространства» [Generating Sentences from a Continuous Space][2522], опубликованный на ArXiv.org несколькими днями позже, содержит ряд технических подробностей. Речь идёт о попытке подружить архитектуру RNNLM с вариационным автокодировщиком (VAE), чтобы можно было управлять стилем, тематикой и высокоуровневыми синтаксическими параметрами генерируемых предложений. Обучающая выборка, использованная авторами исследования, вовсе не состояла из одних только любовных романов. В действительности для обучения модели использовался датасет Books Corpus[2523], представленный публике в 2015 г. и содержащий около 12 000 преимущественно художественных книг, принадлежащих к восьми различным жанрам. Обученная модель была способна генерировать отдельные предложения — скажем, путём продолжения заданного пользователем текста или отталкиваясь от заданного вектора в латентном пространстве автокодировщика (например, можно было вычислить векторы для двух заданных предложений, а потом подсчитать вектор, являющийся их средним, чтобы затем на его основе сгенерировать предложение, являющееся «усреднением» двух заданных). Хотя по нынешним меркам успехи команды Дая и Виньялса могут показаться довольно скромными, их работа стала одним из первых «подходов к снаряду» массового использования генеративных нейросетевых языковых моделей. Позже

ВПЕРЕД

Перейти на страницу: