Читать книги » Книги » Компьютеры и Интернет » Прочая околокомпьютерная литература » Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Читать книгу Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков, Сергей Сергеевич Марков . Жанр: Прочая околокомпьютерная литература / Программирование.
Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков
Название: Охота на электроовец. Большая книга искусственного интеллекта
Дата добавления: 23 январь 2025
Количество просмотров: 35
(18+) Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту для удаления материала.
Читать онлайн

Охота на электроовец. Большая книга искусственного интеллекта читать книгу онлайн

Охота на электроовец. Большая книга искусственного интеллекта - читать онлайн , автор Сергей Сергеевич Марков

Новый этап в области компьютерных технологий часто называют очередной «весной искусственного интеллекта». Её начало обычно отсчитывают с момента появления нейронной сети, сегодня известной под названием AlexNet, успех которой в распознавании зрительных образов возвестил о начале «революции глубокого обучения». В результате этой революции машинам удалось превзойти человеческий уровень при решении множества задач. Сегодня уже мало кого удивляют победы машин над сильнейшими игроками в го, создание ими музыки и картин, предсказание нейронными сетями пространственной структуры белков и другие вещи, которые десять лет назад мы посчитали бы чудесами. Алгоритмы искусственного интеллекта (ИИ) быстро вошли в нашу жизнь и стали её неотъемлемой частью. Например, каждый раз, когда вы делаете фотографию при помощи смартфона, её обработку выполняет нейронная сеть.
На смену весне искусственного интеллекта приходит лето. Эта книга рассказывает о том, какие события в истории науки привели к началу этого лета, о современных технологиях ИИ и их возможностях, а также пытается приоткрыть завесу, скрывающую от нас мир ближайшего будущего.
Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта».

Перейти на страницу:
Элманом и Хинтоном. Но в работе Бенджио и его коллег идея словарных эмбеддингов приобрела именно ту форму, в которой она стала основой первой революции в NLP в начале 2010-х гг. Интересно, что разработанная авторами исследования модель стала также одним из первых примеров сетей с перепрыгивающими связями: в одном из рассмотренных вариантов была архитектура с набором связей, напрямую соединяющих слой векторов признаков с выходом сети.

Впрочем, для осуществления решительного прорыва понадобилось ещё десятилетие исследований. Дело в том, что в модели Бенджио векторы признаков выучивались моделью одновременно с остальными слоями сети, из-за чего само обучение модели было связано со значительными вычислительными затратами (потом исследователи использовали общедоступные библиотеки векторов признаков, построенные на базе анализа больших объёмов текстов, но в 2003 г. такой возможности не существовало). В 2003 г. Бенджио и его коллегам пришлось создать специальную параллельную архитектуру для того, чтобы провести эксперименты с такими сравнительно небольшими текстовыми корпусами, как корпус Брауна (Brown Corpus)[2110] из более миллиона слов и корпус APNews, состоявший из новостей агентства Associated Press за 1995 и 1996 гг. (почти 14 млн слов). Для сравнения: на 2 августа 2021 г. суммарный объём текстов англоязычной «Википедии» составлял свыше 3,9 млрд слов[2111], то есть как минимум в 270 раз больше, чем самый большой корпус в экспериментах Бенджио и его коллег. При этом авторы исследования обучали модель на корпусе APNews в течение всего пяти эпох (эпохой обучения обычно называют последовательность шагов обучения, в ходе которой модели будут однократно предъявлены все прецеденты обучающей выборки), что потребовало более трёх недель обучения при использовании 40 CPU. На момент окончания эксперимента модель не демонстрировала никаких признаков переобучения, то есть Бенджио и его коллеги прервали обучение модели, так и не достигнув пределов её возможностей. Кроме того, авторы исследования использовали нейросетевую модель в составе ансамбля с классической n-граммной моделью, то есть фактически учили модель не строить самостоятельный прогноз, а корректировать ошибки n-граммной модели. В итоге авторам удалось на корпусе APNews улучшить результаты лучшей n-граммной модели примерно на 8%. В то же время модель, обучавшаяся в течение двух десятков эпох на корпусе Брауна, смогла показать куда более солидное преимущество — примерно в 24%. Конечно, даже по меркам начала 2000-х гг. корпус Брауна вследствие своего скромного объёма изрядно устарел, в то время среди исследователей наибольшей популярностью пользовались ставшие классическими The Penn Treebank[2112] и British National Corpus[2113], [2114], [2115], [2116]. Возможно, это было одной из причин, по которым работа Бенджио в 2003 г. не стала заметным событием в научном мире.

Интересно, что команда Бенджио использовала случайную инициализацию векторов признаков на старте обучения сети. Авторы работы предположили, что инициализация, основанная на некоторых априорных знаниях о языке, может улучшить результаты. Эта мысль несколько раз повторяется в тексте статьи, причём приводятся даже конкретные идеи по поводу возможных источников такой информации (например, данные из базы WordNet, грамматические признаки и т. д.). Однако авторы работы не пробовали использовать значения векторов, полученные в эксперименте с корпусом Брауна, как стартовые значения для эксперимента с корпусом APNews, то есть идея создания универсальных словарных эмбеддингов для решения широкого спектра задач в области обработки естественного языка на тот момент ещё не овладела умами исследователей.

6.3.3.3 Революция word2vec

Во второй половине 2000-х — начале 2010-х гг. под влиянием работ Бенджио и его коллег был опубликован ряд работ, в которых авторы предлагали различные системы построения универсальных словарных эмбеддингов для решения задач машинного обучения с частичным привлечением учителя [semi-supervised learning] в области обработки естественного языка.

Идея о том, что семантическую информацию о слове можно получить без привлечения учителя, на основе анализа больших неразмеченных наборов текстов, берёт своё начало ещё в XX в. На заре 1950-х гг. благодаря усилиям американского лингвиста Зеллига Харриса, уже упоминавшегося нами в качестве одного из учителей Хомского, приобрела популярность так называемая дистрибутивная гипотеза, которая сегодня обычно формулируется следующим образом: лингвистические единицы, встречающиеся в сходных контекстах, имеют близкие значения. Проще говоря, слова, которые используются и встречаются в одинаковых контекстах, как правило, имеют близкие значения[2117]. В общем, Харрис, как можно заметить, вовсе не был активным противником корпусной лингвистики[2118], в отличие от Хомского, который считал её пустой тратой времени[2119]. Фактически гипотеза Харриса стала развитием идеи, высказанной в афористичной форме другим лингвистом — англичанином Джоном Фёрсом: «Слово характеризуется компанией, в которой оно встречается» [a word is characterized by the company it keeps][2120]. В общем, в отношении слов, как и в отношении людей, в какой-то мере верна поговорка: «Скажи мне, кто твои друзья, и я скажу, кто ты». Возможно, Фёрс и не был первым мыслителем, высказавшим эту идею. Ещё в 1930-е гг. сходные суждения высказывал австрийский философ и логик Людвиг Витгенштейн[2121]. Задолго до появления нейронных сетей лингвисты применяли метод дистрибутивного анализа, изучая распределения слов и символов в текстах, и даже (с середины XX в.) описывали семантику слов в виде контекстных векторов, в которых тому или иному смысловому признаку приписывались некоторые численные оценки. Возникла и развивалась целая область лингвистики, получившая название «дистрибутивная семантика». Её предметом стал анализ семантики элементов языка на основании их распределения в больших массивах лингвистических данных. Появление вычислительной техники, а затем и больших корпусов оцифрованных текстов вывело дистрибутивную семантику на новый уровень — позволило производить эксперименты и проверять гипотезы без использования трудоёмких ручных операций. Исследователями дистрибутивной семантики был разработан ряд инструментов, предназначенных для анализа больших корпусов текстов. Наиболее популярным из них стал Sketch Engine. Эта система была разработана компанией Lexical Computing Limited, созданной в результате сотрудничества лингвиста Адама Килгарриффа и Павла Рыхлого — специалиста в области информатики из Центра обработки естественного языка в Университете Масарика (Masaryk University). Sketch Engine позволяет среди прочего автоматически находить слова со сходной статистикой контекстов (формировать так называемый дистрибутивный тезаурус)[2122]. Корпусными лингвистами были разработаны различные метрики для оценки близости значений слов и математические модели, предназначенные для получения нового знания о языке, позволявшие подтверждать или опровергать различные гипотезы при помощи статистических методов. Появление таких инструментов, как Sketch Engine, позволило лингвистам осуществлять массовую проверку различных гипотез, анализировать происходящие в языке диахронические[2123] изменения, предоставило лексикографам возможность быстрой проверки соответствия словарных определений реальной практике употребления слов.

Дело оставалось за малым — придумать такой алгоритм, который мог

Перейти на страницу:
Комментарии (0)