Мыслящие машины Дженсена Хуанга: История Nvidia и мировой ИИ-революции - Стивен Витт
Благодаря backpropagation интерес к нейросетям возродился: появилась возможность создавать системы, которые учатся на примерах, а не прописываются вручную правило за правилом.
В конце 1980-х годов исследователь Джеральд Тезауро, работавший в IBM, ушел из группы по изучению шахмат и решил сосредоточиться на менее популярной игре – нардах. Нарды, не столь популярные, как шахматы, и не столь непредсказуемые, как покер, представляют собой игру, в которой соперники перемещают фишки по кругу на доске с 24 лунками. Каждый ход задается броском двух кубиков-костей. Нарды в достаточной степени зависят от везения, чтобы привлекать азартных людей, но Тезауро увидел в них нечто иное. Симулируя броски кубиков, он мог быстро генерировать сотни тысяч виртуальных партий, создавая огромную базу данных для обучения нейронной сети.
Тезауро работал над этим узкоспециализированным проектом практически в одиночку; нарды, как и нейросети, не интересовали большинство исследователей ИИ. Сначала он попытался научить свою программу подражать лучшим игрокам, но этот метод не принес значительных результатов. Около 1990 года Тезауро решил изменить подход: он удалил из нейросети все стратегические советы по игре и оставил только правила и набор нейронов со случайными «весами». После этого он дал компьютеру задачу играть сотни тысяч партий против самого себя.
Этот метод известен как «обучение с подкреплением», и Тезауро стал первым, кому удалось его успешно применить. Сперва программа выглядела беспомощной и хаотично двигала фишки, однако, сыграв несколько тысяч партий, нейронная сеть поняла, что оставлять фишку одну плохо, а складывать две вместе хорошо, что позволило ей выйти на уровень грамотного новичка. После десятков тысяч игр нейронная сеть стала применять более сложные стратегии, например создавать стены из нескольких стопок фишек. После двухсот тысяч игр нейросеть (Тезауро назвал ее TD-Gammon) достигла среднего уровня мастерства. В последующие годы TD-Gammon сыграла миллионы партий и к 1995 году начала применять стратегии, ранее неведомые людям. Нейронная сеть перешла от простого обучения к инновациям.
Преодолев ограничения традиционных тактик, TD-Gammon открыла новый стиль игры в нарды. Она определила, что люди обычно чрезмерно рискуют в начале партии, пытаясь сразу получить преимущество, но на самом деле выгоднее делать более осторожные первые ходы. В то же время она часто жертвовала гарантированной победой в конце игры, стремясь удвоить свой счет, что многие игроки считали безрассудством. На среднем этапе игры TD-Gammon делала весьма сложные ходы, которые человек мог понять лишь после глубокого анализа. В 1995 году учитель игры в нарды Кит Вулси написал Тезауро восхищенное письмо:
Мне показалось очень увлекательным сравнение TD-Gammon и высокоуровневых шахматных компьютеров. Шахматные компьютеры великолепны в тактической игре, где можно просчитать варианты. Их слабость – это игры, где происходящее неочевидно и кажется случайным. TD-Gammon демонстрирует противоположное. Ее сила – в сложных позиционных битвах, где ключевыми являются здравый смысл и интуиция, а не чистый расчет. Вместо «глупой» машины, которая просто может считать быстрее людей, как это делают шахматные компьютеры, вы создали «умную», которая учится на собственном опыте примерно так же, как это делают люди.
Но IBM не стала пытаться извлечь коммерческую выгоду из проекта Тезауро. Менеджерам компании было непонятно, зачем тратить время на реализацию ПО для игры в нарды, нужного нескольким сотням человек. И правда, зачем?
Эту заманчивую рыночную нишу в 1994 году занял норвежский исследователь Фредрик Даль. Он был человеком разносторонних интересов: играл в нарды и шахматы, увлекался танковыми симуляциями и джиу-джитсу, собирал грибы в лесу. При этом Даль работал на Министерство обороны Норвегии, занимаясь моделированием сценариев советского вторжения. Вдохновение он черпал из фильма 1983 года «Военные игры» с Мэттью Бродериком, в котором искусственный интеллект пытается развязать ядерную войну.
Даль убеждал меня, что лично он не верил ни в какое вторжение, но тем не менее всерьез интересовался военной тематикой. Однако после распада Советского Союза его исследования лишились финансирования. «Это было ужасное время», – говорит он (надеюсь, в шутку). Для написания диссертации Даль создал нейронную сеть, которая моделировала исходы сражений, проводя миллионы симуляций боев. Эту модель легко было адаптировать для игры в нарды, и вскоре результаты Даля превзошли достижения Тезауро.
В 1994 году Фредрик представил Jellyfish – первую коммерческую нейронную сеть, доступную широкой общественности. Jellyfish училась на миллионах партий игры в нарды, но, несмотря на столь сложный процесс обучения, конечный продукт поместился на 3, 5-дюймовой дискете, которую Даль продавал через свой примитивный веб-сайт. Так уже в самом начале пути сложился поразительный контраст между трудоемким обучением ИИ и результатом, когда полученные знания применяются на практике. Вторая стадия оказалась намного менее затратной: здесь можно провести аналогию с человеческим мозгом, весящим всего лишь килограмма полтора, но формировавшимся сотни миллионов лет.
Далю были не чужды подобные аналогии. Он назвал свою программу Jellyfish в честь древнего морского существа, чья нервная сеть управляет реакцией на раздражители. «Моей программе нужно было всего около сотни "мозговых клеток", что, как я узнал, примерно соответствует нервной системе медузы», – рассказывает он. Вот в чем заключалась сила нейронных структур: чтобы побеждать в игре в нарды, выживать в океанской бездне на протяжении полумиллиарда лет или даже противостоять гипотетическим советским захватчикам, достаточно всего лишь сотни крошечных клеток.
Для сбора статистических данных Баллард и Сенкевич согласились сыграть против Jellyfish по 300 партий. Баллард, которому однажды довелось играть 84 часа без перерыва, был привычен к таким марафонам и сумел сохранить концентрацию внимания. Он обыграл компьютер с перевесом в 58 игр, заработав 11 600 долларов. Однако Сенкевич проиграл почти такую же сумму, так что Дэвис остался при своих и состязание завершилось вничью. Баллард был доволен своей победой, но последующий анализ показал, что во многом его успех был обусловлен удачными бросками костей, и он понял, что ему повезло. Ни один смельчак больше не рискнет сыграть с этой программой в нарды на деньги.
Новость о турнире быстро разлетелась в тесном сообществе любителей нард. Deep Blue был дорогим суперкомпьютером, грубую вычислительную мощь которого человек никак не мог превзойти, так что его победа над Каспаровым не сильно повлияла на профессиональный подход к шахматам (в 1997 году Deep Blue просто был разобран). Но Jellyfish в отличие от него была доступной программой, способной работать на любом компьютере с ОС Windows, и это произвело настоящую революцию в игре. С помощью Jellyfish, установленной на домашнем компьютере, популяризатор игры в нарды Кит Вулси выпустил книгу «Новые идеи в нардах». В ней он собрал позиции, в которых действия нейронной сети кардинально расходились с человеческими представлениями.


