Мыслящие машины Дженсена Хуанга: История Nvidia и мировой ИИ-революции - Стивен Витт

Name: Мыслящие машины Дженсена Хуанга: История Nvidia и мировой ИИ-революции - Стивен Витт
Author: Стивен Витт

Перейти на страницу:

– одна из самых интересных задач. Покорившись судьбе, Якоб пошел по стопам отца. Пройдет несколько лет, и он превзойдет его.

Якоб был привлекательным мужчиной. Длинные волосы он собирал в пучок. Ушкорайт родился в Америке, но вырос в Германии и говорил с легким акцентом. Работая в Google, Якоб заинтересовался скрытыми грамматическими структурами, лежащими в основе языка. Ему пришло в голову, что из случайного набора исходных весов нейронной сети можно сформировать такие же структуры.

Предыдущие попытки применения нейронных сетей в лингвистике окончились неудачей. Как ни обучали модели, они продолжали делать элементарные грамматические ошибки. Прямое обучение компьютера грамматике, как на уроках латыни в школе, оказалось бесперспективным. Исследователи пытались внедрить долговременную и кратковременную память в рекуррентные нейронные сети, но такая архитектура была капризной и сложной для программирования. При обработке слишком большого объема текста рекуррентные нейронные сети иногда даже откатывались назад, забывая то, что уже знали.

Ушкорайт хотел создать нейронную сеть, которая от прочитанного становилась бы умнее. Году в 2014-м его осенила новая идея. Если увеличение объема данных должно приводить к лучшим результатам, то базовая структура обработки информации должна быть максимально простой. Толчком послужила биология: медицинские исследования показывали, что из 100 миллиардов нейронов человеческого мозга за обработку языка отвечает менее процента. «Вероятно, язык эволюционировал так, чтобы максимально использовать наши когнитивные способности», – сказал он в интервью 2023 года.

Ушкорайт решил моделировать язык, используя только контекст. Он решительно отказался от всех механизмов памяти и заменил их простым семантическим графом знаний – по сути, сеткой контекстных связей между словами. Сами по себе слова по отдельности ничего не значили: они были лишь набором звуков. Единственным способом уловить их значение было установить связи между словами в тексте. Например, если у вас есть граф знаний, связывающий слова «прыгать», «зеленый», «язык», «мухи» и «земноводное», то вы можете догадаться, что слово в центре – «лягушка». Более того, такая структура графа должна была быть одинаковой в любом языке – немецком, французском, суахили или вьетнамском. Слово – это не просто буквы «л», «я», «г», «у», «ш», «к», «а»; буквы являются лишь знаками. Слово в когнитивном смысле подразумевает уникальную карту связей с остальной частью лексикона.

Чтобы отразить эти взаимосвязи, Ушкорайт представил каждое слово в виде дерева статистических весов. Например, столкнувшись с предложением «Рыжий _______ поймал серую мышь», нейросеть может предположить, что, скорее всего, пропущено слово «кот», поскольку в обучающей выборке часто встречалась пара «кот-мышь». У слова «кот» также может быть довольно сильная связь со словами «поймал» и, возможно, «съел», но слабее со словом «серый». Если обучающих примеров достаточно, компьютер сможет также понять, что «рыжий» – это прилагательное, уточняющее существительное «кот», даже без явных грамматических указаний. Обычные существительные легко классифицировать подобным образом, но с некоторыми другими словами это было сложнее. Например, при анализе слова «несчастливый» носитель языка интуитивно распознает отрицательную приставку «не», корень «счаст» и окончание «ый», превращающее слово в прилагательное.

Для более эффективного моделирования таких отношений Ушкорайт разделял некоторые слова на части-токены. Эти токены также формировали дерево статистических весов. Ушкорайт назвал этот механизм самовниманием. В Google такую идею встретили прохладно: она казалась слишком простой, чтобы сработать. «У них глаза лезли на лоб, поскольку это противоречило всем существующим нейронным архитектурам», – говорит Ушкорайт.

Даже его отец отнесся к идее скептически. Но Ушкорайт ориентировался на работу с графическими процессорами. Архитектура рекуррентных нейронных сетей не использовала сильные стороны таких устройств. Можно сказать, она даже не позволяла эффективно внедрять параллельные вычисления, минимизируя объемы данных и усложняя код. Проводя аналогию с работой мозга, Ушкорайт стремился пропускать огромные массивы текста, слов и вычислений через простую, но изящную систему. В 2023 году он описал свою концепцию так: «Если вам доступно оборудование, ключевым преимуществом которого является не последовательное выполнение сложных структурированных вычислений, а параллельное совершение множества простых действий, то это статистическое свойство необходимо использовать».

Механизм самовнимания быстро доказал свою эффективность, и его элементы были интегрированы в поисковые и рекламные продукты Google. Стремясь развить эту технологию, Ушкорайт убедил Илью Полосухина – выдающегося программиста, работавшего с ним в GooglePlex, присоединиться к исследовательской группе. Полосухин тоже интересовался биологическими аспектами языка. «Изображения интересны и, безусловно, несут множество знаний о мире, но есть тысячи биологических видов, умеющих видеть, и лишь один, способный по-настоящему понимать язык».

В то время, когда Полосухин размышлял, как можно применить механизм самовнимания, ему попался фильм Дени Вильнёва «Прибытие» (2016). В этой картине напоминающие кальмаров пришельцы-гептаподы пытаются общаться с людьми с помощью круглых чернильных клякс. Лингвист, роль которого исполнила Эми Адамс, приходит к выводу, что каждый рисунок представляет собой единый связный текст (позже она начинает видеть будущее, но нам сейчас интересна тема рисунков). Вдохновленный фильмом Полосухин осознал, что самовнимание можно применять подобным образом, вероятностно связывая каждое слово не только с другими в предложении, но и со множеством слов по всему тексту. Для понимания одного слова могло стать ключевой подсказкой даже другое, появившееся в тексте намного раньше.

К Полосухину и Ушкорайту примкнул Ашиш Васвани, еще один исследователь из Google, и к началу 2017 года они создали простой переводчик с английского на немецкий, основанный на механизме самовнимания. Ранее Полосухин и Ушкорайт участвовали в создании программы autobot, которая должна была автоматически создавать страницы для «Википедии». Новая модель, основанная на принципе самовнимания, получила название «трансформер».

В течение нескольких месяцев к команде примкнули еще четверо участников, и к февралю 2017 года немецко-английский переводчик уже мог соперничать с лучшими рекуррентными сетями. Тогда и появился в группе Ноам Шазир, восьмой и последний из ее членов, ветеран Google, работавший в компании с 2000 года. Шазир разочаровался в рекуррентных нейронных сетях и искал им альтернативу. Вместе с валлийским программистом Ллионом Джонсом он превратил трансформер из экспериментального проекта в полноценное программное решение. По мере того как команда передавала в трансформер все больше данных, его эффективность возрастала, превзойдя даже публичную платформу Google Translate. «Мы увидели, что с увеличением количества данных трансформер явно становится умнее, – рассказывает Шазир. – Этого нельзя было сказать о наших предыдущих разработках».

Ранние нейронные сети пытались строить целые предложения или даже абзацы. Трансформер же на основе вероятностных данных предсказывал всего лишь одно слово, не заглядывая дальше. «Учась генерировать упорядоченные последовательности, вы вынуждены осваивать крайне сложные формы поведения, – поясняет один из участников группы Эйдан Гомес. – Именно из этого рождается нечто по-настоящему удивительное». Очень скоро модель трансформера продемонстрировала, что способна «понимать нашу культуру, язык и способы взаимодействия».

Джонс заметил, что если трансформер стремится выбирать самый подходящий вариант,

ВПЕРЕД

Перейти на страницу: