Иной разум. Как «думает» искусственный интеллект? - Андрей Владимирович Курпатов
Теперь, чтобы понять отношения между разными токенами, ей не нужно снова перечитывать всю библиотеку. Ей достаточно произвести простые геометрические операции в этом пространстве: измерить расстояние и вычислить направление.
Большая лингвистическая модель — это, по сути, гигантская логарифмическая линейка, позволяющая рассчитать «семантическую арифметику». Весь хаос нашего языка представлен в современных ИИ упорядоченной геометрией, по которой можно не только путешествовать, но и в которой каждая точка этой системы, рассмотри мы её в отдельности, является квинтэссенцией всех текстов, на которых обучалась модель.
Увидеть контекст
Нельзя дважды войти в одну и ту же реку.
Гераклит
Итак, языковая модель превратила язык в гигантскую, многомерную карту, где каждое слово или токен имеет своё уникальное местоположение. Но прежде чем двигаться дальше, давайте на мгновение остановимся и осознаем масштаб, саму природу этого «пространства смыслов».
Ни один программист не сидит и не расставляет векторы слов вручную. Эта карта рождается сама, в процессе обучения модели на колоссальных, поистине астрономических объёмах текста[85][86].
Модели ChatGPT, Gemini, Claude или Grok «прочитали» практически всю доступную часть интернета — миллионы книг, миллионы миллионов текстов, — объём, для прочтения которого, как говорят, человеку потребовалось бы 2 500 лет в режиме 24/7.
Продираясь через этот океан данных, модель впитывала в себя статистическую тень всей нашей цивилизации. Она научилась не просто словам, а видеть их место в семантическом пространстве. Она «увидела», что слова «кофе» и «чашка» часто появляются вместе, что за «причиной» часто следует «следствие», что стиль научного текста отличается от художественного.
Вся эта сложнейшая паутина человеческих знаний, логики и культуры отпечаталась в её геометрии. И казалось бы, имея такую детальную карту, трудно не предсказать следующее слово. Но здесь мы сталкиваемся с фундаментальной проблемой, которую эта статичная карта решить не может. Это, как вы, наверное, уже догадались, проблема контекста.
Трансформер
Смысл слова — величина непостоянная, он рождается из его окружения. Например, в предложении «Спортсмен натянул тетиву лука» слово «лук» — это оружие, а во фразе «Шеф-повар добавил в суп лук» — это же слово означает уже овощ.
На нашей карте оба этих «лука» представлены одним и тем же вектором, который содержит некий усреднённый, «сырой» смысл. Но для точного предсказания следующего слова машине нужно понять, о каком именно «луке» идёт речь в данном конкретном предложении.
Иными словами, ей нужен механизм, который позволит статичным векторам «посмотреть» друг на друга и динамически уточнить свой смысл на основе словесного окружения.
Вектор «лука» должен «увидеть» рядом слово «тетива» и «сдвинуться» в ту область лингвистического пространства, где находятся «стрелы» и «оружие». В другом предложении тот же вектор должен «увидеть» слова «суп» и «повар» и «сместиться» к «овощам» и «кухне».
Как же справиться с этой «неряшливостью» нашего языка? Именно эту задачу и решает архитектура, которая лежит в сердце всех современных языковых моделей. Именно её называют «трансформер» — та самая буква «Т» в GPT, — и это не просто следующий слой нейросети, а принципиально новый способ обработки информации[87].
Вместо того чтобы обрабатывать слова по очереди, трансформер позволяет модели видеть весь текст сразу. Представьте, что это не конвейер с набором последовательных операций, а круглый стол переговоров. За этим столом сидят все слова (точнее, их векторы) из нашего текста. Их задача — быстро обменяться информацией, чтобы каждый участник понял свою точную роль в общем контексте.
Механизм внимания
Этот процесс коллективного обсуждения и называется «механизмом внимания»[88]. Во время такого «обсуждения» каждый вектор-участник одновременно выполняет три разные роли.
• Запрос — каждый вектор формирует «вопрос» ко всем остальным. Этот вопрос — тоже вектор, который кодирует, какая именно информация ему нужна для уточнения своего смысла. Например, вектор глагола «идёт» в предложении «Человек идёт по дороге» может сформировать запрос, который, по сути, означает: «Кто или что совершает это действие?»
• Ключ — это своего рода визитная карточка, которую каждый вектор «выкладывает на стол». Ключ — тоже вектор, кратко описывающий, какую информацию он может предоставить. Например, вектор слова «человек» предъявит ключ, означающий: «Я — одушевлённое существительное, способное совершать действие», — а вектор слова «дорога»: «Я — место действия».
• Значение — это третье представление вектора: его полная, богатая смысловая информация, которой он готов поделиться с теми, кто «заинтересуется».
Три ключа производят мгновенное сопоставление. Так, например, «запрос» от «идёт» сравнивается со всеми «ключами» за столом, и очевидно, что «человек» окажется ближе к нему, чем «дорога». Степень этого математического совпадения (вычисляемая через операцию скалярного произведения) и становится «весом внимания» — числовым показателем того, насколько сильно один вектор должен «прислушаться» к другому.
В результате вектор «идёт» получает разрешение взять большую порцию «значения» от вектора «человек» и добавляет эту информацию к себе. В результате это уже не абстрактный вектор действия, а вектор, в котором уже «записана» информация о том, что это действие совершается человеком.
И, что трудно представить, этот процесс происходит не последовательно, а параллельно. Каждое слово одновременно формирует свой запрос, и этот запрос одновременно сравнивается со всеми ключами. Это не вежливый диалог, а скорее гул голосов на бирже, где все мгновенно выкрикивают своё предложение, а сделка совершается просто по высшей ставке.
Вот мы с вами и посмотрели на то, как происходит своеобразный «внутренний диалог» элементов системы. Именно ему мы обязаны пониманием контекста — здесь смыслы, возникшие через векторное представление изначальных токенов, обретают контекстуальное понимание. И система приходит к этому результату не за один шаг, а через этот сложный и динамичный процесс взаимного уточнения.
Масштабировать сложность
Количество переходит в качество.
Фридрих Энгельс
Механизм внимания позволяет векторам слов обменяться информацией и уточнить свой смысл в зависимости от контекста. Но это ещё даже не начало финишной прямой. «Круглый стол переговоров» — лишь первый этап обработки. Чтобы понять, что происходит дальше, давайте представим нашу систему как гигантскую фабрику по производству смысла.
Процесс на этой фабрике состоит из чередующихся циклов: коллективная работа в общих цехах и индивидуальная обработка в специализированных лабораториях. Механизм внимания — это работа в общем цехе. А что происходит дальше? Что представляет собой индивидуальное осмысление?
После того как каждый вектор впитал в себя контекст и обновился, он отправляется на следующий этап — индивидуальную, углублённую обработку. В этой фазе векторы больше не
Откройте для себя мир чтения на siteknig.com - месте, где каждая книга оживает прямо в браузере. Здесь вас уже ждёт произведение Иной разум. Как «думает» искусственный интеллект? - Андрей Владимирович Курпатов, относящееся к жанру Психология / Публицистика. Никаких регистраций, никаких преград - только вы и история, доступная в полном формате. Наш литературный портал создан для тех, кто любит комфорт: хотите читать с телефона - пожалуйста; предпочитаете ноутбук - идеально! Все книги открываются моментально и представлены полностью, без сокращений и скрытых страниц. Каталог жанров поможет вам быстро найти что-то по настроению: увлекательный роман, динамичное фэнтези, глубокую классику или лёгкое чтение перед сном. Мы ежедневно расширяем библиотеку, добавляя новые произведения, чтобы вам всегда было что открыть "на потом". Сегодня на siteknig.com доступно более 200000 книг - и каждая готова стать вашей новой любимой. Просто выбирайте, открывайте и наслаждайтесь чтением там, где вам удобно.


