`
Читать книги » Книги » Компьютеры и Интернет » Программирование » От «Энигмы» до ChatGPT - Рустам Агамалиев

От «Энигмы» до ChatGPT - Рустам Агамалиев

1 ... 12 13 14 15 16 ... 35 ВПЕРЕД
Перейти на страницу:
при наличии достаточных фактов, а вот действовать в условиях неопределенности и при этом достигать результата способен только творческий человек. А жизнь, по большому счету, невообразимо сложная игра на принятие решений, в которую можно сыграть только один раз, вслепую и не особо понимая правил.

Чтобы понять сложность го по сравнению с другими настольными играми, попробуем рассмотреть ее глубину и ширину в сравнении с шахматами. Тогда мы поймем, почему пересчет комбинаций помог Deep Blue одержать победу на Каспаровым (является инагентом), а в случае с го потерпел неудачу. Для победы над человеком в го компьютеру не хватало некоторых свойств человеческого мышления, а именно умения оценивать множественные аспекты среды и принимать решения, не только анализируя сложившуюся ситуацию, но и полагаясь на «чувства».

Глубина и ширина игры объясняют, почему метод пересчета для победы над человеком не подходит. Взгляните на доски.

Ширина игры на поле шахмат — это примерно 35 возможных стартовых позиций, а у го при размере доски 19 на 19 количество возможных конфигураций на старте — около 250. При этом глубина игры — количество ходов, сделанных попеременно, — в шахматах около 80. В среднем шахматная партия заканчивается на 70-м ходу, а партия в го — на 150-м.

Предположим, мы хотим спрогнозировать конфигурацию досок на четыре хода вперед. Учитывая, что средняя ширина игры в шахматы составляет 35, нам необходимо проделать простую математическую операцию: 35 × 35 × 35 × 35 = 1 500 625 различных положений фигур на доске. А теперь возьмем доску для го и проделаем точно такую же операцию: 250 × 250 × 250 × 250 = 3 906 250 000 возможных вариантов расположения камней. Компьютеру проанализировать такое не под силу. Нужен другой подход.

Естественно, это слишком упрощенная математика, однако стоит помнить, что наша цель — познакомить с игрой го и показать ее сложность. Но было бы ошибкой предположить, что шахматы проще. Отнюдь: игра в шахматы не менее сложная, но значительно меньшая по глубине и ширине.

Го — сложная система взаимодействий камней на доске, с непонятными свойствами, которые проявляются исключительно в процессе игры и проникают во все ее аспекты. Она требует от игрока умения принимать решения в условиях, когда невозможно предугадать результат, и вынуждает полагаться на чувства и действовать в соответствии с изменяющейся средой. Обманчивая простота делает го невообразимо сложной и многогранной. Как научить компьютер играть, если перебор комбинаций не подходит? Научить думать и «чувствовать», принимать решения в зависимости от состояния доски. Иными словами, необходимо научить компьютер мыслить.

Что значит чему-то научиться

В 1948 году Дональд Хебб описал предположения о методе, которым мозг человека тренирует и обучает себя. Тогда это было настоящей революцией, настолько, что гипотеза Хебба превратилась в «обучение Хебба», один из фундаментальных алгоритмов машинного обучения.

Гипотеза Хебба заключается в том, что нейроны головного мозга при взаимодействии возбуждаются друг о друга. Эффективность и длительность возбуждения усиливаются со временем, а связь между двумя нейронами укрепляется, возникают новые шаблоны и модели поведения.

Чтобы обучить AlphaGo, ученым необходимо создать алгоритм, который повторяет работу мозга. Для победы программа должна повторить не только образ мышления живого человека, но еще и интуитивные действия при изменяющихся условиях, коду из ноля и единицы необходимо «ожить». Да, в контролируемой и «узкой» среде доски для игры в го с полем 19 на 19, но все же. Научить выбирать самостоятельно оптимальное действие ради воздействия на среду обитания.

Deep Blue, чтобы научиться перебирать комбинации, потребовалась группа экспертов, а AlphaGo использовала кардинально иной подход. Она научилась играть в го, как это сделал бы человек: методом проб и ошибок. Разработчики загрузили в программу сотню тысяч любительских партий и позволили программе играть против самой себя. Так она училась, училась и училась. До тех пор, пока однажды не победила чемпиона Европы — Фань Хуэя, который на момент матча обладал вторым даном в рейтинге игры.

Игра против себя, разными версиями, позволила программе научиться на собственных ошибках. Идея, заложенная программистами в основу AlphaGo, вдохновила последующие исследования ИИ, но главное — заставила задуматься над тем, что значит быть человеком.

Искусственные нейронные сети, которые стали возможными в том числе благодаря AlphaGo, позволяют современным компьютерам и человеку делать намного больше, чем раньше. Сегодня нейронная сеть может научить себя — пусть и в пределах того, что ей позволит человек, но она на это способна. Тем не менее вопрос, что значит научиться и что такое интеллект, остается открытым. Более того, не просто открытым, а проблемой, к которой пока сложно подступиться.

Кажется, если мы сможем ответить на вопрос, что такое интеллект, то и создать искусственный интеллект не будет проблемой. Ближе всего к этому подобрались Эндрю Барто и Ричард Саттон. В 1998 году они издали книгу «Обучение с подкреплением», в которой формализовали принципы этого подхода. Мы предлагаем применять немного иной термин — «обучение с “сильной” петлей обратной связи».

Любой учитель скажет, что несложно выдать задачи ученикам для самостоятельной отработки, да и проверить любой объем тоже не станет серьезной неприятностью при обучении чему-либо. Проблема возникает в момент, когда необходимо предоставить обратную связь и скорректировать будущие действия. Форма и формат обратной связи от учителя к ученику — одно из узких мест системы обучения. Барто и Саттон пытаются решить проблему интеллекта через «сильную» петлю обратной связи, обучая исполнителя, действующего в определенных условиях, взаимодействовать со средой.

В самом широком смысле средой может быть что угодно. Для трейдера, торгующего на рынке, это график котировок. Учительская среда — класс с учениками. Исследователю для успешной публикации нужна среда научных работ. Писатель учится рисовать миры в безграничной среде своего воображения. Средой игрока в шахматы, го, шашки, нарды становятся поле и фигуры.

Цель очевидна: исполнитель взаимодействует со средой, а та предоставляет обратную связь — то, что можно увидеть или прочувствовать. Однако существует один особый вид обратной связи, который и делает из нее «сильную»: вознаграждение. Чем оно выше в ходе действия, тем корректнее принятое решение.

Отдельно стоит отметить, что в нашем случае не идет речи о теории вознаграждения, скорее о математическом расчете. Трейдеру для принятия решений нужно точно понимать отношение между риском, доходностью и убыточностью сделки. Учителю в школе — «силу» группы и способ обучения. Ученому — возможно, понимание усилий для написания и актуальность темы. Игроку в го — рассчитать ход, который увеличит вероятность победы.

Подобная модель взаимодействия с окружающей средой превосходно переносится на повседневную жизнь. Когда вы проголодались, то обычно решаете разогреть обед, и даже это простое действие имеет

1 ... 12 13 14 15 16 ... 35 ВПЕРЕД
Перейти на страницу:

Откройте для себя мир чтения на siteknig.com - месте, где каждая книга оживает прямо в браузере. Здесь вас уже ждёт произведение От «Энигмы» до ChatGPT - Рустам Агамалиев, относящееся к жанру Программирование / Экономика. Никаких регистраций, никаких преград - только вы и история, доступная в полном формате. Наш литературный портал создан для тех, кто любит комфорт: хотите читать с телефона - пожалуйста; предпочитаете ноутбук - идеально! Все книги открываются моментально и представлены полностью, без сокращений и скрытых страниц. Каталог жанров поможет вам быстро найти что-то по настроению: увлекательный роман, динамичное фэнтези, глубокую классику или лёгкое чтение перед сном. Мы ежедневно расширяем библиотеку, добавляя новые произведения, чтобы вам всегда было что открыть "на потом". Сегодня на siteknig.com доступно более 200000 книг - и каждая готова стать вашей новой любимой. Просто выбирайте, открывайте и наслаждайтесь чтением там, где вам удобно.

Комментарии (0)