Читать книги » Книги » Компьютеры и Интернет » Прочая околокомпьютерная литература » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Читать книгу Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич, Марков Сергей Николаевич . Жанр: Прочая околокомпьютерная литература.
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Название: Охота на электроовец. Большая книга искусственного интеллекта
Дата добавления: 8 ноябрь 2025
Количество просмотров: 19
(18+) Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту для удаления материала.
Читать онлайн

Охота на электроовец. Большая книга искусственного интеллекта читать книгу онлайн

Охота на электроовец. Большая книга искусственного интеллекта - читать онлайн , автор Марков Сергей Николаевич

Новый этап в области компьютерных технологий часто называют очередной «весной искусственного интеллекта». Её начало обычно отсчитывают с момента появления нейронной сети, сегодня известной под названием AlexNet, успех которой в распознавании зрительных образов возвестил о начале «революции глубокого обучения». В результате этой революции машинам удалось превзойти человеческий уровень при решении множества задач. Сегодня уже мало кого удивляют победы машин над сильнейшими игроками в го, создание ими музыки и картин, предсказание нейронными сетями пространственной структуры белков и другие вещи, которые десять лет назад мы посчитали бы чудесами. Алгоритмы искусственного интеллекта (ИИ) быстро вошли в нашу жизнь и стали её неотъемлемой частью. Например, каждый раз, когда вы делаете фотографию при помощи смартфона, её обработку выполняет нейронная сеть.

На смену весне искусственного интеллекта приходит лето. Эта книга рассказывает о том, какие события в истории науки привели к началу этого лета, о современных технологиях ИИ и их возможностях, а также пытается приоткрыть завесу, скрывающую от нас мир ближайшего будущего.

Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта».

Перейти на страницу:

Модели, подобные StarGAN и CycleGAN, лежат в основе популярных в наши дни фильтров для семантической манипуляции фотографиями, позволяющих превратить безбородого человека в бородача (и наоборот), юношу в старика (и наоборот) и тому подобное.

Рис. 158. Примеры семантической манипуляции фотографиями людей при помощи модели CycleGAN

Модель на базе GAN, предложенная[2771] в 2017 г. исследователями из японского Университета Васэда (早稲田大学), использует в качестве обусловливающего изображения для генератора изображение с закрашенными фрагментами. Благодаря применению GAN исследователям удалось добиться локальной и глобальной согласованности при заполнении недостающих частей картинки.

Рис. 159. Пример восстановления закрашенных или несуществовавших фрагментов изображения при помощи модели исследователей из Университета Васэда

Ту же задачу успешно решают более современные модели (2019 г.), такие как PEPSI[2772] и PEPSI++ (Diet-PEPSI)[2773].

Рис. 160. Пример восстановления закрашенных или несуществовавших фрагментов изображения при помощи модели PEPSI

Используя модель PEPSI, энтузиасты быстро соорудили инструмент[2774] под названием DeepCreamPy, предназначенный для удаления цензуры с изображений, относящихся к жанру хентай (жанр японских комиксов и анимации, отличающийся наличием элементов эротики и/или порнографии).

Различных моделей GAN и их модификаций в наши дни создано превеликое множество: DCGAN[2775], InfoGAN[2776], DiscoGAN[2777], ProGAN[2778], WGAN[2779], ImprovedWGAN[2780], StyleGAN[2781], StyleGAN2[2782], StyleGAN3[2783], StarGAN v2[2784] и так далее.

Вот пример работы модели (StarGAN v2) для трансляции изображений между доменами:

Рис. 161. Пример трансляции изображений между доменами (модель StarGAN v2)

А вот фотографии несуществующих людей, созданные при помощи модели StyleGAN2 от компании Nvidia:

Рис. 162. Фотографии несуществующих людей (модель StyleGAN2)

В 2022 г. исследователи из Google Research продемонстрировали[2785], как при помощи специальной техники, получившей название «самодистилляция» [self-distillation], можно обучать StyleGAN на неразмеченных изображениях, собранных в интернете. При этом модель успешно генерирует картинки высокого качества во многих доменах (в работе приводятся примеры генерации изображений львов, жирафов, слонов, попугаев и т. д.).

На сайте thisxdoesnotexist.com можно найти коллекцию GAN’ов для генерации изображений самых разных объектов: человеческих лиц, котиков, интерьеров, посуды, еды и даже несуществующих членов британского парламента.

Ниже приведено изображение из стэнфордского ежегодного доклада Artificial Intelligence Index Report за 2021 г. (AIIR-2021)[2786], которое наглядно показывает прогресс в области генерации лиц.

Рис. 163. Прогресс в области генерации лиц

Тема генеративно-состязательных моделей заслуживает, бесспорно, отдельной книги. Но создание такой книги является довольно непростой задачей, поскольку новые архитектуры появляются так быстро, что автору книги будет непросто поспевать за исследователями.

В последнее время появляются модели, работающие более чем с двумя модальностями. Например, модель VATT (Video-Audio-Text Transformer, Видеоаудиотекстовый трансформер), созданная совместными усилиями исследователей Google, Корнеллского и Колумбийского университетов[2787], а также модель data2vec от Meta (бывшей Facebook)[2788], помимо текста и изображений, умеют оперировать со звуковыми данными.

Исследователи из DeepMind развивают технологию, получившую название ReLIC (Representation Learning via Invariant Causal Mechanisms, Обучение представлениям через инвариантные причинные механизмы), позволяющую обучать большие свёрточные сети с архитектурной ResNet в режиме самообучения [self-supervised learning], чтобы затем использовать выученные ими представления в решении самых разных задач, в которых востребовано компьютерное зрение, — от классификации картинок до создания систем искусственного интеллекта для аркадных игр[2789], [2790].

Несмотря на популярность генеративно-состязательного подхода при создании изображений, он обладает и некоторыми недостатками. Из-за сложных нелинейных эффектов, которые возникают при совместном обучении двух моделей, процесс обучения может растягиваться на длительное время или вовсе не приводить к желаемому результату. Часто бывает сложно найти обеспечивающее успех обучения соотношение архитектур моделей, структур функций потерь и различных гиперпараметров, что делает эксперименты в области генеративно-состязательных систем вычислительно затратными и довольно плохо предсказуемыми. Поэтому параллельно с генеративно-состязательной парадигмой развиваются и альтернативные подходы, например авторегрессионные модели[2791]. Наверное, самыми известными моделями такого рода в середине 2010-х гг. стали PixelRNN[2792] и PixelCNN[2793]. Эти модели в явном виде эксплуатируют зависимости между пикселями изображения, пытаясь предсказать очередной пиксель, опираясь на уже сгенерированные. При этом PixelRNN — это рекуррентная архитектура на базе LSTM, которая рассматривает изображения в качестве последовательностей пикселей, а PixelCNN — свёрточная архитектура, получающая на вход уже сгенерированную часть картинки. Дополнительно на вход сети можно подавать различного рода обусловливающие векторы, например содержащие информацию о классе генерируемого объекта или о наборе его признаков. Этот набор признаков можно получить в результате подачи эталонной картинки на вход свёрточной нейронной сети, обученной решению задачи классификации. В таком случае при помощи генеративной модели можно создавать альтернативные изображения объекта на эталонной картинке.

Перейти на страницу:
Комментарии (0)