Читать книги » Книги » Компьютеры и Интернет » Прочая околокомпьютерная литература » Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Читать книгу Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков, Сергей Сергеевич Марков . Жанр: Прочая околокомпьютерная литература / Программирование.
Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков
Название: Охота на электроовец. Большая книга искусственного интеллекта
Дата добавления: 23 январь 2025
Количество просмотров: 36
(18+) Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту для удаления материала.
Читать онлайн

Охота на электроовец. Большая книга искусственного интеллекта читать книгу онлайн

Охота на электроовец. Большая книга искусственного интеллекта - читать онлайн , автор Сергей Сергеевич Марков

Новый этап в области компьютерных технологий часто называют очередной «весной искусственного интеллекта». Её начало обычно отсчитывают с момента появления нейронной сети, сегодня известной под названием AlexNet, успех которой в распознавании зрительных образов возвестил о начале «революции глубокого обучения». В результате этой революции машинам удалось превзойти человеческий уровень при решении множества задач. Сегодня уже мало кого удивляют победы машин над сильнейшими игроками в го, создание ими музыки и картин, предсказание нейронными сетями пространственной структуры белков и другие вещи, которые десять лет назад мы посчитали бы чудесами. Алгоритмы искусственного интеллекта (ИИ) быстро вошли в нашу жизнь и стали её неотъемлемой частью. Например, каждый раз, когда вы делаете фотографию при помощи смартфона, её обработку выполняет нейронная сеть.
На смену весне искусственного интеллекта приходит лето. Эта книга рассказывает о том, какие события в истории науки привели к началу этого лета, о современных технологиях ИИ и их возможностях, а также пытается приоткрыть завесу, скрывающую от нас мир ближайшего будущего.
Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта».

Перейти на страницу:
150 лет) [2871]. В результате в наши дни уже трудно найти человека, который не в курсе изобразительных способностей машин. На базе генеративных моделей быстро стали появляться различные инструменты, позволяющие цифровым художникам решать самые разные прикладные задачи, да и сами генеративные сети стали «обрастать» новыми режимами работы. Например, при помощи Stable Diffusion, Midjourney и Kandinsky вы можете не только создать новое изображение, но и дорисовать существующее. Сеть может на основе текстового запроса в режиме «врисовка» [inpainting] дорисовать содержимое вырезанной части изображения, в режиме «обрисовка» [outpainting] продолжить ваше изображение за пределы холста, в режиме «смешивание» [blending] смешать в заданной пропорции два изображения или же существующее изображение со сгенерированным по текстовому описанию. Созданы и более хитрые инструменты, такие как, например, смешивание с сохранением геометрии объектов исходного изображения (для этого используются вспомогательные нейросети из семейства ControlNet[2872]). Революция в области генеративной графики не могла не привлечь внимание крупных компаний, разрабатывающих инструменты для работы с изображениями. Так, компания Adobe добавила в свой графический редактор Photoshop новые функции, основанные на нейросетевых моделях (например, функцию генеративной заливки [generative fill])[2873].

По мере совершенствования архитектур, роста размера и количества данных, на которых происходит обучение, генеративные сети становятся способны корректно обрабатывать всё более сложные и нестандартные текстовые запросы. Ещё недавно одной из типичных проблем генеративных моделей компьютерного зрения была их неспособность без ошибок нарисовать человеческие руки — с правильным числом и расположением пальцев. Но сегодня наиболее продвинутые модели чаще всего уже справляются с этой задачей. Вообще, как известно, нерекуррентные трансформерные модели не слишком хорошо умеют считать — с задачей подсчёта даже сравнительно небольшого числа объектов на генерируемой картинке (будь то пальцы, концы звезды, люди и т. д.) могут справиться только действительно большие нейросети, обученные на огромном числе соответствующих примеров. Другая проблема — создание сложных и необычных сочетаний объектов. Например, для большинства современных моделей уже не является проблемой изобразить астронавта на лошади, но если попросить модель нарисовать лошадь верхом на астронавте, то уже возникают большие трудности[2874]. Придумавший этот пример Гэри Маркус, профессор кафедры психологии Нью-Йоркского университета и специалист по ИИ, считает это одной из ярких иллюстраций того, что нейросетевые модели ограничены в постижении так называемой композициональности — свойства естественного языка, в соответствии с которым значение сложного выражения функционально зависит от значений отдельных его частей и способа, которым эти части комбинируются друг с другом, то есть по сути синтаксиса. По мнению Маркуса, композициональность сама собой не может быть постигнута современными нейросетевыми моделями за счёт увеличения количества обучающих данных. Для того чтобы решить эту проблему, по мнению Маркуса нужны специальные архитектуры[2875].

Впрочем, сегодня некоторые модели научились рисовать и лошадей на астронавтах, хотя такие примеры до сих пор плохо работают «из коробки» — для того чтобы получить требуемый результат, требуются усилия промпт-инженеров[2876]. Исследователь из Microsoft Джеймс Маккаммон придумал для обозначения такого типа запросов специальный термин «антагонистические запросы» [antagonistic prompts]; в своей статье он предлагает развёрнутую классификацию таких запросов и оценивает способность Midjourney 5.1 справляться с ними[2877]. В наши дни исследователи активно ищут способы улучшения работы моделей, генерирующих изображения, в том числе и в таких сложных случаях[2878].

Помимо обработки антагонистических запросов, сегодня на повестке дня стоит умение моделей воспринимать максимально детализированные описания (например, не просто нарисовать лицо человека, а воспроизвести его облик по подробному описанию, включающему форму носа, цвет и форму глаз, губ и т. д.). Кроме того, сегодня исследователи опробуют нейросетевые модели в задачах генерации зрительных образов, обладающих большей размерностью: например в задачах генерации видео (о них мы подробнее поговорим в следующем разделе) и в задачах генерации трёхмерных объектов. К числу последних относятся модели для таких задач, как генерации полигональных сеток [mesh] трёхмерных объектов (например, модель TextMesh[2879]), нейросетевой рендеринг (обычно при помощи моделей из семейства NeRF (Neural radiance field, Нейронное поле яркости)[2880] — RegNeRF[2881], DreamFusion[2882], Instant NeRF[2883] и т. д.), генерация изображений вместе с картами глубин (например, LDM3D[2884]), построение карт глубин на основе имеющихся (в том числе сгенерированных) изображений — например MiDaS (Mixed Data Sampling, Смешанное семплирование данных)[2885], и так далее. В марте 2023 г. был опубликован[2886] датасет под названием Objaverse-XL, включающий в себя более 10 млн трёхмерных объектов, снабжённых текстовыми описаниями (при этом в предыдущей версии Objaverse, вышедшей в декабре 2022 г., их было лишь чуть больше 800 тысяч[2887]), что открыло дверь для создания новых, более совершенных моделей для 3D-генерации.

Успехи графических генеративных нейросетей вызвали нешуточную полемику в сообществе профессиональных дизайнеров и художников[2888], едва ли не более ожесточённую, чем споры времён появления фотографии. Впрочем, возможно, и на авторегрессионных моделях генерации изображений пока рано ставить крест: по крайней мере Parti[2889] от Google и Craiyon (бывшая DALL-E Mini, переименованная по требованию OpenAI) [2890] от Craiyon LLC также порой демонстрируют интересные результаты.

Рис. 174. Изображение, сгенерированное моделью Kandinsky 2.1 по запросу «"Обворожительная хозяйка медной горы" , стиль: 4k»

Рис. 175. Изображение, сгенерированное моделью Kandinsky 2.1 по запросу «"Ктулху в дыму", стиль: 4k»

Вообще, успех фундаментальных моделей в области обработки естественного языка, а также генерации изображений по тексту подтолкнул специалистов из области компьютерного зрения к активным экспериментам в области этой парадигмы — действительно, почему бы не сделать предобученную модель, которую затем можно будет использовать для решения самых разных задач в области обработки изображений? В результате вслед за CLIP и DALL·E на свет появились такие модели, как FLORENCE[2891] и NÜWA (Visual Synthesis Pre-training for Neural visUal World creAtion, Предобучение визуального синтеза для нейросетевого создания визуальных миров)[2892] от исследователей из Microsoft, ALIGN от Google Research[2893], а также основанные на MoE-подходе V-MoE от Google Brain[2894] и WuDao 2.0 от Пекинской академии искусственного интеллекта[2895].

Не остались в долгу и специалисты от DeepMind, представившие публике собственную модель под названием Flamingo, предназначенную для решения примерно того же спектра задач. Для обозначения этого класса моделей специалисты предлагают использовать термин «визуальные языковые модели» (Visual Language Models, VLMs). Flamingo имеет 80 млрд параметров и состоит из двух частей (отвечающих за текстовое и графическое

Перейти на страницу:
Комментарии (0)