Читать книги » Книги » Компьютеры и Интернет » Прочая околокомпьютерная литература » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Читать книгу Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич, Марков Сергей Николаевич . Жанр: Прочая околокомпьютерная литература.
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Название: Охота на электроовец. Большая книга искусственного интеллекта
Дата добавления: 8 ноябрь 2025
Количество просмотров: 19
(18+) Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту для удаления материала.
Читать онлайн

Охота на электроовец. Большая книга искусственного интеллекта читать книгу онлайн

Охота на электроовец. Большая книга искусственного интеллекта - читать онлайн , автор Марков Сергей Николаевич

Новый этап в области компьютерных технологий часто называют очередной «весной искусственного интеллекта». Её начало обычно отсчитывают с момента появления нейронной сети, сегодня известной под названием AlexNet, успех которой в распознавании зрительных образов возвестил о начале «революции глубокого обучения». В результате этой революции машинам удалось превзойти человеческий уровень при решении множества задач. Сегодня уже мало кого удивляют победы машин над сильнейшими игроками в го, создание ими музыки и картин, предсказание нейронными сетями пространственной структуры белков и другие вещи, которые десять лет назад мы посчитали бы чудесами. Алгоритмы искусственного интеллекта (ИИ) быстро вошли в нашу жизнь и стали её неотъемлемой частью. Например, каждый раз, когда вы делаете фотографию при помощи смартфона, её обработку выполняет нейронная сеть.

На смену весне искусственного интеллекта приходит лето. Эта книга рассказывает о том, какие события в истории науки привели к началу этого лета, о современных технологиях ИИ и их возможностях, а также пытается приоткрыть завесу, скрывающую от нас мир ближайшего будущего.

Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта».

Перейти на страницу:

В 2019 г. американский артист Джим Мескимен опубликовал видео, в котором он читает своё стихотворение «Пожалейте бедного импрессиониста» (Pity the Poor Impressionist), попеременно принимая обличие 20 различных знаменитостей — от Джорджа Клуни и Роберта Де Ниро до Арнольда Шварценеггера и Джорджа Буша — младшего[2903].

Технологии дипфейков открывают новые перспективы в кинематографе и рекламе. В приключенческом фильме 2016 г. «Изгой-один. Звёздные войны: Истории» (Rogue One: A Star Wars Story) на экране вновь появились молодая принцесса Лея и гранд-мофф Таркин. Исполнительнице роли Леи, Кэрри Фишер, на момент съёмок фильма было почти 60, а Питер Кушинг, сыгравший Таркина, умер более чем за 20 лет до начала съёмок. Для воссоздания образов артистов при помощи «классических» технологий CGI (Computer-Generated Imaginery, Сгенерированные компьютером изображения), таких как 3D-сканирование и скульптурное моделирование, создателям потребовались специальное оборудование и трудоёмкий процесс, для выполнения которого была привлечена большая команда специалистов[2904], [2905], [2906], [2907]. Два года спустя создатель YouTube-канала derpfakes, молодой специалист по машинному обучению из Великобритании, продемонстрировал на своём канале фрагменты фильма «Хан Соло. Звёздные войны: Истории» (Solo: A Star Wars Story), в которых на место Олдена Эренрайка, сыгравшего в этом фильме главного героя, было вмонтировано лицо молодого Харрисона Форда. И хотя результат не был на 100% идеальным, он смотрелся, пожалуй, не хуже, чем творение профессиональных «клоноделов»[2908]. Появление цифровых двойников в кино послужило толчком к дискуссиям о «призрачном актёрстве» [ghost acting][2909], [2910]. В вышедшем в конце 2020 г. предновогоднем рекламном ролике «Сбера» в роли Жоржа Милославского появился воссозданный при помощи нейронных сетей молодой Леонид Куравлёв[2911], что также спровоцировало активную полемику в прессе и социальных сетях[2912], [2913].

В наши дни самостоятельные эксперименты в области дипфейков может осуществить каждый желающий, для этого можно воспользоваться одним из инструментов с открытым исходным кодом — например Faceswap[2914] или DeepFaceLab[2915], [2916].

Современные генеративные модели могут также создавать видео на основе статических изображений. Например, авторы работы «Двигательная модель первого порядка для анимации изображений» (First Order Motion Model for Image Animation)[2917] демонстрируют, как нейросетевая модель заставляет двигаться фотографии и рисунки, привязав их к управляющему видео. Таким образом можно «оживить» портрет или старинное фото. В целом подход, базирующийся на генерации нового видео на основе геометрии опорного, приобрёл в последние годы заметную популярность. Управляющая информация из исходного видео извлекается при помощи различных вспомогательных нейросетей, например упоминавшейся ранее ControlNet или какой-либо сети, предназначенной для получения карты глубин, например MiDaS[2918]. Такой подход реализован, в частности, в моделях Gen-1 и Gen-2 от компании Runway Research[2919], [2920].

Успехи в области синтеза произвольных видео пока что куда более скромные. Модели, подобные DVD-GAN[2921] от DeepMind или TGAN-F[2922], — те же Gen-1 и Gen-2, Make-A-Video[2923], CogVideo[2924], Text2Video-Zero[2925], VideoFusion (она же ModelScope text2video 1.7B)[2926], [2927] — способны генерировать короткие фрагменты видео небольшого разрешения, при этом степень их правдоподобия пока оставляет желать лучшего. Впрочем, уже сейчас вы можете порадовать себя жутковатыми видеороликами с Уиллом Смитом, поедающим непокорные спагетти. В целом прогресс генеративных моделей в синтезе изображений оставляет мало сомнений в том, что и задача генерации видео будет в обозримом будущем решена на весьма качественном уровне.

6.6.11 Машина как композитор

Давайте теперь обратимся к успехам современных генеративных моделей в области музыки.

Интуитивно понятно, что музыка представляет собой некоторую последовательность — каждая музыкальная композиция имеет протяжённость во времени, но что является элементом этой последовательности? Что следует использовать в качестве отдельного токена в генеративной модели? Вопрос этот, как это ни странно, может иметь несколько разных ответов. Во-первых, музыку можно рассматривать как звуковой сигнал, в таком случае музыкальное произведение — это некий колебательный процесс, который можно выразить в амплитудном (последовательность амплитуд звуковой волны для каждого выбранного отрезка времени) или частотном (разложение на элементарные колебательные процессы) представлении (домене). Этот подход аналогичен подходу, применяемому при синтезе речи. Во-вторых, можно рассматривать музыку как нотный текст, в котором каждый инструмент играет (или не играет) определённую ноту (или аккорд) в каждом отдельно взятом такте музыкальной композиции. Этот подход абстрагируется от некоторых особенностей процесса извлечения звука — индивидуальных характеристик инструментов (гитара со стальными струнами звучит не так, как с нейлоновыми, и т. п.), нюансов звукоизвлечения (например, у флейты звучание ноты может зависеть от дыхания флейтиста и т. п.) — в общем, всего того, что не отражено в музыкальном тексте и что позволяет музыкантам-виртуозам проявлять свою индивидуальную манеру при исполнении одних и тех же произведений. Однако, несмотря на присущие ему потери и огрубление, у этого метода есть одно неоспоримое преимущество — он обеспечивает гораздо более компактное представление музыкальной информации, что сильно снижает требования к вычислительным затратам при создании и использовании соответствующих генеративных моделей. Именно поэтому исторически модели, работающие с нотным представлением музыки, появились и получили развитие раньше, чем модели, использующие звуковое представление.

Синтез нотного текста — задача, сильно напоминающая задачу синтеза текста на естественном языке. Неудивительно, что история алгоритмической музыкальной композиции весьма напоминает историю развития систем для генерации текстов. Первые алгоритмы генерации музыки, так же как и алгоритмы для порождения текстов, появились задолго до первых ЭВМ.

Идея использования формальных методов в музыкальной композиции была известна уже в эпоху Античности. Например, Пифагор верил в связь между законами природы и гармонией звуков, выраженной в музыке[2928]. Само слово «музыка» имело для древних греков более широкое значение, чем в наши дни. В учении пифагорейцев музыка была неотделима от чисел, которые считались ключом ко всей духовной и физической вселенной. Система музыкальных звуков и ритмов, упорядоченная при помощи чисел, олицетворяла гармонию космоса[2929].

Перейти на страницу:
Комментарии (0)