Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков


Охота на электроовец. Большая книга искусственного интеллекта читать книгу онлайн
Новый этап в области компьютерных технологий часто называют очередной «весной искусственного интеллекта». Её начало обычно отсчитывают с момента появления нейронной сети, сегодня известной под названием AlexNet, успех которой в распознавании зрительных образов возвестил о начале «революции глубокого обучения». В результате этой революции машинам удалось превзойти человеческий уровень при решении множества задач. Сегодня уже мало кого удивляют победы машин над сильнейшими игроками в го, создание ими музыки и картин, предсказание нейронными сетями пространственной структуры белков и другие вещи, которые десять лет назад мы посчитали бы чудесами. Алгоритмы искусственного интеллекта (ИИ) быстро вошли в нашу жизнь и стали её неотъемлемой частью. Например, каждый раз, когда вы делаете фотографию при помощи смартфона, её обработку выполняет нейронная сеть.
На смену весне искусственного интеллекта приходит лето. Эта книга рассказывает о том, какие события в истории науки привели к началу этого лета, о современных технологиях ИИ и их возможностях, а также пытается приоткрыть завесу, скрывающую от нас мир ближайшего будущего.
Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта».
2966
Ализар А. (2019). Нейросеть «Яндекса» стала соавтором пьесы для альта с оркестром / Хабр, 22 февраля // https://habr.com/ru/post/441286/
2967
Иванов С. М. (2018). Нейросетевая Генерация Музыки. Выпускная квалификационная работа. Московский государственный университет имени М.В. Ломоносова. Факультет вычислительной математики и кибернетики. Кафедра математических методов прогнозирования // http://www.machinelearning.ru/wiki/images/2/2c/2018_417_IvanovSM.pdf
2968
AI-generated music challenge // https://www.crowdai.org/challenges/ai-generated-music-challenge
2969
Huang C.-Z. A., Vaswani A., Uszkoreit J., Shazeer N., Simon I., Hawthorne C., Dai A. M., Hoffman M. D., Dinculescu M., Eck D. (2018). Music Transformer // https://arxiv.org/abs/1809.04281
2970
Piano-e-Competition dataset (competition history): http://www.piano-e-competition.com/
2971
Huang Y.-S., Yang Y.-H. (2020). Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions // https://arxiv.org/abs/2002.00212
2972
Hawthorne C., Stasyuk A., Roberts A., Simon I., Huang C.-Z. A., Dieleman S., Elsen E., Engel J., Eck D. (2019). Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset / In International Conference on Learning Representations // https://openreview.net/forum?id=r1lYRjC9F7
2973
Payne C. M. (2019). MuseNet / OpenAI blog, April 25, 2019 // https://openai.com/blog/musenet/
2974
Deahl D. (2019). Warner music signed an algorithm to a record deal — what happens next? / The Verge, Mar 27, 2019 // https://www.theverge.com/2019/3/27/18283084/warner-music-algorithm-signed-ambient-music-endel
2975
Минин А. (2022). Маэстро: как виртуальные ассистенты Салют превращают текст в музыку / Хабр, 23 декабря 2022 // https://habr.com/ru/companies/sberdevices/articles/707138/
2976
Минин А. (2021). SymFormer: как мы написали музыку с помощью трансформеров и вариационных автоэнкодеров / Хабр, 25 ноября 2021 // https://habr.com/ru/companies/sberdevices/articles/591441/
2977
Aiphoria (2024) // https://zvuk.com/artist/211304339
2978
ИИ впервые в мире солировал на концерте ВЭФ во Владивостоке // https://ria.ru/20230910/kontsert-1895341104.html
2979
Dhariwal P., Jun H., Payne C. M., Kim J. W., Radford A., Sutskever I. (2020). Jukebox / OpenAI blog, April 30, 2020 // https://openai.com/blog/jukebox/
2980
Dhariwal P., Jun H., Payne C., Kim J. W., Radford A., Sutskever I. (2020). Jukebox: A Generative Model for Music // https://arxiv.org/abs/2005.00341
2981
Agostinelli A., Denk T. I., Borsos Z., Engel J., Verzetti M., Caillon A., Huang Q., Jansen A., Roberts A., Tagliasacchi M., Sharifi M., Zeghidour N., Frank C. (2023). MusicLM: Generating Music From Text // https://arxiv.org/abs/2301.11325
2982
Ni M., Huang H., Su L., Cui E., Bharti T., Wang L., Gao J., Zhang D., Duan N. (2020). M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training // https://arxiv.org/abs/2006.02635
2983
Reed S., Zolna K., Parisotto E., Colmenarejo S. G., Novikov A., Barth-Maron G., Gimenez M., Sulsky Y., Kay J., Springenberg J. T., Eccles T., Bruce J., Razavi A., Edwards A., Heess N., Chen Y., Hadsell R., Vinyals O., Bordbar M., de Freitas N. (2022). A Generalist Agent // https://arxiv.org/abs/2205.06175
2984
Chen X., Wang X., Changpinyo S., Piergiovanni A., Padlewski P., Salz D., Goodman S., Grycner A., Mustafa B., Beyer L., Kolesnikov A., Puigcerver J., Ding N., Rong K., Akbari H., Mishra G., Xue L., Thapliyal A., Bradbury J., Kuo W., Seyedhosseini M., Jia C., Ayan B. K., Riquelme C., Steiner A., Angelova A., Zhai X., Houlsby N., Soricut R. (2022). PaLI: A Jointly-Scaled Multilingual Language-Image Model // https://arxiv.org/abs/2209.06794
2985
Driess D., Xia F., Sajjadi M. S. M., Lynch C., Chowdhery A., Ichter B., Wahid A., Tompson J., Vuong Q., Yu T., Huang W., Chebotar Y., Sermanet P., Duckworth D., Levine S., Vanhoucke V., Hausman K., Toussaint M., Greff K., Zeng A., Mordatch I., Florence P. (2023). PaLM-E: An Embodied Multimodal Language Model // https://arxiv.org/abs/2303.03378
2986
Brohan A., Brown N., Carbajal J., Chebotar Y., Dabis J., Finn C., Gopalakrishnan K., Hausman K., Herzog A., Hsu J., Ibarz J., Ichter B., Irpan A., Jackson T., Jesmonth S., Joshi N. J., Julian R., Kalashnikov D., Kuang Y., Leal I., Lee K., Levine S., Lu Y., Malla U., Manjunath D., Mordatch I., Nachum O., Parada C., Peralta J., Perez E., Pertsch K., Quiambao J., Rao K., Ryoo M., Salazar G., Sanketi P., Sayed K., Singh J., Sontakke S., Stone A., Tan C., Tran H., Vanhoucke V., Vega S., Vuong Q., Xia F., Xiao T., Xu P., Xu S., Yu T., Zitkovich B. (2022). RT-1: Robotics Transformer for Real-World Control at Scale // https://arxiv.org/abs/2212.06817
2987
Brohan A., Brown N., Carbajal J., Chebotar Y., Chen X., Choromanski K., Ding T., Driess D., Dubey A., Finn C., Florence P., Fu C., Arenas M. G., Gopalakrishnan K., Han K., Hausman K., Herzog A., Hsu J., Ichter B., Irpan A., Joshi N., Julian R., Kalashnikov D., Kuang Y., Leal I., Lee L., Lee T. E., Levine S., Lu Y., Michalewski H., Mordatch I., Pertsch K., Rao K., Reymann K., Ryoo M., Salazar G., Sanketi P., Sermanet P., Singh J., Singh A., Soricut R., Tran H., Vanhoucke V., Vuong Q., Wahid A., Welker S., Wohlhart P., Wu J., Xia F., Xiao T., Xu P., Xu S., Yu T., Zitkovich B. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control // https://arxiv.org/abs/2307.15818
2988
Vuong Q., Sanketi P. (2023). Scaling up learning across many different robot types / DeepMind blog, October 3, 2023 // https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types
2989
Koh J. Y., Salakhutdinov R., Fried D. (2023). Grounding Language Models to Images for Multimodal Inputs and Outputs // https://arxiv.org/abs/2301.13823
2990
Bai J., Bai S., Yang S., Wang S., Tan S., Wang P., Lin J., Zhou