Новосибирск глазами нейросети. ФОТО
Сбер создал первую нейросеть, которая по текстовому описанию на русском языке генерирует рисунки. Изображения получаются очень разными — от реалистичных до абстрактных. Мы загрузили в нейросеть текстовые описания главных достопримечательностей Новосибирска, чтобы узнать, как компьютерный разум представляет город и его жителей.
Нейросеть под названием ruDALL-E за несколько часов сгенерировала знаковые объекты Новосибирска, среди которых Оперный театр, единственный за Уралом метромост, Обское море. Также ее попросили представить известных уроженцев города и популярные бренды. В некоторых случаях картинка вполне узнаваемая, в других можно лишь догадываться, чем руководствовалась нейросеть, выдавая такой результат.
Машинный мозг фактически состоит из трех нейросетей. Первая принимает текст и генерирует заданное число картинок, вторая выбирает наиболее удачные изображения, а третья увеличивает их без потери качества. Обучение ruDALL-E проводили на базе суперкомпьютера «Кристофари».
В целом обучение нейросети заняло 23 тысячи GPU-часов на массиве данных из 120 миллионов пар текст-изображение. По заявлению разработчиков, нейросеть позволит создавать варианты дизайна интерьера или архитектуры, стоковые изображения, иллюстрации для рекламы и копирайтинга.
При использовании ruDALL-E сначала нужно сформулировать текстовый запрос. Он может состоять из одного слова, словосочетания или предложения. Обработка занимает от нескольких минут до часа и более.