Google представила самую точную нейросеть, создающую картинки по текстовому описанию

Совсем недавно OpenAI представила второе поколение нейросети DALL-E, предназначенной для создания изображений на основе текстового описания. А теперь и Google анонсировала свой подобный проект — Imagen.

Представители поискового гиганта рассказали, что для распознавания текстового запроса нейросеть использует большие языковые модели. При этом алгоритмы нейронной сети улучшают получившуюся схематичную картинку размером 64×64 сначала до 256х256, затем до 1024×1024.

Всё это время модель не просто апскейлит изображение, а именно что дорисовывает имеющиеся детали на картинке.

Фотография енота в шлеме космонавта, выглядывающего ночью из окна
Милый корги живёт в доме, сделанном из суши
Плюшевые мишки плавают на Олимпийских играх на дистанции 400 м баттерфляем

Разработчики Imagen сравнили своё детище с DALL-E 2 от OpenAI. По их словам, тестировщики чаще выбирали изображения, полученные их технологией, когда их просили отдать предпочтение более точной и достоверной работе.

На данный момент проект работает в режиме закрытой беты. Доступ к ней могут получить лишь некоторые лица. Причиной этого разработчики назвали страх за использовании нейросети для генерации неприемлемых изображений.