fbpx

OpenAI представила нейросеть DALL‑E, которая создает изображения по запросу. Это важный шаг к более осмысленному ИИ

Исследователи из Ope­nAI представили две новые нейросети — DALL‑E и CLIP. Первая создает иллюстрации, фотографии и рендеры на основе простого описания. Например, она может изобразить «кота в галстуке-бабочке» или «дайкона в пачке, выгуливающего собаку». Вторая определяет объекты и классифицирует их, основываясь на простом описании.

Нейросеть DALL‑E создает изображения из текста. Она не находит их в открытых источниках, а генерирует самостоятельно. Например, она может создать коллекцию картинок по запросу «пятиугольные зеленые часы» или «куб с текстурой дикобраза».

«Пятиугольные зеленые часы»
«Куб с текстурой дикобраза»

Также нейросеть может создавать изображения одежды, интерьера, мебели, еды, животных. Теоретически, DALL‑E умеет генерировать образ человека, однако в коллекции примеров на сайте Ope­nAI такой вариант не представлен.

«Кресло в форме авокадо»
«Капибара, сидящая в поле»

Нейросеть DALL‑E обрабатывает естественный язык (английский) и простые запросы на нем.

Вторая разработка Ope­nAI — нейросеть CLIP. Она способна классифицировать изображения по описанию на английском языке. При этом обучение ИИ происходит на основе нулевых данных.

CLIP умеет распознавать изображения без примеров в тщательно отобранных наборах данных, как это делают большинство существующих моделей. Она узнает, что показано на изображении, по всему описанию, а не по тегу из одного слова, например «кошка» или «банан».

«Это сказочно интересная и мощная работа, и, как и другие проекты Ope­nAI, она, несомненно, вскоре перерастет во что-то еще более сказочное и интересное», — отмечает Tech Crunch. Однако будущее технологии пока трудно представить.

В Ope­nAI продолжают работать над обеими нейросетями. Причем речь идет не только о технической, но и об этической стороне результатов, которые генерируют DALL‑E и CLIP.

«Мы живем в визуальном мире», — говорит Илья Суцкевер, один из руководителей Ope­nAI. «В конечном итоге мы получим модели, которые понимают и текст, и изображения. ИИ будет лучше понимать язык, потому что он сможет видеть, что означают слова».