gdgt

Skip to Content

ChatGPT Images 2.0 лучше справляется с рендерингом нелатинских текстов

Чуть более чем через год после того, как OpenAI предоставила пользователям ChatGPT возможность создавать изображения и дизайны прямо из чат-бота, компания выпускает ChatGPT Images 2.0. OpenAI описывает новую систему как «качественный скачок» для моделей генерации изображений, особенно в части способности инструмента точно следовать инструкциям, рендерить плотный текст, а также размещать и связывать объекты на сцене. Впервые OpenAI также создала модель изображений с возможностями рассуждения, что дает системе способность выполнять такие задачи, как поиск в интернете и проверка своих результатов. По данным компании, эти возможности должны привести к созданию более надежного инструмента, когда важны точность, согласованность и визуальная целостность.

An example of ChatGPT's new non-Latin rendering abilities.

Пример новых возможностей ChatGPT по рендерингу нелатинских текстов. (OpenAI)

OpenAI также заявляет, что приложила много усилий для улучшения понимания и рендеринга нелатинских текстов в Images 2.0, добившись «значительных успехов» в обработке японского, корейского, китайского, хинди и бенгальского языков. В то же время компания утверждает, что новая модель лучше воссоздает специфические характеристики различных визуальных языков. По этому поводу OpenAI заявляет, что это делает Images 2.0 более полезным для таких задач, как прототипирование игр и создание раскадровок. Помимо этих функций, новая модель стала более гибкой в отношении соотношения сторон, позволяя генерировать изображения с соотношением до 3:1 по ширине и до 1:3 по высоте. Она также может создавать дизайны с разрешением до 2K и даже генерировать до восьми вариантов за один раз.

A tortoiseshell cat in the style of Pokemon's third generation of games.

Черепаховая кошка в стиле третьего поколения игр Pokemon. (ChatGPT)

Я имел возможность предварительно ознакомиться с Images 2.0 до его публичного релиза. Для первого запроса я попросил ChatGPT сгенерировать изображение черепаховой кошки в стиле пиксель-арт третьего поколения Pokémon. Я посчитал, что это будет хорошим тестом, потому что ИИ-модели обычно испытывают трудности с пиксель-артом, а игры Pokémon на Game Boy Advance культовы благодаря своему художественному стилю, настолько, что если бы ChatGPT просто приблизительно передал этот стиль, этого было бы недостаточно. Результатом стало изображение, которое вы видите выше, и я думаю, что ChatGPT справился там достойно. Затем я поручил новой модели преобразовать это изображение в прозрачный PNG. Для последнего теста я попросил ChatGPT создать четырехстраничную мангу о моей кошке, наслаждающейся солнечным днем у идиллического городского ручья.

Notice how the cat isn't render exactly like the one above it.

Обратите внимание, что кошка отрисована не совсем так, как на изображении выше. (ChatGPT)

Из этих трех тестов ChatGPT потратил больше всего времени на второй, и результат там несколько отличался от первого сгенерированного им изображения, которое, по моему мнению, отклонилось от моего запроса. Тем не менее, ему удалось создать надлежащее прозрачное изображение, чего другим моделям изображений трудно добиться должным образом. Как только больше людей смогут протестировать модель, у нас будет лучшее представление о том, как она сравнивается с Nano Banana 2 от Google, и где OpenAI может внести дополнительные улучшения.

A manga generated by ChatGPT about a cat enjoying a sunny day.

Манга, сгенерированная ChatGPT, о кошке, наслаждающейся солнечным днем. (ChatGPT)

Images 2.0 доступен с сегодняшнего дня для всех пользователей ChatGPT, включая тех, кто пользуется бесплатными версиями и версиями Go tiers компании. Подписчики Plus и Pro получают доступ к более продвинутым возможностям. OpenAI также предоставляет модель через свой API-сервис и приложение для кодирования Codex, которое на прошлой неделе было обновлено для предоставления встроенной генерации изображений. Примечательно, что Images 2.0 выходит всего через несколько дней после того, как Anthropic вышла на рынок визуального дизайна со своим собственным помощником по дизайну.