Kandinsky – российская нейросеть для генерации изображений, разработанная командой Sber AI. Названная в честь художника-авангардиста Василия Кандинского, эта модель способна создавать впечатляющие картины по текстовому описанию и считается одним из ответов западным аналогам (DALL·E, Stable Diffusion) на отечественном рынке. Проект открыт для всех желающих на сайте Sber (fusionbrain.ai) и через API, бесплатен в использовании.
Основные возможности: Kandinsky умеет генерировать изображения в различных стилях – от реалистичных фотографий до абстракций и аниме. Как и другие модели, на вход подаётся текстовое описание на русском или английском, и сеть выдаёт несколько вариантов. Одной из фишек Kandinsky является наличие двух режимов работы: текстовый (генерация с нуля по описанию) и визуальный – image-to-image с учетом референса. Кроме того, поддерживаются стандартные функции вроде инпейнтинга (точечное редактирование части изображения по текстовому запросу) и стилевого переноса (Style Transfer) – когда вы загружаете образец стиля, и ИИ переносит его на другое изображение. Например, можно загрузить фотографию и получить её в стиле импрессионизма или комикса. Ещё одна функция – супер-разрешение (Super Resolution): увеличение чёткости и размера изображения без значительной потери качества, полезно для печати.
Особенности: Kandinsky, будучи продуктом Сбера, обучен с упором на русскоязычный сегмент – он хорошо понимает сложные запросы на русском (в т.ч. идиомы, культурные отсылки). Генерация идёт на собственных мощностях Сбера, что обеспечивает приемлемую скорость. Стилевое разнообразие – сильная сторона: модель умеет работать и в живописных стилях, и в мультяшных, и в дизайне логотипов. Для профессионалов ценным будет открытый исходный код модели (на GitHub) и возможность локального запуска. Также Kandinsky часто обновляется: актуальная версия 2.2 (на 2023 г.) улучшила передачу пропорций человека и качество мелких деталей (рук, лиц).
Полезно знать: Доступ к Kandinsky возможен через веб-интерфейс “СберВизия” или бота в Телеграм. Веб-версия позволяет генерировать несколько изображений в день бесплатно, требуя авторизации через SberID или VK. В коммерческих целях можно использовать модель по лицензии CC BY-SA (при указании авторства Сбера). Ограничения по контенту стандартные (запрещены экстремизм, эротика и пр.). Интересный плюс – интеграция с другими сервисами Сбера, например, с платформой коллекционных NFT «СберNFT»: художники могут сразу выставлять сгенерированные Kandinsky картинки на продажу как NFT. Таким образом,
Kandinsky не только технологически мощен (способен на качественный арт разного жанра), но и встроен в локальную инфраструктуру, что делает его удобным выбором для русскоязычных пользователей и разработчиков.