D-ID – платформа, известная технологией «говорящих лиц» и анимирования фотографий. С помощью D-ID можно из статичного фото человека сделать видео, где он двигается и говорит заданный текст. Фактически, D-ID предоставляет онлайн-студию, позволяющую создать виртуального ведущего или аватара из любого изображения. В 2021 году D-ID прославилась функцией Deep Nostalgia (анимации старых фотографий), а сейчас её основной продукт – Creative Reality Studio, ориентированная на бизнес-презентации, поддержку клиентов и т.д.
Как работает: В интерфейсе D-ID (студия похожа на Synthesia) вы загружаете портретное фото – это может быть любое лицо: ваше, актёра, даже нарисованный персонаж. Либо выбираете из библиотеки готовых аватаров. Затем вводите или копируете текст скрипта, который должен быть озвучен аватаром, выбираете язык и голос озвучки (несколько языков и голосов на выбор, включая русский). Нажимаете “Generate” – и через минуту получаете видео, где на загруженном фото “оживают” губы и мимика, и персонаж вслух произносит заданный текст. По сути, это синтез речи + глубокая фейк-анимация лица. D-ID позволяет также генерировать лицо ИИ (функция Generate AI Presenter, чтобы получить уникального виртуального человека), либо использовать несколько сцен с разными спикерами.
Особенности и преимущества: Главное – D-ID даёт возможность оживить любое лицо. В отличие от Synthesia, где аватары ограничены библиотекой, здесь вы можете загрузить, скажем, фотографию своего сотрудника – и он “выступит” в видео, даже если на самом деле ничего не записывал. Кастомные аватары – сильное отличие D-ID. Это ценят, например, в маркетинге: можно оживить маскот-героя бренда или создать персонализированное обращение от лица руководителя компании, просто взяв его фото. D-ID поддерживает множество языков и акцентов, включая высококачественный русский голос, что важно для локального использования. Интерфейс очень простой: слева выбор аватара, справа ввод текста – как отмечают пользователи, “интуитивно понятный, буквально за минуту сделал видео”. Генерация происходит быстро (30 секунд – 1 минута). D-ID также имеет API, что позволяет на лету генерировать видео-ответы (например, сервисы автоматизированной поддержки клиентов могут отвечать в виде говорящего помощника).
Полезно знать: Бесплатный план D-ID предоставляет ~5–10 коротких видео (до 15 секунд) с водяным знаком. Ограничение: в кадре говорит только голова, без сложных поз и движений – т.е. это как говорящая фотография. Иногда могут быть артефакты – небольшая несинхронность губ или неподвижность выражения, особенно если исходное фото малокачественное. Но D-ID активно улучшает технологию: их алгоритм “Очарование” (стабилизация лица) делает речь всё более естественной. Кстати, сервис оценивают как второй лучший после Synthesia в сфере говорящих аватаров, при этом превосходящий Synthesia в гибкости (свои лица) и цене для компаний. D-ID хорошо дополняет текстовые чат-боты: он может озвучивать сгенерированный ИИ-ответ, показывая лицо, – этим пользуются, например, для интерактивных FAQ на сайтах. Если задача – быстро сделать видеообращение или презентацию с любым лицом, D-ID – крайне удобный инструмент, экономящий время на съёмку видео и озвучку.