Dia 1.6B имеет 1,6 миллиарда параметров, способна синтезировать речь, практически неотличимую от человеческой, с богатыми интонациями и эмоциями. Особый упор сделан на диалоговую речь – модель умеет озвучивать несколько персонажей в разговоре, переключаясь между голосами, и передавать живость настоящей беседы.
В отличие от традиционных TTS, которые часто звучат монотонно, Dia проявляет тонкие нюансы речи: она может менять тон и эмоциональную окраску фразы – от радости к грусти, от спокойствия к возбуждению – причем управлять этим может сам пользователь посредством специальных механизмов. Одна из ключевых особенностей – аудио-контекстное управление: можно подать на вход короткий референс-звук (например, образец голоса или интонации), и модель настроит выход под эту манеру речи. Это позволяет добиться нужного эмоционального тона озвучки. Более того, Dia распознаёт специальные теги в тексте для несловесных реакций: пометки вроде (laughs), (clears throat), (sighs) будут преобразованы в настоящие звуковые эффекты – смех, покашливание, вздох соответственно Такие натуральные вставки у конкурентов обычно отсутствуют (закрытые сервисы вроде ElevenLabs требуют либо не использовать их, либо вручную вставлять аудиоеффекты), а Dia генерирует их сама как часть потока речи.
По умолчанию модель не привязана к конкретному диктору: голос генерируется случайным, что означает огромное разнообразие тембров и акцентов. При каждом запуске можно получить иной голос – мужской, женский, высокий, низкий – в зависимости от случайных факторов. Однако при необходимости есть опции для фиксирования голоса: задав определенный seed (зерно генерации) или предоставив образец голоса, пользователь может заставить модель консистентно озвучивать одним и тем же голосом. Более того, Dia поддерживает прямое клонирование голоса – достаточно загрузить небольшой фрагмент речи целевого диктора и указать его транскрипт перед основным текстом: модель проанализирует образец и попытается воспроизвести новый текст уже тем же голосом. Эта функция открывает двери для применения в дубляже, восстановлении голоса, персонализации голосовых помощников.
Dia 1.6B показала такие впечатляющие результаты, что независимые обзоры называют её “новым эталоном” и отмечают превосходство над коммерческими аналогами в области диалоговой речи. В ранних тестах отмечено, что по натуральности и выразительности Dia превосходит даже популярный сервис ElevenLabs и модель Sesame CSM-1B, особенно на диалоговых сценах с несколькими ролями. Конечно, для конечных цифр нужно больше официальных метрик, но субъективно слуховые тесты подтверждают высокое качество – голос от Dia звучит эмоционально и правдоподобно, “дышит” как живой человек. Еще одно преимущество – открытость: модель выложена на HuggingFace вместе с кодом, лицензия позволяет коммерческое использование (с указанием авторства). Это значит, любые разработчики могут встроить Dia в свои проекты – озвучка в играх, аудиокниги, голосовые боты – без огромных затрат на сторонние API. Для запуска потребуется лишь подходящий GPU, поскольку модель довольно велика (1,6B). Nari Labs также предоставляет удобный веб-интерфейс на HuggingFace Spaces, где можно протестировать генерацию речи, а сообществом разработаны Python-библиотеки и даже интеграции для платформ (например, энтузиасты подключили Dia как компонент TTS в Home Assistant).
В целом Dia 1.6B знаменует важный шаг к демократизации высококачественной синтезированной речи. Теперь реалистичные озвучки с эмоциями и разными голосами доступны не только крупным технокорпорациям, но и независимым авторам, что особенно ценно для локализации контента, создания аудиоразвлечений и инклюзивных технологий (озвучивание для слабовидящих и т.п.).