NVIDIA Parakeet

Новейшая открытая модель от NVIDIA для автоматического распознавания речи (ASR), установившая рекорды по скорости и точности в своей категории. Она содержит ~600 млн параметров и основана на архитектуре FastConformer-TDT (Transducer), оптимизированной специально под GPU.
Отличительной чертой Parakeet 0.6B v2 является феноменальная производительность: модель способна расшифровать час аудиозаписи всего за 1 секунду при работе на современных GPU NVIDIA. Это эквивалентно реальному времени в 3600×, что многократно превышает возможности предыдущих поколений.

По метрикам точности Parakeet тоже впечатляет – на открытом лидерборде HuggingFace она продемонстрировала среднюю долю ошибок (WER) всего ~6.05%. Для сравнения: это приближается к качеству закрытых топ-моделей, таких как GPT-4 (WER ~2.5%) и ElevenLabs Scribe (~3.3%), при том что Parakeet полностью открыта и легальна для коммерческого использования. Такой прорыв стал возможен благодаря обучению на огромном датасете (корпус Granary ~120 000 часов англоязычной речи), включающем сочетание высококачественной транскрибированной речи (~10k часов из наборов LibriSpeech, Common Voice и др.) и порядка 110k часов менее точных, автоматически распознанных записей. NVIDIA планирует открыть этот корпус, что будет ценным вкладом в сообщество.

Parakeet TDT v2 ориентирован на реальные прикладные задачи и сразу “из коробки” поддерживает важные для разработчиков функции: автоматическую постановку пунктуации и заглавных букв в расшифровке, а также выдачу таймстемпов для каждого слова. Это означает, что на выходе получается готовый читаемый текст с точной привязкой времени – крайне удобно для создания субтитров, стенограмм митингов, анализа звонков. Модель устойчива к различным шумам и акцентам: испытания на ряде сложных аудио-наборов (AMI, Earnings-22, SPGISpeech) показали, что Parakeet сохраняет высокую точность даже при фоновых шумах и телефонном качестве звука. При падении отношения сигнал/шум качество несколько снижается, но без катастрофических ошибок – речь остается узнаваемой.

Важным плюсом является лицензия CC BY-4.0, под которой NVIDIA выложила модель на HuggingFace. Она позволяет свободно использовать Parakeet v2 в коммерческих продуктах при сохранении указания авторства, что делает модель привлекательной для встраивания в сервисы автоматической расшифровки (от стартапов до корпоративных решений). NVIDIA предлагает интеграцию через свой фреймворк NeMo и платформу Riva – модель легко загружается и запускается через Python-API, поддерживается ускорение на T4, V100, A100, H100 и других графических картах NVIDIA. Таким образом, разработчики могут разворачивать ее локально или в облаке, получая молниеносное распознавание речи в приложениях: голосовые помощники, системы транскрибации звонков, генерация субтитров, анализ звонков контакт-центров и многое другое.

Parakeet TDT 0.6B-v2 фактически открывает новую эру в ASR: еще недавно столь высокие показатели точности и особенно скорости были прерогативой внутренних сервисов гигантов (Google, OpenAI). Теперь же превосходное распознавание доступно сообществу в открытом виде. Это стимулирует конкуренцию и внедрение голосовых технологий в самых разных областях, поскольку снижает стоимость и барьеры (не нужно платить за каждый час расшифровки сторонним API, можно развернуть свою модель). В сочетании с другими открытыми достижениями NVIDIA (модели синтеза речи, перевода) Parakeet укрепляет экосистему речевых ИИ, где компании могут строить полноценные конвейеры голосовых сервисов на открытом ПО.