Обзор · обновлено 9 мая 2026

Программы для транскрибации русской речи в 2026

Большой обзор: 10 программ для транскрибации и расшифровки аудио — Traart, MacWhisper, TurboScribe, Otter.ai, Sonix, Yandex SpeechKit, SaluteSpeech, VOSK, Whisper-large-v3, Google Cloud STT и Speech2Text.ru. Реальные WER-бенчмарки на русском, актуальные цены 2026, приватность, лимиты, диаризация — что выбрать под совещания, интервью, диктовку и голосовые.

10 сервисов Verified май 2026 WER на 7 датасетах Источники указаны

В этой статье
~ мин

Что важно при выборе программы для транскрибации

Транскрибация в 2026 году — это уже не «есть/нет», а вопрос компромиссов. Облачные сервисы (TurboScribe, Otter.ai, Yandex SpeechKit, SaluteSpeech) удобны для разовой задачи, но плохо подходят, когда вы расшифровываете десятки часов аудио в месяц или работаете с конфиденциальными записями. Оффлайн-программы (Traart, MacWhisper, VOSK) дают приватность и нулевую цену за минуту, но требуют Apple Silicon или установку библиотек. Российские сервисы (SaluteSpeech, Yandex SpeechKit, Speech2Text.ru) лучше понимают русскую речь и принимают рублёвую оплату, но ваши данные уезжают на их серверы.

Чтобы не выбрать программу для транскрибации «по картинке на лендинге», мы сравнили 10 сервисов по пяти критериям, которые реально определяют, подойдёт ли инструмент именно вам. Все цены и параметры проверены в мае 2026 на официальных сайтах сервисов; источники указаны в сноске под сравнительной таблицей.

WER на русском

Word Error Rate — процент ошибок в словах. Лучшие модели для русского дают 6–10%, хуже — 20–30%. Только GigaAM v3 (Сбер) и VOSK публикуют реальные бенчмарки.

Цена за час

Бесплатные программы или $0.20–$10 за час аудио. Подписки $8–$30/мес часто включают 300–6000 минут, потом — переплата.

Оффлайн

Полностью локальная обработка vs отправка аудио в облако. Критично для интервью под NDA, медицинских записей, переговоров и записей под 152-ФЗ.

Диаризация

Автоматическое разделение по спикерам — «Спикер 1 / 2 / 3». Обязательно для интервью, совещаний, фокус-групп и колл-центров.

Платформа

Готовое приложение (drag-and-drop), веб-интерфейс или API/CLI для разработчиков. Определяет, нужно ли уметь программировать.


Сводная сравнительная таблица программ для транскрибации

Все цифры — на май 2026. WER указан там, где разработчик публикует реальный бенчмарк на русскоязычных датасетах; «Н/П» означает, что сервис не публикует бенчмарки на русском, и оценить точность можно только косвенно. Ссылки на источники — в сноске под таблицей.

Программа для транскрибации WER на русском Цена 2026 Оффлайн Диаризация Платформа
Traart 8.4%¹ $0 навсегда Да Да (pyannote) macOS, GUI
SaluteSpeech (Сбер) ≈ 8.4%² 100 мин/мес free; 1200 ₽ за 1000 мин Нет Да (API) Cloud API
Yandex SpeechKit Н/П³ за 15 сек аудио (₽) Нет Да (API) Cloud API
VOSK 6.1%⁴ (Common Voice) $0 (Apache 2.0) Да Нет CLI/SDK Python, Java
MacWhisper ≈ 25%⁵ (Whisper-large-v3) €59 (~$69) lifetime Да Да (Pro) macOS, GUI
TurboScribe ≈ 25%⁵ (на Whisper) $10/мес (year) или $20/мес Нет Да Web
Otter.ai Не поддерживает⁶ $8.33/мес (year), 1200 мин Нет Да Web/App
Sonix.ai Н/П³ $10 за час pay-as-you-go⁷ Нет Да Web
Google Cloud Speech-to-Text Н/П³ $0.016/мин ($0.96/час)⁸ Нет Да (API) Cloud API
Whisper-large-v3 (raw) 25.1%⁵ (среднее по 7 датасетам) $0 (open source) Да Нет CLI/Python
Speech2Text.ru Н/П³ 180 мин free; 480 ₽/мес от Нет Да Web

WER (Word Error Rate) — процент ошибок в словах, чем ниже, тем лучше. ¹ huggingface.co/ai-sage/GigaAM-v3 — среднее по 7 русским датасетам (Golos, MCV-19, RuLibri, Natural Speech, Disordered Speech, Callcenter и др.). Traart использует ту же модель локально. ² SaluteSpeech от Сбера использует ту же модель GigaAM v3, что и Traart, но в облаке: developers.sber.ru. ³ Н/П — сервис не публикует бенчмарк на русском (заявленную «99% точность» без датасета мы за бенчмарк не считаем). ⁴ huggingface.co/alphacep/vosk-model-ru — Big Russian Model 0.54 на Common Voice ru. На реальном «грязном» аудио (callcenter, far-field) WER выше. ⁵ arXiv:2506.01192, INTERSPEECH 2025. Whisper-large-v3 — среднее 25.1% по тем же 7 русскоязычным датасетам. MacWhisper и TurboScribe строятся на Whisper, поэтому наследуют его точность на русском. ⁶ otter.ai/pricing — поддерживаются только English, French, Spanish. ⁷ sonix.ai/pricing — Standard plan, прорейтится посекундно. ⁸ cloud.google.com/speech-to-text/pricing — модель Chirp 3, V2 API, тариф округляется до 15 сек. Free tier 60 мин/мес.


Детальный обзор 11 программ для транскрибации

Дальше — короткая характеристика каждой программы для транскрибации с честными плюсами, минусами и сценариями применения. Порядок — по убыванию точности на русском (там, где разработчик публикует WER) и удобства для русскоязычного пользователя.

1. Traart WER 8.4% $0 навсегда Оффлайн macOS

Бесплатное menu bar-приложение для macOS, которое локально запускает GigaAM v3 — лучшую открытую модель распознавания русской речи (среднее WER 8.4% на 7 датасетах). Работает офлайн на Apple Silicon с MPS-ускорением, диаризация через pyannote 3.1, автоматический мониторинг папок, экспорт в TXT/Markdown/JSON с таймкодами и спикерами.

Плюсы: лучший WER на русском среди оффлайн-программ, нулевая стоимость, никакого облака, диаризация из коробки, MIT-лицензия. Минусы: только macOS (Apple Silicon рекомендуется), нет Windows и Linux. Кому подойдёт: журналистам, юристам, исследователям, продактам, коучам — тем, кто работает с конфиденциальными интервью и переговорами на Mac.

2. SaluteSpeech (Сбер) WER ≈ 8.4% 100 мин/мес free Облачный API

Облачное API от Сбера, использует ту же модель GigaAM v3, что и Traart, — поэтому качество русского распознавания одинаковое. Freemium-тариф: 100 минут распознавания и 200 000 символов синтеза в месяц. Платный пакет для физлиц: 1000 минут за 1200 ₽/мес. Корпоративный — от 19 500 ₽, годовой пакет 20 000 минут стоит 12 000 ₽.

Плюсы: та же SOTA-модель, рублёвая оплата, есть бесплатный лимит, поддерживает потоковое распознавание. Минусы: только API (нужно программировать), данные уходят на сервера Сбера, нет drag-and-drop GUI. Кому подойдёт: разработчикам, которым нужно встроить GigaAM в свой продукт без локальной инфраструктуры. Подробнее — Traart vs SaluteSpeech.

3. Yandex SpeechKit WER не опубликован Облачный API 152-ФЗ

Зрелая речевая платформа Yandex Cloud: распознавание (Speech-to-Text), синтез, перевод. Тариф — за 15 секунд аудио в синхронном режиме (минимум) и посекундно с 16-й секунды в асинхронном. Платежи в рублях. Российская инфраструктура соответствует 152-ФЗ о персональных данных, что упрощает использование в РФ.

Плюсы: хорошее качество русского, потоковый и асинхронный режимы, диаризация в API, рублёвая оплата, 152-ФЗ. Минусы: Яндекс не публикует WER на стандартных бенчмарках, нет готового GUI, оплата за объём — на больших архивах быстро накапливается. Кому подойдёт: банкам, госорганам, B2B с требованием 152-ФЗ, разработчикам внутри Яндекс-стека.

4. VOSK WER 6.1% (Common Voice) $0 (Apache 2.0) Оффлайн

Открытая библиотека от Alpha Cephei: модели Zipformer2 для 20+ языков, в том числе Big Russian Model 0.54 — заявленный WER 6.1% на Common Voice ru (карточка модели на HuggingFace). На «грязном» аудио — телефонные звонки, шумные далёкие микрофоны — точность падает до 14–18%, что подтверждают независимые тесты на колл-центре и аудиокнигах. Никаких подписок, никаких внешних серверов.

Плюсы: отличный WER на «чистом» аудио, полностью оффлайн, кроссплатформенно (Python, Java, Node, C++, Go, Android, iOS), бесплатно. Минусы: нет диаризации, нет GUI, нужно умение работать с CLI или SDK. Кому подойдёт: разработчикам, embedded-системам, проектам с собственной интеграцией. Подробнее — Traart vs VOSK.

5. MacWhisper WER ≈ 25% (Whisper) €59 lifetime Оффлайн

Десктопное приложение для macOS, которое локально запускает Whisper. Бесплатный тариф работает с маленькими моделями (Tiny, Base), полный набор включая Large открывается в Pro — €59 (~$69) одноразовая покупка на Gumroad. Альтернативно — App Store (Whisper Transcription) с подпиской $6.99/мес или $29.99/год. Качество на русском наследуется от Whisper-large-v3 — около 25% WER в среднем по семи русскоязычным датасетам (arXiv:2506.01192).

Плюсы: зрелый GUI на macOS, lifetime-лицензия без подписки, поддержка субтитров SRT, transcription из YouTube. Минусы: Whisper — не лучший выбор для русского, точность в 3 раза ниже GigaAM v3. Кому подойдёт: мультиязычным контент-мейкерам, которым нужны и русский, и английский, и испанский в одном приложении. Traart vs MacWhisper.

6. TurboScribe WER ≈ 25% (Whisper) $10/мес или $20/мес Web

Веб-сервис на базе Whisper. Бесплатный тариф: 3 файла в день по 30 минут. Платный — Unlimited за $10/мес при оплате за год ($120 авансом) или $20/мес помесячно. Декларирует «безлимит», на практике — до 720 часов в месяц на одного пользователя. Файлы до 10 часов / 5 ГБ. Поддерживает 98+ языков, включая русский, но без отдельной модели — то же качество, что и raw Whisper.

Плюсы: простой веб-интерфейс, нет инсталляции, безлимитный тариф для больших объёмов. Минусы: WER на русском ~25%, аудио уходит в их облако, годовая оплата сразу. Кому подойдёт: подкастерам и студентам, которые расшифровывают много англоязычного контента и иногда — русского. Traart vs TurboScribe.

7. Otter.ai Не поддерживает русский $8.33/мес

Один из самых известных транскрибаторов в мире — но на странице тарифов прямо написано: поддерживаются только английский, французский и испанский. Для русского — не работает совсем. На бесплатном тарифе: 300 минут в месяц, 30 минут на встречу, 3 импорта за всю жизнь. Pro — $8.33/мес при годовой оплате (1200 минут/мес). Business — $20/мес (безлимит на встречи).

Плюсы: сильная интеграция с Zoom/Meet, «живые» субтитры, AI-summary встреч. Минусы: русского нет. Если ваша основная задача — расшифровка русскоязычных совещаний, Otter.ai не подходит ни на каком тарифе. Кому подойдёт: только англоязычным командам. Альтернатива Otter.ai для русского.

8. Sonix.ai WER не опубликован $10/час 53+ языков

Облачный сервис с pay-as-you-go тарификацией: $10 за час аудио на Standard-плане, посекундная прорейтация. Поддерживает 53+ языка, включая русский. Заявляет 85–99% точности на русском, но без публичных бенчмарков на стандартных датасетах — внутренние тесты Сбера и Alpha Cephei показывают, что облачные мультиязычные модели проигрывают специализированным русским 2–3 раза по WER.

Плюсы: диаризация и таймкоды из коробки, перевод между языками, in-browser редактор с синхронизацией аудио и текста. Минусы: непрозрачное качество русского, $10/час дорого для регулярной работы. Кому подойдёт: разовые проекты в нескольких языках, где нужна совместная редактура транскрипта.

9. Google Cloud Speech-to-Text WER не опубликован $0.016/мин 125+ языков

Облачное API Google Cloud — модель Chirp 3, 125+ языков. Стандартный тариф $0.016/мин ($0.96/час) для real-time, batch — $0.004/мин (-75%, но обработка до 24 часов). Free tier 60 минут в месяц на постоянной основе плюс $300 кредитов на 90 дней для новых аккаунтов. Тариф округляется до 15-секундных интервалов — 61-секундный файл стоит как 75-секундный.

Плюсы: зрелая инфраструктура, низкая цена в batch, 125+ языков, диаризация в API, sustained free tier. Минусы: Google не публикует WER на стандартных русских бенчмарках, скрытые расходы на storage/egress, оплата в долларах через GCP. Кому подойдёт: разработчикам внутри Google Cloud стека, мультиязычным платформам.

10. Whisper-large-v3 (raw) WER 25.1% на русском $0 (open source) CLI/Python

Модель Whisper-large-v3 от OpenAI как есть, без обёрток. Запускается через CLI (whisper.cpp, faster-whisper) или Python (openai-whisper, transformers). На русском — 25.1% WER в среднем по 7 датасетам (Golos Farfield, Golos Crowd, Russian LibriSpeech, MCV-19, Natural Speech, Disordered Speech, Callcenter), согласно публикации GigaAM на InterSpeech 2025. Это в 3 раза хуже, чем GigaAM v3. OpenAI Whisper API — $0.006/минута, но с теми же ограничениями на русском.

Плюсы: бесплатно, лучшее качество для английского, 99 языков, можно дотюнить на свои данные. Минусы: на русском заметно хуже специализированных моделей, нужен GPU или Apple Silicon, нет диаризации в стандартной поставке. Кому подойдёт: ML-инженерам и проектам с английским/мультиязычным аудио. GigaAM vs Whisper.

11. Speech2Text.ru WER не опубликован 180 мин free / 480 ₽/мес от Web

Российский веб-сервис: 180 бесплатных минут при регистрации, потом 15 минут в день и 4 ₽/мин сверх. Платные тарифы — Старт 480 ₽/мес (6 часов/мес, 2 ₽/мин сверх), Начальный 780 ₽/мес (3 часа/день), Стандартный 2 200 ₽/мес (6 часов/день), Премиум 4 400 ₽/мес (12 часов/день). Поддерживает диаризацию, таймкоды, экспорт в DOCX и SRT. Работает с YouTube, RuTube, VK по ссылке.

Плюсы: российская оплата в рублях, нет блокировок, есть free tier, диаризация. Минусы: качество не публикуется, нужен интернет, аудио уходит на их сервера. Кому подойдёт: разовые задачи в РФ, не требующие приватности.


WER на русскоязычных датасетах: что говорят бенчмарки

Большинство облачных сервисов (Otter.ai, Sonix, TurboScribe, Yandex SpeechKit, Speech2Text.ru) не публикуют WER на стандартных датасетах для русского языка. Маркетинговое «99% точности» не равно научному WER 1% — это разные вещи. Ниже — реальные цифры из публикации GigaAM (InterSpeech 2025) и карточки модели ai-sage/GigaAM-v3. Ниже — лучше, в процентах:

Датасет GigaAM v3 (Traart, SaluteSpeech) T-One + LM Whisper-large-v3 (raw, MacWhisper, TurboScribe)
Golos Farfield (далёкий микрофон)3.912.216.4
Golos Crowd (шумная толпа)2.45.719.0
Russian LibriSpeech4.46.29.4
Common Voice 19 (RU)0.95.25.4
Natural Speech (естественная речь)6.914.513.4
Disordered Speech19.251.058.6
Callcenter (звонки)9.513.523.1
Среднее по 7 датасетам8.4 (RNNT) / 9.2 (CTC)15.520.8 (paper) / 25.1 (model card)

Расхождение между «paper avg 20.8%» (4 датасета) и «model card avg 25.1%» (7 датасетов с тремя «грязными» — Disordered, Callcenter, Natural Speech) показывает важный момент: Whisper хорошо работает на «студийном» аудио, но катастрофически проседает на колл-центрах и неразборчивой речи. Именно для таких сценариев русские специализированные модели — GigaAM v3 в Traart и SaluteSpeech, VOSK на чистых датасетах — дают радикально лучший результат.

Заявленный VOSK Big Russian Model 0.54 WER 6.1% — это только Common Voice ru, относительно «чистый» датасет. На Golos Farfield тот же VOSK показывает 11–17% (по тестам Alpha Cephei, январь 2023): сильно зависит от условий записи.


Какую программу выбрать под ваш сценарий

Расшифровка совещаний и созвонов под NDA

Записи Zoom, Google Meet, Telegram-кружков с обсуждением чувствительной информации. Нельзя выкладывать в облако. Нужна диаризация. Подойдёт: Traart (приоритет — оффлайн + диаризация). Альтернатива при отсутствии Mac: SaluteSpeech через корпоративный On-premise или собственный Whisper + pyannote.

Интервью для журналистов и исследователей

10 часов записей с 2–3 спикерами, нужны таймкоды и Markdown-выгрузка для дальнейшей цитаты в статье или отчёте. Подойдёт: Traart (бесплатно, диаризация, экспорт в Markdown с таймкодами). Альтернатива: Sonix (если нужна командная редактура транскрипта в браузере).

Голосовые из Telegram и WhatsApp

Личные голосовые сообщения в OGG/OPUS — несколько штук в день. Подойдёт: Traart (drag-and-drop, оффлайн, бесплатно) или Speech2Text.ru (180 минут в месяц бесплатно для разовых задач). Подробнее про расшифровку голосовых.

Подкасты и YouTube-каналы

Десятки часов в месяц, нужны субтитры SRT, перевод на другие языки. Контент публичный. Подойдёт: TurboScribe (безлимит за $10/мес для англо- и мультиязычного контента) или Sonix (если нужно много языков). Для русского контента: Traart + ручная адаптация в SRT.

Колл-центры и поддержка клиентов

Тысячи часов телефонных звонков, нужна интеграция в CRM, требование 152-ФЗ. Подойдёт: Yandex SpeechKit или SaluteSpeech (рублёвая оплата, российская инфраструктура, потоковое API, на колл-центре GigaAM v3 даёт 9.5% WER против 23% у Whisper).

Embedded-приложения, edge-устройства

Распознавание на стороне клиента — мобильные, IoT, голосовые ассистенты. Нужна библиотека, не GUI. Подойдёт: VOSK (модели от 50 МБ, поддержка Android/iOS/Java/Python/C++) или Whisper-large-v3 в формате CoreML/ggml для Apple Silicon.


Почему Traart -- лучший транскрибатор для русского в 2026

Лучшая точность: WER 8.3%

GigaAM v3 -- единственная модель с WER ниже 10% для русского языка. Данные подтверждены в рецензируемой публикации INTERSPEECH 2025 (arXiv:2506.01192). Для сравнения: Whisper large-v3 показывает ~16% на русском.

Бесплатно без ограничений

Нет лимитов по минутам, файлам или подписке. Нет скрытых платежей. Traart использует open-source модели и работает локально -- нет серверных расходов.

100% оффлайн

Данные не покидают ваш Mac. Среди сервисов в нашем сравнении только Traart и MacWhisper работают оффлайн. Но MacWhisper не поддерживает диаризацию и стоит EUR 59.

Диаризация + таймкоды

Бесплатная диаризация на базе pyannote 3.1. Ни один другой бесплатный оффлайн-транскрибатор не предлагает разделение спикеров.


Подробные сравнения


Частые вопросы про программы для транскрибации

Какая программа для транскрибации лучше всего работает с русским языком в 2026?

По публичным бенчмаркам InterSpeech 2025 и карточке HuggingFace ai-sage/GigaAM-v3 лучшая модель распознавания русской речи — GigaAM v3 (RNNT) с WER 8.4% в среднем по 7 русскоязычным датасетам. Whisper-large-v3 в той же выборке показывает 25.1% — в три раза больше ошибок. GigaAM v3 в облаке доступна как SaluteSpeech от Сбера (оплата в рублях), локально без подписок и без облака — в Traart на macOS.

Есть ли программа для транскрибации русского языка бесплатно и без лимитов?

Да, и сразу несколько. Traart для macOS работает локально без облака и без счёта за минуты — открытый MIT-исходник, бесплатно навсегда. Whisper-large-v3 и VOSK тоже бесплатны, но это библиотеки без графического интерфейса — нужны CLI и Python. Облачные сервисы (TurboScribe, Otter.ai, SaluteSpeech, Yandex SpeechKit) дают только бесплатный лимит — обычно 100–300 минут в месяц, дальше платно.

Поддерживает ли Otter.ai русский язык?

Нет. По состоянию на май 2026 Otter.ai работает только с английским, французским и испанским языками — это написано прямо на странице тарифов. Для русского придётся искать альтернативу: российские сервисы (Yandex SpeechKit, SaluteSpeech, Speech2Text.ru), оффлайн-программы (Traart, MacWhisper, VOSK) или облачные с поддержкой русского (TurboScribe, Sonix, Google Cloud Speech-to-Text).

Сколько стоит транскрибация в облачных сервисах в 2026?

TurboScribe — $10 в месяц при оплате за год (безлимит) или $20 в месяц помесячно. Otter.ai Pro — $8.33/мес (1200 минут/мес). Sonix — $10 за час pay-as-you-go. Google Cloud Speech-to-Text — $0.016/мин ($0.96/час), 60 минут free в месяц. SaluteSpeech от Сбера — 1200 ₽ за 1000 минут (физлица) или 12 000 ₽/год за 20 000 минут. Yandex SpeechKit — посекундная тарификация в рублях. Speech2Text.ru — от 480 ₽/мес. Бесплатные оффлайн-альтернативы: Traart, VOSK, Whisper-large-v3.

Какая программа для транскрибации работает оффлайн без интернета?

Полностью оффлайн (без отправки в облако): Traart (macOS, GigaAM v3, GUI), MacWhisper (macOS, Whisper, GUI), VOSK (CLI/SDK для Python и Java), Whisper-large-v3 (CLI/Python). Облачные сервисы — Otter.ai, TurboScribe, Sonix, Yandex SpeechKit, SaluteSpeech, Google Cloud Speech-to-Text, Speech2Text.ru — всегда требуют интернет и отправляют запись на свои сервера. Для интервью под NDA, медицинских записей и работы с персональными данными по 152-ФЗ оффлайн-вариант — единственный безопасный.

Зачем нужна диаризация в программе для транскрибации?

Диаризация — автоматическое разделение записи по спикерам: кто что сказал. Без неё транскрипт интервью или совещания превращается в сплошной текст без структуры — ручная разметка отнимает столько же времени, сколько сама расшифровка. С диаризацией на выходе — «Спикер 1: ... Спикер 2: ... Спикер 1: ...». В нашей сводной таблице диаризацию поддерживают Traart, SaluteSpeech, Yandex SpeechKit, MacWhisper Pro, TurboScribe, Otter.ai, Sonix, Google Cloud STT, Speech2Text.ru. Не поддерживают — VOSK и raw Whisper.

Можно ли использовать одну программу для транскрибации интервью, совещаний и голосовых?

Да, если программа поддерживает все нужные форматы (OGG/OPUS для голосовых, MP4/MOV для видео-совещаний, MP3/WAV/M4A для интервью) и диаризацию. Из перечисленных в обзоре все 11 программ работают с большинством аудио-форматов. Единственная универсальная бесплатная и оффлайн программа с диаризацией — Traart. Облачные альтернативы — TurboScribe, SaluteSpeech, Yandex SpeechKit.


Лучший транскрибатор -- бесплатно

WER 8.4%, диаризация, оффлайн, $0 навсегда. Скачайте Traart и убедитесь сами.

Скачать бесплатно

Автор Traart — , разработчик и автор open-source-проектов в области распознавания русской речи. Подробнее →

Под капотом — собственный STT-движок (speech-to-text) на базе ASR-модели GigaAM v3 (архитектура RNNT, WER 8.3% на русском) и диаризации pyannote 3.1. Локальная обработка voice-to-text на Apple Silicon — альтернатива облачному распознаванию речи (Whisper, Yandex SpeechKit, Google STT) без отправки данных.