Большой обзор: 10 программ для транскрибации и расшифровки аудио — Traart, MacWhisper, TurboScribe, Otter.ai, Sonix, Yandex SpeechKit, SaluteSpeech, VOSK, Whisper-large-v3, Google Cloud STT и Speech2Text.ru. Реальные WER-бенчмарки на русском, актуальные цены 2026, приватность, лимиты, диаризация — что выбрать под совещания, интервью, диктовку и голосовые.
Транскрибация в 2026 году — это уже не «есть/нет», а вопрос компромиссов. Облачные сервисы (TurboScribe, Otter.ai, Yandex SpeechKit, SaluteSpeech) удобны для разовой задачи, но плохо подходят, когда вы расшифровываете десятки часов аудио в месяц или работаете с конфиденциальными записями. Оффлайн-программы (Traart, MacWhisper, VOSK) дают приватность и нулевую цену за минуту, но требуют Apple Silicon или установку библиотек. Российские сервисы (SaluteSpeech, Yandex SpeechKit, Speech2Text.ru) лучше понимают русскую речь и принимают рублёвую оплату, но ваши данные уезжают на их серверы.
Чтобы не выбрать программу для транскрибации «по картинке на лендинге», мы сравнили 10 сервисов по пяти критериям, которые реально определяют, подойдёт ли инструмент именно вам. Все цены и параметры проверены в мае 2026 на официальных сайтах сервисов; источники указаны в сноске под сравнительной таблицей.
WER на русском
Word Error Rate — процент ошибок в словах. Лучшие модели для русского дают 6–10%, хуже — 20–30%. Только GigaAM v3 (Сбер) и VOSK публикуют реальные бенчмарки.
Цена за час
Бесплатные программы или $0.20–$10 за час аудио. Подписки $8–$30/мес часто включают 300–6000 минут, потом — переплата.
Оффлайн
Полностью локальная обработка vs отправка аудио в облако. Критично для интервью под NDA, медицинских записей, переговоров и записей под 152-ФЗ.
Диаризация
Автоматическое разделение по спикерам — «Спикер 1 / 2 / 3». Обязательно для интервью, совещаний, фокус-групп и колл-центров.
Платформа
Готовое приложение (drag-and-drop), веб-интерфейс или API/CLI для разработчиков. Определяет, нужно ли уметь программировать.
Все цифры — на май 2026. WER указан там, где разработчик публикует реальный бенчмарк на русскоязычных датасетах; «Н/П» означает, что сервис не публикует бенчмарки на русском, и оценить точность можно только косвенно. Ссылки на источники — в сноске под таблицей.
| Программа для транскрибации | WER на русском | Цена 2026 | Оффлайн | Диаризация | Платформа |
|---|---|---|---|---|---|
| Traart | 8.4%¹ | $0 навсегда | Да | Да (pyannote) | macOS, GUI |
| SaluteSpeech (Сбер) | ≈ 8.4%² | 100 мин/мес free; 1200 ₽ за 1000 мин | Нет | Да (API) | Cloud API |
| Yandex SpeechKit | Н/П³ | за 15 сек аудио (₽) | Нет | Да (API) | Cloud API |
| VOSK | 6.1%⁴ (Common Voice) | $0 (Apache 2.0) | Да | Нет | CLI/SDK Python, Java |
| MacWhisper | ≈ 25%⁵ (Whisper-large-v3) | €59 (~$69) lifetime | Да | Да (Pro) | macOS, GUI |
| TurboScribe | ≈ 25%⁵ (на Whisper) | $10/мес (year) или $20/мес | Нет | Да | Web |
| Otter.ai | Не поддерживает⁶ | $8.33/мес (year), 1200 мин | Нет | Да | Web/App |
| Sonix.ai | Н/П³ | $10 за час pay-as-you-go⁷ | Нет | Да | Web |
| Google Cloud Speech-to-Text | Н/П³ | $0.016/мин ($0.96/час)⁸ | Нет | Да (API) | Cloud API |
| Whisper-large-v3 (raw) | 25.1%⁵ (среднее по 7 датасетам) | $0 (open source) | Да | Нет | CLI/Python |
| Speech2Text.ru | Н/П³ | 180 мин free; 480 ₽/мес от | Нет | Да | Web |
WER (Word Error Rate) — процент ошибок в словах, чем ниже, тем лучше. ¹ huggingface.co/ai-sage/GigaAM-v3 — среднее по 7 русским датасетам (Golos, MCV-19, RuLibri, Natural Speech, Disordered Speech, Callcenter и др.). Traart использует ту же модель локально. ² SaluteSpeech от Сбера использует ту же модель GigaAM v3, что и Traart, но в облаке: developers.sber.ru. ³ Н/П — сервис не публикует бенчмарк на русском (заявленную «99% точность» без датасета мы за бенчмарк не считаем). ⁴ huggingface.co/alphacep/vosk-model-ru — Big Russian Model 0.54 на Common Voice ru. На реальном «грязном» аудио (callcenter, far-field) WER выше. ⁵ arXiv:2506.01192, INTERSPEECH 2025. Whisper-large-v3 — среднее 25.1% по тем же 7 русскоязычным датасетам. MacWhisper и TurboScribe строятся на Whisper, поэтому наследуют его точность на русском. ⁶ otter.ai/pricing — поддерживаются только English, French, Spanish. ⁷ sonix.ai/pricing — Standard plan, прорейтится посекундно. ⁸ cloud.google.com/speech-to-text/pricing — модель Chirp 3, V2 API, тариф округляется до 15 сек. Free tier 60 мин/мес.
Дальше — короткая характеристика каждой программы для транскрибации с честными плюсами, минусами и сценариями применения. Порядок — по убыванию точности на русском (там, где разработчик публикует WER) и удобства для русскоязычного пользователя.
Бесплатное menu bar-приложение для macOS, которое локально запускает GigaAM v3 — лучшую открытую модель распознавания русской речи (среднее WER 8.4% на 7 датасетах). Работает офлайн на Apple Silicon с MPS-ускорением, диаризация через pyannote 3.1, автоматический мониторинг папок, экспорт в TXT/Markdown/JSON с таймкодами и спикерами.
Плюсы: лучший WER на русском среди оффлайн-программ, нулевая стоимость, никакого облака, диаризация из коробки, MIT-лицензия. Минусы: только macOS (Apple Silicon рекомендуется), нет Windows и Linux. Кому подойдёт: журналистам, юристам, исследователям, продактам, коучам — тем, кто работает с конфиденциальными интервью и переговорами на Mac.
Облачное API от Сбера, использует ту же модель GigaAM v3, что и Traart, — поэтому качество русского распознавания одинаковое. Freemium-тариф: 100 минут распознавания и 200 000 символов синтеза в месяц. Платный пакет для физлиц: 1000 минут за 1200 ₽/мес. Корпоративный — от 19 500 ₽, годовой пакет 20 000 минут стоит 12 000 ₽.
Плюсы: та же SOTA-модель, рублёвая оплата, есть бесплатный лимит, поддерживает потоковое распознавание. Минусы: только API (нужно программировать), данные уходят на сервера Сбера, нет drag-and-drop GUI. Кому подойдёт: разработчикам, которым нужно встроить GigaAM в свой продукт без локальной инфраструктуры. Подробнее — Traart vs SaluteSpeech.
Зрелая речевая платформа Yandex Cloud: распознавание (Speech-to-Text), синтез, перевод. Тариф — за 15 секунд аудио в синхронном режиме (минимум) и посекундно с 16-й секунды в асинхронном. Платежи в рублях. Российская инфраструктура соответствует 152-ФЗ о персональных данных, что упрощает использование в РФ.
Плюсы: хорошее качество русского, потоковый и асинхронный режимы, диаризация в API, рублёвая оплата, 152-ФЗ. Минусы: Яндекс не публикует WER на стандартных бенчмарках, нет готового GUI, оплата за объём — на больших архивах быстро накапливается. Кому подойдёт: банкам, госорганам, B2B с требованием 152-ФЗ, разработчикам внутри Яндекс-стека.
Открытая библиотека от Alpha Cephei: модели Zipformer2 для 20+ языков, в том числе Big Russian Model 0.54 — заявленный WER 6.1% на Common Voice ru (карточка модели на HuggingFace). На «грязном» аудио — телефонные звонки, шумные далёкие микрофоны — точность падает до 14–18%, что подтверждают независимые тесты на колл-центре и аудиокнигах. Никаких подписок, никаких внешних серверов.
Плюсы: отличный WER на «чистом» аудио, полностью оффлайн, кроссплатформенно (Python, Java, Node, C++, Go, Android, iOS), бесплатно. Минусы: нет диаризации, нет GUI, нужно умение работать с CLI или SDK. Кому подойдёт: разработчикам, embedded-системам, проектам с собственной интеграцией. Подробнее — Traart vs VOSK.
Десктопное приложение для macOS, которое локально запускает Whisper. Бесплатный тариф работает с маленькими моделями (Tiny, Base), полный набор включая Large открывается в Pro — €59 (~$69) одноразовая покупка на Gumroad. Альтернативно — App Store (Whisper Transcription) с подпиской $6.99/мес или $29.99/год. Качество на русском наследуется от Whisper-large-v3 — около 25% WER в среднем по семи русскоязычным датасетам (arXiv:2506.01192).
Плюсы: зрелый GUI на macOS, lifetime-лицензия без подписки, поддержка субтитров SRT, transcription из YouTube. Минусы: Whisper — не лучший выбор для русского, точность в 3 раза ниже GigaAM v3. Кому подойдёт: мультиязычным контент-мейкерам, которым нужны и русский, и английский, и испанский в одном приложении. Traart vs MacWhisper.
Веб-сервис на базе Whisper. Бесплатный тариф: 3 файла в день по 30 минут. Платный — Unlimited за $10/мес при оплате за год ($120 авансом) или $20/мес помесячно. Декларирует «безлимит», на практике — до 720 часов в месяц на одного пользователя. Файлы до 10 часов / 5 ГБ. Поддерживает 98+ языков, включая русский, но без отдельной модели — то же качество, что и raw Whisper.
Плюсы: простой веб-интерфейс, нет инсталляции, безлимитный тариф для больших объёмов. Минусы: WER на русском ~25%, аудио уходит в их облако, годовая оплата сразу. Кому подойдёт: подкастерам и студентам, которые расшифровывают много англоязычного контента и иногда — русского. Traart vs TurboScribe.
Один из самых известных транскрибаторов в мире — но на странице тарифов прямо написано: поддерживаются только английский, французский и испанский. Для русского — не работает совсем. На бесплатном тарифе: 300 минут в месяц, 30 минут на встречу, 3 импорта за всю жизнь. Pro — $8.33/мес при годовой оплате (1200 минут/мес). Business — $20/мес (безлимит на встречи).
Плюсы: сильная интеграция с Zoom/Meet, «живые» субтитры, AI-summary встреч. Минусы: русского нет. Если ваша основная задача — расшифровка русскоязычных совещаний, Otter.ai не подходит ни на каком тарифе. Кому подойдёт: только англоязычным командам. Альтернатива Otter.ai для русского.
Облачный сервис с pay-as-you-go тарификацией: $10 за час аудио на Standard-плане, посекундная прорейтация. Поддерживает 53+ языка, включая русский. Заявляет 85–99% точности на русском, но без публичных бенчмарков на стандартных датасетах — внутренние тесты Сбера и Alpha Cephei показывают, что облачные мультиязычные модели проигрывают специализированным русским 2–3 раза по WER.
Плюсы: диаризация и таймкоды из коробки, перевод между языками, in-browser редактор с синхронизацией аудио и текста. Минусы: непрозрачное качество русского, $10/час дорого для регулярной работы. Кому подойдёт: разовые проекты в нескольких языках, где нужна совместная редактура транскрипта.
Облачное API Google Cloud — модель Chirp 3, 125+ языков. Стандартный тариф $0.016/мин ($0.96/час) для real-time, batch — $0.004/мин (-75%, но обработка до 24 часов). Free tier 60 минут в месяц на постоянной основе плюс $300 кредитов на 90 дней для новых аккаунтов. Тариф округляется до 15-секундных интервалов — 61-секундный файл стоит как 75-секундный.
Плюсы: зрелая инфраструктура, низкая цена в batch, 125+ языков, диаризация в API, sustained free tier. Минусы: Google не публикует WER на стандартных русских бенчмарках, скрытые расходы на storage/egress, оплата в долларах через GCP. Кому подойдёт: разработчикам внутри Google Cloud стека, мультиязычным платформам.
Модель Whisper-large-v3 от OpenAI как есть, без обёрток. Запускается через CLI (whisper.cpp, faster-whisper) или Python (openai-whisper, transformers). На русском — 25.1% WER в среднем по 7 датасетам (Golos Farfield, Golos Crowd, Russian LibriSpeech, MCV-19, Natural Speech, Disordered Speech, Callcenter), согласно публикации GigaAM на InterSpeech 2025. Это в 3 раза хуже, чем GigaAM v3. OpenAI Whisper API — $0.006/минута, но с теми же ограничениями на русском.
Плюсы: бесплатно, лучшее качество для английского, 99 языков, можно дотюнить на свои данные. Минусы: на русском заметно хуже специализированных моделей, нужен GPU или Apple Silicon, нет диаризации в стандартной поставке. Кому подойдёт: ML-инженерам и проектам с английским/мультиязычным аудио. GigaAM vs Whisper.
Российский веб-сервис: 180 бесплатных минут при регистрации, потом 15 минут в день и 4 ₽/мин сверх. Платные тарифы — Старт 480 ₽/мес (6 часов/мес, 2 ₽/мин сверх), Начальный 780 ₽/мес (3 часа/день), Стандартный 2 200 ₽/мес (6 часов/день), Премиум 4 400 ₽/мес (12 часов/день). Поддерживает диаризацию, таймкоды, экспорт в DOCX и SRT. Работает с YouTube, RuTube, VK по ссылке.
Плюсы: российская оплата в рублях, нет блокировок, есть free tier, диаризация. Минусы: качество не публикуется, нужен интернет, аудио уходит на их сервера. Кому подойдёт: разовые задачи в РФ, не требующие приватности.
Большинство облачных сервисов (Otter.ai, Sonix, TurboScribe, Yandex SpeechKit, Speech2Text.ru) не публикуют WER на стандартных датасетах для русского языка. Маркетинговое «99% точности» не равно научному WER 1% — это разные вещи. Ниже — реальные цифры из публикации GigaAM (InterSpeech 2025) и карточки модели ai-sage/GigaAM-v3. Ниже — лучше, в процентах:
| Датасет | GigaAM v3 (Traart, SaluteSpeech) | T-One + LM | Whisper-large-v3 (raw, MacWhisper, TurboScribe) |
|---|---|---|---|
| Golos Farfield (далёкий микрофон) | 3.9 | 12.2 | 16.4 |
| Golos Crowd (шумная толпа) | 2.4 | 5.7 | 19.0 |
| Russian LibriSpeech | 4.4 | 6.2 | 9.4 |
| Common Voice 19 (RU) | 0.9 | 5.2 | 5.4 |
| Natural Speech (естественная речь) | 6.9 | 14.5 | 13.4 |
| Disordered Speech | 19.2 | 51.0 | 58.6 |
| Callcenter (звонки) | 9.5 | 13.5 | 23.1 |
| Среднее по 7 датасетам | 8.4 (RNNT) / 9.2 (CTC) | 15.5 | 20.8 (paper) / 25.1 (model card) |
Расхождение между «paper avg 20.8%» (4 датасета) и «model card avg 25.1%» (7 датасетов с тремя «грязными» — Disordered, Callcenter, Natural Speech) показывает важный момент: Whisper хорошо работает на «студийном» аудио, но катастрофически проседает на колл-центрах и неразборчивой речи. Именно для таких сценариев русские специализированные модели — GigaAM v3 в Traart и SaluteSpeech, VOSK на чистых датасетах — дают радикально лучший результат.
Заявленный VOSK Big Russian Model 0.54 WER 6.1% — это только Common Voice ru, относительно «чистый» датасет. На Golos Farfield тот же VOSK показывает 11–17% (по тестам Alpha Cephei, январь 2023): сильно зависит от условий записи.
Записи Zoom, Google Meet, Telegram-кружков с обсуждением чувствительной информации. Нельзя выкладывать в облако. Нужна диаризация. Подойдёт: Traart (приоритет — оффлайн + диаризация). Альтернатива при отсутствии Mac: SaluteSpeech через корпоративный On-premise или собственный Whisper + pyannote.
10 часов записей с 2–3 спикерами, нужны таймкоды и Markdown-выгрузка для дальнейшей цитаты в статье или отчёте. Подойдёт: Traart (бесплатно, диаризация, экспорт в Markdown с таймкодами). Альтернатива: Sonix (если нужна командная редактура транскрипта в браузере).
Личные голосовые сообщения в OGG/OPUS — несколько штук в день. Подойдёт: Traart (drag-and-drop, оффлайн, бесплатно) или Speech2Text.ru (180 минут в месяц бесплатно для разовых задач). Подробнее про расшифровку голосовых.
Десятки часов в месяц, нужны субтитры SRT, перевод на другие языки. Контент публичный. Подойдёт: TurboScribe (безлимит за $10/мес для англо- и мультиязычного контента) или Sonix (если нужно много языков). Для русского контента: Traart + ручная адаптация в SRT.
Тысячи часов телефонных звонков, нужна интеграция в CRM, требование 152-ФЗ. Подойдёт: Yandex SpeechKit или SaluteSpeech (рублёвая оплата, российская инфраструктура, потоковое API, на колл-центре GigaAM v3 даёт 9.5% WER против 23% у Whisper).
Распознавание на стороне клиента — мобильные, IoT, голосовые ассистенты. Нужна библиотека, не GUI. Подойдёт: VOSK (модели от 50 МБ, поддержка Android/iOS/Java/Python/C++) или Whisper-large-v3 в формате CoreML/ggml для Apple Silicon.
GigaAM v3 -- единственная модель с WER ниже 10% для русского языка. Данные подтверждены в рецензируемой публикации INTERSPEECH 2025 (arXiv:2506.01192). Для сравнения: Whisper large-v3 показывает ~16% на русском.
Нет лимитов по минутам, файлам или подписке. Нет скрытых платежей. Traart использует open-source модели и работает локально -- нет серверных расходов.
Данные не покидают ваш Mac. Среди сервисов в нашем сравнении только Traart и MacWhisper работают оффлайн. Но MacWhisper не поддерживает диаризацию и стоит EUR 59.
Бесплатная диаризация на базе pyannote 3.1. Ни один другой бесплатный оффлайн-транскрибатор не предлагает разделение спикеров.
По публичным бенчмаркам InterSpeech 2025 и карточке HuggingFace ai-sage/GigaAM-v3 лучшая модель распознавания русской речи — GigaAM v3 (RNNT) с WER 8.4% в среднем по 7 русскоязычным датасетам. Whisper-large-v3 в той же выборке показывает 25.1% — в три раза больше ошибок. GigaAM v3 в облаке доступна как SaluteSpeech от Сбера (оплата в рублях), локально без подписок и без облака — в Traart на macOS.
Да, и сразу несколько. Traart для macOS работает локально без облака и без счёта за минуты — открытый MIT-исходник, бесплатно навсегда. Whisper-large-v3 и VOSK тоже бесплатны, но это библиотеки без графического интерфейса — нужны CLI и Python. Облачные сервисы (TurboScribe, Otter.ai, SaluteSpeech, Yandex SpeechKit) дают только бесплатный лимит — обычно 100–300 минут в месяц, дальше платно.
Нет. По состоянию на май 2026 Otter.ai работает только с английским, французским и испанским языками — это написано прямо на странице тарифов. Для русского придётся искать альтернативу: российские сервисы (Yandex SpeechKit, SaluteSpeech, Speech2Text.ru), оффлайн-программы (Traart, MacWhisper, VOSK) или облачные с поддержкой русского (TurboScribe, Sonix, Google Cloud Speech-to-Text).
TurboScribe — $10 в месяц при оплате за год (безлимит) или $20 в месяц помесячно. Otter.ai Pro — $8.33/мес (1200 минут/мес). Sonix — $10 за час pay-as-you-go. Google Cloud Speech-to-Text — $0.016/мин ($0.96/час), 60 минут free в месяц. SaluteSpeech от Сбера — 1200 ₽ за 1000 минут (физлица) или 12 000 ₽/год за 20 000 минут. Yandex SpeechKit — посекундная тарификация в рублях. Speech2Text.ru — от 480 ₽/мес. Бесплатные оффлайн-альтернативы: Traart, VOSK, Whisper-large-v3.
Полностью оффлайн (без отправки в облако): Traart (macOS, GigaAM v3, GUI), MacWhisper (macOS, Whisper, GUI), VOSK (CLI/SDK для Python и Java), Whisper-large-v3 (CLI/Python). Облачные сервисы — Otter.ai, TurboScribe, Sonix, Yandex SpeechKit, SaluteSpeech, Google Cloud Speech-to-Text, Speech2Text.ru — всегда требуют интернет и отправляют запись на свои сервера. Для интервью под NDA, медицинских записей и работы с персональными данными по 152-ФЗ оффлайн-вариант — единственный безопасный.
Диаризация — автоматическое разделение записи по спикерам: кто что сказал. Без неё транскрипт интервью или совещания превращается в сплошной текст без структуры — ручная разметка отнимает столько же времени, сколько сама расшифровка. С диаризацией на выходе — «Спикер 1: ... Спикер 2: ... Спикер 1: ...». В нашей сводной таблице диаризацию поддерживают Traart, SaluteSpeech, Yandex SpeechKit, MacWhisper Pro, TurboScribe, Otter.ai, Sonix, Google Cloud STT, Speech2Text.ru. Не поддерживают — VOSK и raw Whisper.
Да, если программа поддерживает все нужные форматы (OGG/OPUS для голосовых, MP4/MOV для видео-совещаний, MP3/WAV/M4A для интервью) и диаризацию. Из перечисленных в обзоре все 11 программ работают с большинством аудио-форматов. Единственная универсальная бесплатная и оффлайн программа с диаризацией — Traart. Облачные альтернативы — TurboScribe, SaluteSpeech, Yandex SpeechKit.
WER 8.4%, диаризация, оффлайн, $0 навсегда. Скачайте Traart и убедитесь сами.
Скачать бесплатноАвтор Traart — Александр Куроглo, разработчик и автор open-source-проектов в области распознавания русской речи. Подробнее →
Под капотом — собственный STT-движок (speech-to-text) на базе ASR-модели GigaAM v3 (архитектура RNNT, WER 8.3% на русском) и диаризации pyannote 3.1. Локальная обработка voice-to-text на Apple Silicon — альтернатива облачному распознаванию речи (Whisper, Yandex SpeechKit, Google STT) без отправки данных.