GigaAM vs Whisper — WER 8.3% vs ~16%: какая модель лучше для русской речи

Сравнение архитектур

GigaAM v3 RNNT

Архитектура Conformer-based RNNT (Recurrent Neural Network Transducer)
Параметры ~220M
Разработчик SaluteDevices (Sber)
Публикация INTERSPEECH 2025 (arXiv:2506.01192)
Лицензия MIT (полностью open-source)
Языки Русский (специализированная)
Обучение Масштабные корпуса русской речи

Whisper-large-v3

Архитектура Encoder-Decoder Transformer (seq2seq)
Параметры ~1.55B
Разработчик OpenAI
Публикация 2023 (arXiv:2212.04356)
Лицензия MIT (open-source)
Языки ~100 языков (мультиязычная)
Обучение 680 000 часов аудио, все языки

Бенчмарки WER на русском языке

Word Error Rate (WER) -- чем ниже, тем лучше. Данные из arXiv:2506.01192

Golos Farfield Речь на расстоянии от микрофона

GigaAM v3

3.9%

Whisper v3

16.4%

GigaAM в 4.2x точнее

Golos Crowd Краудсорсинговые записи

GigaAM v3

2.4%

Whisper v3

19.0%

GigaAM в 7.9x точнее

Russian LibriSpeech Чтение вслух

GigaAM v3

4.4%

Whisper v3

9.4%

GigaAM в 2.1x точнее

Common Voice 19 Разнообразные записи добровольцев

GigaAM v3

0.9%

Whisper v3

5.5%

GigaAM в 6.1x точнее

Датасет	GigaAM v3	Whisper v3	Разница
Golos Farfield	3.9%	16.4%	4.2x
Golos Crowd	2.4%	19.0%	7.9x
Russian LibriSpeech	4.4%	9.4%	2.1x
Common Voice 19	0.9%	5.5%	6.1x
Среднее	8.3%*	~12.6%**	~4.3x

** Среднее по 4 показанным датасетам. Источник: arXiv:2506.01192, INTERSPEECH 2025.

Почему GigaAM точнее на русском

Специализация vs универсальность

Whisper -- мультиязычная модель на ~100 языков. GigaAM специализирована на русском. Это как сравнить энциклопедию и монографию: глубина знаний по конкретной теме у монографии всегда выше.

Conformer vs Transformer

Conformer-архитектура GigaAM эффективнее обрабатывает аудиосигнал, сочетая свёрточные (CNN) и внимание (attention) слои. Это даёт лучшее понимание акустических паттернов русской речи.

Эффективность параметров

220M параметров GigaAM vs 1.55B у Whisper -- при этом GigaAM точнее. Меньше параметров = быстрее инференс и меньше потребление памяти на вашем Mac.

Данные обучения

GigaAM обучена на масштабных корпусах именно русской речи, включая разговорную, научную и профессиональную терминологию. Whisper обучена на 680 000 часов всех языков.

Когда Whisper лучше

Whisper -- выдающаяся модель с широким применением. Вот случаи, когда она предпочтительнее:

Мультиязычная транскрибация

Если вам нужно транскрибировать на английском, испанском, китайском или другом языке -- Whisper отличный выбор. GigaAM работает только с русским.

Перевод speech-to-text

Whisper может переводить с речи на одном языке в текст на другом. GigaAM такой функции не имеет.

Traart использует GigaAM v3

SOTA-качество

WER 8.3% -- лучший результат среди open-source моделей для русского. Сопоставимо с платным Yandex SpeechKit.

100% оффлайн

GigaAM v3 работает полностью локально на вашем Mac. Ни один байт аудио не покидает компьютер.

+ pyannote

Бесплатная диаризация спикеров, автомониторинг папок, 9+ аудио/видео форматов, Markdown-экспорт с таймкодами.

Попробуйте GigaAM v3 в действии

Скачайте Traart -- бесплатный macOS-клиент для GigaAM v3 с диаризацией и автомониторингом

Скачать бесплатно

GigaAM vs Whisper -- в 2x точнее

Сравнение архитектур

GigaAM v3 RNNT

Whisper-large-v3

Бенчмарки WER на русском языке

Почему GigaAM точнее на русском

Специализация vs универсальность

Conformer vs Transformer

Эффективность параметров

Данные обучения

Когда Whisper лучше

Мультиязычная транскрибация

Перевод speech-to-text

Traart использует GigaAM v3

SOTA-качество

100% оффлайн

+ pyannote

Смотрите также

Сравнение продуктов

Как работает Traart

Цены

Попробуйте GigaAM v3 в действии