Какая модель лучше для русской речи? Детальное сравнение GigaAM и Whisper: бенчмарки WER на 4 датасетах, архитектура, размер и скорость транскрибации.
2x
точнее на русском
WER 8.3% vs ~16%
6.8x
компактнее
220M vs 1.5B параметров
7.9x
точнее на Golos Crowd
2.4% vs 19.0%
50%
ниже WER чем Whisper
arXiv:2506.01192
Word Error Rate (WER) -- чем ниже, тем лучше. Данные из arXiv:2506.01192
GigaAM в 4.2x точнее
GigaAM в 7.9x точнее
GigaAM в 2.1x точнее
GigaAM в 6.1x точнее
| Датасет | GigaAM v3 | Whisper v3 | Разница |
|---|---|---|---|
| Golos Farfield | 3.9% | 16.4% | 4.2x |
| Golos Crowd | 2.4% | 19.0% | 7.9x |
| Russian LibriSpeech | 4.4% | 9.4% | 2.1x |
| Common Voice 19 | 0.9% | 5.5% | 6.1x |
| Среднее | 8.3%* | ~12.6%** | ~4.3x |
** Среднее по 4 показанным датасетам. Источник: arXiv:2506.01192, INTERSPEECH 2025.
Whisper -- мультиязычная модель на ~100 языков. GigaAM специализирована на русском. Это как сравнить энциклопедию и монографию: глубина знаний по конкретной теме у монографии всегда выше.
Conformer-архитектура GigaAM эффективнее обрабатывает аудиосигнал, сочетая свёрточные (CNN) и внимание (attention) слои. Это даёт лучшее понимание акустических паттернов русской речи.
220M параметров GigaAM vs 1.55B у Whisper -- при этом GigaAM точнее. Меньше параметров = быстрее инференс и меньше потребление памяти на вашем Mac.
GigaAM обучена на масштабных корпусах именно русской речи, включая разговорную, научную и профессиональную терминологию. Whisper обучена на 680 000 часов всех языков.
Whisper -- выдающаяся модель с широким применением. Вот случаи, когда она предпочтительнее:
Если вам нужно транскрибировать на английском, испанском, китайском или другом языке -- Whisper отличный выбор. GigaAM работает только с русским.
Whisper может переводить с речи на одном языке в текст на другом. GigaAM такой функции не имеет.
WER 8.3% -- лучший результат среди open-source моделей для русского. Сопоставимо с платным Yandex SpeechKit.
GigaAM v3 работает полностью локально на вашем Mac. Ни один байт аудио не покидает компьютер.
Бесплатная диаризация спикеров, автомониторинг папок, 9+ аудио/видео форматов, Markdown-экспорт с таймкодами.
Скачайте Traart -- бесплатный macOS-клиент для GigaAM v3 с диаризацией и автомониторингом
Скачать бесплатно