Техническое сравнение

GigaAM vs Whisper -- в 2x точнее

Какая модель лучше для русской речи? Детальное сравнение GigaAM и Whisper: бенчмарки WER на 4 датасетах, архитектура, размер и скорость транскрибации.


2x

точнее на русском

WER 8.3% vs ~16%

6.8x

компактнее

220M vs 1.5B параметров

7.9x

точнее на Golos Crowd

2.4% vs 19.0%

50%

ниже WER чем Whisper

arXiv:2506.01192


Сравнение архитектур

GigaAM v3 RNNT

  • Архитектура Conformer-based RNNT (Recurrent Neural Network Transducer)
  • Параметры ~220M
  • Разработчик SaluteDevices (Sber)
  • Публикация INTERSPEECH 2025 (arXiv:2506.01192)
  • Лицензия MIT (полностью open-source)
  • Языки Русский (специализированная)
  • Обучение Масштабные корпуса русской речи

Whisper-large-v3

  • Архитектура Encoder-Decoder Transformer (seq2seq)
  • Параметры ~1.55B
  • Разработчик OpenAI
  • Публикация 2023 (arXiv:2212.04356)
  • Лицензия MIT (open-source)
  • Языки ~100 языков (мультиязычная)
  • Обучение 680 000 часов аудио, все языки

Бенчмарки WER на русском языке

Word Error Rate (WER) -- чем ниже, тем лучше. Данные из arXiv:2506.01192

Golos Farfield Речь на расстоянии от микрофона
GigaAM v3
3.9%
Whisper v3
16.4%

GigaAM в 4.2x точнее

Golos Crowd Краудсорсинговые записи
GigaAM v3
2.4%
Whisper v3
19.0%

GigaAM в 7.9x точнее

Russian LibriSpeech Чтение вслух
GigaAM v3
4.4%
Whisper v3
9.4%

GigaAM в 2.1x точнее

Common Voice 19 Разнообразные записи добровольцев
GigaAM v3
0.9%
Whisper v3
5.5%

GigaAM в 6.1x точнее

Датасет GigaAM v3 Whisper v3 Разница
Golos Farfield 3.9% 16.4% 4.2x
Golos Crowd 2.4% 19.0% 7.9x
Russian LibriSpeech 4.4% 9.4% 2.1x
Common Voice 19 0.9% 5.5% 6.1x
Среднее 8.3%* ~12.6%** ~4.3x

** Среднее по 4 показанным датасетам. Источник: arXiv:2506.01192, INTERSPEECH 2025.


Почему GigaAM точнее на русском

Специализация vs универсальность

Whisper -- мультиязычная модель на ~100 языков. GigaAM специализирована на русском. Это как сравнить энциклопедию и монографию: глубина знаний по конкретной теме у монографии всегда выше.

Conformer vs Transformer

Conformer-архитектура GigaAM эффективнее обрабатывает аудиосигнал, сочетая свёрточные (CNN) и внимание (attention) слои. Это даёт лучшее понимание акустических паттернов русской речи.

Эффективность параметров

220M параметров GigaAM vs 1.55B у Whisper -- при этом GigaAM точнее. Меньше параметров = быстрее инференс и меньше потребление памяти на вашем Mac.

Данные обучения

GigaAM обучена на масштабных корпусах именно русской речи, включая разговорную, научную и профессиональную терминологию. Whisper обучена на 680 000 часов всех языков.


Когда Whisper лучше

Whisper -- выдающаяся модель с широким применением. Вот случаи, когда она предпочтительнее:

Мультиязычная транскрибация

Если вам нужно транскрибировать на английском, испанском, китайском или другом языке -- Whisper отличный выбор. GigaAM работает только с русским.

Перевод speech-to-text

Whisper может переводить с речи на одном языке в текст на другом. GigaAM такой функции не имеет.


Traart использует GigaAM v3

SOTA-качество

WER 8.3% -- лучший результат среди open-source моделей для русского. Сопоставимо с платным Yandex SpeechKit.

100% оффлайн

GigaAM v3 работает полностью локально на вашем Mac. Ни один байт аудио не покидает компьютер.

+ pyannote

Бесплатная диаризация спикеров, автомониторинг папок, 9+ аудио/видео форматов, Markdown-экспорт с таймкодами.


Смотрите также


Попробуйте GigaAM v3 в действии

Скачайте Traart -- бесплатный macOS-клиент для GigaAM v3 с диаризацией и автомониторингом

Скачать бесплатно