Как работает распознавание речи

Как работает распознавание речи в Traart: GigaAM v3 с WER 8.3%, нейросетевая диаризация спикеров и оптимизация для Apple Silicon.


Архитектура

Конвейер обработки

От аудиофайла до структурированного текста за три этапа

1

Препроцессинг

Извлечение аудиодорожки из видео, ресемплинг до 16 кГц, нормализация громкости. Поддержка MP3, WAV, OGG, M4A, FLAC, MP4, MKV, WebM, MOV.

2

GigaAM v3 + pyannote

Параллельная обработка: ASR-модель распознает речь в текст, а pyannote определяет спикеров и временные метки.

3

Форматирование

Объединение результатов ASR и диаризации. Вывод в Markdown (с таймкодами и спикерами), TXT или JSON.

.md

Markdown

С таймкодами и спикерами

.txt

Plain Text

Чистый текст

.json

JSON

Структурированные данные


ASR-модель

GigaAM v3 от Сбера

GigaAM (Giga Acoustic Model) v3 — это state-of-the-art модель автоматического распознавания речи, разработанная командой SberDevices. Модель обучена на огромном корпусе русскоязычных аудиозаписей и показывает лучшие результаты среди всех доступных решений.

Архитектура основана на Conformer — комбинации свёрточных нейронных сетей и Transformer, что позволяет эффективно обрабатывать как локальные, так и глобальные зависимости в аудиосигнале.

Модель использует CTC (Connectionist Temporal Classification) декодирование с языковой моделью для дополнительной коррекции, что обеспечивает минимальную частоту ошибок на уровне 3-5% WER для чистой русской речи.

Ключевые характеристики

  • Conformer-архитектура

    Комбинация CNN и Transformer для максимальной точности

  • CTC + LM декодирование

    Языковая модель для коррекции и пунктуации

  • 3-5% WER

    Лучший результат среди open-source моделей для русского

  • Обучена на 200 000+ часов

    Огромный корпус русскоязычных аудиозаписей


Пример вывода с диаризацией

## Транскрипция: meeting_2025.mp4

[00:00:05] Спикер 1: Добрый день, коллеги. Давайте начнём совещание.

[00:00:12] Спикер 2: Да, у меня готов отчёт по прошлой неделе.

[00:00:18] Спикер 1: Отлично, начинайте.

[00:00:22] Спикер 3: Могу добавить по своей части?

Диаризация

Разделение спикеров с pyannote

Traart использует pyannote.audio — ведущую open-source библиотеку для диаризации спикеров. Нейросетевая модель автоматически определяет, сколько людей участвует в разговоре и кто из них говорит в каждый момент времени.

Процесс диаризации включает три этапа: сегментация аудио на фрагменты с речью (Voice Activity Detection), извлечение эмбеддингов голоса для каждого фрагмента и кластеризация по спикерам.

В результате каждый сегмент транскрипции получает метку спикера и точный таймкод, что делает расшифровку многоголосых записей читаемой и структурированной.


Приватность

Полностью локальная обработка

Ваши данные никогда не покидают ваш компьютер

Нет сетевых запросов

После загрузки моделей Traart не делает ни одного сетевого запроса. Всё вычисление происходит на CPU/GPU вашего Mac.

Нет аккаунтов

Никакой регистрации, авторизации или передачи персональных данных. Traart работает анонимно с первого запуска.

Работает офлайн

Интернет нужен только для первоначальной загрузки моделей. После этого Traart полностью автономен.


Поддерживаемые форматы

Работает с большинством популярных аудио- и видеоформатов

Аудиоформаты

MP3 WAV OGG M4A FLAC

Видеоформаты

MP4 MKV WebM MOV

Форматы вывода

Markdown (.md)

Форматированный текст с таймкодами и спикерами. Идеален для чтения и публикации.

Plain Text (.txt)

Чистый текст без форматирования. Универсальный формат для дальнейшей обработки.

JSON (.json)

Структурированные данные с метаданными. Для интеграции с другими инструментами.


Производительность

Бенчмарки

Результаты тестирования на Apple Silicon

Чип RAM Скорость (ASR) С диаризацией 1 час аудио
Apple M1 8 ГБ ~8x RT ~5x RT ~12 мин
Apple M1 Pro 16 ГБ ~10x RT ~7x RT ~8.5 мин
Apple M2 Pro 16 ГБ ~12x RT ~8x RT ~7.5 мин
Apple M3 Pro 18 ГБ ~14x RT ~10x RT ~6 мин
Apple M4 Pro 24 ГБ ~18x RT ~12x RT ~5 мин

RT = Real Time. 10x RT означает, что 10 минут аудио обрабатываются за 1 минуту. Результаты приблизительные и зависят от качества аудио.


Оптимизация

Нативная поддержка Apple Silicon

Traart использует Metal Performance Shaders (MPS) — фреймворк Apple для GPU-ускорения на чипах M1/M2/M3/M4. Это позволяет задействовать все ядра Neural Engine и GPU, обеспечивая максимальную скорость инференса.

В отличие от решений, портированных с CUDA, наша реализация нативно оптимизирована для архитектуры Apple Silicon, что обеспечивает лучшее энергопотребление и стабильную работу без перегрева.

Unified Memory Architecture (UMA) в Apple Silicon позволяет передавать данные между CPU и GPU без копирования, что дополнительно ускоряет обработку больших аудиофайлов.

MPS

GPU-ускорение

UMA

Единая память

0

x RT (M4 Pro)

0

W энергопотребление


Попробуйте сами

Скачайте Traart и оцените качество распознавания на своих файлах

Скачать Traart бесплатно

Смотрите также