Как работает распознавание речи в Traart: GigaAM v3 с WER 8.3%, нейросетевая диаризация спикеров и оптимизация для Apple Silicon.
От аудиофайла до структурированного текста за три этапа
Извлечение аудиодорожки из видео, ресемплинг до 16 кГц, нормализация громкости. Поддержка MP3, WAV, OGG, M4A, FLAC, MP4, MKV, WebM, MOV.
Параллельная обработка: ASR-модель распознает речь в текст, а pyannote определяет спикеров и временные метки.
Объединение результатов ASR и диаризации. Вывод в Markdown (с таймкодами и спикерами), TXT или JSON.
Markdown
С таймкодами и спикерами
Plain Text
Чистый текст
JSON
Структурированные данные
GigaAM (Giga Acoustic Model) v3 — это state-of-the-art модель автоматического распознавания речи, разработанная командой SberDevices. Модель обучена на огромном корпусе русскоязычных аудиозаписей и показывает лучшие результаты среди всех доступных решений.
Архитектура основана на Conformer — комбинации свёрточных нейронных сетей и Transformer, что позволяет эффективно обрабатывать как локальные, так и глобальные зависимости в аудиосигнале.
Модель использует CTC (Connectionist Temporal Classification) декодирование с языковой моделью для дополнительной коррекции, что обеспечивает минимальную частоту ошибок на уровне 3-5% WER для чистой русской речи.
Комбинация CNN и Transformer для максимальной точности
Языковая модель для коррекции и пунктуации
Лучший результат среди open-source моделей для русского
Огромный корпус русскоязычных аудиозаписей
## Транскрипция: meeting_2025.mp4
[00:00:05] Спикер 1: Добрый день, коллеги. Давайте начнём совещание.
[00:00:12] Спикер 2: Да, у меня готов отчёт по прошлой неделе.
[00:00:18] Спикер 1: Отлично, начинайте.
[00:00:22] Спикер 3: Могу добавить по своей части?
Traart использует pyannote.audio — ведущую open-source библиотеку для диаризации спикеров. Нейросетевая модель автоматически определяет, сколько людей участвует в разговоре и кто из них говорит в каждый момент времени.
Процесс диаризации включает три этапа: сегментация аудио на фрагменты с речью (Voice Activity Detection), извлечение эмбеддингов голоса для каждого фрагмента и кластеризация по спикерам.
В результате каждый сегмент транскрипции получает метку спикера и точный таймкод, что делает расшифровку многоголосых записей читаемой и структурированной.
Ваши данные никогда не покидают ваш компьютер
После загрузки моделей Traart не делает ни одного сетевого запроса. Всё вычисление происходит на CPU/GPU вашего Mac.
Никакой регистрации, авторизации или передачи персональных данных. Traart работает анонимно с первого запуска.
Интернет нужен только для первоначальной загрузки моделей. После этого Traart полностью автономен.
Работает с большинством популярных аудио- и видеоформатов
Markdown (.md)
Форматированный текст с таймкодами и спикерами. Идеален для чтения и публикации.
Plain Text (.txt)
Чистый текст без форматирования. Универсальный формат для дальнейшей обработки.
JSON (.json)
Структурированные данные с метаданными. Для интеграции с другими инструментами.
Результаты тестирования на Apple Silicon
| Чип | RAM | Скорость (ASR) | С диаризацией | 1 час аудио |
|---|---|---|---|---|
| Apple M1 | 8 ГБ | ~8x RT | ~5x RT | ~12 мин |
| Apple M1 Pro | 16 ГБ | ~10x RT | ~7x RT | ~8.5 мин |
| Apple M2 Pro | 16 ГБ | ~12x RT | ~8x RT | ~7.5 мин |
| Apple M3 Pro | 18 ГБ | ~14x RT | ~10x RT | ~6 мин |
| Apple M4 Pro | 24 ГБ | ~18x RT | ~12x RT | ~5 мин |
RT = Real Time. 10x RT означает, что 10 минут аудио обрабатываются за 1 минуту. Результаты приблизительные и зависят от качества аудио.
Traart использует Metal Performance Shaders (MPS) — фреймворк Apple для GPU-ускорения на чипах M1/M2/M3/M4. Это позволяет задействовать все ядра Neural Engine и GPU, обеспечивая максимальную скорость инференса.
В отличие от решений, портированных с CUDA, наша реализация нативно оптимизирована для архитектуры Apple Silicon, что обеспечивает лучшее энергопотребление и стабильную работу без перегрева.
Unified Memory Architecture (UMA) в Apple Silicon позволяет передавать данные между CPU и GPU без копирования, что дополнительно ускоряет обработку больших аудиофайлов.
MPS
GPU-ускорение
UMA
Единая память
0
x RT (M4 Pro)
0
W энергопотребление
Скачайте Traart и оцените качество распознавания на своих файлах
Скачать Traart бесплатно