Транскрибация с разделением спикеров (диаризация) бесплатно и оффлайн. Traart определяет кто что сказал с помощью нейросети pyannote -- WER 8.3% для русского языка.
Диаризация -- это технология автоматического определения, кто из участников разговора произнёс каждую реплику. Вместо сплошного текста вы получаете структурированный протокол с указанием спикеров.
Давайте обсудим релиз. Я думаю нужно перенести дату. Нет, мы уже обещали клиентам. Тогда уберём фичу X из скоупа. Согласен, давайте так.
Кто предложил перенести? Кто согласился? Непонятно.
[Спикер 1, 00:12] Давайте обсудим релиз. Я думаю нужно перенести дату.
[Спикер 2, 00:18] Нет, мы уже обещали клиентам.
[Спикер 1, 00:25] Тогда уберём фичу X из скоупа.
[Спикер 3, 00:31] Согласен, давайте так.
Каждая реплика привязана к спикеру и таймкоду.
Нейросеть pyannote анализирует аудиопоток и определяет границы речевых сегментов -- где начинается и заканчивается каждая реплика.
Каждый сегмент получает голосовой отпечаток (embedding). Модель группирует сегменты с похожими голосами -- так определяется количество спикеров и их реплики.
Каждый речевой сегмент транскрибируется SOTA-моделью GigaAM v3 с WER 8.3% для русского языка. Результат -- текст с разметкой спикеров.
Вы получаете текст с пометками [Спикер 1], [Спикер 2] и таймкодами. Всё обрабатывается локально на вашем Mac -- ни байта данных не уходит в облако.
Протоколы Zoom, Teams, Google Meet с указанием кто принял решение, кто предложил идею, кто поставил задачу.
Разделение реплик интервьюера и респондента. Удобно для анализа ответов и цитирования.
Show notes с разделением реплик ведущего и гостей. Готовый Markdown для публикации.
| Параметр | Traart | Otter.ai | TurboScribe | MacWhisper |
|---|---|---|---|---|
| Диаризация | Бесплатно | $8.33/мес | $9.99/мес | Нет |
| Русский язык | WER 8.3% | Не поддерживает | WER ~15% | WER ~16% |
| Оффлайн | Да | Нет | Нет | Да |
| Модель диаризации | pyannote 3.1 | Проприетарная | Whisper + custom | -- |
Traart использует pyannote 3.1 -- открытую нейросеть для диаризации спикеров от CNRS (Франция). Модель работает с любым количеством спикеров и не требует предварительного обучения на голосах.
Диаризация оптимизирована для процессоров M1/M2/M3/M4. Часовая запись обрабатывается за 3-5 минут на Apple Silicon. На Intel -- за 8-12 минут.
Не нужно указывать количество участников заранее. pyannote автоматически определяет, сколько голосов в записи -- от 2 до 20+.
Когда два спикера говорят одновременно, pyannote определяет оба голоса и размечает перекрывающиеся сегменты. GigaAM расшифровывает основной голос.
Определение спикеров, таймкоды и SOTA-качество расшифровки. Оффлайн на вашем Mac.
Скачать бесплатно