Разделение спикеров

Транскрибация с разделением спикеров

Транскрибация с разделением спикеров (диаризация) бесплатно и оффлайн. Traart определяет кто что сказал с помощью нейросети pyannote -- WER 8.3% для русского языка.


Что такое диаризация спикеров

Диаризация -- это технология автоматического определения, кто из участников разговора произнёс каждую реплику. Вместо сплошного текста вы получаете структурированный протокол с указанием спикеров.

Без диаризации

Давайте обсудим релиз. Я думаю нужно перенести дату. Нет, мы уже обещали клиентам. Тогда уберём фичу X из скоупа. Согласен, давайте так.

Кто предложил перенести? Кто согласился? Непонятно.

С диаризацией в Traart

[Спикер 1, 00:12] Давайте обсудим релиз. Я думаю нужно перенести дату.

[Спикер 2, 00:18] Нет, мы уже обещали клиентам.

[Спикер 1, 00:25] Тогда уберём фичу X из скоупа.

[Спикер 3, 00:31] Согласен, давайте так.

Каждая реплика привязана к спикеру и таймкоду.


Как работает разделение спикеров в Traart

1

Сегментация аудио

Нейросеть pyannote анализирует аудиопоток и определяет границы речевых сегментов -- где начинается и заканчивается каждая реплика.

2

Кластеризация голосов

Каждый сегмент получает голосовой отпечаток (embedding). Модель группирует сегменты с похожими голосами -- так определяется количество спикеров и их реплики.

3

Распознавание речи GigaAM v3

Каждый речевой сегмент транскрибируется SOTA-моделью GigaAM v3 с WER 8.3% для русского языка. Результат -- текст с разметкой спикеров.

4

Результат: структурированный протокол

Вы получаете текст с пометками [Спикер 1], [Спикер 2] и таймкодами. Всё обрабатывается локально на вашем Mac -- ни байта данных не уходит в облако.


Где нужна транскрибация с разделением спикеров

Совещания и встречи

Протоколы Zoom, Teams, Google Meet с указанием кто принял решение, кто предложил идею, кто поставил задачу.

Интервью и CustDev

Разделение реплик интервьюера и респондента. Удобно для анализа ответов и цитирования.

Подкасты

Show notes с разделением реплик ведущего и гостей. Готовый Markdown для публикации.


Диаризация: Traart vs конкуренты

Параметр Traart Otter.ai TurboScribe MacWhisper
Диаризация Бесплатно $8.33/мес $9.99/мес Нет
Русский язык WER 8.3% Не поддерживает WER ~15% WER ~16%
Оффлайн Да Нет Нет Да
Модель диаризации pyannote 3.1 Проприетарная Whisper + custom --

Технические детали

pyannote 3.1

Traart использует pyannote 3.1 -- открытую нейросеть для диаризации спикеров от CNRS (Франция). Модель работает с любым количеством спикеров и не требует предварительного обучения на голосах.

Apple Silicon

Диаризация оптимизирована для процессоров M1/M2/M3/M4. Часовая запись обрабатывается за 3-5 минут на Apple Silicon. На Intel -- за 8-12 минут.

Автоматическое определение числа спикеров

Не нужно указывать количество участников заранее. pyannote автоматически определяет, сколько голосов в записи -- от 2 до 20+.

Обработка перекрытий

Когда два спикера говорят одновременно, pyannote определяет оба голоса и размечает перекрывающиеся сегменты. GigaAM расшифровывает основной голос.


Смотрите также


Транскрибация с диаризацией -- бесплатно

Определение спикеров, таймкоды и SOTA-качество расшифровки. Оффлайн на вашем Mac.

Скачать бесплатно