Transcribing multi-channel audio (Channel deorization) #55

slavonnet · 2026-01-13T02:15:22Z

Добавлена поддержка мультиканальной транскрибации с диаризацией

Описание

Добавлена функциональность для транскрибации мультиканального аудио с автоматической диаризацией (разделением по каналам/спикерам). Метод корректно обрабатывает перекрывающуюся речь и сортирует результаты по времени, обеспечивая правильное чередование реплик между каналами.

Разделение спикеров по каналам (или отдельным аудио файлам) применяется в колл-центрах, чтобы не терять качество разбора когда обе стороны высказываются одновременно.

Основные изменения

Новые функции и методы

GigaAMASR.transcribe_multichannel() — метод для транскрибации мультиканального аудио
- Поддерживает стерео/многоканальные файлы или список отдельных файлов
- Автоматическая сегментация с использованием VAD (pyannote.audio)
- Батчинг для эффективной обработки
- Результаты сортируются по времени и чередуются между каналами
load_multichannel_audio() в preprocess.py — загрузка мультиканального аудио
- Поддержка стерео/многоканальных файлов (через torchaudio)
- Поддержка списка отдельных моно файлов
- Автоматическое выравнивание длин каналов
segment_multichannel_audio() в vad_utils.py — сегментация мультиканального аудио
- VAD сегментация для каждого канала
- Группировка сегментов по каналам с учетом пауз
- Объединение сегментов с ограничением по длительности для модели
- Оптимизированная работа с GPU (тензоры обрабатываются в памяти)

Тесты

Добавлен файл tests/test_multichannel.py с тестами:

Транскрибация стерео файла, созданного из моно
Транскрибация списка отдельных файлов
Проверка правильности идентификации каналов
Проверка сортировки результатов по времени

Документация

Обновлены README.md и README_ru.md с примерами использования мультиканальной транскрибации

Технические детали

Алгоритм работы

Загрузка аудио: Загружаются все каналы (из одного файла или списка файлов)
VAD сегментация: Для каждого канала применяется VAD модель для обнаружения речевых сегментов
Группировка: Сегменты группируются по каналам с учетом пауз (pause_threshold)
Сортировка: Все сегменты сортируются по времени начала (global_start, затем start_time)
Объединение: Сегменты одного канала объединяются в окна до strict_limit_duration
Транскрибация: Сегменты обрабатываются батчами независимо от канала
Результат: Возвращается список с информацией о канале, транскрипции и временных границах

Оптимизации

Все операции с аудио выполняются на GPU в памяти (без сохранения на диск)
Эффективная работа с тензорами (клонирование сегментов для освобождения памяти)
Батчинг для ускорения обработки модели
Использование itertools.groupby и map для функционального стиля обработки

Ограничения

Требуется установка pyannote.audio и токен Hugging Face для доступа к модели VAD
Максимальная длительность сегмента для модели: 30 секунд (настраивается через strict_limit_duration)

Примеры использования

import gigaam
import os

# Настройка токена для pyannote.audio
os.environ["HF_TOKEN"] = "<ваш HF токен>"

# Загрузка модели
model = gigaam.load_model("v3_e2e_rnnt")

# Вариант 1: Стерео файл
results = model.transcribe_multichannel("conversation_stereo.wav")

# Вариант 2: Список отдельных файлов
results = model.transcribe_multichannel(
    ["channel_0.wav", "channel_1.wav"],
    batch_size=4,
    pause_threshold=2.0,
    strict_limit_duration=30.0
)

# Вывод результатов
for seg in results:
    channel = seg["channel"]
    transcription = seg["transcription"]
    start, end = seg["boundaries"]
    print(f"[{start:.2f}s - {end:.2f}s] Канал {channel}: {transcription}")

Совместимость

✅ Все существующие методы остались без изменений
✅ Базовые функции проекта не изменены
✅ Обратная совместимость сохранена
✅ Все существующие тесты проходят

Файлы изменений

gigaam/model.py — добавлен метод transcribe_multichannel()
gigaam/preprocess.py — добавлена функция load_multichannel_audio()
gigaam/vad_utils.py — добавлена функция segment_multichannel_audio()
gigaam/__init__.py — экспорт новых функций
tests/test_multichannel.py — новые тесты
README.md, README_ru.md — обновлена документация

Тестирование

Все тесты проходят успешно:

pytest tests/test_multichannel.py -v
# 4 passed

Зависимости

Требуется установка дополнительных зависимостей для мультиканальной транскрибации:

pip install pyannote.audio huggingface_hub

…ic diarization (channel/speaker separation). The method correctly processes overlapping speech and sorts the results by time, ensuring the correct alternation of cues between channels.

slavonnet · 2026-01-13T02:21:08Z

Test 194 секунды разговора колл центра. 2 моно файла по для каждой стороны.

RTX 5060 Ti 16Gb,
Win11,
Core i7 Gen3

Результаты:
Загрузка аудио: 0.01s
VAD сегментация: 0.95s (68 маленьких сегментов)
Объединение сегментов: 0.003s (26 финальных сегментов)
Транскрибация: 11.29s
Общее время: 12.73s

Узкие места:
Декодирование (6.44s) занимает ~61% времени транскрибации

…=160, win_length=320, window=torch.cuda.FloatTensor{[320]}, normalized=0, onesided=1, return_complex=1, align_to_window=None) : expected 0 < n_fft < 270, but got n_fft=320

slavonnet · 2026-01-14T01:31:22Z

При запуске на коллекции звонков за год в одном месте ошибка проскочила, исправил что размер аулио в батче не может быть меньше 320

slavonnet · 2026-01-22T12:32:51Z

я так использую

def do_process(t, r):
    try:
        with torch.no_grad():
            results = model.transcribe_multichannel(
                [t, r],  # Список файлов: [агент, клиент]
                batch_size=4,
                pause_threshold=0.5,
                strict_limit_duration=30.0

хирый хак есть чтобы когда два канала одновременно говорят правильно раскидывало и сортировало результат -pause_threshold за это отвечает.
Как бы долепляет хвост к тому каналу который первый начал говорить до срабатывания pause_threshold.
Тем самым нет проблемы что по одному слову на канал левый и правый проскакивает и результат читаем как адекватный диалог

Added functionality for transcribing multi-channel audio with automat…

953ebaf

…ic diarization (channel/speaker separation). The method correctly processes overlapping speech and sorts the results by time, ensuring the correct alternation of cues between channels.

slavonnet mentioned this pull request Jan 13, 2026

streaming inference and diarization #18

Open

Fix error - stft(torch.cuda.HalfTensor[1, 270], n_fft=320, hop_length…

68f1d87

…=160, win_length=320, window=torch.cuda.FloatTensor{[320]}, normalized=0, onesided=1, return_complex=1, align_to_window=None) : expected 0 < n_fft < 270, but got n_fft=320

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Transcribing multi-channel audio (Channel deorization) #55

Transcribing multi-channel audio (Channel deorization) #55

slavonnet commented Jan 13, 2026

Uh oh!

slavonnet commented Jan 13, 2026

Uh oh!

slavonnet commented Jan 14, 2026 •

edited

Loading

Uh oh!

slavonnet commented Jan 22, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Transcribing multi-channel audio (Channel deorization) #55

Are you sure you want to change the base?

Transcribing multi-channel audio (Channel deorization) #55

Conversation

slavonnet commented Jan 13, 2026

Добавлена поддержка мультиканальной транскрибации с диаризацией

Описание

Основные изменения

Новые функции и методы

Тесты

Документация

Технические детали

Алгоритм работы

Оптимизации

Ограничения

Примеры использования

Совместимость

Файлы изменений

Тестирование

Зависимости

Uh oh!

slavonnet commented Jan 13, 2026

Uh oh!

slavonnet commented Jan 14, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

slavonnet commented Jan 22, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

slavonnet commented Jan 14, 2026 •

edited

Loading

slavonnet commented Jan 22, 2026 •

edited

Loading