Pipeline assíncrono para interação por voz em tempo real via modelos locais. Foco em baixa latência e estabilidade em ambientes ruidosos.
- Calibração de Ruído: Algoritmo para medição de ruído ambiente (RMS/Peak) e ajuste automático de threshold.
- Multithreading: Separação das camadas de inferência (Ollama) e síntese (Piper) via
queue.Queue. - Token Streaming: Processamento por sentença (
.,!,?) para início imediato do TTS (otimização de TTFT). - Local-First: Integração de Whisper (STT), Ollama (LLM) e Piper (ONNX) para operação offline.
- Python 3.13+
openai-whispersounddevice/numpyollama-pythonpiper-tts(CLI)
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/pt/pt_BR/faber/medium/pt_BR-faber-medium.onnx
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/pt/pt_BR/faber/medium/pt_BR-faber-medium.onnx.json