HaandSpeak es una aplicación diseñada para facilitar la comunicación entre personas sordas o con discapacidad auditiva y aquellos que no conocen el lenguaje de señas. Utilizando tecnologías avanzadas como MediaPipe, YOLOv8, y Google Text-to-Speech (gTTS), este proyecto permite traducir gestos en texto o voz, promoviendo la inclusión y la igualdad de acceso a la información.
El principal objetivo de HaandSpeak es proporcionar una herramienta inclusiva que:
- Traduzca el lenguaje de señas a texto o voz en tiempo real.
- Facilite la interacción en diversas situaciones, como educación, atención médica y conversaciones diarias.
- Empodere a las personas con discapacidad auditiva con un recurso accesible y eficaz.
- Reconocimiento de gestos: Utiliza MediaPipe para identificar movimientos específicos de las manos.
- Traducción de gestos a texto: Procesa los gestos y los convierte en texto comprensible.
- Salida de voz: Convierte texto en voz utilizando Google Text-to-Speech.
- Interfaz personalizable: Permite cambiar el color de fondo para mejorar la experiencia del usuario.
- Gestión de la cámara: Funciones de refrescar y apagar para una mayor comodidad.
- Python 3.7 o superior.
- Un editor de código (por ejemplo, Visual Studio Code).
- Instalar Python y Visual Studio Code.
- Descarga Python desde python.org.
- Instala Visual Studio Code desde code.visualstudio.com.
- Descargar el proyecto.
Descarga el proyecto desde esta URL.
- Acceder al proyecto.
- Abre Visual Studio Code, selecciona
File > Open Folder, y localiza la carpeta del proyecto.
- Abre Visual Studio Code, selecciona
- Levantar entorno virtual.
pip install virtualenv virtualenv venv source venv/bin/activate # Para Linux/MacOS .\venv\Scripts\activate # Para Windows - Instalar dependencias.
pip install -r requirements.txt - Ejecutar el programa.
- Ve a la carpeta
app:cd app
- Inicia la aplicación:
python app.py
- Ve a la carpeta
- Colócate frente a la cámara y realiza la seña que deseas traducir.
- El programa interpretará el gesto, lo convertirá a texto, y lo reproducirá como voz.
- Puedes cambiar el color de fondo y refrescar o apagar la cámara según sea necesario.
- Flask como framework principal.
- MediaPipe para el reconocimiento de gestos.
- YOLOv8 para detección de objetos.
- Google Text-to-Speech (gTTS) para la generación de voz.
- Ampliar el reconocimiento de señas.
- Soporte para múltiples idiomas.
- Optimización del rendimiento en dispositivos móviles.
¡Contribuciones, reportes de errores, y sugerencias son bienvenidos! Por favor, abre un issue o envía un pull request.
Este proyecto está bajo la Licencia MIT. Consulta el archivo LICENSE para más detalles.
