Navegador Controlado por Voz para Pessoas Cegas
Navegar na web é uma tarefa visual por design. Para pessoas cegas, a experiência atual significa:
- Ouvir cada elemento da página em ordem sequencial
- Navegar por anúncios, popups e botões sem rótulos
- Não ter contexto sobre o que a página realmente oferece
- Dificuldade em identificar ações importantes rapidamente
Beacon não apenas lê páginas web — ele as compreende. Transformamos páginas visuais complexas em menus falados simples que tornam a navegação intuitiva e eficiente.
- Analisa a página — identifica se é uma loja, artigo, formulário, checkout, etc.
- Resume informações-chave — apresenta o conteúdo mais importante primeiro
- Simplifica ações — converte interações complexas em um menu numerado:
- "1. Adicionar ao carrinho"
- "2. Ler avaliações"
- "3. Ver especificações técnicas"
- Age em seu nome — clica botões, preenche formulários, rola e navega baseado na sua intenção
- Mantém você seguro — sempre confirma antes de ações de alto risco como pagamentos ou publicações
# Instalar dependências
uv sync
# Configurar chaves de API no .env
# Executar Beacon
uv run main.py--agent-steps— número máximo de passos do agente por ação (padrão: 8)--load-wait— segundos de espera após navegação (padrão: 4.0)
Beacon entende linguagem natural:
- Navegação: "Abrir amazon.com" / "Ir para YouTube"
- Compreensão: "O que é esta página?" / "Resumir"
- Ações: "Adicionar ao carrinho" / "Fazer número 2" / "Ler artigo"
- Interação: "Pesquisar fones sem fio" / "Voltar"
- Nova página: "Nova página" → Beacon pedirá a URL
Beacon sempre pedirá confirmação antes de:
- ✅ Enviar informações de pagamento
- ✅ Publicar conteúdo
- ✅ Fazer compras
- ✅ Deletar qualquer coisa
- ✅ Enviar mensagens ou emails
browser-use/
├── main.py # Ponto de entrada CLI
├── beacon.py # Orquestração do aplicativo
└── tools.py # Motor de análise de páginas e interface de voz
- PageUnderstandingEngine — Usa GPT-4o-mini para analisar DOM e extrair ações relevantes
- VoiceInterface — TTS (text-to-speech) e STT (speech-to-text) via OpenAI
- BeaconApp — Coordena navegação, resumos e delegação de tarefas ao agente
- browser-use Agent — Executa ações autônomas na página atual
browser-use>=0.9.1— Automação de navegador com agenteopenai>=1.52.0— API para análise, TTS e STTsounddevice+numpy— (Opcional) Captura de áudio por microfone
- Python 3.13+
- Google Chrome instalado localmente
- Chave da API OpenAI
- macOS/Linux com
afplay/ffplaypara reprodução de áudio (ou prints apenas)
- Intenção sobre interação — Usuários dizem o que querem, não como fazer
- Consciência de contexto — Cada página é analisada por tipo e propósito
- Hierarquia de informação — Conteúdo mais importante primeiro
- Segurança por padrão — Confirmação para qualquer ação arriscada
- Comunicação natural — Fale naturalmente, Beacon entende
- Redução de tempo para completar tarefas comuns na web
- Aumento de autonomia para usuários cegos em compras, leitura e formulários online
- Experiência mais digna — sem precisar ouvir todo o "ruído" visual de uma página
- Detecção por palavra de ativação (wake-word)
- STT em streaming para respostas mais rápidas
- Suporte multi-abas
- Verificações de segurança baseadas em regras (detecção de formulários de pagamento)
- Integração com dados ARIA e landmarks para priorização ainda melhor
Desenvolvido para o Hackathon Devs de Impacto por [seu nome/equipe].
[Adicione sua licença aqui]
Beacon — Porque a web deve ser acessível para todos. 🌟