📷🎙️ Aplicação de Processamento de Imagens, Geração de Texto e Transcrição de Áudio com GradIO, AWS Rekognition e Polly
Esta aplicação demonstra a integração de tecnologias de Machine Learning e Inteligência Artificial para realizar tarefas avançadas como reconhecimento de imagens, geração de texto criativo e conversão de texto para áudio. A interface interativa foi desenvolvida com GradIO, e os serviços da AWS, como Rekognition e Polly, são utilizados para processar imagens e gerar áudio.
- Faz o upload de imagens para um bucket no AWS S3.
- Utiliza o AWS Rekognition para identificar rótulos (labels) e características presentes na imagem.
- Exibe os rótulos detectados diretamente na interface, com confidência mínima ajustável.
- Gera textos no estilo Cordel com base nos rótulos identificados pela AWS Rekognition.
- Integra a API do OpenAI ChatCompletion para criar poemas criativos e únicos utilizando as palavras detectadas nas imagens.
- Oferece uma experiência de personalização e criatividade alinhada ao contexto da imagem.
- Converte o poema gerado em áudio utilizando o AWS Polly.
- Suporte a vozes em português do Brasil, como Camila e Ricardo.
- Reproduz o áudio diretamente na interface com o componente de player de áudio do GradIO.
- O áudio gerado é armazenado no estado do GradIO para evitar repetição desnecessária.
-
Upload da Imagem:
- O usuário faz o upload de uma imagem pela interface do GradIO.
- A imagem é enviada para o bucket no AWS S3.
- A aplicação verifica se a imagem já existe no bucket para evitar uploads duplicados.
-
Processamento com AWS Rekognition:
- O Rekognition analisa a imagem e retorna uma lista de rótulos detectados.
- Os rótulos são exibidos na interface, e os melhores são selecionados para a próxima etapa.
-
Geração de Poema:
- A aplicação utiliza os rótulos detectados para criar um poema no estilo Cordel.
- O texto é gerado usando a API de ChatCompletion do OpenAI.
-
Geração e Reprodução de Áudio:
- O poema gerado é convertido em áudio utilizando o AWS Polly.
- O áudio pode ser reproduzido diretamente na interface.
- Frontend: GradIO
- Serviços AWS:
- Rekognition: Para análise de imagens.
- S3: Para armazenamento de imagens e áudios.
- Polly: Para conversão de texto para áudio.
- Inteligência Artificial:
- OpenAI ChatCompletion: Para geração de textos criativos.
- Conta na AWS com permissões para usar os serviços:
- S3
- Rekognition
- Polly
- Chave da API do OpenAI.
- Ambiente Python configurado com as dependências:
boto3openaiGradIO
- Camila
- Levy Jacob
- Glauber
- Thiago Bluhm