📷🎙️ Aplicação de Processamento de Imagens, Geração de Texto e Transcrição de Áudio com GradIO, AWS Rekognition e Polly

Esta aplicação demonstra a integração de tecnologias de Machine Learning e Inteligência Artificial para realizar tarefas avançadas como reconhecimento de imagens, geração de texto criativo e conversão de texto para áudio. A interface interativa foi desenvolvida com GradIO, e os serviços da AWS, como Rekognition e Polly, são utilizados para processar imagens e gerar áudio.

🛠️ Funcionalidades

1. Reconhecimento de Imagens com AWS Rekognition

Faz o upload de imagens para um bucket no AWS S3.
Utiliza o AWS Rekognition para identificar rótulos (labels) e características presentes na imagem.
Exibe os rótulos detectados diretamente na interface, com confidência mínima ajustável.

2. Geração de Texto Criativo

Gera textos no estilo Cordel com base nos rótulos identificados pela AWS Rekognition.
Integra a API do OpenAI ChatCompletion para criar poemas criativos e únicos utilizando as palavras detectadas nas imagens.
Oferece uma experiência de personalização e criatividade alinhada ao contexto da imagem.

3. Transcrição de Texto para Áudio (Text-to-Speech)

Converte o poema gerado em áudio utilizando o AWS Polly.
Suporte a vozes em português do Brasil, como Camila e Ricardo.
Reproduz o áudio diretamente na interface com o componente de player de áudio do GradIO.
O áudio gerado é armazenado no estado do GradIO para evitar repetição desnecessária.

💡 Fluxo da Aplicação

Upload da Imagem:
- O usuário faz o upload de uma imagem pela interface do GradIO.
- A imagem é enviada para o bucket no AWS S3.
- A aplicação verifica se a imagem já existe no bucket para evitar uploads duplicados.
Processamento com AWS Rekognition:
- O Rekognition analisa a imagem e retorna uma lista de rótulos detectados.
- Os rótulos são exibidos na interface, e os melhores são selecionados para a próxima etapa.
Geração de Poema:
- A aplicação utiliza os rótulos detectados para criar um poema no estilo Cordel.
- O texto é gerado usando a API de ChatCompletion do OpenAI.
Geração e Reprodução de Áudio:
- O poema gerado é convertido em áudio utilizando o AWS Polly.
- O áudio pode ser reproduzido diretamente na interface.

📦 Tecnologias Utilizadas

Frontend: GradIO
Serviços AWS:
- Rekognition: Para análise de imagens.
- S3: Para armazenamento de imagens e áudios.
- Polly: Para conversão de texto para áudio.
Inteligência Artificial:
- OpenAI ChatCompletion: Para geração de textos criativos.

⚙️ Pré-requisitos

Conta na AWS com permissões para usar os serviços:
- S3
- Rekognition
- Polly
Chave da API do OpenAI.
Ambiente Python configurado com as dependências:
- boto3
- openai
- GradIO

Equipe de desenvolvimento:

Camila
Levy Jacob
Glauber
Thiago Bluhm

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.gradio		.gradio
poemator-lambda		poemator-lambda
proj_aws_mestrado		proj_aws_mestrado
.gitignore		.gitignore
63018397e687c1a98b53094f84df84c1.jpg		63018397e687c1a98b53094f84df84c1.jpg
IMAGEM.webp		IMAGEM.webp
README.md		README.md
app.py		app.py
bg.jpg		bg.jpg
bootstrapCredentials_.py		bootstrapCredentials_.py
crição das alterações		crição das alterações
frontend.py		frontend.py
frontend_chalice.py		frontend_chalice.py
frontend_teste.py		frontend_teste.py
kit-digital-cordel-ilustrado-kit-digital-cordel.jpg		kit-digital-cordel-ilustrado-kit-digital-cordel.jpg
output.mp3		output.mp3
poemeiro.py		poemeiro.py
projeto_poemator.mp4		projeto_poemator.mp4
projeto_poemator_sm.mp4		projeto_poemator_sm.mp4
rekogzator.py		rekogzator.py
style.css		style.css
teste.py		teste.py
therepenter.py		therepenter.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

📷🎙️ Aplicação de Processamento de Imagens, Geração de Texto e Transcrição de Áudio com GradIO, AWS Rekognition e Polly

🛠️ Funcionalidades

1. Reconhecimento de Imagens com AWS Rekognition

2. Geração de Texto Criativo

3. Transcrição de Texto para Áudio (Text-to-Speech)

💡 Fluxo da Aplicação

📦 Tecnologias Utilizadas

⚙️ Pré-requisitos

Equipe de desenvolvimento:

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

levygjacob/appGenAI_aws

Folders and files

Latest commit

History

Repository files navigation

📷🎙️ Aplicação de Processamento de Imagens, Geração de Texto e Transcrição de Áudio com GradIO, AWS Rekognition e Polly

🛠️ Funcionalidades

1. Reconhecimento de Imagens com AWS Rekognition

2. Geração de Texto Criativo

3. Transcrição de Texto para Áudio (Text-to-Speech)

💡 Fluxo da Aplicação

📦 Tecnologias Utilizadas

⚙️ Pré-requisitos

Equipe de desenvolvimento:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages