Skip to content

Criação de DAG para Extração de Anexos em Base64 e Carga no Datalake #2

@CaioMelo25

Description

@CaioMelo25

Implementar uma DAG no Airflow para automatizar o download e armazenamento dos arquivos anexos vinculados aos registros do TransfereGov. Atualmente, os IDs dos anexos já estão persistidos no banco de dados, mas o acesso ao conteúdo exige consumo da API (/api/public/anexos/rg/{id}), que retorna o arquivo codificado em string Base64.

Para garantir a escalabilidade e performance do banco de dados relacional, a DAG deve seguir o fluxo de separação entre dados lógicos e físicos:

  1. Extração: Consultar os IDs com status de download pendente e realizar a requisição GET na API.
  2. Decodificação: Processar a string Base64 em memória, convertendo-a para o formato binário original.
  3. Carga Física (Object Storage): Realizar o upload do arquivo binário diretamente para o Datalake MinIO.

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions