Desenvolver uma DAG dinâmica no Airflow para realizar a extração dos dados brutos contidos nos arquivos (.xlsx, .xls, .ods) armazenados no Datalake. O foco são os programas Lei Paulo Gustavo (IDs 46, 47) e PNAB (IDs 60, 61, 62).
A tarefa envolve a refatoração do script ii_extract_tables.py, migrando-o de uma execução local engessada para um paradigma ELT escalável e compatível com ambiente de containers.
Principais Desafios Técnicos:
- Desacoplamento de Ambiente: Remover caminhos de diretórios locais (OneDrive/User) e dependências exclusivas de Windows (
win32com), garantindo que o script opere via hooks do Airflow para acessar o Datalake.
- Abordagem ELT (Raw Extraction): Simplificar a lógica de extração para focar na captura fiel do dado na fonte. O script deve localizar a tabela via identificação de header e salvar o conteúdo "cru" (dtype=str) em formato Parquet na zona Raw.
- Resiliência via Dynamic Task Mapping: Utilizar a funcionalidade
.map() do Airflow para processar cada arquivo como uma task independente, isolando falhas de arquivos corrompidos.
Desenvolver uma DAG dinâmica no Airflow para realizar a extração dos dados brutos contidos nos arquivos (.xlsx, .xls, .ods) armazenados no Datalake. O foco são os programas Lei Paulo Gustavo (IDs 46, 47) e PNAB (IDs 60, 61, 62).
A tarefa envolve a refatoração do script
ii_extract_tables.py, migrando-o de uma execução local engessada para um paradigma ELT escalável e compatível com ambiente de containers.Principais Desafios Técnicos:
win32com), garantindo que o script opere via hooks do Airflow para acessar o Datalake..map()do Airflow para processar cada arquivo como uma task independente, isolando falhas de arquivos corrompidos.