Skip to content

jeanlr/Hackathon-2025

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

75 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Hackathon2025 - Projeto Squad 07 - Data Lake - Machine Learning

📚 Documentação -> Guia das pastas do projeto:

📄 Abrir documentação no Google Docs

Arquitetura do projeto

bucket_bronze

Visão geral da arquitetura

A arquitetura proposta adota o Databricks como plataforma central de Data Lakehouse, oferecendo um ambiente unificado para ingestão, processamento, governança e consumo de dados.

O uso do Databricks reduz a complexidade operacional ao abstrair a gestão de infraestrutura, permitindo que o time foque na engenharia, qualidade e valor dos dados.

Justificativa das escolhas

  • Databricks Lakehouse Platform (Free Edition)
    Centraliza processamento, armazenamento lógico e ambiente analítico em uma única plataforma, reduzindo overhead operacional e acelerando o desenvolvimento de soluções de dados. A abordagem Lakehouse garante flexibilidade analítica com governança e organização de dados.

  • Apache Spark Gerenciado Permite processamento distribuído e escalável sem a necessidade de administrar clusters manualmente, sendo adequado para ETL/ELT, feature engineering e análises em grandes volumes de dados.

  • Arquitetura Medallion (Bronze, Silver, Gold) Garante rastreabilidade, qualidade e confiabilidade dos dados. A separação por camadas permite reprocessamentos seguros, auditoria e entrega de dados prontos para consumo analítico e tomada de decisão.

  • Notebooks Databricks
    Fornecem um ambiente colaborativo para exploração, validação e desenvolvimento analítico o que acelera o ciclo de análise e experimentação.


Como subir o projeto?

Criar conta no Databricks Free (https://login.databricks.com/signup?)

Criar catalog = hackathon2025:

catalog

Criar volume e fazer ingestão dentro do catalog hackathon2025:

catalog

Criar git folder = Hackathon-2025:

catalog

Criar folder (silver e gold) no workspace Hackathon-2025:

catalog

About

Projeto Hackathon 2025: Implementação de Data Lakehouse no Databricks Free para criação de book de variáveis e modelos de previsão de inadimplência.

Topics

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors