Ce projet implémente un pipeline de traitement de données volumineuses par chunks pour faciliter l’analyse et optimiser l’utilisation de la mémoire. Chaque chunk est chargé, résumé, optimisé, et prêt pour un traitement ou stockage ultérieur.
✅ Chargement des données en chunks pour éviter la surcharge mémoire
✅ Résumé des chunks avant et après optimisation
✅ Optimisation mémoire via conversion des types de données et catégorisation
✅ Logs détaillés pour suivre chaque étape du traitement
✅ Nettoyage et normalisation des données clients
✅ Calcul des KPI : chiffre d’affaires, taille des paniers, nombre de clients
✅ Validation des codes pays ISO 3166-1 alpha-2 avec pycountry
✅ Testable avec pytest