🚀 Projet d'Introduction au MLOps

Un projet pédagogique pour découvrir les fondamentaux du MLOps (Machine Learning Operations) à travers l'utilisation d'Apache Airflow, MLflow et Docker.

📋 Table des matières

Présentation
Prérequis
Architecture
Installation
Utilisation
Structure du projet
DAGs Airflow
Notebooks
Ressources pédagogiques
Licence

🎯 Présentation

Ce projet est conçu comme support de cours pour apprendre les concepts clés du MLOps :

Orchestration de workflows ML avec Apache Airflow
Tracking d'expériences avec MLflow
Containerisation avec Docker
Versioning de code avec Git
Pipelines ETL (Extract, Transform, Load)
Entraînement et validation de modèles

🛠️ Prérequis

Logiciels requis

Docker (version 20.10+) et Docker Compose (version 2.0+)
- Guide d'installation Docker
Git (version 2.0+)
- Guide d'installation Git
Un navigateur web moderne

🏗️ Architecture

Le projet utilise une architecture multi-conteneurs orchestrée par Docker Compose :

Services principaux

Service	Description	Port
airflow-webserver	Interface web Airflow	8080
airflow-scheduler	Orchestrateur de tâches	-
airflow-worker	Exécuteur de tâches (Celery)	-
airflow-triggerer	Gestion des triggers asynchrones	-
postgres	Base de données (métadonnées Airflow)	-
redis	Broker de messages (Celery)	-
jupyter-notebook	Environnement de notebooks	8889

Volumes montés

./dags       → /opt/airflow/dags       # DAGs Airflow
./logs       → /opt/airflow/logs       # Logs d'exécution
./plugins    → /opt/airflow/plugins    # Plugins personnalisés
./config     → /opt/airflow/config     # Configuration Airflow
./data       → /opt/airflow/data       # Données d'entrée
./models     → /opt/airflow/models     # Modèles entraînés
./metrics    → /opt/airflow/metrics    # Métriques de performance
./notebooks  → /home/jovyan/work       # Notebooks Jupyter

📦 Installation

1. Cloner le repository

git clone https://github.com/TeodoreAutuly/mlops-project.git
cd mlops-project

2. Vérifier l'installation de Docker

docker --version
docker compose version

3. Tester Docker

docker run hello-world

Si vous voyez le message de bienvenue de Docker, l'installation est réussie ! ✅

4. Initialiser Airflow

Cette commande configure la base de données et crée l'utilisateur par défaut (airflow/airflow) :

docker compose up airflow-init

Attendez que le message de succès s'affiche avant de passer à l'étape suivante.

5. Démarrer les services

docker compose up

Pour démarrer en arrière-plan :

docker compose up -d

6. Vérifier que tout fonctionne

Airflow UI : http://localhost:8080
- Identifiants : airflow / airflow
Jupyter Notebook : http://localhost:8889
- Token : my-token

🎮 Utilisation

Accéder à l'interface Airflow

Ouvrez votre navigateur à http://localhost:8080
Connectez-vous avec :
- Username : airflow
- Password : airflow
Vous verrez la liste des DAGs disponibles

Exécuter un DAG

Dans l'interface Airflow, localisez le DAG souhaité (ex: dag_imt_example)
Activez le DAG en cliquant sur le toggle à gauche
Cliquez sur le bouton "Play" (▶️) pour déclencher une exécution manuelle
Suivez l'exécution dans la vue "Grid" ou "Graph"

Accéder aux notebooks Jupyter

Ouvrez http://localhost:8889
Entrez le token : my-token
Les notebooks sont dans le dossier work/

Arrêter les services

docker compose down

Pour supprimer également les volumes (⚠️ supprime les données) :

docker compose down -v

📁 Structure du projet

mlops-project/
├── docker-compose.yml          # Configuration des services Docker
├── LICENSE                     # Licence MIT
├── README.md                   # Ce fichier
├── .gitignore                  # Fichiers ignorés par Git
│
├── dags/                       # 📊 DAGs Apache Airflow
│   ├── airflow_dag_exemple.py           # Pipeline ETL de base
│   └── airflow_dag_mlflow_example.py    # Pipeline avec MLflow
│
├── notebooks/                  # 📓 Notebooks Jupyter
│   ├── MLFlowDemoSimple.ipynb           # Démo simple MLflow
│   ├── MLFlowDemo.ipynb                 # Démo avancée MLflow
│   ├── TDCData.ipynb                    # Manipulation de données
│   ├── cas.ipynb                        # Étude de cas
│   │
│   ├── cert/                   # Certificats SSL
│   │   └── ca.pem
│   │
│   ├── data/                   # Données d'exemple
│   │   └── phase1.tab
│   │
│   └── mlruns/                 # Expériences MLflow locales
│       └── 0/
│
├── TPS/                        # 📚 Supports de cours
│   └── TP_GIT_AIRFLOW_DOCKER.md        # Tutoriel Git/Airflow/Docker
│
└── airflow/                    # Configuration Airflow (générée)
    ├── dags/                   # Copie des DAGs
    └── logs/                   # Logs d'exécution

🔄 DAGs Airflow

1. `dag_imt_example` - Pipeline ETL basique

Description : Pipeline d'exemple démontrant les concepts Extract → Transform → Load

Tâches :

extract : Récupère des données de commandes (simulées)
transform : Calcule la valeur totale des commandes
load : Affiche le résultat

Utilisation :

# Les tâches communiquent via XCom
extract_task >> transform_task >> load_task

2. `dag_imt_example_with_mlflow` - Pipeline ML avec MLflow

Description : Pipeline complet de Machine Learning avec tracking MLflow

Tâches :

get_data : Génère des données synthétiques (régression linéaire)
train_model : Entraîne un modèle LinearRegression avec autolog MLflow
validate_model : Évalue le modèle sur le jeu de test

📓 Notebooks

MLFlowDemoSimple.ipynb

Démonstration simple de l'utilisation de MLflow :

Configuration du tracking server
Entraînement d'un modèle de régression linéaire
Logging automatique avec mlflow.autolog()

Autres notebooks

MLFlowDemo.ipynb : Fonctionnalités avancées de MLflow
TDCData.ipynb : Manipulation et analyse de données
cas.ipynb : Étude de cas pratique

📚 Ressources pédagogiques

Tutoriel inclus

Consultez le fichier TPS/TP_GIT_AIRFLOW_DOCKER.md pour un tutoriel détaillé couvrant :

Introduction à Git
- Installation et configuration
- Clonage, commit, push
- Résolution de conflits
Introduction aux DAGs Airflow
- Concepts de base (DAG, tâches, dépendances)
- Configuration Docker Compose
- Création de volumes personnalisés
Docker en pratique
- Installation et test
- Lancement des services
- Debugging

Commandes Git utiles

# Vérifier le statut
git status

# Ajouter des fichiers
git add <fichier>

# Créer un commit
git commit -m "Message descriptif"

# Récupérer les dernières modifications
git pull

# Envoyer les modifications
git push

Commandes Docker utiles

# Voir les conteneurs en cours d'exécution
docker ps

# Voir les logs d'un service
docker compose logs -f <service>

# Redémarrer un service
docker compose restart <service>

# Exécuter une commande dans un conteneur
docker compose exec <service> <commande>

# Exemple : ouvrir un shell dans le webserver
docker compose exec airflow-webserver bash

📄 Licence

Ce projet est sous licence MIT. Voir le fichier LICENSE pour plus de détails.

🎓 Contexte académique

Projet réalisé dans le cadre du cours MLOps - IMT Atlantique (2025)

Concepts abordés

🔄 Orchestration de workflows
📊 Suivi d'expériences ML
🐳 Containerisation
🔧 Infrastructure as Code
📈 Reproductibilité des expériences
🚀 Déploiement continu

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.circleci		.circleci
TPS		TPS
airflow		airflow
dags		dags
notebooks		notebooks
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
docker-compose.yml		docker-compose.yml

Folders and files

Latest commit

History

Repository files navigation

🚀 Projet d'Introduction au MLOps

📋 Table des matières

🎯 Présentation

🛠️ Prérequis

Logiciels requis

🏗️ Architecture

Services principaux

Volumes montés

📦 Installation

1. Cloner le repository

2. Vérifier l'installation de Docker

3. Tester Docker

4. Initialiser Airflow

5. Démarrer les services

6. Vérifier que tout fonctionne

🎮 Utilisation

Accéder à l'interface Airflow

Exécuter un DAG

Accéder aux notebooks Jupyter

Arrêter les services

📁 Structure du projet

🔄 DAGs Airflow

1. dag_imt_example - Pipeline ETL basique

2. dag_imt_example_with_mlflow - Pipeline ML avec MLflow

📓 Notebooks

MLFlowDemoSimple.ipynb

Autres notebooks

📚 Ressources pédagogiques

Tutoriel inclus

Commandes Git utiles

Commandes Docker utiles

📄 Licence

🎓 Contexte académique

Concepts abordés

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

1. `dag_imt_example` - Pipeline ETL basique

2. `dag_imt_example_with_mlflow` - Pipeline ML avec MLflow

Packages