Se rendre au contenu

Pipelines de Données avec Airflow

Data & Intelligence Artificielle > Data


Une formation de 2 jours pour maîtriser Apache Airflow et concevoir des pipelines de données robustes et scalables en production.

La formation en 6 mots clés

Orchestration de Données

Apache Airflow

DAGs et Workflows

ETL et Pipelines

Automation

Monitoring et Alertes

Informations Pratiques et Programme

Prérequis


Connaissances de base en Python et en SQL. Une familiarité avec les concepts de bases de données et de traitement de données est recommandée.

Durée


2 jours

Contenu Technique de la Formation


Cette formation de deux jours plonge les participants dans Apache Airflow, l'orchestrateur de workflows de référence pour les pipelines de données.

  • Architecture d'Apache Airflow : Scheduler, Executor, Webserver et Metadata DB
  • Conception et développement de DAGs en Python
  • Opérateurs natifs et personnalisés : BashOperator, PythonOperator, sensors
  • Gestion des dépendances, branchements et déclencheurs entre tâches
  • Connexion aux systèmes externes : bases de données, API, stockage cloud
  • Monitoring, alerting et bonnes pratiques de déploiement en production

Objectifs de la Formation


Les objectifs visés par cette formation sont :

  • Comprendre l'architecture et le fonctionnement interne d'Apache Airflow
  • Concevoir et développer des DAGs robustes pour orchestrer des pipelines de données
  • Utiliser les opérateurs natifs et créer des opérateurs personnalisés
  • Connecter Airflow aux systèmes de l'entreprise (bases de données, API, cloud)
  • Superviser, dépanner et optimiser les workflows en environnement de production

Table des Matières


Jour 1 : Fondamentaux d'Airflow et Premiers DAGs

  • Introduction à l'orchestration de données et positionnement d'Airflow
  • Installation et configuration de l'environnement Airflow (local et Docker)
  • Architecture interne : Scheduler, Webserver, Worker et bases de métadonnées
  • Création d'un premier DAG : structure, tâches et dépendances
  • Opérateurs essentiels : BashOperator, PythonOperator et EmailOperator
  • Gestion du scheduling : cron expressions, catchup et backfill
  • Atelier pratique : construire un pipeline ETL simple de bout en bout


Jour 2 : DAGs Avancés et Mise en Production

  • Branchement conditionnel, sous-DAGs et TaskGroups
  • Sensors et déclencheurs externes : attente de fichiers, API et événements
  • Connexions et hooks : intégration avec PostgreSQL, S3, BigQuery et APIs REST
  • XComs : partage de données entre tâches
  • Monitoring avancé : alertes, SLA, logs et interface Webserver
  • Déploiement en production : Celery Executor, Kubernetes et CI/CD
  • Atelier pratique : projet intégré avec pipeline multi-sources et alerting

En Pratique


Maîtrise pratique de l'orchestration

  • Ateliers hands-on pour construire progressivement des DAGs complets, du simple au complexe, en environnement réaliste d'entreprise.


Intégration multi-sources et automation

  • Connexion de multiples sources de données (bases de données, APIs REST, stockage cloud S3/BigQuery) et orchestration de pipelines end-to-end.


Production-ready et monitoring

  • Déploiement en production avec gestion des erreurs, alerting, SLA et monitoring avancé pour assurer fiabilité et scalabilité.

Modalités et Inscription


Cette formation est proposée selon deux formules pour s'adapter au mieux à vos besoins :


Session régulière

Des sessions sont organisées à intervalles réguliers. Demandez les prochaines dates planifiées pour vous inscrire à la prochaine session.


Sur mesure & intra-entreprise

Vous souhaitez former vos équipes directement dans vos locaux ou adapter le programme technique à votre contexte d'entreprise ? Contactez-nous pour obtenir un devis personnalisé.

Obtenir cette formation

Prêt à orchestrer vos pipelines de données ? Rejoignez dès à présent la prochaine session ou contactez-nous pour organiser cette formation dans vos locaux.


Devis sur-mesure

S'inscrire à cette formation

Remplissez le formulaire pour obtenir plus d'informations.