Prérequis
Connaissances de base en bases de données et en SQL Notions générales en Big Data et traitement de données distribuées
Durée
2 jours
Contenu Technique de la Formation
La formation aborde les contenus techniques suivants :
- Introduction aux données temps réel et différences avec le batch
- Concepts fondamentaux du streaming : événements, flux, micro-batch, latence
- Présentation d’Apache Kafka : architecture, producteurs, consommateurs, topics, partitions
- Gestion de la persistance et scalabilité avec Kafka
- Présentation de Spark Streaming et Structured Streaming : micro-batch, sources, sinks
- Intégration Kafka ↔ Spark Streaming pour l’ingestion et le traitement temps réel
- Cas d’usage : monitoring, détection de fraude, IoT, analytics en direct
- Bonnes pratiques de conception, sécurité et gouvernance des flux temps réel
Objectifs de la Formation
Le traitement temps réel et le streaming sont devenus essentiels pour de nombreux cas d’usage en entreprise. Cette formation permet de comprendre les concepts du streaming, de manipuler Kafka et Spark Streaming, et de concevoir des pipelines temps réel performants. Les compétences visées par la formation sont les suivantes :
- Expliquer les différences entre traitement batch et traitement streaming
- Mettre en œuvre un cluster Kafka avec producteurs et consommateurs
- Décrire le fonctionnement de Spark Streaming et Structured Streaming
- Développer un pipeline Kafka ↔ Spark pour le traitement d’événements en temps réel
- Identifier des cas d’usage pertinents pour les données temps réel
- Appliquer des bonnes pratiques de gouvernance, sécurité et supervision dans un contexte streaming
Table des Matières
Introduction
- Notions de données batch vs données temps réel
- Enjeux et cas d’usage du streaming
Apache Kafka
- Architecture : brokers, producteurs, consommateurs
- Topics, partitions et réplication
- Persistance et tolérance aux pannes
Spark Streaming
- Concepts de micro-batch et Structured Streaming
- Sources et sinks supportés
- Gestion des fenêtres temporelles et agrégations
Intégration Kafka ↔ Spark
- Consommation des flux Kafka dans Spark
- Transformation et enrichissement en temps réel
- Restitution et exploitation des données traitées
Cas d’usage et gouvernance
- Détection de fraude et monitoring en temps réel
- IoT et capteurs connectés
- Tableaux de bord analytiques en direct
- Sécurité, gouvernance et supervision
En Pratique
- Les exercices proposés lors de la formation permettent d’illustrer les concepts et de les mettre en pratique :
- Mise en place d’un cluster Kafka et production/consommation de messages simples
- Développement d’un premier pipeline Spark Streaming consommant des données Kafka
- Mise en œuvre d’un traitement temps réel avec agrégation sur fenêtres temporelles
- Exercice IoT : ingestion d’événements simulés depuis des capteurs connectés
- Exercice récapitulatif : conception d’un pipeline complet Kafka ↔ Spark Streaming incluant ingestion, traitement et restitution
Modalités et Inscription
Cette formation est proposée selon deux formules pour s'adapter au mieux à vos besoins :
Session régulière
Des sessions sont organisées à intervalles réguliers. Demandez les prochaines dates planifiées pour vous inscrire à la prochaine session.
Sur mesure & intra-entreprise
Vous souhaitez former vos équipes directement dans vos locaux ou adapter le programme technique à votre contexte d'entreprise ? Contactez-nous pour obtenir un devis personnalisé.