Prérequis
Connaissances de base en bases de données et en SQL Notions générales en Big Data et systèmes distribués (Hadoop, Spark, etc.)
Durée
2 jours
Contenu Technique de la Formation
La formation aborde les contenus techniques suivants :
- Introduction aux tables de données massives et aux limites des formats traditionnels (Hive, parquet simple)
- Présentation d’Apache Iceberg et de ses objectifs
- Concepts fondamentaux : tables, snapshots, schémas évolutifs, partitionnement caché
- Compatibilité avec les moteurs analytiques (Spark, Trino, Flink, Presto)
- Gestion des métadonnées et performance des requêtes
- Versioning, time travel et gestion des évolutions de schémas
- Gouvernance, sécurité et bonnes pratiques d’utilisation d’Iceberg
- Cas d’usage typiques : data lakehouse, analytique en temps quasi-réel, conformité
Objectifs de la Formation
Apache Iceberg est un format de table moderne conçu pour gérer efficacement de grands volumes de données analytiques dans des environnements distribués. Cette formation permet de comprendre son architecture et de l’utiliser dans un contexte data lake ou lakehouse. Les compétences visées par la formation sont les suivantes :
- Comprendre les limites des formats de tables traditionnels et l’intérêt d’Iceberg
- Expliquer les concepts clés : snapshots, time travel, partitionnement caché
- Mettre en œuvre des requêtes sur des tables Iceberg via Spark ou Trino
- Gérer les évolutions de schémas et les versions de données avec Iceberg
- Identifier les cas d’usage adaptés à Iceberg dans un environnement data lakehouse
- Appliquer des bonnes pratiques de gouvernance et de performance avec Iceberg
Table des Matières
Introduction
- Les limites des tables traditionnelles (Hive, formats statiques)
- Contexte d’émergence d’Apache Iceberg
Concepts fondamentaux
- Tables, schémas et partitions
- Snapshots et time travel
- Partitionnement caché et évolutif
Écosystème et compatibilité
- Utilisation avec Spark
- Utilisation avec Trino/Presto
- Intégration avec Flink
Fonctionnalités avancées
- Gestion des évolutions de schémas
- Optimisation des requêtes et des métadonnées
- Sécurité, gouvernance et conformité
Cas d’usage et mise en pratique
- Lakehouse et analytique moderne
- Migration d’un format existant vers Iceberg
- Comparaison avec Delta Lake et Hudi
En Pratique
- Les exercices proposés lors de la formation permettent d’illustrer les concepts et de les mettre en pratique :
- Création d’une table Iceberg et chargement de données initiales
- Requêtes simples et explorations avec Spark SQL
- Mise en œuvre du time travel et analyse de versions passées
- Modification de schéma et gestion de l’évolution
- Exercice comparatif : exécution de requêtes sur des tables Parquet vs Iceberg
- Exercice récapitulatif : conception d’un mini projet Lakehouse avec Iceberg
Modalités et Inscription
Cette formation est proposée selon deux formules pour s'adapter au mieux à vos besoins :
Session régulière
Des sessions sont organisées à intervalles réguliers. Demandez les prochaines dates planifiées pour vous inscrire à la prochaine session.
Sur mesure & intra-entreprise
Vous souhaitez former vos équipes directement dans vos locaux ou adapter le programme technique à votre contexte d'entreprise ? Contactez-nous pour obtenir un devis personnalisé.