Prérequis
Connaissance du langage SQL
Durée
3 jours
Contenu Technique de la Formation
La formation aborde les contenus techniques suivants :
- Connaissance des outils Google de traitement des données
- Connaissances des produits et services de calcul et de stockage Google
- Connaissance de Datalab
- Compréhension du fonctionnement de Big Query
Objectifs de la Formation
Les compétences visées par la formation sont les suivantes :
- Traiter des données par lot ou par flux en mettant en oeuvre des pipelines de données sur Dataflow
- Obtenir des insights métier à partir d’ensembles de données volumineux à l’aide de Big Query
- Exploiter les données non structurées
Table des Matières
Construire un data lake
- Introduction aux data lakes
- Stockage de données et options ETL sur GCP
- Construction d’un data lake à l’aide de Cloud Storage
- Démonstration : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
- Sécurisation de Cloud Storage
- Stocker tous les types de données
- Démonstration : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
- Cloud SQL en tant que data lake relationnel
Construire un data warehouse
- Le data warehouse moderne
- Introduction à BigQuery
- Démonstration : requêtes de Terabits de données en quelques secondes
- Chargement de données
- Démonstration : interroger Cloud SQL à partir de BigQuery
- Explorer les schémas
- Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
- Conception de schémas
- Champs imbriqués et répétés
- Champs imbriqués et répétés dans BigQuery
- Optimiser le partitionnement et le clustering
- Démonstration : tables partitionnées et groupées dans BigQuery
- Transformation de données par lots et en continu
Introduction à la construction de pipelines de données par lots
- Les approches d'intégration EL, ELT et ETL (Extraction, chargement et transformation de données)
- Les considérations de qualité
- Comment effectuer des opérations dans BigQuery
- Démonstration : ELT pour améliorer la qualité des données dans BigQuery
- Les lacunes
- ETL pour résoudre les problèmes de qualité
Exécution de Spark sur Cloud Dataproc
- L'écosystème Hadoop
- Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
- Optimiser Dataproc
Traitement de données sans serveur avec Cloud Dataflow
- Cloud Dataflow
- Pourquoi les clients apprécient-ils Dataflow ?
- Pipelines de flux de données
- Templates Dataflow
- Dataflow SQL
En Pratique
- Les exercices proposés sont les suivants :
- Charger une base de données dans Cloud SQL
- Charger des données
- Travailler avec des tableaux et des structures
- Exécuter des jobs sur Cloud Dataproc
- Mettre en place des pipelines de flux de données
Modalités et Inscription
Cette formation est proposée selon deux formules pour s'adapter au mieux à vos besoins :
Session régulière
Des sessions sont organisées à intervalles réguliers. Demandez les prochaines dates planifiées pour vous inscrire à la prochaine session.
Sur mesure & intra-entreprise
Vous souhaitez former vos équipes directement dans vos locaux ou adapter le programme technique à votre contexte d'entreprise ? Contactez-nous pour obtenir un devis personnalisé.