Google Big Query

Data > Data Engineering, Architecture & Cloud

Une formation de 3 jours pour maîtriser Google BigQuery : construction de Data Lake et Data Warehouse sur GCP, pipelines de traitement par lots, exécution Spark sur Dataproc et Dataflow serverless.

Organiser dans vos locaux

S'inscrire

La formation en 6 mots clés

Google BigQuery

GCP

Data Warehouse

Dataflow

Cloud

Data Lake

Informations Pratiques et Programme

Prérequis

Connaissance du langage SQL

Durée

3 jours

Contenu Technique de la Formation

La formation aborde les contenus techniques suivants :

Connaissance des outils Google de traitement des données
Connaissances des produits et services de calcul et de stockage Google
Connaissance de Datalab
Compréhension du fonctionnement de Big Query

Objectifs de la Formation

Les compétences visées par la formation sont les suivantes :

Traiter des données par lot ou par flux en mettant en oeuvre des pipelines de données sur Dataflow
Obtenir des insights métier à partir d’ensembles de données volumineux à l’aide de Big Query
Exploiter les données non structurées

Table des Matières

Construire un data lake

Introduction aux data lakes
Stockage de données et options ETL sur GCP
Construction d’un data lake à l’aide de Cloud Storage
Démonstration : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
Sécurisation de Cloud Storage
Stocker tous les types de données
Démonstration : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
Cloud SQL en tant que data lake relationnel

Construire un data warehouse

Le data warehouse moderne
Introduction à BigQuery
Démonstration : requêtes de Terabits de données en quelques secondes
Chargement de données
Démonstration : interroger Cloud SQL à partir de BigQuery
Explorer les schémas
Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
Conception de schémas
Champs imbriqués et répétés
Champs imbriqués et répétés dans BigQuery
Optimiser le partitionnement et le clustering
Démonstration : tables partitionnées et groupées dans BigQuery
Transformation de données par lots et en continu

Introduction à la construction de pipelines de données par lots

Les approches d'intégration EL, ELT et ETL (Extraction, chargement et transformation de données)
Les considérations de qualité
Comment effectuer des opérations dans BigQuery
Démonstration : ELT pour améliorer la qualité des données dans BigQuery
Les lacunes
ETL pour résoudre les problèmes de qualité

Exécution de Spark sur Cloud Dataproc

L'écosystème Hadoop
Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
Optimiser Dataproc

Traitement de données sans serveur avec Cloud Dataflow

Cloud Dataflow
Pourquoi les clients apprécient-ils Dataflow ?
Pipelines de flux de données
Templates Dataflow
Dataflow SQL

En Pratique

Les exercices proposés sont les suivants :
Charger une base de données dans Cloud SQL
Charger des données
Travailler avec des tableaux et des structures
Exécuter des jobs sur Cloud Dataproc
Mettre en place des pipelines de flux de données

Modalités et Inscription

Cette formation est proposée selon deux formules pour s'adapter au mieux à vos besoins :

Session régulière

Des sessions sont organisées à intervalles réguliers. Demandez les prochaines dates planifiées pour vous inscrire à la prochaine session.

Sur mesure & intra-entreprise

Vous souhaitez former vos équipes directement dans vos locaux ou adapter le programme technique à votre contexte d'entreprise ? Contactez-nous pour obtenir un devis personnalisé.

Obtenir cette formation

Prêt à exploiter Google BigQuery pour vos analyses à grande échelle ? Rejoignez la prochaine session ou contactez-nous pour organiser cette formation dans vos locaux.

Devis sur-mesure

contact@bstorm.be · +32 (0) 10 24 71 10

S'inscrire à cette formation

Remplissez le formulaire pour obtenir plus d'informations.