Se rendre au contenu

Google Big Query

Data > Data Engineering, Architecture & Cloud


Une formation de 3 jours pour maîtriser Google BigQuery : construction de Data Lake et Data Warehouse sur GCP, pipelines de traitement par lots, exécution Spark sur Dataproc et Dataflow serverless.

La formation en 6 mots clés

Google BigQuery

GCP

Data Warehouse

Dataflow

Cloud

Data Lake

Informations Pratiques et Programme

Prérequis


Connaissance du langage SQL

Durée


3 jours

Contenu Technique de la Formation


La formation aborde les contenus techniques suivants :

  • Connaissance des outils Google de traitement des données
  • Connaissances des produits et services de calcul et de stockage Google
  • Connaissance de Datalab
  • Compréhension du fonctionnement de Big Query

Objectifs de la Formation


Les compétences visées par la formation sont les suivantes :

  • Traiter des données par lot ou par flux en mettant en oeuvre des pipelines de données sur Dataflow
  • Obtenir des insights métier à partir d’ensembles de données volumineux à l’aide de Big Query
  • Exploiter les données non structurées

Table des Matières


Construire un data lake

  • Introduction aux data lakes
  • Stockage de données et options ETL sur GCP
  • Construction d’un data lake à l’aide de Cloud Storage
  • Démonstration : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
  • Sécurisation de Cloud Storage
  • Stocker tous les types de données
  • Démonstration : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
  • Cloud SQL en tant que data lake relationnel


Construire un data warehouse

  • Le data warehouse moderne
  • Introduction à BigQuery
  • Démonstration : requêtes de Terabits de données en quelques secondes
  • Chargement de données
  • Démonstration : interroger Cloud SQL à partir de BigQuery
  • Explorer les schémas
  • Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
  • Conception de schémas
  • Champs imbriqués et répétés
  • Champs imbriqués et répétés dans BigQuery
  • Optimiser le partitionnement et le clustering
  • Démonstration : tables partitionnées et groupées dans BigQuery
  • Transformation de données par lots et en continu


Introduction à la construction de pipelines de données par lots

  • Les approches d'intégration EL, ELT et ETL (Extraction, chargement et transformation de données)
  • Les considérations de qualité
  • Comment effectuer des opérations dans BigQuery
  • Démonstration : ELT pour améliorer la qualité des données dans BigQuery
  • Les lacunes
  • ETL pour résoudre les problèmes de qualité


Exécution de Spark sur Cloud Dataproc

  • L'écosystème Hadoop
  • Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
  • Optimiser Dataproc


Traitement de données sans serveur avec Cloud Dataflow

  • Cloud Dataflow
  • Pourquoi les clients apprécient-ils Dataflow ?
  • Pipelines de flux de données
  • Templates Dataflow
  • Dataflow SQL


En Pratique


  • Les exercices proposés sont les suivants :
  • Charger une base de données dans Cloud SQL
  • Charger des données
  • Travailler avec des tableaux et des structures
  • Exécuter des jobs sur Cloud Dataproc
  • Mettre en place des pipelines de flux de données

Modalités et Inscription


Cette formation est proposée selon deux formules pour s'adapter au mieux à vos besoins :


Session régulière

Des sessions sont organisées à intervalles réguliers. Demandez les prochaines dates planifiées pour vous inscrire à la prochaine session.


Sur mesure & intra-entreprise

Vous souhaitez former vos équipes directement dans vos locaux ou adapter le programme technique à votre contexte d'entreprise ? Contactez-nous pour obtenir un devis personnalisé.

Obtenir cette formation

Prêt à exploiter Google BigQuery pour vos analyses à grande échelle ? Rejoignez la prochaine session ou contactez-nous pour organiser cette formation dans vos locaux.


Devis sur-mesure

S'inscrire à cette formation

Remplissez le formulaire pour obtenir plus d'informations.