GCP200DE

Ingenierie des donnees sur Google Cloud

Acquerez une experience pratique dans la conception et la creation de systemes de traitement de donnees sur Google Cloud. Ce cours utilise des presentations, des demonstrations et des travaux pratiques pour vous montrer comment concevoir des systemes de traitement de donnees, creer des pipelines de donnees de bout en bout, analyser des donnees et implementer le machine learning. Ce cours couvre les donnees structurees, non structurees et en streaming.

Ce cours est compose des quatre formations suivantes :

  • Introduction a l'ingenierie des donnees sur Google Cloud
  • Construire des lacs de donnees et des entrepots de donnees avec Google Cloud
  • Construire des pipelines de donnees en batch sur Google Cloud
  • Construire des pipelines de donnees en streaming sur Google Cloud
Google Cloud
✓ Formation officielle Google CloudNiveau Intermédiaire⏱️ 4 jours (28h)

Ce que vous allez apprendre

  • Concevoir des systemes de traitement de donnees evolutifs dans Google Cloud.
  • Differencier les architectures de donnees et implementer les concepts de lakehouse et de pipelines de donnees.
  • Construire et gerer des pipelines de donnees robustes en streaming et en batch.
  • Utiliser les outils IA/ML pour optimiser les performances et obtenir des informations sur les processus et les donnees.

Prérequis

  • Comprehension des principes d'ingenierie des donnees, y compris les processus ETL/ELT, la modelisation des donnees et les formats de donnees courants (Avro, Parquet, JSON).
  • Familiarite avec les concepts d'architecture de donnees, en particulier les entrepots de donnees (Data Warehouses) et les lacs de donnees (Data Lakes).
  • Maitrise de SQL pour l'interrogation des donnees.
  • Maitrise d'un langage de programmation courant (Python recommande).
  • Familiarite avec l'utilisation des interfaces de ligne de commande (CLI).
  • Familiarite avec les concepts et services de base de Google Cloud (Compute, Storage et gestion des identites).

Public cible

  • Ingenieurs de donnees, Analystes de donnees, Architectes de donnees

Programme de la Formation

19 modules pour maîtriser les fondamentaux

Cours 1 : Introduction a l'ingenierie des donnees sur Google Cloud

Objectifs
  • Expliquer le role d'un ingenieur de donnees.
  • Comprendre les differences entre une source de donnees et un recepteur de donnees.
  • Expliquer les differents types de formats de donnees.
  • Expliquer les options de solutions de stockage sur Google Cloud.
  • Decouvrir les options de gestion des metadonnees sur Google Cloud.
  • Comprendre comment partager facilement des jeux de donnees avec Analytics Hub.
  • Comprendre comment charger des donnees dans BigQuery a l'aide de la console Google Cloud ou de la CLI gcloud.
Sujets abordés
  • →Le role d'un ingenieur de donnees
  • →Sources de donnees versus recepteurs de donnees
  • →Formats de donnees
  • →Options de solutions de stockage sur Google Cloud
  • →Options de gestion des metadonnees sur Google Cloud
  • →Partage de jeux de donnees avec Analytics Hub
Activités

Lab : Chargement de donnees dans BigQuery

Quiz

Objectifs
  • Expliquer l'architecture de base de replication et de migration de donnees de Google Cloud.
  • Comprendre les options et les cas d'utilisation de l'outil de ligne de commande gcloud.
  • Expliquer la fonctionnalite et les cas d'utilisation de Storage Transfer Service.
  • Expliquer la fonctionnalite et les cas d'utilisation de Transfer Appliance.
  • Comprendre les fonctionnalites et le deploiement de Datastream.
Sujets abordés
  • →Architecture de replication et de migration
  • →L'outil de ligne de commande gcloud
  • →Deplacement de jeux de donnees
  • →Datastream
Objectifs
  • Expliquer le schema d'architecture de base d'extraction et de chargement.
  • Comprendre les options de l'outil de ligne de commande bq.
  • Expliquer la fonctionnalite et les cas d'utilisation du service de transfert de donnees BigQuery.
  • Expliquer la fonctionnalite et les cas d'utilisation de BigLake en tant que modele sans extraction-chargement.
Sujets abordés
  • →Architecture d'extraction et de chargement
  • →L'outil de ligne de commande bq
  • →Service de transfert de donnees BigQuery
  • →BigLake
Activités

Lab : BigLake : Demarrage rapide

Quiz

Objectifs
  • Expliquer le schema d'architecture de base d'extraction, de chargement et de transformation.
  • Comprendre un pipeline ELT courant sur Google Cloud.
  • Decouvrir les capacites de scripting SQL et de planification de BigQuery.
  • Expliquer la fonctionnalite et les cas d'utilisation de Dataform.
Sujets abordés
  • →Architecture d'extraction, de chargement et de transformation (ELT)
  • →Scripting SQL et planification avec BigQuery
  • →Dataform
Activités

Lab : Creer et executer un workflow SQL dans Dataform

Quiz

Objectifs
  • Expliquer le schema d'architecture de base d'extraction, de transformation et de chargement.
  • Decouvrir les outils d'interface graphique sur Google Cloud utilises pour les pipelines de donnees ETL.
  • Expliquer le traitement des donnees en batch avec Dataproc.
  • Apprendre a utiliser Dataproc Serverless pour Spark pour l'ETL.
  • Expliquer les options de traitement des donnees en streaming.
  • Expliquer le role que joue Bigtable dans les pipelines de donnees.
Sujets abordés
  • →Architecture d'extraction, de transformation et de chargement (ETL)
  • →Outils d'interface graphique Google Cloud pour les pipelines de donnees ETL
  • →Traitement de donnees en batch avec Dataproc
  • →Options de traitement de donnees en streaming
  • →Bigtable et pipelines de donnees
Activités

Lab : Utiliser Dataproc Serverless pour Spark pour charger BigQuery (optionnel)

Lab : Creer un pipeline de donnees en streaming pour un tableau de bord en temps reel avec Dataflow

Quiz

Objectifs
  • Expliquer les modeles d'automatisation et les options disponibles pour les pipelines.
  • Decouvrir Cloud Scheduler et Workflows.
  • Decouvrir Cloud Composer.
  • Decouvrir Cloud Run Functions.
  • Expliquer la fonctionnalite et les cas d'utilisation d'automatisation pour Eventarc.
Sujets abordés
  • →Modeles d'automatisation et options pour les pipelines
  • →Cloud Scheduler et Workflows
  • →Cloud Composer
  • →Cloud Run Functions
  • →Eventarc
Activités

Lab : Utiliser Cloud Run Functions pour charger BigQuery (optionnel)

Quiz

Cours 2 : Construire des lacs de donnees et des entrepots de donnees avec Google Cloud

Objectifs
  • Comparer et contraster les architectures de lac de donnees, d'entrepot de donnees et de lakehouse de donnees.
  • Evaluer les avantages de l'approche lakehouse.
Sujets abordés
  • →Les classiques : Lacs de donnees et entrepots de donnees
  • →L'approche moderne : Data lakehouse
  • →Choisir la bonne architecture
Activités

Quiz

Objectifs
  • Discuter des options de stockage de donnees, y compris Cloud Storage pour les fichiers, les formats de table ouverts comme Apache Iceberg, BigQuery pour les donnees analytiques et AlloyDB pour les donnees operationnelles.
  • Comprendre le role d'AlloyDB pour les cas d'utilisation de donnees operationnelles.
Sujets abordés
  • →Construire une fondation de lac de donnees
  • →Introduction au format de table ouvert Apache Iceberg
  • →BigQuery comme moteur de traitement central
  • →Combiner les donnees operationnelles dans AlloyDB
  • →Combiner les donnees operationnelles et analytiques avec les requetes federees
  • →Cas d'utilisation reel
Activités

Quiz

Lab : Requete federee avec BigQuery

Objectifs
  • Expliquer pourquoi BigQuery est une solution d'entreposage de donnees evolutive sur Google Cloud.
  • Discuter des concepts de base de BigQuery.
  • Comprendre le role de BigLake dans la creation d'une architecture lakehouse unifiee et son integration avec BigQuery pour les donnees externes.
  • Apprendre comment BigQuery interagit nativement avec les tables Apache Iceberg via BigLake.
Sujets abordés
  • →Fondamentaux de BigQuery
  • →Partitionnement et clustering dans BigQuery
  • →Introduction a BigLake et aux tables externes
Activités

Quiz

Lab : Interroger des donnees externes et des tables Iceberg

Objectifs
  • Implementer des pratiques robustes de gouvernance et de securite des donnees sur la plateforme de donnees unifiee, y compris la protection des donnees sensibles et la gestion des metadonnees.
  • Explorer l'analytique avancee et le machine learning directement sur les donnees du lakehouse.
Sujets abordés
  • →Gouvernance et securite des donnees dans une plateforme unifiee
  • →Demo : Prevention de la perte de donnees
  • →Analytique et machine learning sur le lakehouse
  • →Architectures lakehouse reelles et strategies de migration
Activités

Quiz

Objectifs
  • Renforcer les principes fondamentaux de la plateforme de donnees de Google Cloud.
Sujets abordés
  • →Revision
  • →Bonnes pratiques
Activités

Lab : Demarrer avec BigQuery ML

Lab : Recherche vectorielle avec BigQuery

Cours 3 : Construire des pipelines de donnees en batch sur Google Cloud

Objectifs
  • Expliquer le role critique d'un ingenieur de donnees dans le developpement et la maintenance des pipelines de donnees en batch.
  • Decrire les composants de base et le cycle de vie typique des pipelines de donnees en batch, de l'ingestion a la consommation en aval.
  • Analyser les defis courants du traitement de donnees en batch, tels que le volume de donnees, la qualite, la complexite et la fiabilite, et identifier les services Google Cloud cles qui peuvent les resoudre.
Sujets abordés
  • →Pipelines de donnees en batch et leurs cas d'utilisation
  • →Traitement et defis courants
Activités

Quiz

Objectifs
  • Concevoir des pipelines de donnees en batch evolutifs pour l'ingestion et la transformation de donnees a haut volume.
  • Optimiser les jobs en batch pour un haut debit et une efficacite des couts en utilisant diverses techniques de gestion des ressources et d'ajustement des performances.
Sujets abordés
  • →Concevoir des pipelines en batch
  • →Transformations de donnees a grande echelle
  • →Dataflow et Serverless pour Apache Spark
  • →Connexions de donnees et orchestration
  • →Executer un pipeline Apache Spark
  • →Optimiser les performances des pipelines en batch
Activités

Quiz

Lab : Construire un pipeline de donnees en batch simple avec Serverless pour Apache Spark (optionnel)

Lab : Construire un pipeline de donnees en batch simple avec l'interface Dataflow Job Builder (optionnel)

Objectifs
  • Developper des regles de validation des donnees et une logique de nettoyage pour assurer la qualite des donnees dans les pipelines en batch.
  • Implementer des strategies pour gerer l'evolution des schemas et effectuer la deduplication des donnees dans les grands jeux de donnees.
Sujets abordés
  • →Validation et nettoyage des donnees en batch
  • →Journaliser et analyser les erreurs
  • →Evolution des schemas pour les pipelines en batch
  • →Integrite des donnees et duplication
  • →Deduplication avec Serverless pour Apache Spark
  • →Deduplication avec Dataflow
Activités

Lab : Valider la qualite des donnees dans un pipeline en batch avec Serverless pour Apache Spark (optionnel)

Quiz

Objectifs
  • Orchestrer des workflows de pipelines de donnees en batch complexes pour une planification efficace et un suivi de lignage.
  • Implementer une gestion robuste des erreurs, une surveillance et une observabilite pour les pipelines de donnees en batch.
Sujets abordés
  • →Orchestration pour le traitement en batch
  • →Cloud Composer
  • →Observabilite unifiee
  • →Alertes et depannage
  • →Gestion visuelle des pipelines
Activités

Lab : Construire des pipelines en batch dans Cloud Data Fusion

Quiz

Cours 4 : Construire des pipelines de donnees en streaming sur Google Cloud

Objectifs
  • Introduire les objectifs d'apprentissage du cours et le scenario qui sera utilise pour apporter un apprentissage pratique a la construction de pipelines de donnees en streaming.
  • Decrire le concept de pipelines de donnees en streaming, les defis associes et le role de ces pipelines dans le processus d'ingenierie des donnees.
Sujets abordés
  • →Objectifs d'apprentissage du cours
  • →Prerequis du cours
  • →Le cas d'utilisation
  • →A propos de l'entreprise
  • →Le defi
  • →La mission
Objectifs
  • Comprendre les differents cas d'utilisation du streaming et leurs applications, y compris le Streaming ETL, le Streaming IA/ML, les applications de streaming et le Reverse ETL.
  • Identifier et decrire les architectures types courantes pour les donnees en streaming, y compris le Streaming ETL, le Streaming IA/ML, les applications de streaming et le Reverse ETL.
Sujets abordés
  • →Introduction aux pipelines de donnees en streaming sur Google Cloud
  • →Streaming ETL
  • →Streaming IA/ML
  • →Applications de streaming
  • →Reverse ETL
Activités

Quiz

Objectifs
  • Pub/Sub et Managed Service for Apache Kafka : Definir les concepts de messagerie, savoir quand utiliser Pub/Sub ou Managed Service for Apache Kafka.
  • Dataflow : Decrire le service et les defis avec les donnees en streaming, construire et deployer un pipeline de streaming.
  • BigQuery : Explorer les differentes methodes d'ingestion de donnees, utiliser les requetes continues BigQuery, BigQuery ETL et le reverse ETL, configurer le streaming Pub/Sub vers BigQuery, architecturer les pipelines de streaming BigQuery.
  • Bigtable : Decrire la vue d'ensemble du mouvement et de l'interaction des donnees, etablir un pipeline de streaming de Dataflow vers Bigtable, analyser le flux de donnees continu Bigtable pour les tendances avec BigQuery, synchroniser l'analyse des tendances dans l'application utilisateur.
Sujets abordés
  • →Comprendre les produits
  • →Considerations architecturales pour Pub/Sub et Managed Service for Apache Kafka
  • →Dataflow : Le moteur de traitement puissant
  • →BigQuery : Le moteur analytique
  • →Bigtable : La solution pour les donnees operationnelles
Activités

Lab : Streamer des donnees avec des pipelines - Cas d'utilisation Esports (optionnel)

Quiz

Lab : Utiliser Apache Beam et Bigtable pour enrichir les donnees de contenu telechargeables (DLC) esports

Quiz

Lab : Streamer des donnees e-sports avec Pub/Sub et BigQuery

Quiz

Lab : Surveiller le chat e-sports avec Streamlit

Quiz

Sujets abordés
  • →Ce que vous avez accompli
  • →Prochaines etapes

Processus Qualité

L'engagement de SFEIR Institute : une démarche d'excellence pour garantir la qualité et la réussite de toutes nos formations. En savoir plus sur notre démarche qualité

Méthodes pédagogiques mobilisées
  • Lectures / Apports thĂ©oriques (Slides) — PrĂ©sentation de concepts via des supports visuels (PowerPoint, PDF).
  • DĂ©monstration technique (DĂ©mos) — Le formateur rĂ©alise une manipulation ou une procĂ©dure devant les apprenants.
  • Laboratoires dirigĂ©s (Labs) — Mise en pratique guidĂ©e sur logiciel, machine ou environnement technique.
  • Quiz / QCM — Test rapide de connaissances (format papier ou numĂ©rique type Kahoot/Klaxoon).
Dispositif d'évaluation et de suivi

L'atteinte des objectifs de la formation est évaluée à plusieurs niveaux pour garantir la qualité de la prestation :

  • Évaluation continue des acquis : VĂ©rification des connaissances tout au long de la formation via des mĂ©thodes participatives (en fonction de la formation: quiz, exercices pratiques, mises en situation) sous la supervision du formateur.
  • Mesure de la progression : Dispositif d'auto-Ă©valuation comparatif comprenant un diagnostic initial pour situer le niveau de dĂ©part, suivi d'une Ă©valuation finale pour valider l'Ă©volution des compĂ©tences.
  • Évaluation de la qualitĂ© : Questionnaire de satisfaction en fin de session pour mesurer la pertinence et l'efficacitĂ© de la formation ressentie par les participants.

Prochaines sessions

9 février 2026
Distanciel • Français
S'inscrire
27 avril 2026
Distanciel • Français
S'inscrire
29 juin 2026
Distanciel • Français
S'inscrire
31 août 2026
Distanciel • Français
S'inscrire
26 octobre 2026
Distanciel • Français
S'inscrire
14 décembre 2026
Distanciel • Français
S'inscrire

3 160€ € HT

par apprenant