GCP200DE

Ingenierie des donnees sur Google Cloud

Acquerez une experience pratique dans la conception et la creation de systemes de traitement de donnees sur Google Cloud. Ce cours utilise des presentations, des demonstrations et des travaux pratiques pour vous montrer comment concevoir des systemes de traitement de donnees, creer des pipelines de donnees de bout en bout, analyser des donnees et implementer le machine learning. Ce cours couvre les donnees structurees, non structurees et en streaming.

Ce cours est compose des quatre formations suivantes :

Introduction a l'ingenierie des donnees sur Google Cloud
Construire des lacs de donnees et des entrepots de donnees avec Google Cloud
Construire des pipelines de donnees en batch sur Google Cloud
Construire des pipelines de donnees en streaming sur Google Cloud

✓ Formation officielle Google CloudNiveau Intermédiaire⏱️ 4 jours (28h)

Ce que vous allez apprendre

Concevoir des systemes de traitement de donnees evolutifs dans Google Cloud.
Differencier les architectures de donnees et implementer les concepts de lakehouse et de pipelines de donnees.
Construire et gerer des pipelines de donnees robustes en streaming et en batch.
Utiliser les outils IA/ML pour optimiser les performances et obtenir des informations sur les processus et les donnees.

Prérequis

Comprehension des principes d'ingenierie des donnees, y compris les processus ETL/ELT, la modelisation des donnees et les formats de donnees courants (Avro, Parquet, JSON).
Familiarite avec les concepts d'architecture de donnees, en particulier les entrepots de donnees (Data Warehouses) et les lacs de donnees (Data Lakes).
Maitrise de SQL pour l'interrogation des donnees.
Maitrise d'un langage de programmation courant (Python recommande).
Familiarite avec l'utilisation des interfaces de ligne de commande (CLI).
Familiarite avec les concepts et services de base de Google Cloud (Compute, Storage et gestion des identites).

Public cible

Ingenieurs de donnees, Analystes de donnees, Architectes de donnees

Programme de la Formation

19 modules pour maîtriser les fondamentaux

Cours 1 : Introduction a l'ingenierie des donnees sur Google Cloud

Objectifs

Expliquer le role d'un ingenieur de donnees.
Comprendre les differences entre une source de donnees et un recepteur de donnees.
Expliquer les differents types de formats de donnees.
Expliquer les options de solutions de stockage sur Google Cloud.
Decouvrir les options de gestion des metadonnees sur Google Cloud.
Comprendre comment partager facilement des jeux de donnees avec Analytics Hub.
Comprendre comment charger des donnees dans BigQuery a l'aide de la console Google Cloud ou de la CLI gcloud.

Sujets abordés

→Le role d'un ingenieur de donnees
→Sources de donnees versus recepteurs de donnees
→Formats de donnees
→Options de solutions de stockage sur Google Cloud
→Options de gestion des metadonnees sur Google Cloud
→Partage de jeux de donnees avec Analytics Hub

Activités

Lab : Chargement de donnees dans BigQuery

Quiz

Objectifs

Expliquer l'architecture de base de replication et de migration de donnees de Google Cloud.
Comprendre les options et les cas d'utilisation de l'outil de ligne de commande gcloud.
Expliquer la fonctionnalite et les cas d'utilisation de Storage Transfer Service.
Expliquer la fonctionnalite et les cas d'utilisation de Transfer Appliance.
Comprendre les fonctionnalites et le deploiement de Datastream.

Sujets abordés

→Architecture de replication et de migration
→L'outil de ligne de commande gcloud
→Deplacement de jeux de donnees
→Datastream

Objectifs

Expliquer le schema d'architecture de base d'extraction et de chargement.
Comprendre les options de l'outil de ligne de commande bq.
Expliquer la fonctionnalite et les cas d'utilisation du service de transfert de donnees BigQuery.
Expliquer la fonctionnalite et les cas d'utilisation de BigLake en tant que modele sans extraction-chargement.

Sujets abordés

→Architecture d'extraction et de chargement
→L'outil de ligne de commande bq
→Service de transfert de donnees BigQuery
→BigLake

Activités

Lab : BigLake : Demarrage rapide

Quiz

Objectifs

Expliquer le schema d'architecture de base d'extraction, de chargement et de transformation.
Comprendre un pipeline ELT courant sur Google Cloud.
Decouvrir les capacites de scripting SQL et de planification de BigQuery.
Expliquer la fonctionnalite et les cas d'utilisation de Dataform.

Sujets abordés

→Architecture d'extraction, de chargement et de transformation (ELT)
→Scripting SQL et planification avec BigQuery
→Dataform

Activités

Lab : Creer et executer un workflow SQL dans Dataform

Quiz

Objectifs

Expliquer le schema d'architecture de base d'extraction, de transformation et de chargement.
Decouvrir les outils d'interface graphique sur Google Cloud utilises pour les pipelines de donnees ETL.
Expliquer le traitement des donnees en batch avec Dataproc.
Apprendre a utiliser Dataproc Serverless pour Spark pour l'ETL.
Expliquer les options de traitement des donnees en streaming.
Expliquer le role que joue Bigtable dans les pipelines de donnees.

Sujets abordés

→Architecture d'extraction, de transformation et de chargement (ETL)
→Outils d'interface graphique Google Cloud pour les pipelines de donnees ETL
→Traitement de donnees en batch avec Dataproc
→Options de traitement de donnees en streaming
→Bigtable et pipelines de donnees

Activités

Lab : Utiliser Dataproc Serverless pour Spark pour charger BigQuery (optionnel)

Lab : Creer un pipeline de donnees en streaming pour un tableau de bord en temps reel avec Dataflow

Quiz

Objectifs

Expliquer les modeles d'automatisation et les options disponibles pour les pipelines.
Decouvrir Cloud Scheduler et Workflows.
Decouvrir Cloud Composer.
Decouvrir Cloud Run Functions.
Expliquer la fonctionnalite et les cas d'utilisation d'automatisation pour Eventarc.

Sujets abordés

→Modeles d'automatisation et options pour les pipelines
→Cloud Scheduler et Workflows
→Cloud Composer
→Cloud Run Functions
→Eventarc

Activités

Lab : Utiliser Cloud Run Functions pour charger BigQuery (optionnel)

Quiz

Cours 2 : Construire des lacs de donnees et des entrepots de donnees avec Google Cloud

Objectifs

Comparer et contraster les architectures de lac de donnees, d'entrepot de donnees et de lakehouse de donnees.
Evaluer les avantages de l'approche lakehouse.

Sujets abordés

→Les classiques : Lacs de donnees et entrepots de donnees
→L'approche moderne : Data lakehouse
→Choisir la bonne architecture

Activités

Quiz

Objectifs

Discuter des options de stockage de donnees, y compris Cloud Storage pour les fichiers, les formats de table ouverts comme Apache Iceberg, BigQuery pour les donnees analytiques et AlloyDB pour les donnees operationnelles.
Comprendre le role d'AlloyDB pour les cas d'utilisation de donnees operationnelles.

Sujets abordés

→Construire une fondation de lac de donnees
→Introduction au format de table ouvert Apache Iceberg
→BigQuery comme moteur de traitement central
→Combiner les donnees operationnelles dans AlloyDB
→Combiner les donnees operationnelles et analytiques avec les requetes federees
→Cas d'utilisation reel

Activités

Quiz

Lab : Requete federee avec BigQuery

Objectifs

Expliquer pourquoi BigQuery est une solution d'entreposage de donnees evolutive sur Google Cloud.
Discuter des concepts de base de BigQuery.
Comprendre le role de BigLake dans la creation d'une architecture lakehouse unifiee et son integration avec BigQuery pour les donnees externes.
Apprendre comment BigQuery interagit nativement avec les tables Apache Iceberg via BigLake.

Sujets abordés

→Fondamentaux de BigQuery
→Partitionnement et clustering dans BigQuery
→Introduction a BigLake et aux tables externes

Activités

Quiz

Lab : Interroger des donnees externes et des tables Iceberg

Objectifs

Implementer des pratiques robustes de gouvernance et de securite des donnees sur la plateforme de donnees unifiee, y compris la protection des donnees sensibles et la gestion des metadonnees.
Explorer l'analytique avancee et le machine learning directement sur les donnees du lakehouse.

Sujets abordés

→Gouvernance et securite des donnees dans une plateforme unifiee
→Demo : Prevention de la perte de donnees
→Analytique et machine learning sur le lakehouse
→Architectures lakehouse reelles et strategies de migration

Activités

Quiz

Objectifs

Renforcer les principes fondamentaux de la plateforme de donnees de Google Cloud.

Sujets abordés

→Revision
→Bonnes pratiques

Activités

Lab : Demarrer avec BigQuery ML

Lab : Recherche vectorielle avec BigQuery

Cours 3 : Construire des pipelines de donnees en batch sur Google Cloud

Objectifs

Expliquer le role critique d'un ingenieur de donnees dans le developpement et la maintenance des pipelines de donnees en batch.
Decrire les composants de base et le cycle de vie typique des pipelines de donnees en batch, de l'ingestion a la consommation en aval.
Analyser les defis courants du traitement de donnees en batch, tels que le volume de donnees, la qualite, la complexite et la fiabilite, et identifier les services Google Cloud cles qui peuvent les resoudre.

Sujets abordés

→Pipelines de donnees en batch et leurs cas d'utilisation
→Traitement et defis courants

Activités

Quiz

Objectifs

Concevoir des pipelines de donnees en batch evolutifs pour l'ingestion et la transformation de donnees a haut volume.
Optimiser les jobs en batch pour un haut debit et une efficacite des couts en utilisant diverses techniques de gestion des ressources et d'ajustement des performances.

Sujets abordés

→Concevoir des pipelines en batch
→Transformations de donnees a grande echelle
→Dataflow et Serverless pour Apache Spark
→Connexions de donnees et orchestration
→Executer un pipeline Apache Spark
→Optimiser les performances des pipelines en batch

Activités

Quiz

Lab : Construire un pipeline de donnees en batch simple avec Serverless pour Apache Spark (optionnel)

Lab : Construire un pipeline de donnees en batch simple avec l'interface Dataflow Job Builder (optionnel)

Objectifs

Developper des regles de validation des donnees et une logique de nettoyage pour assurer la qualite des donnees dans les pipelines en batch.
Implementer des strategies pour gerer l'evolution des schemas et effectuer la deduplication des donnees dans les grands jeux de donnees.

Sujets abordés

→Validation et nettoyage des donnees en batch
→Journaliser et analyser les erreurs
→Evolution des schemas pour les pipelines en batch
→Integrite des donnees et duplication
→Deduplication avec Serverless pour Apache Spark
→Deduplication avec Dataflow

Activités

Lab : Valider la qualite des donnees dans un pipeline en batch avec Serverless pour Apache Spark (optionnel)

Quiz

Objectifs

Orchestrer des workflows de pipelines de donnees en batch complexes pour une planification efficace et un suivi de lignage.
Implementer une gestion robuste des erreurs, une surveillance et une observabilite pour les pipelines de donnees en batch.

Sujets abordés

→Orchestration pour le traitement en batch
→Cloud Composer
→Observabilite unifiee
→Alertes et depannage
→Gestion visuelle des pipelines

Activités

Lab : Construire des pipelines en batch dans Cloud Data Fusion

Quiz

Cours 4 : Construire des pipelines de donnees en streaming sur Google Cloud

Objectifs

Introduire les objectifs d'apprentissage du cours et le scenario qui sera utilise pour apporter un apprentissage pratique a la construction de pipelines de donnees en streaming.
Decrire le concept de pipelines de donnees en streaming, les defis associes et le role de ces pipelines dans le processus d'ingenierie des donnees.

Sujets abordés

→Objectifs d'apprentissage du cours
→Prerequis du cours
→Le cas d'utilisation
→A propos de l'entreprise
→Le defi
→La mission

Objectifs

Comprendre les differents cas d'utilisation du streaming et leurs applications, y compris le Streaming ETL, le Streaming IA/ML, les applications de streaming et le Reverse ETL.
Identifier et decrire les architectures types courantes pour les donnees en streaming, y compris le Streaming ETL, le Streaming IA/ML, les applications de streaming et le Reverse ETL.

Sujets abordés

→Introduction aux pipelines de donnees en streaming sur Google Cloud
→Streaming ETL
→Streaming IA/ML
→Applications de streaming
→Reverse ETL

Activités

Quiz

Objectifs

Pub/Sub et Managed Service for Apache Kafka : Definir les concepts de messagerie, savoir quand utiliser Pub/Sub ou Managed Service for Apache Kafka.
Dataflow : Decrire le service et les defis avec les donnees en streaming, construire et deployer un pipeline de streaming.
BigQuery : Explorer les differentes methodes d'ingestion de donnees, utiliser les requetes continues BigQuery, BigQuery ETL et le reverse ETL, configurer le streaming Pub/Sub vers BigQuery, architecturer les pipelines de streaming BigQuery.
Bigtable : Decrire la vue d'ensemble du mouvement et de l'interaction des donnees, etablir un pipeline de streaming de Dataflow vers Bigtable, analyser le flux de donnees continu Bigtable pour les tendances avec BigQuery, synchroniser l'analyse des tendances dans l'application utilisateur.

Sujets abordés

→Comprendre les produits
→Considerations architecturales pour Pub/Sub et Managed Service for Apache Kafka
→Dataflow : Le moteur de traitement puissant
→BigQuery : Le moteur analytique
→Bigtable : La solution pour les donnees operationnelles

Activités

Lab : Streamer des donnees avec des pipelines - Cas d'utilisation Esports (optionnel)

Quiz

Lab : Utiliser Apache Beam et Bigtable pour enrichir les donnees de contenu telechargeables (DLC) esports

Quiz

Lab : Streamer des donnees e-sports avec Pub/Sub et BigQuery

Quiz

Lab : Surveiller le chat e-sports avec Streamlit

Quiz

Sujets abordés

→Ce que vous avez accompli
→Prochaines etapes

Formations associées

Best

dbt

Apprenez à transformer vos données avec dbt, l'outil de référence du Modern Data Stack. Vous commencerez par comprendre l'évolution des architectures data et la différence entre ETL et ELT. Vous installerez dbt, créerez votre premier projet et le connecterez à vos sources de données. Vous apprendrez ensuite à construire des modèles de données structurés, à choisir les bonnes options de matérialisation (table, view, incremental) et à organiser vos métadonnées avec les tags. Vous découvrirez comment référencer vos sources et gérer les dépendances entre modèles. Vous explorerez les fonctionnalités avancées : seeds pour initialiser vos données de référence, snapshots pour suivre l'historique et gérer les dimensions à évolution lente, macros Jinja et variables pour automatiser vos transformations. Enfin, vous mettrez en place des tests automatisés pour garantir la qualité de vos données, documenterez vos modèles avec le lineage, et découvrirez les packages de la communauté dbt. Formation pratique avec 60% de labs.

2 j

Fondamental

Introduction à l'Analyse de Données sur Google Cloud

Ce cours est une introduction à l'analyse de données sur Google Cloud. Il est conçu pour les apprenants qui n'ont aucune expérience préalable de l'analyse de données ou de Google Cloud. Le cours couvre les bases de l'analyse de données, y compris la collecte, le stockage, l'exploration, la visualisation et le partage. Il présente également aux apprenants les outils et services d'analyse de données de Google Cloud. À travers des conférences vidéo, des démos, des quiz et des travaux pratiques, le cours montre comment passer des données brutes à des visualisations et des tableaux de bord percutants.

1 j

Fondamental

Introduction à l'ingénierie des données sur Google Cloud

Dans ce cours, vous découvrirez l'ingénierie des données sur Google Cloud, les rôles et responsabilités des ingénieurs de données, et comment ceux-ci correspondent aux offres fournies par Google Cloud. Vous apprendrez également des manières de relever les défis de l'ingénierie des données.

1 j

Fondamental

Voir toutes les formations →

Prochaines sessions

27 avril 2026

Distanciel • Français

S'inscrire

29 juin 2026

Distanciel • Français

S'inscrire

31 août 2026

Distanciel • Français

S'inscrire

26 octobre 2026

Distanciel • Français

S'inscrire

14 décembre 2026

Distanciel • Français

S'inscrire

Processus Qualité

L'engagement de SFEIR Institute : une démarche d'excellence pour garantir la qualité et la réussite de toutes nos formations. En savoir plus sur notre démarche qualité

Méthodes pédagogiques mobilisées

Lectures / Apports théoriques (Slides) — Présentation de concepts via des supports visuels (PowerPoint, PDF).
Démonstration technique (Démos) — Le formateur réalise une manipulation ou une procédure devant les apprenants.
Laboratoires dirigés (Labs) — Mise en pratique guidée sur logiciel, machine ou environnement technique.
Quiz / QCM — Test rapide de connaissances (format papier ou numérique type Kahoot/Klaxoon).

Dispositif d'évaluation et de suivi

L'atteinte des objectifs de la formation est évaluée à plusieurs niveaux pour garantir la qualité de la prestation :

Évaluation continue des acquis : Vérification des connaissances tout au long de la formation via des méthodes participatives (en fonction de la formation: quiz, exercices pratiques, mises en situation) sous la supervision du formateur.
Mesure de la progression : Dispositif d'auto-évaluation comparatif comprenant un diagnostic initial pour situer le niveau de départ, suivi d'une évaluation finale pour valider l'évolution des compétences.
Évaluation de la qualité : Questionnaire de satisfaction en fin de session pour mesurer la pertinence et l'efficacité de la formation ressentie par les participants.

Inscription

3 160 € HT par apprenant

Réserver une place

Former plusieurs collaborateurs

Tarifs dégressifs (plusieurs places)
Session privée ou sur-mesure
En présentiel ou à distance

Demander un devis

3 160€ € HT

par apprenant

Réserver Devis

Ingenierie des donnees sur Google Cloud

Ce que vous allez apprendre

Prérequis

Public cible

Programme de la Formation

Cours 1 : Introduction a l'ingenierie des donnees sur Google Cloud

Taches et composants de l'ingenierie des donnees

Objectifs

Sujets abordés

Activités

Replication et migration de donnees

Objectifs

Sujets abordés

Le modele de pipeline de donnees d'extraction et de chargement

Objectifs

Sujets abordés

Activités

Le modele de pipeline de donnees d'extraction, de chargement et de transformation

Objectifs

Sujets abordés

Activités

Le modele de pipeline de donnees d'extraction, de transformation et de chargement

Objectifs

Sujets abordés

Activités

Techniques d'automatisation

Objectifs

Sujets abordés

Activités

Cours 2 : Construire des lacs de donnees et des entrepots de donnees avec Google Cloud

Introduction a l'ingenierie des donnees moderne sur Google Cloud

Objectifs

Sujets abordés

Activités

Construire un lakehouse de donnees avec Cloud Storage, les formats ouverts et BigQuery

Objectifs

Sujets abordés

Activités

Moderniser les entrepots de donnees avec BigQuery et BigLake

Objectifs

Sujets abordés

Activités

Modeles avances de lakehouse et gouvernance des donnees

Objectifs

Sujets abordés

Activités

Labs et bonnes pratiques

Objectifs

Sujets abordés

Activités

Cours 3 : Construire des pipelines de donnees en batch sur Google Cloud

Quand choisir les pipelines de donnees en batch

Objectifs

Sujets abordés

Activités

Concevoir et construire des pipelines de donnees en batch evolutifs

Objectifs

Sujets abordés

Activités

Controler la qualite des donnees dans les pipelines de donnees en batch

Objectifs

Sujets abordés

Activités

Orchestrer et surveiller les pipelines de donnees en batch

Objectifs

Sujets abordés

Activités

Cours 4 : Construire des pipelines de donnees en streaming sur Google Cloud

Introduction au cours

Objectifs

Sujets abordés

Cas d'utilisation du streaming et architectures de reference

Objectifs

Sujets abordés

Activités

Plongee approfondie dans les produits

Objectifs

Sujets abordés

Activités

Points cles a retenir