GCP200DE

Ingénierie des données sur Google Cloud

Acquérez une expérience pratique dans la conception et la création de systèmes de traitement de données sur Google Cloud. Ce cours utilise des conférences, des démonstrations et des travaux pratiques pour vous montrer comment concevoir des systèmes de traitement de données, créer des pipelines de données de bout en bout et analyser des données. Ce cours couvre les données structurées, non structurées et en streaming.

✓ Formation officielle Google CloudNiveau Intermédiaire⏱️ 4 jours (28h)

Ce que vous allez apprendre

Concevoir et créer des systèmes de traitement de données sur Google Cloud.
Traiter des données en batch et en streaming en implémentant des pipelines de données à mise à l'échelle automatique sur Dataflow.
Tirer des informations commerciales à partir de très grands ensembles de données à l'aide de BigQuery.
Exploiter les données non structurées à l'aide de Spark et des API ML sur Dataproc.
Permettre des analyses instantanées à partir des données en streaming.

Prérequis

Expérience préalable de Google Cloud en utilisant Cloud Shell et en accédant aux produits depuis la console Google Cloud.
Maîtrise de base d'un langage de requête courant tel que SQL.
Expérience en modélisation de données et en activités ETL (extraction, transformation, chargement).
Expérience dans le développement d'applications à l'aide d'un langage de programmation courant tel que Python.

Public cible

Ingénieurs de données, Administrateurs de bases de données, Administrateurs système

Programme de la Formation

18 modules pour maîtriser les fondamentaux

Objectifs

Expliquer le rôle d'un ingénieur de données.
Comprendre les différences entre une source de données et un récepteur de données.
Expliquer les différents types de formats de données.
Expliquer les options de solutions de stockage sur Google Cloud.
En savoir plus sur les options de gestion des métadonnées sur Google Cloud.
Comprendre comment partager facilement des ensembles de données avec Analytics Hub.
Comprendre comment charger des données dans BigQuery à l'aide de la console Google Cloud et/ou de la CLI gcloud.

Sujets abordés

→Le rôle d'un ingénieur de données
→Sources de données versus synchronisations de données
→Formats de données
→Options de solutions de stockage sur Google Cloud
→Options de gestion des métadonnées sur Google Cloud
→Partager des ensembles de données avec Analytics Hub

Activités

Lab : Chargement de données dans BigQuery

Objectifs

Expliquer l'architecture de base de réplication et de migration de données de Google Cloud.
Comprendre les options et les cas d'utilisation de l'outil de ligne de commande gcloud.
Expliquer la fonctionnalité et les cas d'utilisation du service de transfert de stockage.
Expliquer la fonctionnalité et les cas d'utilisation de l'appliance de transfert.
Comprendre les fonctionnalités et le déploiement de Datastream.

Sujets abordés

→Architecture de réplication et de migration
→L'outil de ligne de commande gcloud
→Déplacement d'ensembles de données
→Datastream

Activités

Lab : Datastream : Réplication de PostgreSQL vers BigQuery

Objectifs

Expliquer le schéma d'architecture de base d'extraction et de chargement.
Comprendre les options de l'outil de ligne de commande bq.
Expliquer la fonctionnalité et les cas d'utilisation du service de transfert de données BigQuery.
Expliquer la fonctionnalité et les cas d'utilisation de BigLake en tant que modèle sans extraction-chargement.

Sujets abordés

→Architecture d'extraction et de chargement
→L'outil de ligne de commande bq
→Service de transfert de données BigQuery
→BigLake

Activités

Lab : BigLake : Démarrage rapide

Objectifs

Expliquer le schéma d'architecture de base d'extraction, de chargement et de transformation.
Comprendre un pipeline ELT commun sur Google Cloud.
En savoir plus sur les capacités de scripting SQL et de planification de BigQuery.
Expliquer la fonctionnalité et les cas d'utilisation de Dataform.

Sujets abordés

→Architecture d'extraction, de chargement et de transformation (ELT)
→Scripting SQL et planification avec BigQuery
→Dataform

Activités

Lab : Créer et exécuter un workflow SQL dans Dataform

Objectifs

Expliquer le schéma d'architecture de base d'extraction, de transformation et de chargement.
En savoir plus sur les outils d'interface graphique sur Google Cloud utilisés pour les pipelines de données ETL.
Expliquer le traitement des données en batch avec Dataproc.
Apprendre à utiliser Dataproc sans serveur pour Spark pour l'ETL.
Expliquer les options de traitement des données en streaming.
Expliquer le rôle que joue Bigtable dans les pipelines de données.

Sujets abordés

→Architecture d'extraction, de transformation et de chargement (ETL)
→Outils d'interface graphique Google Cloud pour les pipelines de données ETL
→Traitement de données en batch avec Dataproc
→Options de traitement de données en streaming
→Bigtable et pipelines de données

Activités

Lab : Utiliser Dataproc sans serveur pour Spark pour charger BigQuery

Lab : Créer un pipeline de données en streaming pour un tableau de bord en temps réel avec Dataflow

Objectifs

Expliquer les modèles d'automatisation et les options disponibles pour les pipelines.
En savoir plus sur Cloud Scheduler et les workflows.
En savoir plus sur Cloud Composer.
En savoir plus sur les fonctions Cloud Run.
Expliquer la fonctionnalité et les cas d'utilisation d'automatisation pour Eventarc.

Sujets abordés

→Modèles d'automatisation et options pour les pipelines
→Cloud Scheduler et Workflows
→Cloud Composer
→Fonctions Cloud Run
→Eventarc

Activités

Lab : Utiliser les fonctions Cloud Run pour charger BigQuery

Objectifs

Discuter des défis de l'ingénierie des données et de la manière dont la création de pipelines de données dans le cloud aide à les relever.
Examiner et comprendre le but d'un lac de données par rapport à un entrepôt de données, et quand utiliser lequel.

Sujets abordés

→Rôle de l'ingénieur de données
→Défis de l'ingénierie des données
→Introduction à BigQuery
→Lacs de données et entrepôts de données
→Bases de données transactionnelles versus entrepôts de données
→Partenariat efficace avec d'autres équipes de données
→Gestion de l'accès aux données et de la gouvernance
→Création de pipelines prêts pour la production
→Étude de cas client Google Cloud

Activités

Lab : Utiliser BigQuery pour faire des analyses

Objectifs

Discuter pourquoi Cloud Storage est une excellente option pour construire un lac de données sur Google Cloud.
Expliquer comment utiliser Cloud SQL pour un lac de données relationnel.

Sujets abordés

→Introduction aux lacs de données
→Options de stockage de données et d'ETL sur Google Cloud
→Création d'un lac de données avec Cloud Storage
→Sécuriser Cloud Storage
→Stocker toutes sortes de types de données
→Cloud SQL comme votre système OLTP

Activités

Lab : Chargement des données de taxi dans Cloud SQL

Objectifs

Discuter des exigences d'un entrepôt moderne.
Expliquer pourquoi BigQuery est la solution d'entreposage de données évolutive sur Google Cloud.
Discuter des concepts de base de BigQuery et examiner les options de chargement de données dans BigQuery.

Sujets abordés

→L'entrepôt de données moderne
→Introduction à BigQuery
→Démarrer avec BigQuery
→Chargement de données dans BigQuery
→Exploration des schémas
→Conception de schémas
→Champs imbriqués et répétés
→Optimisation avec partitionnement et clustering

Activités

Lab : Travailler avec des données JSON et des tableaux dans BigQuery

Lab : Tables partitionnées dans BigQuery

Objectifs

Examiner différentes méthodes de chargement de données dans vos lacs et entrepôts de données : EL, ELT et ETL.

Sujets abordés

→EL, ELT, ETL
→Considérations de qualité
→Moyens d'exécuter des opérations dans BigQuery
→Inconvénients
→ETL pour résoudre les problèmes de qualité des données

Objectifs

Examiner l'écosystème Hadoop.
Discuter de la manière de migrer (lift and shift) vos charges de travail Hadoop existantes vers le cloud à l'aide de Dataproc.
Expliquer quand utiliser Cloud Storage au lieu du stockage HDFS.
Expliquer comment optimiser les tâches Dataproc.

Sujets abordés

→L'écosystème Hadoop
→Exécuter Hadoop sur Dataproc
→Cloud Storage au lieu de HDFS
→Optimiser Dataproc

Activités

Lab : Exécuter des tâches Apache Spark sur Dataproc

Objectifs

Identifier les fonctionnalités que les clients apprécient dans Dataflow.
Discuter des concepts de base de Dataflow.
Examiner l'utilisation des modèles Dataflow et SQL.
Écrire un pipeline Dataflow simple et l'exécuter à la fois localement et sur le cloud.
Identifier les opérations Map et Reduce, exécuter le pipeline et utiliser les paramètres de ligne de commande.
Lire les données de BigQuery dans Dataflow et utiliser la sortie d'un pipeline comme entrée secondaire pour un autre pipeline.

Sujets abordés

→Introduction à Dataflow
→Raisons pour lesquelles les clients apprécient Dataflow
→Pipelines Dataflow
→Agrégation avec GroupByKey et Combine
→Entrées secondaires et fenêtres
→Modèles Dataflow

Activités

Lab : Un pipeline Dataflow simple (Python/Java)

Lab : MapReduce dans Beam (Python/Java)

Lab : Entrées secondaires (Python/Java)

Objectifs

Discuter de la manière de gérer vos pipelines de données avec Cloud Data Fusion et Cloud Composer.
Résumer comment Cloud Data Fusion permet aux analystes de données et aux développeurs ETL de manipuler les données et de créer des pipelines de manière visuelle.
Décrire comment Cloud Composer peut aider à orchestrer le travail sur plusieurs services Google Cloud.

Sujets abordés

→Créer des pipelines de données en batch visuellement avec Cloud Data Fusion (Composants, Aperçu de l'interface utilisateur, Création d'un pipeline, Exploration des données avec Wrangler)
→Orchestrer le travail entre les services Google Cloud avec Cloud Composer (Environnement Apache Airflow, DAGs et opérateurs, Planification de workflow, Surveillance et journalisation)

Activités

Lab : Créer et exécuter un graphe de pipeline dans Data Fusion

Lab : Une introduction à Cloud Composer

Objectifs

Expliquer le traitement des données en streaming.
Identifier les produits et outils Google Cloud qui peuvent aider à relever les défis des données en streaming.

Sujets abordés

→Traiter les données en streaming

Objectifs

Décrire le service Pub/Sub.
Expliquer le fonctionnement de Pub/Sub.
Simuler des données de capteurs en streaming en temps réel à l'aide de Pub/Sub.

Sujets abordés

→Introduction à Pub/Sub
→Pub/Sub push versus pull
→Publication avec le code Pub/Sub

Activités

Lab : Publier des données en streaming dans Pub/Sub

Objectifs

Décrire le service Dataflow.
Construire un pipeline de traitement de flux pour les données de trafic en direct.
Démontrer comment gérer les données en retard à l'aide de filigranes, de déclencheurs et d'accumulation.

Sujets abordés

→Défis des données en streaming
→Fenêtrage dans Dataflow

Activités

Lab : Pipelines de données en streaming

Objectifs

Décrire comment effectuer une analyse ad hoc sur les données en streaming à l'aide de BigQuery et des tableaux de bord.
Discuter de Bigtable en tant que solution à faible latence.
Décrire comment architecturer pour Bigtable et comment ingérer des données dans Bigtable.
Mettre en évidence les considérations de performance pour les services concernés.

Sujets abordés

→Streaming dans BigQuery et visualisation des résultats
→Streaming à haut débit avec Bigtable
→Optimisation des performances de Bigtable

Activités

Lab : Analyses en streaming et tableaux de bord

Lab : Générer du contenu d'e-mail personnalisé avec les requêtes continues de BigQuery et Gemini

Lab : Pipelines de données en streaming dans Bigtable

Objectifs

Passer en revue certaines des capacités d'analyse avancées de BigQuery.
Discuter des moyens d'améliorer les performances des requêtes.

Sujets abordés

→Fonctions de fenêtre analytique
→Fonctions SIG
→Considérations de performance

Activités

Lab : Optimiser vos requêtes BigQuery pour la performance

Processus Qualité

L'engagement de SFEIR Institute : une démarche d'excellence pour garantir la qualité et la réussite de toutes nos formations. En savoir plus sur notre démarche qualité

Méthodes pédagogiques mobilisées

Lectures / Apports théoriques (Slides) — Présentation de concepts via des supports visuels (PowerPoint, PDF).
Démonstration technique (Démos) — Le formateur réalise une manipulation ou une procédure devant les apprenants.
Laboratoires dirigés (Labs) — Mise en pratique guidée sur logiciel, machine ou environnement technique.
Quiz / QCM — Test rapide de connaissances (format papier ou numérique type Kahoot/Klaxoon).

Dispositif d'évaluation et de suivi

L'atteinte des objectifs de la formation est évaluée à plusieurs niveaux pour garantir la qualité de la prestation :

Évaluation continue des acquis : Vérification des connaissances tout au long de la formation via des méthodes participatives (en fonction de la formation: quiz, exercices pratiques, mises en situation) sous la supervision du formateur.
Mesure de la progression : Dispositif d'auto-évaluation comparatif comprenant un diagnostic initial pour situer le niveau de départ, suivi d'une évaluation finale pour valider l'évolution des compétences.
Évaluation de la qualité : Questionnaire de satisfaction en fin de session pour mesurer la pertinence et l'efficacité de la formation ressentie par les participants.

Prochaines sessions

9 février 2026

Distanciel • Français

S'inscrire

27 avril 2026

Distanciel • Français

S'inscrire

29 juin 2026

Distanciel • Français

S'inscrire

31 août 2026

Distanciel • Français

S'inscrire

26 octobre 2026

Distanciel • Français

S'inscrire

14 décembre 2026

Distanciel • Français

S'inscrire

Inscription

2 800 € HT par apprenant

Réserver une place

Former plusieurs collaborateurs

Tarifs dégressifs (plusieurs places)
Session privée ou sur-mesure
En présentiel ou à distance

Demander un devis

2 800€ HT

par apprenant

Réserver Devis

Ingénierie des données sur Google Cloud

Ce que vous allez apprendre

Prérequis

Public cible

Programme de la Formation

Module 01 : Tâches et composants de l'ingénierie des données

Objectifs

Sujets abordés

Activités

Module 02 : Réplication et migration de données

Objectifs

Sujets abordés

Activités

Module 03 : Le modèle de pipeline de données d'extraction et de chargement

Objectifs

Sujets abordés

Activités

Module 04 : Le modèle de pipeline de données d'extraction, de chargement et de transformation

Objectifs

Sujets abordés

Activités

Module 05 : Le modèle de pipeline de données d'extraction, de transformation et de chargement

Objectifs

Sujets abordés

Activités

Module 06 : Techniques d'automatisation

Objectifs

Sujets abordés

Activités

Module 07 : Introduction à l'ingénierie des données

Objectifs

Sujets abordés

Activités

Module 08 : Construire un lac de données

Objectifs

Sujets abordés

Activités

Module 09 : Construire un entrepôt de données

Objectifs

Sujets abordés

Activités

Module 10 : Introduction à la création de pipelines de données en batch

Objectifs

Sujets abordés

Module 11 : Exécuter Spark sur Dataproc

Objectifs

Sujets abordés

Activités

Module 12 : Traitement de données sans serveur avec Dataflow

Objectifs

Sujets abordés

Activités

Module 13 : Gérer les pipelines de données avec Cloud Data Fusion et Cloud Composer

Objectifs

Sujets abordés

Activités

Module 14 : Introduction au traitement des données en streaming

Objectifs

Sujets abordés

Module 15 : Messagerie sans serveur avec Pub/Sub

Objectifs

Sujets abordés

Activités

Module 16 : Fonctionnalités de streaming de Dataflow

Objectifs

Sujets abordés

Activités

Module 17 : Fonctionnalités de streaming à haut débit de BigQuery et Bigtable

Objectifs

Sujets abordés

Activités

Module 18 : Fonctionnalités avancées et performances de BigQuery

Objectifs

Sujets abordés

Activités

Processus Qualité

Prochaines sessions

Inscription

Former plusieurs collaborateurs