Ingenierie des donnees sur Google Cloud
Acquerez une experience pratique dans la conception et la creation de systemes de traitement de donnees sur Google Cloud. Ce cours utilise des presentations, des demonstrations et des travaux pratiques pour vous montrer comment concevoir des systemes de traitement de donnees, creer des pipelines de donnees de bout en bout, analyser des donnees et implementer le machine learning. Ce cours couvre les donnees structurees, non structurees et en streaming.
Ce cours est compose des quatre formations suivantes :
- Introduction a l'ingenierie des donnees sur Google Cloud
- Construire des lacs de donnees et des entrepots de donnees avec Google Cloud
- Construire des pipelines de donnees en batch sur Google Cloud
- Construire des pipelines de donnees en streaming sur Google Cloud

Ce que vous allez apprendre
- Concevoir des systemes de traitement de donnees evolutifs dans Google Cloud.
- Differencier les architectures de donnees et implementer les concepts de lakehouse et de pipelines de donnees.
- Construire et gerer des pipelines de donnees robustes en streaming et en batch.
- Utiliser les outils IA/ML pour optimiser les performances et obtenir des informations sur les processus et les donnees.
Prérequis
- Comprehension des principes d'ingenierie des donnees, y compris les processus ETL/ELT, la modelisation des donnees et les formats de donnees courants (Avro, Parquet, JSON).
- Familiarite avec les concepts d'architecture de donnees, en particulier les entrepots de donnees (Data Warehouses) et les lacs de donnees (Data Lakes).
- Maitrise de SQL pour l'interrogation des donnees.
- Maitrise d'un langage de programmation courant (Python recommande).
- Familiarite avec l'utilisation des interfaces de ligne de commande (CLI).
- Familiarite avec les concepts et services de base de Google Cloud (Compute, Storage et gestion des identites).
Public cible
- Ingenieurs de donnees, Analystes de donnees, Architectes de donnees
Programme de la Formation
19 modules pour maîtriser les fondamentaux
Cours 1 : Introduction a l'ingenierie des donnees sur Google Cloud
Objectifs
- Expliquer le role d'un ingenieur de donnees.
- Comprendre les differences entre une source de donnees et un recepteur de donnees.
- Expliquer les differents types de formats de donnees.
- Expliquer les options de solutions de stockage sur Google Cloud.
- Decouvrir les options de gestion des metadonnees sur Google Cloud.
- Comprendre comment partager facilement des jeux de donnees avec Analytics Hub.
- Comprendre comment charger des donnees dans BigQuery a l'aide de la console Google Cloud ou de la CLI gcloud.
Sujets abordés
- →Le role d'un ingenieur de donnees
- →Sources de donnees versus recepteurs de donnees
- →Formats de donnees
- →Options de solutions de stockage sur Google Cloud
- →Options de gestion des metadonnees sur Google Cloud
- →Partage de jeux de donnees avec Analytics Hub
Activités
Lab : Chargement de donnees dans BigQuery
Quiz
Objectifs
- Expliquer l'architecture de base de replication et de migration de donnees de Google Cloud.
- Comprendre les options et les cas d'utilisation de l'outil de ligne de commande gcloud.
- Expliquer la fonctionnalite et les cas d'utilisation de Storage Transfer Service.
- Expliquer la fonctionnalite et les cas d'utilisation de Transfer Appliance.
- Comprendre les fonctionnalites et le deploiement de Datastream.
Sujets abordés
- →Architecture de replication et de migration
- →L'outil de ligne de commande gcloud
- →Deplacement de jeux de donnees
- →Datastream
Objectifs
- Expliquer le schema d'architecture de base d'extraction et de chargement.
- Comprendre les options de l'outil de ligne de commande bq.
- Expliquer la fonctionnalite et les cas d'utilisation du service de transfert de donnees BigQuery.
- Expliquer la fonctionnalite et les cas d'utilisation de BigLake en tant que modele sans extraction-chargement.
Sujets abordés
- →Architecture d'extraction et de chargement
- →L'outil de ligne de commande bq
- →Service de transfert de donnees BigQuery
- →BigLake
Activités
Lab : BigLake : Demarrage rapide
Quiz
Objectifs
- Expliquer le schema d'architecture de base d'extraction, de chargement et de transformation.
- Comprendre un pipeline ELT courant sur Google Cloud.
- Decouvrir les capacites de scripting SQL et de planification de BigQuery.
- Expliquer la fonctionnalite et les cas d'utilisation de Dataform.
Sujets abordés
- →Architecture d'extraction, de chargement et de transformation (ELT)
- →Scripting SQL et planification avec BigQuery
- →Dataform
Activités
Lab : Creer et executer un workflow SQL dans Dataform
Quiz
Objectifs
- Expliquer le schema d'architecture de base d'extraction, de transformation et de chargement.
- Decouvrir les outils d'interface graphique sur Google Cloud utilises pour les pipelines de donnees ETL.
- Expliquer le traitement des donnees en batch avec Dataproc.
- Apprendre a utiliser Dataproc Serverless pour Spark pour l'ETL.
- Expliquer les options de traitement des donnees en streaming.
- Expliquer le role que joue Bigtable dans les pipelines de donnees.
Sujets abordés
- →Architecture d'extraction, de transformation et de chargement (ETL)
- →Outils d'interface graphique Google Cloud pour les pipelines de donnees ETL
- →Traitement de donnees en batch avec Dataproc
- →Options de traitement de donnees en streaming
- →Bigtable et pipelines de donnees
Activités
Lab : Utiliser Dataproc Serverless pour Spark pour charger BigQuery (optionnel)
Lab : Creer un pipeline de donnees en streaming pour un tableau de bord en temps reel avec Dataflow
Quiz
Objectifs
- Expliquer les modeles d'automatisation et les options disponibles pour les pipelines.
- Decouvrir Cloud Scheduler et Workflows.
- Decouvrir Cloud Composer.
- Decouvrir Cloud Run Functions.
- Expliquer la fonctionnalite et les cas d'utilisation d'automatisation pour Eventarc.
Sujets abordés
- →Modeles d'automatisation et options pour les pipelines
- →Cloud Scheduler et Workflows
- →Cloud Composer
- →Cloud Run Functions
- →Eventarc
Activités
Lab : Utiliser Cloud Run Functions pour charger BigQuery (optionnel)
Quiz
Cours 2 : Construire des lacs de donnees et des entrepots de donnees avec Google Cloud
Objectifs
- Comparer et contraster les architectures de lac de donnees, d'entrepot de donnees et de lakehouse de donnees.
- Evaluer les avantages de l'approche lakehouse.
Sujets abordés
- →Les classiques : Lacs de donnees et entrepots de donnees
- →L'approche moderne : Data lakehouse
- →Choisir la bonne architecture
Activités
Quiz
Objectifs
- Discuter des options de stockage de donnees, y compris Cloud Storage pour les fichiers, les formats de table ouverts comme Apache Iceberg, BigQuery pour les donnees analytiques et AlloyDB pour les donnees operationnelles.
- Comprendre le role d'AlloyDB pour les cas d'utilisation de donnees operationnelles.
Sujets abordés
- →Construire une fondation de lac de donnees
- →Introduction au format de table ouvert Apache Iceberg
- →BigQuery comme moteur de traitement central
- →Combiner les donnees operationnelles dans AlloyDB
- →Combiner les donnees operationnelles et analytiques avec les requetes federees
- →Cas d'utilisation reel
Activités
Quiz
Lab : Requete federee avec BigQuery
Objectifs
- Expliquer pourquoi BigQuery est une solution d'entreposage de donnees evolutive sur Google Cloud.
- Discuter des concepts de base de BigQuery.
- Comprendre le role de BigLake dans la creation d'une architecture lakehouse unifiee et son integration avec BigQuery pour les donnees externes.
- Apprendre comment BigQuery interagit nativement avec les tables Apache Iceberg via BigLake.
Sujets abordés
- →Fondamentaux de BigQuery
- →Partitionnement et clustering dans BigQuery
- →Introduction a BigLake et aux tables externes
Activités
Quiz
Lab : Interroger des donnees externes et des tables Iceberg
Objectifs
- Implementer des pratiques robustes de gouvernance et de securite des donnees sur la plateforme de donnees unifiee, y compris la protection des donnees sensibles et la gestion des metadonnees.
- Explorer l'analytique avancee et le machine learning directement sur les donnees du lakehouse.
Sujets abordés
- →Gouvernance et securite des donnees dans une plateforme unifiee
- →Demo : Prevention de la perte de donnees
- →Analytique et machine learning sur le lakehouse
- →Architectures lakehouse reelles et strategies de migration
Activités
Quiz
Objectifs
- Renforcer les principes fondamentaux de la plateforme de donnees de Google Cloud.
Sujets abordés
- →Revision
- →Bonnes pratiques
Activités
Lab : Demarrer avec BigQuery ML
Lab : Recherche vectorielle avec BigQuery
Cours 3 : Construire des pipelines de donnees en batch sur Google Cloud
Objectifs
- Expliquer le role critique d'un ingenieur de donnees dans le developpement et la maintenance des pipelines de donnees en batch.
- Decrire les composants de base et le cycle de vie typique des pipelines de donnees en batch, de l'ingestion a la consommation en aval.
- Analyser les defis courants du traitement de donnees en batch, tels que le volume de donnees, la qualite, la complexite et la fiabilite, et identifier les services Google Cloud cles qui peuvent les resoudre.
Sujets abordés
- →Pipelines de donnees en batch et leurs cas d'utilisation
- →Traitement et defis courants
Activités
Quiz
Objectifs
- Concevoir des pipelines de donnees en batch evolutifs pour l'ingestion et la transformation de donnees a haut volume.
- Optimiser les jobs en batch pour un haut debit et une efficacite des couts en utilisant diverses techniques de gestion des ressources et d'ajustement des performances.
Sujets abordés
- →Concevoir des pipelines en batch
- →Transformations de donnees a grande echelle
- →Dataflow et Serverless pour Apache Spark
- →Connexions de donnees et orchestration
- →Executer un pipeline Apache Spark
- →Optimiser les performances des pipelines en batch
Activités
Quiz
Lab : Construire un pipeline de donnees en batch simple avec Serverless pour Apache Spark (optionnel)
Lab : Construire un pipeline de donnees en batch simple avec l'interface Dataflow Job Builder (optionnel)
Objectifs
- Developper des regles de validation des donnees et une logique de nettoyage pour assurer la qualite des donnees dans les pipelines en batch.
- Implementer des strategies pour gerer l'evolution des schemas et effectuer la deduplication des donnees dans les grands jeux de donnees.
Sujets abordés
- →Validation et nettoyage des donnees en batch
- →Journaliser et analyser les erreurs
- →Evolution des schemas pour les pipelines en batch
- →Integrite des donnees et duplication
- →Deduplication avec Serverless pour Apache Spark
- →Deduplication avec Dataflow
Activités
Lab : Valider la qualite des donnees dans un pipeline en batch avec Serverless pour Apache Spark (optionnel)
Quiz
Objectifs
- Orchestrer des workflows de pipelines de donnees en batch complexes pour une planification efficace et un suivi de lignage.
- Implementer une gestion robuste des erreurs, une surveillance et une observabilite pour les pipelines de donnees en batch.
Sujets abordés
- →Orchestration pour le traitement en batch
- →Cloud Composer
- →Observabilite unifiee
- →Alertes et depannage
- →Gestion visuelle des pipelines
Activités
Lab : Construire des pipelines en batch dans Cloud Data Fusion
Quiz
Cours 4 : Construire des pipelines de donnees en streaming sur Google Cloud
Objectifs
- Introduire les objectifs d'apprentissage du cours et le scenario qui sera utilise pour apporter un apprentissage pratique a la construction de pipelines de donnees en streaming.
- Decrire le concept de pipelines de donnees en streaming, les defis associes et le role de ces pipelines dans le processus d'ingenierie des donnees.
Sujets abordés
- →Objectifs d'apprentissage du cours
- →Prerequis du cours
- →Le cas d'utilisation
- →A propos de l'entreprise
- →Le defi
- →La mission
Objectifs
- Comprendre les differents cas d'utilisation du streaming et leurs applications, y compris le Streaming ETL, le Streaming IA/ML, les applications de streaming et le Reverse ETL.
- Identifier et decrire les architectures types courantes pour les donnees en streaming, y compris le Streaming ETL, le Streaming IA/ML, les applications de streaming et le Reverse ETL.
Sujets abordés
- →Introduction aux pipelines de donnees en streaming sur Google Cloud
- →Streaming ETL
- →Streaming IA/ML
- →Applications de streaming
- →Reverse ETL
Activités
Quiz
Objectifs
- Pub/Sub et Managed Service for Apache Kafka : Definir les concepts de messagerie, savoir quand utiliser Pub/Sub ou Managed Service for Apache Kafka.
- Dataflow : Decrire le service et les defis avec les donnees en streaming, construire et deployer un pipeline de streaming.
- BigQuery : Explorer les differentes methodes d'ingestion de donnees, utiliser les requetes continues BigQuery, BigQuery ETL et le reverse ETL, configurer le streaming Pub/Sub vers BigQuery, architecturer les pipelines de streaming BigQuery.
- Bigtable : Decrire la vue d'ensemble du mouvement et de l'interaction des donnees, etablir un pipeline de streaming de Dataflow vers Bigtable, analyser le flux de donnees continu Bigtable pour les tendances avec BigQuery, synchroniser l'analyse des tendances dans l'application utilisateur.
Sujets abordés
- →Comprendre les produits
- →Considerations architecturales pour Pub/Sub et Managed Service for Apache Kafka
- →Dataflow : Le moteur de traitement puissant
- →BigQuery : Le moteur analytique
- →Bigtable : La solution pour les donnees operationnelles
Activités
Lab : Streamer des donnees avec des pipelines - Cas d'utilisation Esports (optionnel)
Quiz
Lab : Utiliser Apache Beam et Bigtable pour enrichir les donnees de contenu telechargeables (DLC) esports
Quiz
Lab : Streamer des donnees e-sports avec Pub/Sub et BigQuery
Quiz
Lab : Surveiller le chat e-sports avec Streamlit
Quiz
Sujets abordés
- →Ce que vous avez accompli
- →Prochaines etapes
Processus Qualité
L'engagement de SFEIR Institute : une démarche d'excellence pour garantir la qualité et la réussite de toutes nos formations. En savoir plus sur notre démarche qualité
- Lectures / Apports théoriques (Slides) — Présentation de concepts via des supports visuels (PowerPoint, PDF).
- Démonstration technique (Démos) — Le formateur réalise une manipulation ou une procédure devant les apprenants.
- Laboratoires dirigés (Labs) — Mise en pratique guidée sur logiciel, machine ou environnement technique.
- Quiz / QCM — Test rapide de connaissances (format papier ou numérique type Kahoot/Klaxoon).
L'atteinte des objectifs de la formation est évaluée à plusieurs niveaux pour garantir la qualité de la prestation :
- Évaluation continue des acquis : Vérification des connaissances tout au long de la formation via des méthodes participatives (en fonction de la formation: quiz, exercices pratiques, mises en situation) sous la supervision du formateur.
- Mesure de la progression : Dispositif d'auto-évaluation comparatif comprenant un diagnostic initial pour situer le niveau de départ, suivi d'une évaluation finale pour valider l'évolution des compétences.
- Évaluation de la qualité : Questionnaire de satisfaction en fin de session pour mesurer la pertinence et l'efficacité de la formation ressentie par les participants.
Prochaines sessions
Former plusieurs collaborateurs
- Tarifs dégressifs (plusieurs places)
- Session privée ou sur-mesure
- En présentiel ou à distance