Ingénierie des données sur Google Cloud
Acquérez une expérience pratique dans la conception et la création de systèmes de traitement de données sur Google Cloud. Ce cours utilise des conférences, des démonstrations et des travaux pratiques pour vous montrer comment concevoir des systèmes de traitement de données, créer des pipelines de données de bout en bout et analyser des données. Ce cours couvre les données structurées, non structurées et en streaming.

Ce que vous allez apprendre
- Concevoir et créer des systèmes de traitement de données sur Google Cloud.
- Traiter des données en batch et en streaming en implémentant des pipelines de données à mise à l'échelle automatique sur Dataflow.
- Tirer des informations commerciales à partir de très grands ensembles de données à l'aide de BigQuery.
- Exploiter les données non structurées à l'aide de Spark et des API ML sur Dataproc.
- Permettre des analyses instantanées à partir des données en streaming.
Prérequis
- Expérience préalable de Google Cloud en utilisant Cloud Shell et en accédant aux produits depuis la console Google Cloud.
- Maîtrise de base d'un langage de requête courant tel que SQL.
- Expérience en modélisation de données et en activités ETL (extraction, transformation, chargement).
- Expérience dans le développement d'applications à l'aide d'un langage de programmation courant tel que Python.
Public cible
- Ingénieurs de données, Administrateurs de bases de données, Administrateurs système
Programme de la Formation
18 modules pour maîtriser les fondamentaux
Objectifs
- Expliquer le rôle d'un ingénieur de données.
- Comprendre les différences entre une source de données et un récepteur de données.
- Expliquer les différents types de formats de données.
- Expliquer les options de solutions de stockage sur Google Cloud.
- En savoir plus sur les options de gestion des métadonnées sur Google Cloud.
- Comprendre comment partager facilement des ensembles de données avec Analytics Hub.
- Comprendre comment charger des données dans BigQuery à l'aide de la console Google Cloud et/ou de la CLI gcloud.
Sujets abordés
- →Le rôle d'un ingénieur de données
- →Sources de données versus synchronisations de données
- →Formats de données
- →Options de solutions de stockage sur Google Cloud
- →Options de gestion des métadonnées sur Google Cloud
- →Partager des ensembles de données avec Analytics Hub
Activités
Lab : Chargement de données dans BigQuery
Objectifs
- Expliquer l'architecture de base de réplication et de migration de données de Google Cloud.
- Comprendre les options et les cas d'utilisation de l'outil de ligne de commande gcloud.
- Expliquer la fonctionnalité et les cas d'utilisation du service de transfert de stockage.
- Expliquer la fonctionnalité et les cas d'utilisation de l'appliance de transfert.
- Comprendre les fonctionnalités et le déploiement de Datastream.
Sujets abordés
- →Architecture de réplication et de migration
- →L'outil de ligne de commande gcloud
- →Déplacement d'ensembles de données
- →Datastream
Activités
Lab : Datastream : Réplication de PostgreSQL vers BigQuery
Objectifs
- Expliquer le schéma d'architecture de base d'extraction et de chargement.
- Comprendre les options de l'outil de ligne de commande bq.
- Expliquer la fonctionnalité et les cas d'utilisation du service de transfert de données BigQuery.
- Expliquer la fonctionnalité et les cas d'utilisation de BigLake en tant que modèle sans extraction-chargement.
Sujets abordés
- →Architecture d'extraction et de chargement
- →L'outil de ligne de commande bq
- →Service de transfert de données BigQuery
- →BigLake
Activités
Lab : BigLake : Démarrage rapide
Objectifs
- Expliquer le schéma d'architecture de base d'extraction, de chargement et de transformation.
- Comprendre un pipeline ELT commun sur Google Cloud.
- En savoir plus sur les capacités de scripting SQL et de planification de BigQuery.
- Expliquer la fonctionnalité et les cas d'utilisation de Dataform.
Sujets abordés
- →Architecture d'extraction, de chargement et de transformation (ELT)
- →Scripting SQL et planification avec BigQuery
- →Dataform
Activités
Lab : Créer et exécuter un workflow SQL dans Dataform
Objectifs
- Expliquer le schéma d'architecture de base d'extraction, de transformation et de chargement.
- En savoir plus sur les outils d'interface graphique sur Google Cloud utilisés pour les pipelines de données ETL.
- Expliquer le traitement des données en batch avec Dataproc.
- Apprendre à utiliser Dataproc sans serveur pour Spark pour l'ETL.
- Expliquer les options de traitement des données en streaming.
- Expliquer le rôle que joue Bigtable dans les pipelines de données.
Sujets abordés
- →Architecture d'extraction, de transformation et de chargement (ETL)
- →Outils d'interface graphique Google Cloud pour les pipelines de données ETL
- →Traitement de données en batch avec Dataproc
- →Options de traitement de données en streaming
- →Bigtable et pipelines de données
Activités
Lab : Utiliser Dataproc sans serveur pour Spark pour charger BigQuery
Lab : Créer un pipeline de données en streaming pour un tableau de bord en temps réel avec Dataflow
Objectifs
- Expliquer les modèles d'automatisation et les options disponibles pour les pipelines.
- En savoir plus sur Cloud Scheduler et les workflows.
- En savoir plus sur Cloud Composer.
- En savoir plus sur les fonctions Cloud Run.
- Expliquer la fonctionnalité et les cas d'utilisation d'automatisation pour Eventarc.
Sujets abordés
- →Modèles d'automatisation et options pour les pipelines
- →Cloud Scheduler et Workflows
- →Cloud Composer
- →Fonctions Cloud Run
- →Eventarc
Activités
Lab : Utiliser les fonctions Cloud Run pour charger BigQuery
Objectifs
- Discuter des défis de l'ingénierie des données et de la manière dont la création de pipelines de données dans le cloud aide à les relever.
- Examiner et comprendre le but d'un lac de données par rapport à un entrepôt de données, et quand utiliser lequel.
Sujets abordés
- →Rôle de l'ingénieur de données
- →Défis de l'ingénierie des données
- →Introduction à BigQuery
- →Lacs de données et entrepôts de données
- →Bases de données transactionnelles versus entrepôts de données
- →Partenariat efficace avec d'autres équipes de données
- →Gestion de l'accès aux données et de la gouvernance
- →Création de pipelines prêts pour la production
- →Étude de cas client Google Cloud
Activités
Lab : Utiliser BigQuery pour faire des analyses
Objectifs
- Discuter pourquoi Cloud Storage est une excellente option pour construire un lac de données sur Google Cloud.
- Expliquer comment utiliser Cloud SQL pour un lac de données relationnel.
Sujets abordés
- →Introduction aux lacs de données
- →Options de stockage de données et d'ETL sur Google Cloud
- →Création d'un lac de données avec Cloud Storage
- →Sécuriser Cloud Storage
- →Stocker toutes sortes de types de données
- →Cloud SQL comme votre système OLTP
Activités
Lab : Chargement des données de taxi dans Cloud SQL
Objectifs
- Discuter des exigences d'un entrepôt moderne.
- Expliquer pourquoi BigQuery est la solution d'entreposage de données évolutive sur Google Cloud.
- Discuter des concepts de base de BigQuery et examiner les options de chargement de données dans BigQuery.
Sujets abordés
- →L'entrepôt de données moderne
- →Introduction à BigQuery
- →Démarrer avec BigQuery
- →Chargement de données dans BigQuery
- →Exploration des schémas
- →Conception de schémas
- →Champs imbriqués et répétés
- →Optimisation avec partitionnement et clustering
Activités
Lab : Travailler avec des données JSON et des tableaux dans BigQuery
Lab : Tables partitionnées dans BigQuery
Objectifs
- Examiner différentes méthodes de chargement de données dans vos lacs et entrepôts de données : EL, ELT et ETL.
Sujets abordés
- →EL, ELT, ETL
- →Considérations de qualité
- →Moyens d'exécuter des opérations dans BigQuery
- →Inconvénients
- →ETL pour résoudre les problèmes de qualité des données
Objectifs
- Examiner l'écosystème Hadoop.
- Discuter de la manière de migrer (lift and shift) vos charges de travail Hadoop existantes vers le cloud à l'aide de Dataproc.
- Expliquer quand utiliser Cloud Storage au lieu du stockage HDFS.
- Expliquer comment optimiser les tâches Dataproc.
Sujets abordés
- →L'écosystème Hadoop
- →Exécuter Hadoop sur Dataproc
- →Cloud Storage au lieu de HDFS
- →Optimiser Dataproc
Activités
Lab : Exécuter des tâches Apache Spark sur Dataproc
Objectifs
- Identifier les fonctionnalités que les clients apprécient dans Dataflow.
- Discuter des concepts de base de Dataflow.
- Examiner l'utilisation des modèles Dataflow et SQL.
- Écrire un pipeline Dataflow simple et l'exécuter à la fois localement et sur le cloud.
- Identifier les opérations Map et Reduce, exécuter le pipeline et utiliser les paramètres de ligne de commande.
- Lire les données de BigQuery dans Dataflow et utiliser la sortie d'un pipeline comme entrée secondaire pour un autre pipeline.
Sujets abordés
- →Introduction à Dataflow
- →Raisons pour lesquelles les clients apprécient Dataflow
- →Pipelines Dataflow
- →Agrégation avec GroupByKey et Combine
- →Entrées secondaires et fenêtres
- →Modèles Dataflow
Activités
Lab : Un pipeline Dataflow simple (Python/Java)
Lab : MapReduce dans Beam (Python/Java)
Lab : Entrées secondaires (Python/Java)
Objectifs
- Discuter de la manière de gérer vos pipelines de données avec Cloud Data Fusion et Cloud Composer.
- Résumer comment Cloud Data Fusion permet aux analystes de données et aux développeurs ETL de manipuler les données et de créer des pipelines de manière visuelle.
- Décrire comment Cloud Composer peut aider à orchestrer le travail sur plusieurs services Google Cloud.
Sujets abordés
- →Créer des pipelines de données en batch visuellement avec Cloud Data Fusion (Composants, Aperçu de l'interface utilisateur, Création d'un pipeline, Exploration des données avec Wrangler)
- →Orchestrer le travail entre les services Google Cloud avec Cloud Composer (Environnement Apache Airflow, DAGs et opérateurs, Planification de workflow, Surveillance et journalisation)
Activités
Lab : Créer et exécuter un graphe de pipeline dans Data Fusion
Lab : Une introduction à Cloud Composer
Objectifs
- Expliquer le traitement des données en streaming.
- Identifier les produits et outils Google Cloud qui peuvent aider à relever les défis des données en streaming.
Sujets abordés
- →Traiter les données en streaming
Objectifs
- Décrire le service Pub/Sub.
- Expliquer le fonctionnement de Pub/Sub.
- Simuler des données de capteurs en streaming en temps réel à l'aide de Pub/Sub.
Sujets abordés
- →Introduction à Pub/Sub
- →Pub/Sub push versus pull
- →Publication avec le code Pub/Sub
Activités
Lab : Publier des données en streaming dans Pub/Sub
Objectifs
- Décrire le service Dataflow.
- Construire un pipeline de traitement de flux pour les données de trafic en direct.
- Démontrer comment gérer les données en retard à l'aide de filigranes, de déclencheurs et d'accumulation.
Sujets abordés
- →Défis des données en streaming
- →Fenêtrage dans Dataflow
Activités
Lab : Pipelines de données en streaming
Objectifs
- Décrire comment effectuer une analyse ad hoc sur les données en streaming à l'aide de BigQuery et des tableaux de bord.
- Discuter de Bigtable en tant que solution à faible latence.
- Décrire comment architecturer pour Bigtable et comment ingérer des données dans Bigtable.
- Mettre en évidence les considérations de performance pour les services concernés.
Sujets abordés
- →Streaming dans BigQuery et visualisation des résultats
- →Streaming à haut débit avec Bigtable
- →Optimisation des performances de Bigtable
Activités
Lab : Analyses en streaming et tableaux de bord
Lab : Générer du contenu d'e-mail personnalisé avec les requêtes continues de BigQuery et Gemini
Lab : Pipelines de données en streaming dans Bigtable
Objectifs
- Passer en revue certaines des capacités d'analyse avancées de BigQuery.
- Discuter des moyens d'améliorer les performances des requêtes.
Sujets abordés
- →Fonctions de fenêtre analytique
- →Fonctions SIG
- →Considérations de performance
Activités
Lab : Optimiser vos requêtes BigQuery pour la performance
Processus Qualité
L'engagement de SFEIR Institute : une démarche d'excellence pour garantir la qualité et la réussite de toutes nos formations. En savoir plus sur notre démarche qualité
- Lectures / Apports théoriques (Slides) — Présentation de concepts via des supports visuels (PowerPoint, PDF).
- Démonstration technique (Démos) — Le formateur réalise une manipulation ou une procédure devant les apprenants.
- Laboratoires dirigés (Labs) — Mise en pratique guidée sur logiciel, machine ou environnement technique.
- Quiz / QCM — Test rapide de connaissances (format papier ou numérique type Kahoot/Klaxoon).
L'atteinte des objectifs de la formation est évaluée à plusieurs niveaux pour garantir la qualité de la prestation :
- Évaluation continue des acquis : Vérification des connaissances tout au long de la formation via des méthodes participatives (en fonction de la formation: quiz, exercices pratiques, mises en situation) sous la supervision du formateur.
- Mesure de la progression : Dispositif d'auto-évaluation comparatif comprenant un diagnostic initial pour situer le niveau de départ, suivi d'une évaluation finale pour valider l'évolution des compétences.
- Évaluation de la qualité : Questionnaire de satisfaction en fin de session pour mesurer la pertinence et l'efficacité de la formation ressentie par les participants.
Prochaines sessions
Former plusieurs collaborateurs
- Tarifs dégressifs (plusieurs places)
- Session privée ou sur-mesure
- En présentiel ou à distance