Introduction à l'ingénierie des données sur Google Cloud
Dans ce cours, vous découvrirez l'ingénierie des données sur Google Cloud, les rôles et responsabilités des ingénieurs de données, et comment ceux-ci correspondent aux offres fournies par Google Cloud. Vous apprendrez également des manières de relever les défis de l'ingénierie des données.

Ce que vous allez apprendre
- Comprendre le rôle d'un ingénieur de données.
- Identifier les tâches d'ingénierie des données et les composants principaux utilisés sur Google Cloud.
- Comprendre comment créer et déployer des pipelines de données de divers modèles sur Google Cloud.
- Identifier et utiliser diverses techniques d'automatisation sur Google Cloud.
Prérequis
- Expérience préalable de Google Cloud au niveau fondamental en utilisant Cloud Shell et en accédant aux produits depuis la console Google Cloud.
- Maîtrise de base d'un langage de requête courant tel que SQL.
- Expérience de la modélisation de données et des activités ETL (extraire, transformer, charger).
- Expérience du développement d'applications à l'aide d'un langage de programmation courant tel que Python.
Public cible
- Ingénieurs de données, Administrateurs de bases de données, Administrateurs système
Programme de la Formation
6 modules pour maîtriser les fondamentaux
Objectifs
- Expliquer le rôle d'un ingénieur de données.
- Comprendre les différences entre une source de données et un récepteur de données.
- Expliquer les différents types de formats de données.
- Expliquer les options de solution de stockage sur Google Cloud.
- Apprendre les options de gestion des métadonnées sur Google Cloud.
- Comprendre comment partager facilement des ensembles de données avec Analytics Hub.
- Comprendre comment charger des données dans BigQuery en utilisant la console Google Cloud ou la CLI gcloud.
Sujets abordés
- →Le rôle d'un ingénieur de données
- →Sources de données versus récepteurs de données
- →Formats de données
- →Options de solution de stockage sur Google Cloud
- →Options de gestion des métadonnées sur Google Cloud
- →Partage d'ensembles de données avec Analytics Hub
Activités
Lab : Chargement de données dans BigQuery
Quiz
Objectifs
- Expliquer l'architecture de base de réplication et de migration de données de Google Cloud.
- Comprendre les options et les cas d'utilisation de l'outil de ligne de commande gcloud.
- Expliquer la fonctionnalité et les cas d'utilisation du Service de transfert de stockage.
- Expliquer la fonctionnalité et les cas d'utilisation de Transfer Appliance.
- Comprendre les fonctionnalités et le déploiement de Datastream.
Sujets abordés
- →Architecture de réplication et de migration
- →L'outil de ligne de commande gcloud
- →Déplacement d'ensembles de données
- →Datastream
Activités
Lab : Datastream : Réplication de PostgreSQL vers BigQuery (optionnel pour ILT)
Quiz
Objectifs
- Expliquer le diagramme d'architecture de base d'extraction et de chargement.
- Comprendre les options de l'outil de ligne de commande bq.
- Expliquer la fonctionnalité et les cas d'utilisation du Service de transfert de données BigQuery.
- Expliquer la fonctionnalité et les cas d'utilisation de BigLake en tant que modèle sans extraction-chargement.
Sujets abordés
- →Architecture d'extraction et de chargement
- →L'outil de ligne de commande bq
- →Service de transfert de données BigQuery
- →BigLake
Activités
Lab : BigLake : Démarrage rapide
Quiz
Objectifs
- Expliquer le diagramme d'architecture de base d'extraction, de chargement et de transformation.
- Comprendre un pipeline ELT courant sur Google Cloud.
- Apprendre les capacités de scripting SQL et de planification de BigQuery.
- Expliquer la fonctionnalité et les cas d'utilisation de Dataform.
Sujets abordés
- →Architecture d'extraction, de chargement et de transformation (ELT)
- →Scripting SQL et planification avec BigQuery
- →Dataform
Activités
Lab : Créer et exécuter un flux de travail SQL dans Dataform
Quiz
Objectifs
- Expliquer le diagramme d'architecture de base d'extraction, de transformation et de chargement.
- Apprendre les outils graphiques de Google Cloud utilisés pour les pipelines de données ETL.
- Expliquer le traitement de données par lots avec Dataproc.
- Apprendre à utiliser Dataproc Serverless pour Spark pour l'ETL.
- Expliquer les options de traitement de données en continu.
- Expliquer le rôle que joue Bigtable dans les pipelines de données.
Sujets abordés
- →Architecture d'extraction, de transformation et de chargement (ETL)
- →Outils graphiques de Google Cloud pour les pipelines de données ETL
- →Traitement de données par lots avec Dataproc
- →Options de traitement de données en continu
- →Bigtable et les pipelines de données
Activités
Lab : Utiliser Dataproc Serverless pour Spark pour charger BigQuery (optionnel pour ILT)
Lab : Création d'un pipeline de données en continu pour un tableau de bord en temps réel avec Dataflow
Quiz
Objectifs
- Expliquer les modèles et les options d'automatisation disponibles pour les pipelines.
- Apprendre sur Cloud Scheduler et Workflows.
- Apprendre sur Cloud Composer.
- Apprendre sur les fonctions Cloud Run.
- Expliquer la fonctionnalité et les cas d'utilisation d'automatisation pour Eventarc.
Sujets abordés
- →Modèles et options d'automatisation pour les pipelines
- →Cloud Scheduler et Workflows
- →Cloud Composer
- →Cloud Run Functions
- →Eventarc
Activités
Lab : Utiliser les fonctions Cloud Run pour charger BigQuery (optionnel pour ILT)
Quiz
Processus Qualité
L'engagement de SFEIR Institute : une démarche d'excellence pour garantir la qualité et la réussite de toutes nos formations. En savoir plus sur notre démarche qualité
- Lectures / Apports théoriques (Slides) — Présentation de concepts via des supports visuels (PowerPoint, PDF).
- Démonstration technique (Démos) — Le formateur réalise une manipulation ou une procédure devant les apprenants.
- Laboratoires dirigés (Labs) — Mise en pratique guidée sur logiciel, machine ou environnement technique.
- Quiz / QCM — Test rapide de connaissances (format papier ou numérique type Kahoot/Klaxoon).
L'atteinte des objectifs de la formation est évaluée à plusieurs niveaux pour garantir la qualité de la prestation :
- Évaluation continue des acquis : Vérification des connaissances tout au long de la formation via des méthodes participatives (en fonction de la formation: quiz, exercices pratiques, mises en situation) sous la supervision du formateur.
- Mesure de la progression : Dispositif d'auto-évaluation comparatif comprenant un diagnostic initial pour situer le niveau de départ, suivi d'une évaluation finale pour valider l'évolution des compétences.
- Évaluation de la qualité : Questionnaire de satisfaction en fin de session pour mesurer la pertinence et l'efficacité de la formation ressentie par les participants.
Prochaines sessions
Former plusieurs collaborateurs
- Tarifs dégressifs (plusieurs places)
- Session privée ou sur-mesure
- En présentiel ou à distance