GCP200DEBATCH

Construire des pipelines de données batch sur Google Cloud

Dans ce cours de niveau intermédiaire, vous apprendrez à concevoir, construire et optimiser des pipelines de données batch robustes sur Google Cloud. Allant au-delà de la manipulation fondamentale des données, vous explorerez les transformations de données à grande échelle et l'orchestration efficace des workflows, essentielles pour une intelligence d'affaires rapide et des rapports critiques.

Obtenez une pratique concrète en utilisant Dataflow pour Apache Beam et Serverless pour Apache Spark (Dataproc Serverless) pour l'implémentation, et abordez les considérations cruciales pour la qualité des données, la surveillance et les alertes afin d'assurer la fiabilité des pipelines et l'excellence opérationnelle.

Google Cloud
Formation officielle Google CloudNiveau Intermédiaire⏱️ 1 jour (7h)

Ce que vous allez apprendre

  • Déterminer si les pipelines de données batch sont le bon choix pour votre cas d'usage métier.
  • Concevoir et construire des pipelines de données batch évolutifs pour l'ingestion et la transformation de gros volumes.
  • Implémenter des contrôles de qualité des données dans les pipelines batch pour assurer l'intégrité des données.
  • Orchestrer, gérer et surveiller les workflows de pipelines de données batch, en implémentant la gestion des erreurs et l'observabilité à l'aide d'outils de logging et de monitoring.

Prérequis

  • Maîtrise de base des concepts de Data Warehousing et ETL/ELT
  • Maîtrise de base en SQL
  • Connaissances de base en programmation (Python recommandé)
  • Familiarité avec gcloud CLI et la console Google Cloud
  • Familiarité avec les concepts et services de base de Google Cloud

Public cible

  • Ingénieurs Data, Analystes Data

Programme de la Formation

4 modules pour maîtriser les fondamentaux

Objectifs
  • Apprendre le rôle critique d'un ingénieur data dans le développement et la maintenance des pipelines de données batch
  • Comprendre les composants de base et le cycle de vie des pipelines de données batch
  • Analyser les défis courants dans le traitement de données batch
  • Identifier les services Google Cloud clés qui répondent à ces défis
Sujets abordés
  • Les pipelines de données batch et leurs cas d'usage
  • Traitement et défis courants
Activités

Quiz

Objectifs
  • Concevoir des pipelines de données batch évolutifs pour l'ingestion et la transformation de gros volumes de données
  • Optimiser les jobs batch pour un débit élevé et une efficacité de coût en utilisant diverses techniques de gestion des ressources et d'optimisation des performances
Sujets abordés
  • Concevoir des pipelines batch
  • Transformations de données à grande échelle
  • Dataflow et Serverless pour Apache Spark
  • Connexions de données et orchestration
  • Exécuter un pipeline Apache Spark
  • Optimiser les performances des pipelines batch
Activités

Quiz

Lab: Construire un pipeline de données batch simple avec Serverless pour Apache Spark

Lab: Construire un pipeline de données batch simple avec Dataflow Job Builder UI

Objectifs
  • Développer des règles de validation et une logique de nettoyage pour assurer la qualité des données dans les pipelines batch
  • Implémenter des stratégies pour gérer l'évolution du schéma et effectuer la déduplication des données dans les grands ensembles de données
Sujets abordés
  • Validation et nettoyage des données batch
  • Logger et analyser les erreurs
  • Évolution du schéma pour les pipelines batch
  • Intégrité des données et duplication
  • Déduplication avec Serverless pour Apache Spark
  • Déduplication avec Dataflow
Activités

Quiz

Lab: Valider la qualité des données dans un pipeline batch avec Serverless pour Apache Spark

Objectifs
  • Orchestrer des workflows complexes de pipelines de données batch pour une planification efficace et un suivi de la lignée
  • Implémenter une gestion robuste des erreurs, de la surveillance et de l'observabilité pour les pipelines de données batch
Sujets abordés
  • Orchestration pour le traitement batch
  • Cloud Composer
  • Observabilité unifiée
  • Alertes et dépannage
  • Gestion visuelle des pipelines
Activités

Quiz

Lab: Construire des pipelines batch dans Cloud Data Fusion

Processus Qualité

L'engagement de SFEIR Institute : une démarche d'excellence pour garantir la qualité et la réussite de toutes nos formations. En savoir plus sur notre démarche qualité

Méthodes pédagogiques mobilisées
  • Lectures / Apports théoriques (Slides)Présentation de concepts via des supports visuels (PowerPoint, PDF).
  • Démonstration technique (Démos)Le formateur réalise une manipulation ou une procédure devant les apprenants.
  • Laboratoires dirigés (Labs)Mise en pratique guidée sur logiciel, machine ou environnement technique.
  • Quiz / QCMTest rapide de connaissances (format papier ou numérique type Kahoot/Klaxoon).
Dispositif d'évaluation et de suivi

L'atteinte des objectifs de la formation est évaluée à plusieurs niveaux pour garantir la qualité de la prestation :

  • Évaluation continue des acquis : Vérification des connaissances tout au long de la formation via des méthodes participatives (en fonction de la formation: quiz, exercices pratiques, mises en situation) sous la supervision du formateur.
  • Mesure de la progression : Dispositif d'auto-évaluation comparatif comprenant un diagnostic initial pour situer le niveau de départ, suivi d'une évaluation finale pour valider l'évolution des compétences.
  • Évaluation de la qualité : Questionnaire de satisfaction en fin de session pour mesurer la pertinence et l'efficacité de la formation ressentie par les participants.

Prochaines sessions

Aucune date ne vous convient ?

Nous organisons régulièrement de nouvelles sessions. Contactez-nous pour connaître les prochaines dates disponibles ou pour organiser une session à la date de votre choix.

S'inscrire à une date personnalisée

790€ HT

par apprenant