Construire des pipelines de données batch sur Google Cloud
Dans ce cours de niveau intermédiaire, vous apprendrez à concevoir, construire et optimiser des pipelines de données batch robustes sur Google Cloud. Allant au-delà de la manipulation fondamentale des données, vous explorerez les transformations de données à grande échelle et l'orchestration efficace des workflows, essentielles pour une intelligence d'affaires rapide et des rapports critiques.
Obtenez une pratique concrète en utilisant Dataflow pour Apache Beam et Serverless pour Apache Spark (Dataproc Serverless) pour l'implémentation, et abordez les considérations cruciales pour la qualité des données, la surveillance et les alertes afin d'assurer la fiabilité des pipelines et l'excellence opérationnelle.

Ce que vous allez apprendre
- Déterminer si les pipelines de données batch sont le bon choix pour votre cas d'usage métier.
- Concevoir et construire des pipelines de données batch évolutifs pour l'ingestion et la transformation de gros volumes.
- Implémenter des contrôles de qualité des données dans les pipelines batch pour assurer l'intégrité des données.
- Orchestrer, gérer et surveiller les workflows de pipelines de données batch, en implémentant la gestion des erreurs et l'observabilité à l'aide d'outils de logging et de monitoring.
Prérequis
- Maîtrise de base des concepts de Data Warehousing et ETL/ELT
- Maîtrise de base en SQL
- Connaissances de base en programmation (Python recommandé)
- Familiarité avec gcloud CLI et la console Google Cloud
- Familiarité avec les concepts et services de base de Google Cloud
Public cible
- Ingénieurs Data, Analystes Data
Programme de la Formation
4 modules pour maîtriser les fondamentaux
Objectifs
- Apprendre le rôle critique d'un ingénieur data dans le développement et la maintenance des pipelines de données batch
- Comprendre les composants de base et le cycle de vie des pipelines de données batch
- Analyser les défis courants dans le traitement de données batch
- Identifier les services Google Cloud clés qui répondent à ces défis
Sujets abordés
- →Les pipelines de données batch et leurs cas d'usage
- →Traitement et défis courants
Activités
Quiz
Objectifs
- Concevoir des pipelines de données batch évolutifs pour l'ingestion et la transformation de gros volumes de données
- Optimiser les jobs batch pour un débit élevé et une efficacité de coût en utilisant diverses techniques de gestion des ressources et d'optimisation des performances
Sujets abordés
- →Concevoir des pipelines batch
- →Transformations de données à grande échelle
- →Dataflow et Serverless pour Apache Spark
- →Connexions de données et orchestration
- →Exécuter un pipeline Apache Spark
- →Optimiser les performances des pipelines batch
Activités
Quiz
Lab: Construire un pipeline de données batch simple avec Serverless pour Apache Spark
Lab: Construire un pipeline de données batch simple avec Dataflow Job Builder UI
Objectifs
- Développer des règles de validation et une logique de nettoyage pour assurer la qualité des données dans les pipelines batch
- Implémenter des stratégies pour gérer l'évolution du schéma et effectuer la déduplication des données dans les grands ensembles de données
Sujets abordés
- →Validation et nettoyage des données batch
- →Logger et analyser les erreurs
- →Évolution du schéma pour les pipelines batch
- →Intégrité des données et duplication
- →Déduplication avec Serverless pour Apache Spark
- →Déduplication avec Dataflow
Activités
Quiz
Lab: Valider la qualité des données dans un pipeline batch avec Serverless pour Apache Spark
Objectifs
- Orchestrer des workflows complexes de pipelines de données batch pour une planification efficace et un suivi de la lignée
- Implémenter une gestion robuste des erreurs, de la surveillance et de l'observabilité pour les pipelines de données batch
Sujets abordés
- →Orchestration pour le traitement batch
- →Cloud Composer
- →Observabilité unifiée
- →Alertes et dépannage
- →Gestion visuelle des pipelines
Activités
Quiz
Lab: Construire des pipelines batch dans Cloud Data Fusion
Processus Qualité
L'engagement de SFEIR Institute : une démarche d'excellence pour garantir la qualité et la réussite de toutes nos formations. En savoir plus sur notre démarche qualité
- Lectures / Apports théoriques (Slides) — Présentation de concepts via des supports visuels (PowerPoint, PDF).
- Démonstration technique (Démos) — Le formateur réalise une manipulation ou une procédure devant les apprenants.
- Laboratoires dirigés (Labs) — Mise en pratique guidée sur logiciel, machine ou environnement technique.
- Quiz / QCM — Test rapide de connaissances (format papier ou numérique type Kahoot/Klaxoon).
L'atteinte des objectifs de la formation est évaluée à plusieurs niveaux pour garantir la qualité de la prestation :
- Évaluation continue des acquis : Vérification des connaissances tout au long de la formation via des méthodes participatives (en fonction de la formation: quiz, exercices pratiques, mises en situation) sous la supervision du formateur.
- Mesure de la progression : Dispositif d'auto-évaluation comparatif comprenant un diagnostic initial pour situer le niveau de départ, suivi d'une évaluation finale pour valider l'évolution des compétences.
- Évaluation de la qualité : Questionnaire de satisfaction en fin de session pour mesurer la pertinence et l'efficacité de la formation ressentie par les participants.
Prochaines sessions
Aucune date ne vous convient ?
Nous organisons régulièrement de nouvelles sessions. Contactez-nous pour connaître les prochaines dates disponibles ou pour organiser une session à la date de votre choix.
S'inscrire à une date personnaliséeFormer plusieurs collaborateurs
- Tarifs dégressifs (plusieurs places)
- Session privée ou sur-mesure
- En présentiel ou à distance