GCP200DEBATCH

Construire des pipelines de données batch sur Google Cloud

Dans ce cours de niveau intermédiaire, vous apprendrez à concevoir, construire et optimiser des pipelines de données batch robustes sur Google Cloud. Allant au-delà de la manipulation fondamentale des données, vous explorerez les transformations de données à grande échelle et l'orchestration efficace des workflows, essentielles pour une intelligence d'affaires rapide et des rapports critiques.

Obtenez une pratique concrète en utilisant Dataflow pour Apache Beam et Serverless pour Apache Spark (Dataproc Serverless) pour l'implémentation, et abordez les considérations cruciales pour la qualité des données, la surveillance et les alertes afin d'assurer la fiabilité des pipelines et l'excellence opérationnelle.

Google Cloud
Formation officielle Google CloudNiveau Intermédiaire⏱️ 1 jour (7h)

Ce que vous allez apprendre

  • Déterminer si les pipelines de données batch sont le bon choix pour votre cas d'usage métier.
  • Concevoir et construire des pipelines de données batch évolutifs pour l'ingestion et la transformation de gros volumes.
  • Implémenter des contrôles de qualité des données dans les pipelines batch pour assurer l'intégrité des données.
  • Orchestrer, gérer et surveiller les workflows de pipelines de données batch, en implémentant la gestion des erreurs et l'observabilité à l'aide d'outils de logging et de monitoring.

Prérequis

  • Maîtrise de base des concepts de Data Warehousing et ETL/ELT
  • Maîtrise de base en SQL
  • Connaissances de base en programmation (Python recommandé)
  • Familiarité avec gcloud CLI et la console Google Cloud
  • Familiarité avec les concepts et services de base de Google Cloud

Public cible

  • Ingénieurs Data, Analystes Data

Programme de la Formation

4 modules pour maîtriser les fondamentaux

Objectifs
  • Apprendre le rôle critique d'un ingénieur data dans le développement et la maintenance des pipelines de données batch
  • Comprendre les composants de base et le cycle de vie des pipelines de données batch
  • Analyser les défis courants dans le traitement de données batch
  • Identifier les services Google Cloud clés qui répondent à ces défis
Sujets abordés
  • Les pipelines de données batch et leurs cas d'usage
  • Traitement et défis courants
Activités

Quiz

Objectifs
  • Concevoir des pipelines de données batch évolutifs pour l'ingestion et la transformation de gros volumes de données
  • Optimiser les jobs batch pour un débit élevé et une efficacité de coût en utilisant diverses techniques de gestion des ressources et d'optimisation des performances
Sujets abordés
  • Concevoir des pipelines batch
  • Transformations de données à grande échelle
  • Dataflow et Serverless pour Apache Spark
  • Connexions de données et orchestration
  • Exécuter un pipeline Apache Spark
  • Optimiser les performances des pipelines batch
Activités

Quiz

Lab: Construire un pipeline de données batch simple avec Serverless pour Apache Spark

Lab: Construire un pipeline de données batch simple avec Dataflow Job Builder UI

Objectifs
  • Développer des règles de validation et une logique de nettoyage pour assurer la qualité des données dans les pipelines batch
  • Implémenter des stratégies pour gérer l'évolution du schéma et effectuer la déduplication des données dans les grands ensembles de données
Sujets abordés
  • Validation et nettoyage des données batch
  • Logger et analyser les erreurs
  • Évolution du schéma pour les pipelines batch
  • Intégrité des données et duplication
  • Déduplication avec Serverless pour Apache Spark
  • Déduplication avec Dataflow
Activités

Quiz

Lab: Valider la qualité des données dans un pipeline batch avec Serverless pour Apache Spark

Objectifs
  • Orchestrer des workflows complexes de pipelines de données batch pour une planification efficace et un suivi de la lignée
  • Implémenter une gestion robuste des erreurs, de la surveillance et de l'observabilité pour les pipelines de données batch
Sujets abordés
  • Orchestration pour le traitement batch
  • Cloud Composer
  • Observabilité unifiée
  • Alertes et dépannage
  • Gestion visuelle des pipelines
Activités

Quiz

Lab: Construire des pipelines batch dans Cloud Data Fusion

Formations associées

AWS

Architecture Avancée sur AWS

Dans ce cours, chaque module présente un scénario avec un défi architectural à résoudre. Vous examinerez les services et fonctionnalités AWS disponibles comme solutions au problème. Vous acquerrez des connaissances en participant à des discussions basées sur des problèmes et en découvrant les services AWS que vous pourriez appliquer pour relever les défis. Sur 3 jours, le cours va au-delà des bases d'une infrastructure cloud et couvre des sujets pour répondre à une variété de besoins pour les clients AWS. Les modules de cours se concentrent sur la gestion de plusieurs comptes AWS, la connectivité hybride et les appareils, la mise en réseau avec un accent sur la connectivité AWS Transit Gateway, les services de conteneurs, les outils d'automatisation pour l'intégration/livraison continue (CI/CD), la sécurité et la protection contre les attaques par déni de service distribué (DDoS), les lacs de données et les magasins de données, les services en périphérie, les options de migration et la gestion des coûts. Le cours se termine en vous présentant des scénarios et en vous mettant au défi d'identifier les meilleures solutions.

3 j
Avancé
AWS
Best

Architecturer sur AWS

Architecturer sur AWS s'adresse aux architectes de solutions, aux ingénieurs de conception de solutions et aux développeurs cherchant à comprendre l'architecture AWS. Dans ce cours, vous apprendrez à identifier les services et les fonctionnalités pour créer des solutions informatiques résilientes, sécurisées et hautement disponibles sur le Cloud AWS. Les solutions architecturales diffèrent en fonction du secteur, des types d'applications et de la taille de l'entreprise. Les instructeurs agréés par AWS mettent l'accent sur les meilleures pratiques en utilisant le Cadre AWS Well-Architected et vous guident dans le processus de conception de solutions informatiques optimales basées sur des scénarios réels. Les modules se concentrent sur la sécurité des comptes, la mise en réseau, le calcul, le stockage, les bases de données, la surveillance, l'automatisation, les conteneurs, l'architecture sans serveur, les services de périphérie, ainsi que la sauvegarde et la récupération. À la fin du cours, vous mettrez en pratique la création d'une solution et appliquerez ce que vous avez appris.

3 j
Intermédiaire

Prochaines sessions

Aucune date ne vous convient ?

Nous organisons régulièrement de nouvelles sessions. Contactez-nous pour connaître les prochaines dates disponibles ou pour organiser une session à la date de votre choix.

S'inscrire à une date personnalisée

Processus Qualité

L'engagement de SFEIR Institute : une démarche d'excellence pour garantir la qualité et la réussite de toutes nos formations. En savoir plus sur notre démarche qualité

Méthodes pédagogiques mobilisées
  • Lectures / Apports théoriques (Slides)Présentation de concepts via des supports visuels (PowerPoint, PDF).
  • Démonstration technique (Démos)Le formateur réalise une manipulation ou une procédure devant les apprenants.
  • Laboratoires dirigés (Labs)Mise en pratique guidée sur logiciel, machine ou environnement technique.
  • Quiz / QCMTest rapide de connaissances (format papier ou numérique type Kahoot/Klaxoon).
Dispositif d'évaluation et de suivi

L'atteinte des objectifs de la formation est évaluée à plusieurs niveaux pour garantir la qualité de la prestation :

  • Évaluation continue des acquis : Vérification des connaissances tout au long de la formation via des méthodes participatives (en fonction de la formation: quiz, exercices pratiques, mises en situation) sous la supervision du formateur.
  • Mesure de la progression : Dispositif d'auto-évaluation comparatif comprenant un diagnostic initial pour situer le niveau de départ, suivi d'une évaluation finale pour valider l'évolution des compétences.
  • Évaluation de la qualité : Questionnaire de satisfaction en fin de session pour mesurer la pertinence et l'efficacité de la formation ressentie par les participants.

790€ HT

par apprenant