Focus Formation : Data Engineering on Google Cloud

La formation de référence pour les Data Engineers sur Google Cloud.
Thomas, 09 septembre 2024

Les ingénieurs des données travaillent en étroite collaboration avec d’autres équipes, telles que les data scientists et les software engineers, pour garantir que les données sont disponibles et utilisables pour une variété de cas d’utilisation, tels que le machine learning, l’analyse business et la création de rapports. Ils jouent un rôle crucial pour aider leur entreprise à exploiter la puissance des données pour améliorer ses produits et services.

Un data engineer sur Google Cloud est responsable de la conception, de la construction, du déploiement et de la maintenance de l’infrastructure et des pipelines de données qui alimentent les applications et les services basés sur le cloud.

Sur Google Cloud, l’ingénieur de données sur utilise un large éventail de technologies, telles que BigQuery, Dataflow, Cloud Storage, Pub/Sub, Dataproc, Vertex AI, pour ingérer, traiter et analyser de grandes quantités de données.

Focus sur la formation Data Engineering on Google Cloud, la meilleure formation pour construire les compétences clés des Data Engineer sur Google Cloud.

Présentation générale de la formation Data Engineering on Google Cloud

La formation Data Engineering on Google Cloud dure 4 jours (environ 28h) et s’adresse à toute personne responsable de la gestion des transformations des données, notamment :

  • L’extraction, le chargement, la transformation, le nettoyage et la validation des données.
  • La conception de pipelines et d’architectures pour le traitement des données.
  • L’intégration de capacités d’analyse et d’apprentissage automatique dans les pipelines de données.
  • L’interrogation d’ensembles de données, visualisation des résultats des requêtes et création de rapports.

Cette formation couvre nombreux sujets socles (que nous détaillerons plus loin) notamment:

  • La construction de Data Lake et de Data Warehouse
  • Les pipelines de données batch et streaming
  • Les approches serveur managé, serverless et GUI du traitement des données
  • Certaines considérations avancées des outils BigQuery et Bigtable
  • Les outils IA pour l’ingénierie de données

La formation permet également de se familiariser avec les différents services et outils proposés par les fournisseurs de cloud, permettant ainsi de choisir les solutions les plus adaptées aux besoins spécifiques de chaque entreprise.

Les technologies abordées incluent notamment :

  • BigQuery
  • Cloud Bigtable
  • Cloud Storage
  • Cloud SQL
  • Cloud Spanner
  • Dataproc
  • Dataflow
  • Cloud Data Fusion
  • Cloud Composer
  • Pub/Sub
  • Vertex AI
  • Cloud ML APIs

A la fin de cette formation, les participants seront capables de :

  • Concevoir et créer des systèmes de traitement de données sur Google Cloud.
  • Traiter les données par lots et en streaming en implémentant des pipelines de données à mise à l’échelle automatique sur Dataflow.
  • Obtenir des informations business à partir d’ensembles de données extrêmement volumineuses à l’aide de BigQuery.
  • Exploiter les données non structurées à l’aide de Spark et des API ML sur Dataproc.
  • Obtenir des informations instantanées à partir de données en streaming.
  • Comprendre les API ML et BigQuery ML, et apprendre à utiliser AutoML pour créer des modèles puissants sans coder.

Cette formation est composée d’environ 60% de contenus théoriques, 40% de contenus (22 ateliers pratiques et de nombreux quizzes).

Zoom sur le contenu de la formation

Cette formation, en version 2.5 au moment de la rédaction de cet article, est composée de 18 modules principaux qui couvrent chacun un aspect important du métier d’ingénieur de données sur Google Cloud

Jour 1

Le premier jour de la formation Data Engineering on Google Cloud Platform est centré sur la construction de Data Lake et de Data Warehouse modernes. Dans cette journée les participants vont explorer les différences entre un lac de données et un entrepôt de données, Google Cloud Storage comme pilier d’un lac de données, BigQuery comme solutions d’entrepôt de données ainsi que des architectures de référence Google Cloud pour ETL, ELT et EL.

Module 01 : Introduction to Data Engineering

Ce module de formation présente une introduction à l’ingénierie des données et son rôle crucial dans la prise de décisions basées sur les données. Il met en lumière les responsabilités d’un ingénieur des données, qui consistent à construire des pipelines de données pour déplacer, transformer et gérer les données afin qu’elles puissent être utilisées pour l’analyse et le machine learning. Le module aborde également les défis courants rencontrés par les ingénieurs des données, tels que le nettoyage, le formatage et la préparation des données pour une utilisation optimale.

En outre, le module introduit des outils clé comme BigQuery, Cloud SQL, Cloud Monitoring, Data Catalog, les APIs DLP, Cloud Composer, ainsi qu’une architecture de référence et un cas client.

Ce module comporte un atelier pratique d’introduction à BigQuery.

Module 02 : Building a Data Lake

Ce module explique comment construire un lac de données (Data Lake) sur Google Cloud Platform. Un lac de données est un référentiel centralisé qui stocke des données brutes, structurées ou non, provenant de diverses sources. Différentes technologies de stockage utiles dans les workflows transitionnels sont présentées et un focus particulier est porté sur Cloud Storage et Cloud SQL.

Ce module comporte un atelier pratique pour charger et requêter des données dans Cloud SQL.

Module 03 : Building a Data Warehouse

Ce module traite de BigQuery, son architecture et la construction d’entrepôts de données, en particulier de la conception de schémas optimisés pour l’analyse. Il aborde les concepts de normalisation et de dénormalisation, et met l’accent sur l’utilisation de champs imbriqués (STRUCTS et ARRAYS) pour stocker des données complexes et multi-niveau dans une seule table, ce qui permet d’éviter les jointures coûteuses.

Le module explique comment charger des données semi-structurées JSON dans BigQuery, créer et interroger des tableaux et des structures, et interroger des champs imbriqués et répétés. Il met en évidence les avantages de cette approche pour l’analyse de données, notamment la possibilité de stocker des données de granularité différente dans une même table et d’effectuer des requêtes plus efficaces. Enfin, le module présente un exercice pratique pour appliquer les concepts appris.

Ce module comporte trois ateliers pratiques :

  • le premier pour explorer le chargement des données dans BigQuery
  • le second pour travailler avec des données JSON et Array dans BigQuery.
  • Le troisième pour mettre en oeuvre les tables partitionnées dans BigQuery

Jour 2

Le deuxième jour de la formation Data Engineering on Google Cloud Platform est centré sur la construction de pipelines de traitement de données batch. Il couvre les aspects de transformation, de qualité des données, d’orchestration et d’automatisation à travers des produits comme BigQuery, Dataproc, Dataflow, Cloud Data Fusion, Cloud Composer.

Module 04 : Introduction to Building Batch Data Pipelines

Ce module présente les différentes méthodes pour construire des pipelines de données par lots. Il détaille trois approches : EL (extraction et chargement), ELT (extraction, chargement puis transformation) et ETL (extraction, transformation puis chargement), chacune adaptée à des besoins spécifiques de transformation des données. Le choix de la méthode dépend de la complexité des transformations nécessaires et des outils utilisés.

Le module souligne également l’importance de la qualité des données et explore les techniques pour garantir leur fiabilité. L’objectif est d’assurer la fiabilité des données pour une analyse et une exploitation efficaces.

Module 05 : Executing Spark on Dataproc

Ce module explore l’exécution de tâches Apache Spark sur Google Cloud Dataproc, un service entièrement géré qui simplifie et optimise le déploiement et la gestion de clusters Spark et Hadoop. Le module met en avant les avantages de Dataproc, notamment sa facilité d’utilisation, son évolutivité et sa rentabilité, et explique comment configurer et optimiser les clusters pour des performances maximales. Il souligne également l’importance d’utiliser Cloud Storage comme stockage de données persistant, en remplacement de HDFS, pour une meilleure évolutivité, une compatibilité accrue avec l’écosystème Google Cloud et des coûts réduits.

Un atelier pratique permet aux participants de mettre en œuvre l’exécution de jobs Spark sur Dataproc.

Module 06 : Serverless Data Processing with Dataflow

Ce module traite de l’approche moderne du traitement de données via le produit serverless Dataflow. Dataflow permet de créer et d’exécuter des pipelines de traitement de données batch et en temps réel. Le module explore les avantages de Dataflow et explique comment construire des pipelines Apache Beam s’exécutant sur Dataflow. Le module compare Dataflow et Dataproc et met en évidence les cas d’utilisation appropriés pour chaque service. Enfin, le module présente des considérations importantes pour la conception de pipelines Dataflow efficaces et performants.

Ce module comporte trois ateliers pratiques qui explorent la composition de pipeline de traitement de données sur Dataflow de complexité croissante.

Module 07 : Manage Data Pipelines with Cloud Data Fusion and Cloud Composer

Ce module traite de la gestion des pipelines de données à l’aide de Cloud Data Fusion et Cloud Composer. Il aborde la création visuelle de pipelines de données batch avec Cloud Data Fusion, en examinant ses composants, son interface utilisateur, le processus de construction d’un pipeline et l’exploration des données à l’aide de Wrangler.

Un atelier pratique met en œuvre Cloud Data Fusion via la construction et l’exécution d’un pipeline.

De plus, le module explore l’orchestration des tâches entre les services Google Cloud avec Cloud Composer, en couvrant l’environnement Apache Airflow, les DAG et les opérateurs, la planification des workflows, ainsi que la surveillance et la journalisation.

Un atelier pratique met en œuvre Cloud Composer via l’exécution d’un DAG dans l’interface web Airflow.

Jour 3

Le troisième jour de la formation Data Engineering on Google Cloud Platform est centré sur la construction de systèmes d’analyse de streaming résilients. Il présente des services comme Pub/Sub, Dataflow, BigQuery et Bigtable qui peuvent être utilisés pour le traitement de données streaming pour des ensembles non bornés. Le module aborde également des sujets tels que l’utilisation des fonctions de fenêtre analytique de BigQuery pour une analyse avancée, les fonctionnalités SIG intégrées de BigQuery et les différentes manières d’optimiser les performances de vos requêtes.

Module 08 : Introduction to Processing Streaming Data

Ce module aborde les défis liés au traitement de données non bornées, telles que la variété des sources et des formats, le volume important, la vélocité élevée et la véracité des données.

Le module présente également des solutions offertes par Google Cloud pour relever ces défis, notamment une architecture serverless de référence basée sur Pub/Sub, Dataflow et BigQuery.

Module 09 : Serverless Messaging with Pub/Sub

Ce module présente Google Cloud Pub/Sub, un service de messagerie en temps réel et à grande échelle qui permet aux applications de communiquer de manière asynchrone. Il explore les concepts clés de Pub/Sub, tels que les topics, les subscriptions, les publishers et les subscribers, et explique comment ils fonctionnent ensemble pour faciliter la diffusion et la réception de messages.

Le module aborde également les différents modèles d’abonnement (push et pull) et leurs avantages respectifs, ainsi que des fonctionnalités importantes comme la relecture des messages et la livraison garantie qui assurent la fiabilité du système.

Un atelier pratique permet aux participants de créer des topics dans Pub/Sub et d’y publier des données streaming.

Module 10 : Dataflow Streaming Features

Ce module traite des défis du traitement des données en continu avec Dataflow, notamment la gestion des données non bornées et l’arrivée tardive des données. Il présente le concept de fenêtrage comme solution pour diviser les données en blocs temporels finis, permettant ainsi des agrégations et des analyses sur des flux continus. Trois types de fenêtres sont abordés : fixe, glissante et session, chacune adaptée à des cas d’utilisation spécifiques.

Le module explore également les déclencheurs et les modes d’accumulation pour contrôler le moment et la manière dont les résultats sont émis.

Un atelier pratique porte sur la création et l’exécution d’un pipeline de données en continu avec Dataflow dans lequel il s’agit de connecter Dataflow à Pub/Sub et BigQuery pour traiter des données en temps réel, d’observer le fonctionnement de l’autoscaling de Dataflow et de comprendre le flux des données à travers les différentes transformations du pipeline.

Module 11 : High-Throughput BigQuery and Bigtable Streaming Features

Ce module traite en premier des capacités de BigQuery pour ingérer et traiter des flux de données temps réel.

Un atelier pratique met en oeuvre BigQuery et Looker Studio pour générer des dashboard sur des données streaming.

Ensuite ce module introduit Bigtable afin de gérer des flux de données à très haut début. Il aborde des aspects importants tels que la conception du schéma, la configuration des nœuds, la réplication et les tests de performance. L’objectif est d’assurer une ingestion efficace des données en continu dans Bigtable, tout en maintenant une haute disponibilité et en évitant les goulots d’étranglement.

Le module présente également des outils et des techniques pour analyser et améliorer les performances de streaming, notamment Key Visualizer pour identifier les points chauds et optimiser la distribution des données.

Un atelier pratique met en oeuvre BigTable dans un contexte de traitement de données streaming.

Module 12 : Advanced BigQuery Functionality and Performance

Ce module explore les fonctionnalités avancées de BigQuery pour optimiser les performances des requêtes. Il aborde des sujets tels que les fonctions analytiques SQL (RANK, LEAD, LAG, etc.), les agrégations, les jointures efficaces et l’utilisation de clauses WITH et de sous-requêtes pour une meilleure modularité.

En plus des aspects techniques de l’optimisation des requêtes, le module présente également l’architecture de BigQuery, notamment le concept de slots comme unités de ressources consommées lors de l’exécution d’une requête. Il aborde également les différentes éditions de BigQuery, qui offrent un cadre pour optimiser le rapport prix/performance et le coût total de possession en ajustant la tarification, l’efficacité de calcul et les coûts de stockage.

Le module se conclut par un atelier pratique permettant de mettre en application les concepts appris et d’optimiser des requêtes BigQuery pour des performances optimales.

Jour 4

Le dernier jour de la formation Data Engineering on Google Cloud Platform est centré sur l’ analyse intelligente, le machine learning et l’IA. Il couvre des sujets tels que les API de modèles de Machine Learning pré-entraînés pour les données non structurées, l’analyse Big Data avec Notebooks, les pipelines de Machine Learning de production avec Vertex AI Pipelines (Kubeflow), la création de modèles personnalisés avec SQL dans BigQuery ML et la création de modèles personnalisés avec AutoML.

Module 13 : Introduction to Analytics and AI

Ce module présente une introduction à l’intelligence artificielle (IA) et à l’apprentissage automatique (Machine Learning ou ML), en particulier dans le contexte de Google Cloud. Le module explore les différentes options pour construire et déployer des modèles de ML sur Google Cloud, notamment l’utilisation de modèles pré-entraînés via des API comme Cloud Vision ou Cloud Natural Language, ou la création de modèles personnalisés avec des outils comme AutoML et Vertex AI.

L’objectif est de montrer comment les entreprises peuvent exploiter la puissance de l’IA et du ML pour résoudre divers problèmes et optimiser leurs processus, qu’il s’agisse d’analyser des images, du texte ou d’autres types de données.

Module 14 : Prebuilt ML Model APIs for Unstructured Data

Ce module traite des données non structurées, qui constituent la majorité des données d’entreprise et dont il est difficile d’extraire des informations utiles. Le module explore des exemples concrets d’utilisation de données non structurées, telles que le texte, les images, l’audio et la vidéo.

Le module présente les API de modèles de ML pré-entraînés pour les données non structurées, telles que Vision API, Speech-to-Text et Cloud Natural Language API.

Le module comprend un atelier pratique sur l’utilisation de l’API Natural Language pour classer du texte non structuré.

Module 15 : Big Data Analytics with Notebooks

Ce module explore les notebooks dans Vertex AI, en mettant l’accent sur leur utilisation courante dans l’analyse de données et le machine learning.

Le module détaille le processus de développement d’un notebook, de l’écriture du code à l’examen des résultats et au partage, en soulignant l’intégration de JupyterLab dans Vertex AI et avec BigQuery.

Le module comprend un atelier pratique pour appliquer ces concepts, en guidant les utilisateurs à travers l’instanciation d’un notebook et l’exécution de requêtes BigQuery.

Module 16 : Production ML Pipelines

Ce module explore les pipelines de Machine Learning (ML) sur Google Cloud. Il met l’accent sur l’importance des pipelines pour automatiser les processus d’entraînement et de déploiement des modèles de ML. Le module présente Vertex AI Pipelines, un service entièrement géré pour la création et l’exécution de pipelines.

De plus, le module aborde TensorFlow Hub, une bibliothèque de modèles de ML pré-entraînés et réutilisables, qui peuvent être intégrés aux pipelines pour accélérer le développement.

Un atelier permet aux participants d’acquérir une expérience concrète de l’exécution de pipelines sur Vertex AI.

Module 17 : Custom Model Building with SQL in BigQuery ML

Ce module explore l’utilisation de BigQuery ML pour construire des modèles de Machine Learning directement dans BigQuery. Le module détaille les étapes de construction, d’évaluation et d’utilisation de ces modèles, en mettant l’accent sur l’utilisation de SQL pour interagir avec BigQuery ML. Il met en avant la flexibilité de BigQuery ML, qui permet d’utiliser différents types de modèles et d’algorithmes pour répondre à divers besoins de Machine Learning.

Deux ateliers pratiques couvrent deux exemples concrets : la prédiction de la durée d’un trajet à vélo avec un modèle de régression linéaire et la création d’un système de recommandation de films avec la factorisation matricielle

Module 18 : Custom Model Building with AutoML

Ce module explore Vertex AI AutoML, qui permet de créer et de déployer facilement des modèles de Machine Learning personnalisés sans avoir besoin d’une expertise approfondie en codage. Le module présente les différentes solutions AutoML disponibles (Vision, Natural Language, Tables, etc.) et explique comment les utiliser pour des cas d’usage variés, comme la classification d’images, l’analyse de texte et la prédiction de valeurs numériques.

Le module met également l’accent sur les étapes clés du workflow AutoML, de la préparation du jeu de données à l’évaluation et au déploiement du modèle.

Enfin, le module aborde la question du choix entre la construction d’une solution personnalisée et l’utilisation d’une solution AutoML, en fournissant des critères pour guider la décision en fonction des besoins et des ressources disponibles.

Conclusion et prochaines étapes

La formation Data Engineering on Google Cloud offre un tour d’horizon complet des produits et services essentiels pour exercer le métier de Data Engineer sur Google Cloud.

Vous trouverez le programme détaillé à cette adresse https://institute.sfeir.com/formations/data-analytics-and-ai/data-engineering-on-google-cloud-platform/ ainsi que les dates des prochaines formations publiques (inter).

La formation Data Engineering on Google Cloud est également la formation centrale du parcours d’apprentissage Data Engineer sur Google Cloud. Les connaissances et compétences vues pendant cette formation sont essentielles pour préparer la certification Google Cloud Professional Data Engineer.

Et pour ceux intéressés par découvrir les services fondamentaux qui sont socle de la data et du machine learning dans Google Cloud, il y a la formation Google Cloud Big Data and Machine Learning Fundamentals.

Intéressés par les formations à l’intelligence artificielle sur Google Cloud ? Notre guide ultime des formations Intelligence Artificielle sur Google Cloud vous explique tout.

Contactez-nous directement pour réserver une formation dédiée à vos équipes (intra) ou pour un parcours de formation personnalisé sur Google Cloud.

Autres articles

Illustration pour l'article Focus formation: Introduction to AI and Machine Learning on Google Cloud
19 août 2024 Focus formation

Focus formation: Introduction to AI and Machine Learning on Google Cloud

L'intelligence artificielle et le machine learning révolutionnent toutes les industries et les acteurs du cloud tels que Google Cloud proposent aux entreprises des environnements de pointe pour exploiter le plein potentiel de l’IA. Les compétences...

Illustration de l'article focus sur la formation dbt
26 août 2024 Focus formation

Focus Formation dbt

Quel que soit le secteur d’activité : finance, retail, marketing, ou encore la santé, les entreprises s’appuient sur les données pour développer leurs produits et leurs services. Si les technologies modernes sont disponibles pour capturer...

Une illustration pour l'article Focus Formation : Google Cloud Fundamentals : Core Infrastructure
02 septembre 2024 Focus formation

Focus Formation : Google Cloud Fundamentals : Core Infrastructure

Le cloud computing révolutionne la manière dont les données sont stockées, traitées et gérées, offrant une flexibilité, une scalabilité et une rentabilité sans précédent. Mais construire ou migrer son infrastructure vers le cloud représente un...