Data Engineering on Google Cloud Platform

Les compétences essentielles pour concevoir et construire des systèmes de traitement de données et des workflows de machine learning sur Google Cloud

GCP200DE
4 jours (28 heures)

Description du cours

Ce cours de quatre jours dirigé par un instructeur offre aux participants une introduction pratique à la conception et à la création de systèmes de traitement des données sur Google Cloud Platform. Grâce à une combinaison de présentations, de démonstrations et de travaux pratiques, les participants apprendront à concevoir des systèmes de traitement des données, à construire des pipelines de données de bout en bout, à analyser les données et à effectuer un apprentissage automatique. Le cours couvre les données structurées, non structurées et en streaming.

Objectifs pédagogiques

Ce cours permet aux participants d'acquérir les compétences suivantes:

  • Conception et déploiement de pipelines et d’architectures pour le traitement des données
  • Création et déploiement de workflows de machine learning
  • Interrogation des ensembles de données
  • Visualisation des résultats des requêtes et création de rapports

Prérequis

Pour tirer le meilleur parti de ce cours, les participants doivent disposer des éléments suivants:

  • Avoir suivi le cours Google Cloud Fundamentals: Big Data & Machine Learning ou avoir une expérience équivalente
  • Compétence de base avec un langage de requête commun tel que SQL
  • Experience avec la modélisation de données et l ‘ETL
  • Développement d’applications à l’aide d’un langage de programmation commun tel que Python
  • Connaissance du machine learning et / ou des statistiques

Public cible

Ce cours est destiné aux participants suivants:

  • Développeurs expérimentés qui sont responsables de la gestion des transformations des mégadonnées, notamment: l’extraction, le chargement, la transformation, le nettoyage et la validation des données

Programme de formation

Module 1: Introduction à l’ingénierie des données

  • Explorez le rôle d’un data engineer
  • Analyser les défis d’ingénierie des données
  • Introduction à BigQuery
  • Data lakes et data warehouses
  • Démo: requêtes fédérées avec BigQuery
  • Bases de données transactionnelles vs data warehouses
  • Démo: recherche de données personnelles dans votre jeu de données avec l’API DLP
  • Travailler efficacement avec d’autres équipes de données
  • Gérer l’accès aux données et gouvernance
  • Construire des pipelines prêts pour la production
  • Etude de cas d’un client GCP
  • Lab: Analyse de données avec BigQuery

Module 2: Construire un Data Lake​

  • Introduction aux data lakes
  • Stockage de données et options ETL sur GCP
  • Construction d’un data lake à l’aide de Cloud Storage
  • Démo: optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
  • Sécurisation de Cloud Storage
  • Stocker tous les types de données
  • Démo: exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
  • Cloud SQL en tant que data lake relationnel

Module 3: Construire un Data Warehouse

  • Le data warehouse moderne
  • Introduction à BigQuery
  • Démo: Requêter des TB + de données en quelques secondes
  • Commencer à charger des données
  • Démo: Interroger Cloud SQL à partir de BigQuery
  • Lab: Chargement de données avec la console et la CLI
  • Explorer les schémas
  • Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
  • Conception de schéma
  • Démo: Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
  • Champs imbriqués et répétés dans BigQuery
  • Lab: tableaux et structures
  • Optimiser avec le partitionnement et le clustering
  • Démo: Tables partitionnées et groupées dans BigQuery
  • Aperçu: Transformation de données par lots et en continu

Module 4: Introduction à la construction de pipelines de données par lots EL, ELT, ETL

  • Considérations de qualité
  • Comment effectuer des opérations dans BigQuery
  • Démo: ELT pour améliorer la qualité des données dans BigQuery
  • Des lacunes
  • ETL pour résoudre les problèmes de qualité des données

Module 5: Exécution de Spark sur Cloud Dataproc

  • L’écosystème Hadoop
  • Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
  • Optimiser Dataproc
  • Atelier: Exécution de jobs Apache Spark sur Cloud Dataproc

Module 6: Traitement de données sans serveur avec Cloud Dataflow

  • Cloud Dataflow
  • Pourquoi les clients apprécient-ils Dataflow?
  • Pipelines de flux de données
  • Lab: Pipeline de flux de données simple (Python / Java)
  • Lab: MapReduce dans un flux de données (Python / Java)
  • Lab: Entrées latérales (Python / Java)
  • Templates Dataflow
  • Dataflow SQL

Module 7: Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

  • Création visuelle de pipelines de données par lots avec Cloud Data Fusion: composants, présentation de l’interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler
  • Lab: Construction et exécution d’un graphe de pipeline dans Cloud Data Fusion
  • Orchestrer le travail entre les services GCP avec Cloud Composer - Apache Airflow Environment: DAG et opérateurs, planification du flux de travail
  • Démo: Chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage et BigQuery
  • Lab: Introduction à Cloud Composer

Module 8: Introduction au traitement de données en streaming

  • Traitement des données en streaming

Module 9: Serverless messaging avec Cloud Pub/Sub

  • Cloud Pub/Sub
  • Lab: Publier des données en continu dans Pub/Sub

Module 10: Fonctionnalités streaming de Cloud Dataflow

  • Fonctionnalités streaming de Cloud Dataflow
  • Lab: Pipelines de données en continu

Module 11: Fonctionnalités Streaming à haut débit BigQuery et Bigtable

  • Fonctionnalités de streaming BigQuery
  • Lab: Analyse en continu et tableaux de bord
  • Cloud Bigtable
  • Lab: Pipelines de données en continu vers Bigtable

Module 12: Fonctionnalité avancées de BigQuery et performance

  • Analytic Window Functions
  • Utiliser des clauses With
  • Fonctions SIG
  • Démo: Cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz
  • Considérations de performance
  • Lab: Optimisation de vos requêtes BigQuery pour la performance
  • Lab: Création de tables partitionnées par date dans BigQuery

Module 13: Introduction à l’analytique et à l’IA

  • Qu’est-ce que l’IA?
  • De l’analyse de données ad hoc aux décisions basées sur les données
  • Options pour modèles ML sur GCP

Module 14: API de modèle ML prédéfinies pour les données non structurées

  • Les données non structurées sont difficiles à utiliser
  • API ML pour enrichir les données
  • Lab: Utilisation de l’API en langage naturel pour classer le texte non structuré

Module 15: Big Data Analytics avec les notebooks Cloud AI Platform

  • Qu’est-ce qu’un notebook
  • BigQuery Magic et liens avec Pandas
  • Lab: BigQuery dans Jupyter Labs sur IA Platform

Module 16: Pipelines de production ML avec Kubeflow

  • Façons de faire du ML sur GCP
  • Kubeflow AI Hub
  • Lab: Utiliser des modèles d’IA sur Kubeflow

Module 17: Création de modèles personnalisés avec SQL dans BigQuery ML

  • BigQuery ML pour la construction de modèles rapides
  • Démo: Entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxi à New York
  • Modèles pris en charge
  • Lab: Prédire la durée d’une sortie en vélo avec un modèle de régression dans BigQuery ML
  • Lab: Recommandations de film dans BigQuery ML

Module 18: Création de modèles personnalisés avec Cloud AutoML

  • Pourquoi Auto ML?
  • Auto ML Vision
  • Auto ML NLP
  • Auto ML Tables

2800€ H.T.

Continuez de vous former

GCP200DA
From Data to Insights with Google Cloud Platform
Vous voulez savoir comment interroger et traiter des pétaoctets de données en quelques secondes ? Vous souhaitez en savoir plus sur l'analyse des données qui évolue automatiquement à mesure que vos données augmentent ? Bienvenue dans le cours Data Insights ! Cette spécialisation enseigne aux participants comment tirer des enseignements grâce à l'analyse et à la visualisation des données à l'aide de Google Cloud Platform. Les cours présentent des scénarios interactifs et des laboratoires pratiques où les participants explorent, extraient, chargent, visualisent et extraient des informations à partir de divers ensembles de données Google BigQuery. Les cours couvrent également le chargement des données, l'interrogation, la modélisation de schéma, l'optimisation des performances, la tarification des requêtes et la visualisation des données.
GCP100B
Google Cloud Platform Big Data and Machine Learning Fundamentals
Ce cours d'une journée présente aux participants les capacités de Big Data et de Machine Learning de Google Cloud Platform (GCP). Il fournit un aperçu rapide de Google Cloud Platform et une vue plus approfondie des capacités de traitement des données.
GCPCERT-DE
Preparing for the Professional Data Engineer Examination
Ce cours prépare à l'examen de certification Google Cloud Professional Data Engineer. Le but de ce cours est d'aider les personnes qualifiées à gagner en assurance avant de tenter l'examen, et d'aider les personnes non qualifiées à élaborer leur propre plan de préparation. De nombreux conseils seront fournis afin de préparer au mieux le passage de la certification. Les sujets au programme de la certification seront examinés en détail. Les compétences utiles seront revues, y compris le raisonnement aux questions d'examen et la compréhension des cas. Vous apprendrez également et aurez l'occasion de mettre en pratique des compétences professionnelles clés, y compris des compétences cognitives telles que l'analyse de cas, l'identification de points de vue techniques et le développement de solutions proposées. Ce sont des compétences professionnelles qui sont également des compétences d'examen. Et vous aurez de nombreux exemples de questions similaires à celles de l'examen, y compris des solutions. La fin du cours contient un quiz d'examen pratique.

Contactez nous

Vous pouvez vous désabonner de nos communications à tout moment.

Afin de prendre en compte votre demande, nous devons stocker et traiter vos données personnelles. Si vous nous autorisez à stocker vos données personnelles à cette fin, cochez la case ci-dessous.

En cliquant sur « Envoyer » ci-dessous, vous autorisez l’entreprise SFEIR à stocker et traiter les données personnelles soumises ci-dessus afin qu’elle vous fournisse le contenu demandé.