Focus Formation : Google Cloud Big Data and Machine Learning Fundamentals
Le cloud computing révolutionne la manière dont les données sont stockées, traitées et gérées, offrant une flexibilité, une scalabilité et une rentabilité sans précédent.
Google Cloud est une plateforme de référence pour permettre aux entreprises de toutes tailles de construire des plateformes Data et ML modernes, aux performances optimales, tout en maîtrisant les coûts.
Cependant l’adoption du Big Data et du Machine Learning dans le cloud représente un véritable défi, et il est essentiel de former les équipes pour tirer parti de ces innovations.
Focus sur la formation Google Cloud Big Data and Machine Learning Fundamentals, la meilleure introduction pour apprendre à gérer et exploiter vos données dans Google Cloud.
Présentation générale de la formation Google Cloud Big Data and Machine Learning Fundamentals
La formation Google Cloud Big Data and Machine Learning Fundamentals dure environ 1 journée (7h) et s’adresse à toute personne souhaitant explorer les produits et services de Google Cloud qui prennent en charge le cycle de vie des données, jusqu’à l’IA.
Cette formation couvre nombreux sujets socles (que nous détaillerons plus loin) notamment:
- Le portfolio d’outil Big Data et IA/ML de Google Cloud
- Les solutions pour le streaming de données
- Le data warehouse BigQuery
- Le flux de travail d’apprentissage automatique avec Vertex AI.
La formation permet également de se familiariser avec les différents services et outils proposés par les fournisseurs de cloud, permettant ainsi de choisir les solutions les plus adaptées aux besoins spécifiques de chaque entreprise.
Les technologies abordées incluent notamment :
- BigQuery
- BigQuery ML
- Dataflow
- Pub/Sub
- Apache Beam
- Looker
- Looker Studio
- Vertex AI
- AutoML
- Vertex Workbench
- Document AI
- Contact Center AI (CCAI)
- TPU (Tensor Processing Unit)
- Google Kubernetes Engine
- Compute Engine
A la fin de cette formation, les participants seront capables de :
- Identifier le cycle de vie données-vers-IA sur Google Cloud et les principaux produits du big data et du machine learning.
- Concevoir des pipelines de streaming avec Dataflow et Pub/Sub.
- Analyser le big data à grande échelle avec BigQuery.
- Identifier différentes options pour créer des solutions de machine learning sur Google Cloud.
- Décrire un flux de travail machine learning et les étapes clés avec Vertex AI.
- Créer un pipeline de machine learning à l’aide d’AutoML.
Cette formation est accessible à tous, cependant afin de tirer le maximum parti de cette formation il est recommandé d’avoir des connaissances de base en SQL, avec l’ingénierie des données et le machine learning.
Cette formation est composée d’environ 60% de contenus théoriques, 40% de contenus (4 ateliers pratiques et de nombreux quizzes).
Zoom sur le contenu de la formation
Cette formation, en version 3.07 au moment de la rédaction de cet article, est composée de 5 modules principaux qui couvrent chacun un aspect important des fondamentaux du BigData et du Machine Learning sur Google Cloud.
Module 01 : Big Data et Machine Learning on Google Cloud
Ce premier module fournit une vue d’ensemble complète des capacités de Google Cloud en matière de Big Data et de Machine Learning, en mettant l’accent sur l’évolution des technologies et la diversité des solutions disponibles.
En particulier, ce module aborde les sujets suivants :
Infrastructure Google Cloud
- Composée de Compute, Storage, Networking & Security
- Organisée en zones géographiques, régions et zones pour la redondance et la disponibilité
Stockage
- Cloud Storage pour le stockage d’objets avec différentes classes (Standard, Nearline, Coldline, Archive)
- Options pour données structurées : Cloud SQL, Spanner, Firestore, BigQuery, Bigtable
Histoire des technologies de données et Machine Learning de Google
- Chronologie des innovations de 2002 à 2024
- Inclut MapReduce, GFS, BigTable, TensorFlow, BigQuery, Vertex AI, Gemini, etc.
Catégories de produits Big Data et ML
- Ingestion & traitement : Pub/Sub, Dataflow, Dataproc, etc.
- Stockage : Cloud Storage, Cloud SQL, Spanner, Bigtable, etc.
- Analyse : BigQuery, Looker
- Machine Learning : Vertex AI, AutoML, TensorFlow, etc.
Ce module se concentre sur les produits Big Data et ML plutôt que sur l’infrastructure sous-jacente, qui elle est introduite dans le cours Google Cloud Fundamentals : Core Infrastructure.
Un premier atelier pratique permet aux participants de prendre en main BigQuery via l’exploration de dataset public ou la création de son propre dataset.
Module 02 : Data Engineering for Streaming Data
Ce module se concentre sur la création de solutions de données en temps réel avec Google Cloud, en mettant l’accent sur l’ingestion, le traitement et la visualisation des données en streaming.
Il met en avant les défis du Big Data (les 4 Vs), les pipeline de données en streaming et les outils qui permettent d’adresser les problématiques d’ingestion, traitement et visualisation de données en streaming sur Google Cloud.
En pratique ce sont les produits Pub/Sub, DataFlow et Looker / Looker Studio qui présentés comme pour construire une architecture de traitement de données serverless.
Un atelier pratique amène les apprenants à créer un pipeline pour gérer les données en temps réel avec Dataflow.
Module 03 : Big Data with BigQuery
BigQuery, le data warehouse de Google Cloud est un produit clé pour la très grande majorité des clients Google Cloud. Ce module se concentre sur l’utilisation de BigQuery pour le traitement et l’analyse de big data.
Dans un premier temps les caractéristiques et fonctionnalités importantes de BigQuery sont présentées.
Ensuite le module présente BigQuery ML et les capacités de Machine Learning directement dans BigQuery.
Dans l’atelier pratique, les participants vont entraîner et évaluer des modèles de machine learning dans BigQuery ML afin de prédire le comportement d’achat des visiteurs d’un site e-commerce.
Module 04 : Machine Learning Options on Google Cloud
Ce quatrième module présente les différentes options de machine learning disponibles sur Google Cloud. Ces options permettent d’implémenter le machine learning sur la plateforme Google Cloud, en fonction des besoins et de l’expertise de chaque entreprise.
4 options principales sont introduites :
- BigQuery ML : déjà évoqué dans le module précédent, utilise des requêtes SQL pour créer et exécuter des modèles ML directement dans BigQuery
- API pré-construites : prête à l’emploi, elles exploitent des modèles ML déjà construits et entraînés par Google
- AutoML : outil low-code / nocode qui permet de créer des modèles de machine learning personnalisés sans coder
- Entraînement personnalisé : qui permet de construire son propre environnement ML pour avoir le contrôle sur l’ensemble du processus.
Cette découverte du portfolio AI/ML de Google Cloud offre également une comparaison des 4 options principales et mentionne les solutions AI plus haut niveau, comme Document AI ou encore Retail Product Discovery.
Il n’y a pas de lab dans ce module, cependant les apprenants qui souhaitent aller plus loin sur le Machine Learning et l’IA dans Google Cloud seront intéressés par ces deux formations :
Introduction to AI and Machine Learning on Google Cloud, idéale pour démarrer en 1 journée sur l’IA et le ML dans Google Cloud
Machine Learning on Google Cloud qui explore sur 5 jours les produits et services permettant de construire ses projets machine learning avec Google Cloud.
Module 05 : The Machine Learning Workflow with Vertex AI
Le dernier module de cette formation se concentre sur le flux de travail du Machine Learning en utilisant la plateforme Vertex AI de Google Cloud.
Après une introduction au Machine Learning et à Vertex AI, ce module présente de manière illustrée les 3 étapes majeures du workflow ML : la préparation des données, l’entraînement des modèles et la mise en service des modèles.
L’atelier pratique de ce module met en œuvre AutoML pour construire un modèle de machine learning permettant de prédire le risque de prêt.
Conclusion et prochaines étapes
La formation Big Data and Machine Learning Fundamentals offre une introduction complète aux concepts et aux services clés de la plateforme Google Cloud, et pose les bases solides nécessaires pour naviguer avec confiance dans Google Cloud.
Vous trouverez le programme détaillé à cette adresse https://institute.sfeir.com/formations/data-analytics-and-ai/google-cloud-big-data-and-machine-learning-fundamentals/ ainsi que les dates des prochaines formations publiques (inter).
La formation Big Data and Machine Learning Fundamentals est également le point de départ de tous les parcours de formation Data et ML sur Google Cloud comme les parcours Data Engineer, Data Analyst ou encore Machine Learning Engineer.
Intéressés par les formations à l’intelligence artificielle sur Google Cloud ? Notre Guide ultime des formations Intelligence Artificielle sur Google Cloud vous explique tout.
Et pour ceux intéressés par découvrir les services fondamentaux qui seront le socle de vos infrastructures dans Google Cloud, il y a la formation Google Cloud Fundamentals : Core Infrastructure.
Contactez-nous directement pour réserver une formation dédiée à vos équipes (intra) ou pour un parcours de formation personnalisé sur Google Cloud.