SFEIR InstituteDBT

dbt

Créez des workflows efficaces de gestion de données avec dbt

2 jours / 14h

Présentation du cours

dbt (data build tool) est une librairie open source qui permet aux Data Analyst et Data Engineers de transformer et de gérer les données de manière efficace, collaborative et contrôlée par version. C’est un outil majeur, utilisé par plus de 25.000 équipes data pour accélérer leur développement.

Cette formation de deux jours vous apportera une compréhension approfondie et des compétences pratiques pour maîtriser pleinement l’utilisation de dbt dans vos projets de transformation de données. 

Vous serez en mesure de mettre en œuvre des workflows efficaces de gestion de données, d’automatiser les tâches récurrentes, de garantir la qualité des données, et de collaborer efficacement au sein de votre équipe. 

Grâce à des exercices pratiques, vous développerez la confiance nécessaire pour utiliser dbt de manière autonome et tirer parti de ses fonctionnalités avancées pour optimiser la productivité et fournir des analyses de données précises et fiables.

Objectifs pédagogiques

  • Comprendre les concepts clés, les avantages et l’architecture de dbt en tant qu’outil de transformation et de modélisation des données.
  • Créer des modèles de données structurés avec dbt, et effectuer des transformations pour traiter et préparer les données en vue de l’analyse.
  • Maîtriser les fonctionnalités avancées telles que les macros, les modèles Jinja, les variables et le contrôle de flux.
  • Utiliser les instantanés (snapshots) dbt pour suivre les changements au fil du temps et gérer les données historiques, facilitant l’analyse des tendances historiques et les dimensions à changement lent.
  • Mettre en œuvre des tests pour garantir la qualité et l’intégrité des données, permettant de valider les résultats des transformations et de détecter les anomalies.

Public cible

  • Data Analysts, Data Engineers
  • Toute personne intéressée par la transformation des données

Prérequis

Programme

Jour 1

Module 1 : Évolution de la pile de données

  • Évolution de la pile de données
  • Comprendre les différences entre les approches d’intégration de données Extract-Transform-Load (ETL) et Extract-Load-Transform (ELT)
  • Introduction à la pile de données moderne

Module 2 : Introduction à dbt

  • Aperçu de dbt
  • Installation de dbt et configuration de l’environnement de développement
  • Créer un projet dbt
  • Connexion aux sources de données

Lab : Mise en place d’un projet dbt

Module 3 : Travailler avec des modèles dbt

  • Comprendre les modèles dbt
  • Comment fonctionnent les modèles de dbt ?
  • Options de matérialisation
  • Configuration de la matérialisation
  • Présentation de la fonctionnalité de tagging pour l’organisation des métadonnées

Atelier : Créer des modèles de données avec dbt

Module 4 : Sources et références dbt

  • Introduction aux sources dbt
  • Configuration des sources dbt
  • Travailler avec des références dbt

Atelier : Configuration des sources dbt, référencement des données externes et gestion des dépendances du modèle

Module 5 : Amorçage de vos modèles de données

  • Introduction aux seeds dbt
  • Création et remplissage de données seed
  • Avantages de l’utilisation de seeds pour l’initialisation des données
  • Intégrer des seeds à vos modèles dbt

Atelier : Créer et intégrer des seeds dans vos projets dbt

Jour 2

Module 6 : Snapshots pour gérer les données historiques

  • Comprendre les snapshots dans dbt
  • Configuration et définition de snapshots
  • Exécuter et gérer des snapshots

Atelier : Mise en œuvre d’une stratégie de snapshots

Module 7 : Transformation et contrôle avancés des données

  • Comprendre les macros
  • Jinja, un langage de modèles
  • Utiliser des variables pour gérer la configuration du pipeline de données

Atelier : Transformation et contrôle avancés des données

Module 8 : Packages

  • Introduction aux packages dbt
  • Explorer le hub dbt
  • Installation et utilisation de package dbt

Atelier : Explorer les packages dbt

Module 9 : Tests

  • Mettre en évidence les risques potentiels dans le code
  • Mise en place de tests automatisés
  • Choisir le test approprié
  • Implémentation des tests de données

Atelier : Implémentation de tests de données

Module 10 : Documentation

  • Documenter les modèles de données
  • Utiliser les fonctionnalités de documentation intégrées de dbt pour générer et maintenir une documentation de modèle accessible et à jour
  • L’importance du lineage

Laboratoire : Documenter les modèles de DBT

Module 11 : Analyses, hooks et exposition (avancé)

  • Effectuer une analyse des données
  • Exécuter du code personnalisé avant et après l’exécution de dbt
  • Créer des assets de données partageables et accessibles

Atelier : Créer une exposition

Module 12 : Exploiter les artefacts générés (avancé)

  • Comprendre manifest.json
  • Introduction de run_result.json

Module 13 : Conclusion

  • Ressources sur les meilleures pratiques en matière de dbt
  • À propos de l’examen de certification DBT

Ce cours vous intéresse ?

Organiser une session dédiée
à votre organisation
Votre société à besoin d'une offre
personnalisée ? Contactez-nous