ETL avec Talend
Description
Le datawarehousing consiste à mettre à disposition l’information provenant d’une ou plusieurs bases de données sous une forme facilement et rapidement exploitable par les différents reportings connectés. L’ETL est l’outil qui permet de peupler un datawarehouse à partir de bases de données relationnelles sources.
Cette formation concerne le fonctionnement de l’outil d’ETL Talend. Lors de cette formation, les participants seront amenés à : modéliser un datawarehouse, définir les règles de transformation à partir des bases de données relationnelles, planifier l’intégration et valider les résultats.
Les contenus techniques de cette formation sont :
- Conception logique d’un datawarehouse
- Conception physique d’un datawarehouse
- ETL avec Talend
- Optimisation
- Variables, expressions et jointures
- Statistiques d’exécution
Cette formation s'adresse aux personnes ayant des connaissances de base en gestion de données.
Quels sont les buts de la formation ?
Les compétences visées par la formation sont les suivantes :
- Concevoir et développer des jobs dans l'application ETL Talend
- Optimiser les jobs développés par l'utilisation de contextes et jeux de données
- Réaliser des transformations plus complexes en utilisant variables, expressions et jointures
- Exécuter et déboguer un job, tracer les statistiques d'exécution
Que devez vous connaître pour suivre la formation ?
Pas de prérequis
Programme de la formation
Modéliser le besoin, concevoir un premier job
- Business Modeler. Job Designer
- Principales connexions. Composants CSV et XML
- Composants de transformation simples
- Visualiser du code généré, exécuter un job
Optimiser le développement des jobs
- Configurer des connexions réutilisables à l'aide des métadonnées
- Mettre à jour les métadonnées et les propager sur les jobs, importer/exporter des métadonnées
- Paramétrer les jobs par des contextes
- Externaliser les variables de contexte dans des fichiers ".properties" et ".ini"
- Créer et gérer ses propres variables
- Générer des jeux de données pour des tests
Travailler avec des bases de données
- Bases de données supportées et principaux composants
- Paramétrages des opérations sur les tables
- Métadonnées et contexte de connexion à un schéma de base de données
- Partage de connexions et gestion des transactions
- Créer des requêtes à l'aide de SQLBuilder
Travailler sur des données multisources
- Présentation du composant tMap
- Configuration des flux d'entrée, créations de jointures
- Réaliser des transformations en utilisant variables, expressions et jointures
- Qualifier les données à l'aide de filtres
- Générer des sorties multiples, gérer les rejets
Compléments
- Décomposer un job en sous-jobs, utilisation du tRunJob. Lancer les jobs en ligne de commande. Exécution périodique
- Débogage d'un job, tracer les statistiques d'exécution
- Reporting tJasperOutput