ETL avec Talend
Description
Le datawarehousing consiste à mettre à disposition l’information provenant d’une ou plusieurs bases de données sous une forme facilement et rapidement exploitable par les différents reportings connectés. L’ETL est l’outil qui permet de peupler un datawarehouse à partir de bases de données relationnelles sources.
Cette formation concerne le fonctionnement de l’outil d’ETL Talend. Lors de cette formation, les participants seront amenés à : modéliser un datawarehouse, définir les règles de transformation à partir des bases de données relationnelles, planifier l’intégration et valider les résultats.
Les contenus techniques de cette formation sont :
- Conception logique d’un datawarehouse
- Conception physique d’un datawarehouse
- ETL avec Talend
- Optimisation
- Variables, expressions et jointures
- Statistiques d’exécution
Cette formation s'adresse aux personnes ayant des connaissances de base en gestion de données.
What are the aims of the training?
Les compétences visées par la formation sont les suivantes :
- Concevoir et développer des jobs dans l'application ETL Talend
- Optimiser les jobs développés par l'utilisation de contextes et jeux de données
- Réaliser des transformations plus complexes en utilisant variables, expressions et jointures
- Exécuter et déboguer un job, tracer les statistiques d'exécution
What do you need to know to follow the training?
Pas de prérequis
Training programme
Modéliser le besoin, concevoir un premier job
- Business Modeler. Job Designer
- Principales connexions. Composants CSV et XML
- Composants de transformation simples
- Visualiser du code généré, exécuter un job
Optimiser le développement des jobs
- Configurer des connexions réutilisables à l'aide des métadonnées
- Mettre à jour les métadonnées et les propager sur les jobs, importer/exporter des métadonnées
- Paramétrer les jobs par des contextes
- Externaliser les variables de contexte dans des fichiers ".properties" et ".ini"
- Créer et gérer ses propres variables
- Générer des jeux de données pour des tests
Travailler avec des bases de données
- Bases de données supportées et principaux composants
- Paramétrages des opérations sur les tables
- Métadonnées et contexte de connexion à un schéma de base de données
- Partage de connexions et gestion des transactions
- Créer des requêtes à l'aide de SQLBuilder
Travailler sur des données multisources
- Présentation du composant tMap
- Configuration des flux d'entrée, créations de jointures
- Réaliser des transformations en utilisant variables, expressions et jointures
- Qualifier les données à l'aide de filtres
- Générer des sorties multiples, gérer les rejets
Compléments
- Décomposer un job en sous-jobs, utilisation du tRunJob. Lancer les jobs en ligne de commande. Exécution périodique
- Débogage d'un job, tracer les statistiques d'exécution
- Reporting tJasperOutput