Talend ETL Tool - Talend Open Studio pour le traitement des données



Ce blog sur l'outil ETL de Talend parle d'un outil ETL open source - Talend for Data Integration, qui fournit une interface graphique conviviale pour effectuer le processus ETL.

Traiter des données hétérogènes est sûrement une tâche fastidieuse, mais à mesure que le volume de données augmente, cela ne fait que devenir plus ennuyeux. C'est là que les outils ETL aident à transformer ces données en données homogènes. Désormais, ces données transformées sont faciles à analyser et à en tirer les informations nécessaires. Dans ce blog sur Talend ETL, je parlerai de la façon dont Talend fonctionne de manière exceptionnelle en tant qu'outil ETL pour exploiter des informations précieuses issues du Big Data.

trier un tableau c ++

Dans ce blog Talend ETL, j'aborderai les sujets suivants:





Vous pouvez également parcourir ce didacticiel vidéo élaboré où notre Expert explique Talend ETL et le traitement des données avec lui de manière détaillée avec des exemples précis.

Tutoriel Talend ETL | Formation en ligne Talend | Edureka

Qu'est-ce que le processus ETL?



ETL signifie Extraire, Transformer et Charger. Il fait référence à un trio de processus qui sont nécessaires pour déplacer les données brutes de leur source vers un entrepôt de données ou une base de données. Laissez-moi vous expliquer chacun de ces processus en détail:

  1. Extrait

    L'extraction des données est l'étape la plus importante d'ETL qui consiste à accéder aux données de tous les systèmes de stockage. Les systèmes de stockage peuvent être le SGBDR, les fichiers Excel, les fichiers XML, les fichiers plats, l'ISAM (Indexed Sequential Access Method), les bases de données hiérarchiques (IMS), les informations visuelles, etc. Étant l'étape la plus vitale, il doit être conçu de cette manière qu'il n'affecte pas négativement les systèmes source. Le processus d’extraction garantit également que les paramètres de chaque élément sont identifiés de manière distincte quel que soit son système source.

  2. Transformer

    La transformation est le prochain processus dans le pipeline. Dans cette étape, des données entières sont analysées et diverses fonctions y sont appliquées pour les transformer dans le format requis. Généralement, les processus utilisés pour la transformation des données sont la conversion, le filtrage, le tri, la normalisation, la suppression des doublons, la traduction et la vérification de la cohérence de diverses sources de données.

  3. Charge

    Le chargement est la dernière étape du processus ETL. Dans cette étape, les données traitées, c'est-à-dire les données extraites et transformées, sont ensuite chargées dans un référentiel de données cible qui est généralement les bases de données. Lors de l'exécution de cette étape, il convient de s'assurer que la fonction de chargement est exécutée avec précision, mais en utilisant des ressources minimales. De plus, lors du chargement, vous devez maintenir l’intégrité référentielle afin de ne pas perdre la cohérence des données. Une fois les données chargées, vous pouvez récupérer n'importe quel morceau de données et le comparer facilement avec d'autres morceaux.

Processus ETL - Talent ETL - Edureka



Maintenant que vous connaissez le processus ETL, vous vous demandez peut-être comment effectuer tout cela? Eh bien, la réponse est simple en utilisant les outils ETL. Dans la prochaine section de ce blog Talend ETL, je parlerai des différents outils ETL disponibles.

Divers outils ETL

Mais avant de parler des outils ETL, voyons d'abord ce qu'est exactement un outil ETL.

Comme je l'ai déjà mentionné, ETL sont trois processus distincts qui remplissent des fonctions différentes. Lorsque tous ces processus sont combinés en un outil de programmation unique qui peut aider à préparer les données et à gérer différentes bases de données.Ces outils ont des interfaces graphiques qui permettent d'accélérer l'ensemble du processus de mappage des tables et des colonnes entre les différentes bases de données source et cible.

Certains des principaux avantages des outils ETL sont:

  • C'est très facile à utiliser car il élimine le besoin d'écrire les procédures et le code.
  • Étant donné que les outils ETL sont basés sur l'interface graphique, ils fournissent un flux visuel de la logique du système.
  • Les outils ETL ont une fonctionnalité intégrée de gestion des erreurs grâce à laquelle ils ont résilience opérationnelle .
  • Lorsqu'il s'agit de données volumineuses et complexes, les outils ETL fournissent une meilleure gestion des données en simplifiant les tâches et en vous assistant avec diverses fonctions.
  • Les outils ETL fournissent un ensemble avancé de fonctions de nettoyage par rapport aux systèmes traditionnels.
  • Les outils ETL ont un intelligence d'affaires améliorée qui impacte directement les décisions stratégiques et opérationnelles.
  • En raison de l'utilisation des outils ETL, le les dépenses réduisent beaucoup et les entreprises sont en mesure de générer des revenus plus élevés.
  • Performance des outils ETL est bien meilleure car la structure de sa plate-forme simplifie la construction d'un système d'entreposage de données de haute qualité.

Il existe divers outils ETL disponibles sur le marché, qui sont très couramment utilisés. Certains d'entre eux sont:

Parmi tous ces outils, dans ce blog Talend ETL, je parlerai de la façon dont Talend en tant qu'outil ETL.

Outil Talend ETL

L'open studio pour l'intégration de données de Talend est l'un des outils ETL d'intégration de données les plus puissants du marché. TOS vous permet de gérer facilement toutes les étapes impliquées dans le processus ETL, à partir de la conception ETL initiale jusqu'à l'exécution du chargement des données ETL. Cet outil est développé sur l'environnement de développement graphique Eclipse. Talend open studio vous fournit l'environnement graphique grâce auquel vous pouvez facilement mapper les données entre la source et le système de destination. Tout ce que vous avez à faire est de faire glisser et déposer les composants requis de la palette dans l'espace de travail, de les configurer et enfin de les connecter ensemble. Il vous fournit même un référentiel de métadonnées à partir duquel vous pouvez facilement réutiliser et réutiliser votre travail. Cela vous aidera certainement à augmenter votre efficacité et votre productivité au fil du temps.

Avec cela, vous pouvez conclure que Talend open studio for DI fournit une intégration de données improvisée avec une forte connectivité, une adaptabilité facile et un flux fluide de processus d'extraction et de transformation.

Dans la section suivante de ce blog Talend ETL, voyons comment vous pouvez effectuer le processus ETL dans Talend.

Talend Open Studio: exécuter un Job ETL

Pour démontrer le processus ETL, je vais extraire des données d'un fichier Excel, le transformer en appliquant un filtreàles données, puis en chargeant les nouvelles données dans une base de données. Voici le format de mon ensemble de données Excel:

À partir de cet ensemble de données, je vais filtrer les lignes de données en fonction du type de client et stocker chacune d'elles dans une table de base de données différente. Pour ce faire, suivez les étapes ci-dessous:

java comment créer un tableau d'objets
ÉTAPE 1: Créez un nouveau travail et à partir de la palette, faites glisser et déposez les composants suivants:
  1. tMysqlConnection
  2. tFileExcelInput
  3. tRépliquer
  4. ( tFilterRow ) X4
  5. ( tMysqlOutput ) X4

ÉTAPE 2: Connectez les composants ensemble comme indiqué ci-dessous:

ÉTAPE 3: Allez dans l'onglet composant du tMysqlConnection et dans le 'Property Type' sélectionnez le type de connexion que vous utilisez Built-in ou Repository. Si vous utilisez une connexion intégrée, vous devez spécifier les détails suivants:
  1. Hôte
  2. Port
  3. Base de données
  4. Nom d'utilisateur
  5. Mot de passe

Mais si vous utilisez une connexion au référentiel, elle récupérera les détails par défaut dans le référentiel.

ÉTAPE 4: Double-cliquez sur le tFileInputExcel et dans son onglet de composant spécifiez le chemin de votre fichier source, le nombre de lignes utilisées pour l'en-tête dans le champ 'Header' et le numéro de la colonne à partir de laquelle Talend doit commencer à lire vos données dans la 'First Column ' champ. Dans «Modifier le schéma», concevez le schéma en fonction de votre fichier de jeu de données.

ÉTAPE 5 :Dans l'onglet composant du tReplicate, cliquez sur «Sync columns».

ÉTAPE 6: Allez dans l'onglet composant du premier tFilterRow et vérifiez le schéma. Selon votre condition, vous pouvez sélectionner la (les) colonne (s) et spécifier la fonction, l'opérateur et la valeur sur lesquels les données doivent être filtrées.

ÉTAPE 7: Répétez la même chose pour tous les composants du tFilterRow.

ÉTAPE 8: Enfin, dans l’onglet du composant du tMysqlOutput, cochez «Utiliser une connexion existante». Spécifiez ensuite le nom de la table dans le champ «Table» et sélectionnez «Action sur la table» et «Action sur les données» selon les exigences.

ÉTAPE 9: Répétez la même chose pour tous les composants du tMysqlOutput.

ÉTAPE 10: Une fois terminé, allez dans l’onglet «Exécuter» et exécutez le travail.

c ++ trier les nombres par ordre croissant

Cela nous amène à la fin de ce blog sur Talend ETL. Je conclurais ce blog par une simple pensée que vous devez suivre:

'L'avenir appartient à ceux qui peuvent contrôler leurs données'

Si vous avez trouvé cet ETL Talend blog, pertinent, Vérifiez par Edureka, une entreprise d'apprentissage en ligne de confiance avec un réseau de plus de 250 000 apprenants satisfaits répartis dans le monde entier. La formation Edureka Talend for DI and Big Data Certification Training vous aide à maîtriser Talend et Big Data Integration Platform et à intégrer facilement toutes vos données avec votre Data Warehouse et vos Applications, ou à synchroniser les données entre les systèmes. Vous avez une question pour nous? Veuillez le mentionner dans la section commentaires et nous vous recontacterons.