Informatica ETL: Guide du débutant pour comprendre ETL à l'aide d'Informatica PowerCenter



Comprendre les concepts d'Informatica ETL et les différentes étapes du processus ETL et mettre en pratique un cas d'utilisation impliquant la base de données des employés.

Le but d'Informatica ETL est de fournir aux utilisateurs, non seulement un processus d'extraction des données des systèmes sources et de les introduire dans l'entrepôt de données, mais également de fournir aux utilisateurs une plate-forme commune pour intégrer leurs données à partir de diverses plates-formes et applications.Cela a conduit à une augmentation de la demande de .Avant de parler d'Informatica ETL, voyons d'abord pourquoi nous avons besoin d'ETL.

Pourquoi avons-nous besoin d'ETL?

Chaque entrepriseces jours-ci doivent traiter de grands ensembles de données provenant de sources variées. Ces données doivent être traitées pour fournir des informations pertinentes pour la prise de décisions commerciales. Mais, très souvent, ces données présentent les défis suivants:





  • Les grandes entreprises génèrent beaucoup de données et une telle quantité de données peut être dans n'importe quel format. Ils seraient disponibles dans plusieurs bases de données et de nombreux fichiers non structurés.
  • Ces données doivent être rassemblées, combinées, comparées et conçues pour fonctionner comme un tout transparent. Mais les différentes bases de données ne communiquent pas bien!
  • De nombreuses organisations ont implémenté des interfaces entre ces bases de données, mais elles ont été confrontées aux défis suivants:
    • Chaque paire de bases de données nécessite une interface unique.
    • Si vous modifiez une base de données, de nombreuses interfaces devront peut-être être mises à niveau.

Ci-dessous vous pouvez voir les différentes bases de données d'une organisation et leurs interactions:

Différents ensembles de données d

Diverses bases de données utilisées par différents services d'une organisation



Différentes interactions des bases de données dans une organisation

Comme vu ci-dessus, une organisation peut avoir différentes bases de données dans ses différents services et l'interaction entre elles devient difficile à mettre en œuvre car diverses interfaces d'interaction doivent être créées pour elles. Pour surmonter ces défis, la meilleure solution possible consiste à utiliser les concepts de Intégration de données ce qui permettrait aux données de différentes bases de données et formats de communiquer entre elles. La figure ci-dessous nous aide à comprendre comment l'outil d'intégration de données devient une interface commune pour la communication entre les différentes bases de données.

Diverses bases de données connectées via l'intégration de données



Mais il existe différents processus disponibles pour effectuer l'intégration de données. Parmi ces processus, ETL est le processus le plus optimal, le plus efficace et le plus fiable. Grâce à ETL, l'utilisateur peut non seulement importer les données de diverses sources, mais il peut également effectuer les différentes opérations sur les données avant de stocker ces données sur la cible finale.

Parmi les divers outils ETL disponibles sur le marché, Informatica PowerCenter est la principale plate-forme d’intégration de données du marché. Ayant testé sur près de 500 000 combinaisons de plates-formes et d'applications, Informatica PowerCenter inter fonctionne avec la gamme la plus large possible de normes, de systèmes et d'applications disparates. Voyons maintenant les étapes impliquées dans le processus Informatica ETL.

Informatique ETL | Architecture Informatica | Tutoriel Informatica PowerCenter | Edureka

Ce didacticiel Edureka Informatica vous aide à comprendre en détail les principes de base d'ETL à l'aide d'Informatica Powercenter.

Étapes du processus ETL Informatica:

Avant de passer aux différentes étapes impliquées dans Informatica ETL, voyons un aperçu d'ETL. Dans ETL, l'extraction est l'endroit où les données sont extraites de sources de données homogènes ou hétérogènes, la transformation où les données sont transformées pour être stockées dans le format ou la structure approprié à des fins d'interrogation et d'analyse et de chargement où les données sont chargées dans la base de données cible finale, magasin de données opérationnel, magasin de données ou entrepôt de données. L'image ci-dessous vous aidera à comprendre comment se déroule le processus Informatica ETL.

Aperçu du processus ETL

Comme vu ci-dessus, Informatica PowerCenter peut charger des données à partir de diverses sources et les stocker dans un seul entrepôt de données. Voyons maintenant les étapes impliquées dans le processus ETL Informatica.

Il y a principalement 4 étapes dans le processus Informatica ETL, comprenons-les maintenant en profondeur:

  1. Extraire ou capturer
  2. Frotter ou nettoyer
  3. Transformer
  4. Charge et index

1. Extraire ou capturer: Comme le montre l'image ci-dessous, la capture ou l'extraction est la première étape du processus ETL Informatica.Il s'agit du processus d'obtention d'un instantané du sous-ensemble de données choisi à partir de la source, qui doit être chargé dans l'entrepôt de données. Un instantané est une vue statique en lecture seule des données de la base de données. Le processus d'extraction peut être de deux types:

  • Extrait complet: Les données sont entièrement extraites du système source et il n'est pas nécessaire de suivre les modifications apportées à la source de données depuis la dernière extraction réussie.
  • Extrait incrémental: Cela ne capturera que les modifications survenues depuis le dernier extrait complet.

Phase 1: extraire ou capturer

2. Frottez ou nettoyez: Il s'agit du processus de nettoyage des données provenant de la source en utilisant diverses techniques de reconnaissance de formes et d'IA pour améliorer la qualité des données transmises. Habituellement, les erreurs telles que les fautes d'orthographe, les dates erronées, l'utilisation incorrecte des champs, les adresses non concordantes, les données manquantes, les données en double, les incohérences sontmis en surbrillance puis corrigé ou supprimédans cette étape. En outre, des opérations telles que le décodage, le reformatage, l'horodatage, la conversion, la génération de clé, la fusion, la détection / l'enregistrement d'erreur, la localisation des données manquantes sont effectuées dans cette étape. Comme le montre l'image ci-dessous, il s'agit de la deuxième étape du processus Informatica ETL.

Phase 2: nettoyage ou nettoyage des données

3. Transformer: Comme le montre l'image ci-dessous, il s'agit de la troisième étape et la plus essentielle du processus ETL d'Informatica. Transformations est l'opération de conversion des données du format du système source vers le squelette de Data Warehouse. Une transformation est essentiellement utilisée pour représenter un ensemble de règles, qui définissent le flux de données et la façon dont les données sont chargées dans les cibles. Pour en savoir plus sur la transformation, consultez Transformations dans Informatica Blog.

Phase 3: Transformation

4. Charge et index: Il s'agit de la dernière étape du processus Informatica ETL, comme le montre l'image ci-dessous. Dans cette étape, nous plaçons les données transformées dans l'entrepôt et créons des index pour les données. Il existe deux principaux types de chargement de données disponibles en fonction du processus de chargement:

  • Charge complète ou charge en vrac :Le processus de chargement des données lorsque nous le faisons pour la première fois. Le travail extrait tout le volume de données d'une table source et se charge dans l'entrepôt de données cible après avoir appliqué les transformations requises. Ce sera une tâche unique exécutée après, les modifications seules seront capturées dans le cadre d'un extrait incrémentiel.
  • Charge incrémentielle ou charge de rafraîchissement : Les données modifiées seules seront mises à jour dans la cible, suivies d'un chargement complet. Les modifications seront capturées en comparant la date de création ou de modification à la dernière date d'exécution du travail.Les données modifiées seules extraites de la source et seront mises à jour dans la cible sans impact sur les données existantes.

Phase 4: charge et index

Si vous avez compris le processus ETL d'Informatica, nous sommes désormais mieux placés pour comprendre pourquoi Informatica est la meilleure solution dans de tels cas.

Caractéristiques d'Informatica ETL:

Pour toutes les opérations d'intégration de données et ETL, Informatica nous a fourni Informatica PowerCenter . Voyons maintenant quelques fonctionnalités clés d'Informatica ETL:

  • Fournit la possibilité de spécifier un grand nombre de règles de transformation avec une interface graphique.
  • Générez des programmes pour transformer les données.
  • Gérez plusieurs sources de données.
  • Prend en charge les opérations d'extraction, de nettoyage, d'agrégation, de réorganisation, de transformation et de chargement de données.
  • Génère automatiquement des programmes d'extraction de données.
  • Chargement à grande vitesse des entrepôts de données cibles.

Voici quelques-uns des scénarios typiques dans lesquels Informatica PowerCenter est utilisé:

  1. Migration de données:

Une entreprise a acheté une nouvelle application de comptabilité fournisseurs pour son service de comptabilité. PowerCenter peut déplacer les données de compte existantes vers la nouvelle application. La figure ci-dessous vous aidera à comprendre comment vous pouvez utiliser Informatica PowerCenter pour la migration de données. Informatica PowerCenter peut facilement préserver le lignage des données à des fins fiscales, comptables et à d'autres fins légalement mandatées pendant le processus de migration des données.

Migration de données d'une ancienne application de comptabilité vers une nouvelle application

  1. Intégration d'application:

Supposons que la société A achète la société B. Ainsi, pour bénéficier des avantages de la consolidation, le système de facturation de la société B doit être intégré au système de facturation de la société A, ce qui peut être facilement réalisé à l’aide d’Informatica PowerCenter. La figure ci-dessous vous aidera à comprendre comment vous pouvez utiliser Informatica PowerCenter pour l'intégration d'applications entre les entreprises.

Intégration d'applications entre entreprises

  1. Entreposage de données

Les actions typiques requises dans les entrepôts de données sont:

  • Combinaison d'informations provenant de nombreuses sources pour l'analyse.
  • Déplacement de données de nombreuses bases de données vers l'entrepôt de données.

Tous les cas typiques ci-dessus peuvent être facilement exécutés à l'aide d'Informatica PowerCenter. Ci-dessous, vous pouvez voir qu'Informatica PowerCenter est utilisé pour combiner les données de divers types de bases de données comme Oracle, SalesForce, etc. et les amener dans un entrepôt de données commun créé par Informatica PowerCenter.

Données de diverses bases de données intégrées à un entrepôt de données commun

  1. Intergiciel

Supposons qu’une entreprise de vente au détail utilise SAP R3 pour ses applications de vente au détail et SAP BW comme entrepôt de données. Une communication directe entre ces deux applications n'est pas possible en raison du manque d'interface de communication. Cependant, Informatica PowerCenter peut être utilisé comme middleware entre ces deux applications. Dans l'image ci-dessous, vous pouvez voir l'architecture de la façon dont Informatica PowerCenter est utilisé comme middleware entre SAP R / 3 et SAP BW. Les Applications de SAP R / 3 transfèrent leurs données au framework ABAP qui les transfère ensuite auPoint de vente SAP (POS) et SAPBills of Services (BOS). Informatica PowerCenter facilite le transfert des données de ces services vers SAP Business Warehouse (BW).

Informatica PowerCenter comme middleware dans l'architecture SAP Retail

Bien que vous ayez vu quelques fonctionnalités clés et scénarios typiques d'Informatica ETL, j'espère que vous comprenez pourquoi Informatica PowerCenter est le meilleur outil pour le processus ETL. Voyons maintenant un cas d'utilisation d'Informatica ETL.

Cas d'utilisation: joindre deux tables pour obtenir une seule table détaillée

Supposons que vous souhaitiez fournir à vos employés un service de transport judicieux, car les services sont situés à différents endroits. Pour ce faire, vous devez d'abord savoir à quel département appartient chaque employé et l'emplacement du département. Cependant, les détails des employés sont stockés dans différentes tables et vous devez joindre les détails du service à une base de données existante avec les détails de tous les employés. Pour ce faire, nous allons d'abord charger les deux tables dans Informatica PowerCenter, effectuer la transformation du qualificateur de source sur les données et enfin charger les détails dans la base de données cible..Commençons:

Étape 1 : Ouvrez PowerCenter Designer.

Vous trouverez ci-dessous la page d'accueil d'Informatica PowerCenter Designer.

Connectons-nous maintenant au référentiel. Si vous n’avez pas configuré vos dépôts ou rencontrez des problèmes, vous pouvez consulter notre Blog.

Étape 2: Faites un clic droit sur votre référentiel et sélectionnez l'option de connexion.

En cliquant sur l'option de connexion, vous serez invité avec l'écran ci-dessous, vous demandant votre nom d'utilisateur et votre mot de passe de référentiel.

Une fois que vous êtes connecté à votre référentiel, vous devez ouvrir votre dossier de travail comme indiqué ci-dessous:

Vous serez invité à demander le nom de votre mappage. Précisez le nom de votre mapping et cliquez sur OK (je l'ai nommé comme m-EMPLOYÉ ).

Étape 3: Chargez maintenant les tables de la base de données, commencez par vous connecter à la base de données. Pour ce faire, sélectionnez l'onglet Sources et l'option Importer à partir de la base de données comme indiqué ci-dessous:

En cliquant sur Importer à partir de la base de données, vous serez invité à l'écran comme ci-dessous demandant les détails de votre base de données et son nom d'utilisateur et son mot de passe pour la connexion (j'utilise la base de données oracle et l'utilisateur HR).

Cliquez sur Se connecter pour vous connecter à votre base de données.

Étape 4: Comme je souhaite rejoindre le DES EMPLOYÉS et DÉPARTEMENT tables, je vais les sélectionner et cliquer sur OK.
Les sources seront visibles sur votre espace de travail de concepteur de mappage comme indiqué ci-dessous.

Étape 5: Chargez de même la table cible dans le mappage.

Étape 6: Lions maintenant le qualificatif Source et la table cible. Cliquez avec le bouton droit sur n'importe quel endroit vide de l'espace de travail et sélectionnez Liaison automatique comme indiqué ci-dessous:

Vous trouverez ci-dessous le mappage lié par Autolink.

Étape 7: Comme nous devons lier les deux tables au qualificatif de source, sélectionnez les colonnes de la table Department et déposez-les dans le qualificatif de source comme indiqué ci-dessous:

Déposez les valeurs de colonne dans le qualificateur de source SQ_EMPLOYEES .

Vous trouverez ci-dessous le qualificatif de source mis à jour.

Étape 8: Double-cliquez sur Source Qualifier pour éditer la transformation.

Vous obtiendrez la fenêtre Modifier la transformation comme indiqué ci-dessous. Cliquez sur l'onglet Propriétés.

Étape 9: Sous l'onglet Propriétés, cliquez sur le champ Valeur de la ligne de jointure définie par l'utilisateur.

Vous obtiendrez l'éditeur SQL suivant:

Étape 10: Entrer EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID comme condition pour joindre les deux tables dans le champ SQL et cliquez sur OK.

Étape 11: Cliquez maintenant sur la ligne Requête SQL pour générer le SQL à joindre comme indiqué ci-dessous:

Vous obtiendrez l'éditeur SQL suivant, cliquez sur l'option Générer SQL.

Le SQL suivant sera généré pour la condition que nous avions spécifiée à l'étape précédente. Cliquez sur OK.

Étape 12: Cliquez sur Appliquer et OK.

Voici la cartographie terminée.

Nous avons terminé la conception de la manière dont les données doivent être transférées de la source à la cible. Cependant, le transfert réel des données n'a pas encore eu lieu et pour cela, nous devons utiliser PowerCenter Workflow Design. L'exécution du workflow entraînera le transfert des données de la source vers la cible. Pour en savoir plus sur le workflow, consultez notre Tutoriel Informatica: Workflow Blog

Étape 13: Let lancez maintenant le Workflow Manager en cliquant sur l'icône W comme ci-dessous:

Vous trouverez ci-dessous la page d'accueil du concepteur de flux de travail.

Étape 14: Créons maintenant un nouveau workflow pour notre cartographie. Cliquez sur l'onglet Workflow et sélectionnez Créer une option.

Vous obtiendrez le pop-up ci-dessous. Spécifiez le nom de votre workflow et cliquez sur OK.

Étape 15 : Une fois qu'un workflow est créé, nous obtenons l'icône de démarrage dans l'espace de travail Workflow Manager.

Ajoutons maintenant une nouvelle Session à l'espace de travail comme indiqué ci-dessous en cliquant sur l'icône de session et en cliquant sur l'espace de travail:

Cliquez sur l'espace de travail pour placer l'icône Session.

que fait un développeur de tableaux

Étape 16: Lors de l'ajout de la session, vous devez sélectionner le mappage que vous avez créé et enregistré dans les étapes ci-dessus. (Je l'avais enregistré sous le nom de m-EMPLOYEE).

Vous trouverez ci-dessous l'espace de travail après l'ajout de l'icône de session.

Étape 17 : Maintenant que vous avez créé une nouvelle session, nous devons la lier à la tâche de démarrage. Nous pouvons le faire en cliquant sur l'icône Link Task comme ci-dessous:

Cliquez d'abord sur l'icône Démarrer puis sur l'icône Session pour établir un lien.

Vous trouverez ci-dessous un flux de travail connecté.

Étape 18: Maintenant que nous avons terminé la conception, commençons le flux de travail. Cliquez sur l'onglet Workflow et sélectionnez l'option Start Workflow.

Gestionnaire de workflow démarrant Workflow Monitor.

Étape 19 : Une fois que nous démarrons le workflow, le Workflow Manager se lance automatiquementetvous permet de surveiller l'exécution de votre workflow. Ci-dessous, vous pouvez voir que le moniteur de flux de travail affiche l'état de votre flux de travail.

Étape 20: Pour vérifier l'état du flux de travail, cliquez avec le bouton droit sur le flux de travail et sélectionnez Obtenir les propriétés d'exécution comme indiqué ci-dessous:

Sélectionnez l'onglet Statistiques source / cible.

Ci-dessous, vous pouvez voir le nombre de lignes qui ont été transférées entre la source et la cible après la transformation.

Vous pouvez également vérifier votre résultat en vérifiant votre table cible comme indiqué ci-dessous.

J'espère que ce blog Informatica ETL a été utile pour approfondir votre compréhension des concepts d'ETL à l'aide d'Informatica et a suscité suffisamment d'intérêt pour que vous puissiez en savoir plus sur Informatica.

Si vous avez trouvé ce blog utile, vous pouvez également consulter notre série de blogs de tutoriels Informatica , Tutoriel Informatica: Comprendre Informatica «Inside Out» et Transformations Informatica: le cœur et l'âme d'Informatica PowerCenter . Si vous recherchez des détails sur la certification Informatica, vous pouvez consulter notre blog Certification Informatica: tout ce qu'il y a à savoir .

Si vous avez déjà décidé de faire carrière dans Informatica, je vous recommande de consulter notre page de cours. La formation de certification Informatica chez Edureka fera de vous un expert d'Informatica grâce à des sessions en direct animées par un instructeur et à une formation pratique utilisant des cas d'utilisation réels.