Cloudera Hadoop: Premiers pas avec CDH Distribution



Ce blog Edureka sur Cloudera Hadoop Tutorial vous donnera un aperçu complet des différents composants de Cloudera comme Cloudera Manager, Parcels, Hue, etc.

Avec la demande croissante de Big Data, Apache Hadoop estàcœur de la révolution, il a changé la façon dont nous organisons et calculons les données. La nécessité pour les organisations d'aligner Hadoop sur leurs besoins commerciaux a alimenté l'émergence des distributions commerciales. Les distributions commerciales Hadoop sont généralement fournies avec des fonctionnalités conçues pour rationaliser le déploiement de Hadoop. Cloudera Hadoop Distribution fournit une plate-forme évolutive, flexible et intégrée qui facilite la gestion de volumes et de variétés de données en augmentation rapide dans votre entreprise.

Dans ce blog sur Cloudera Hadoop Distribution, nous aborderons les sujets suivants:





Cloudera Hadoop: Introduction à Hadoop

Hadoop est un framework open-source Apache qui stocke et traite le Big Data dans un environnement distribuéà traverscluster utilisant des modèles de programmation simples. Hadoop fournit un calcul parallèle en plus du stockage distribué.Pour en savoir plus sur Hadoop en détail sur vous pouvez vous y référer

Après cette brève introduction à Hadoop, laissez-moi maintenant vous expliquer les différents types de distribution Hadoop.



Cloudera Hadoop: Distributions Hadoop

Depuis Apache Hadoop est open source, de nombreuses entreprises ont développé des distributions qui vont au-delà du code open source original. Cela ressemble beaucoup aux distributions Linux telles que RedHat, Fedora et Ubuntu. Chacune des distributions Linux prend en charge ses propres fonctionnalités et fonctionnalités telles que l'interface graphique conviviale dans Ubuntu. De même, chapeau rouge est populaire au sein des entreprises car il offre un soutien et fournit également une idéologie pour apporter des modifications à n'importe quelle partie du système à volonté. Red Hat vous soulage des problèmes de compatibilité logicielle. C'est généralement un gros problème pour les utilisateursqui effectuent la transition de Windows.

De même, il existe 3 principaux types de distributions Hadoop qui ont leur propre ensemble de fonctionnalités et de fonctionnalités et sont construites sous le HDFS de base.

Cloudera contre MapR contre Hortonworks

Fig: MapR vs Hortonworks vs Cloudera

Fig: MapR vs Hortonworks vs Cloudera



Distribution Cloudera Hadoop

Cloudera est la tendance du marché dans l'espace Hadoop et est le premier à lancer une distribution commerciale Hadoop. Il propose des services de conseil pour combler le fossé entre - «ce que fournit Apache Hadoop» et «ce dont les organisations ont besoin».

Cloudera Distribution c'est:

  • Rapide pour les affaires : De l'analyse à la science des données et tout le reste, Cloudera offre les performances dont vous avez besoin pour libérer le potentiel des données illimitées.
  • Rend Hadoop facile à gérer : Avec Cloudera Manager, des assistants automatisés vous permettent de déployer rapidement votre cluster, indépendamment de l'échelle ou de l'environnement de déploiement.
  • Sécurisé sans compromis: Répond aux besoins stricts de sécurité et de conformité des données sans sacrifier l'agilité de l'entreprise. Cloudera propose une approche intégrée de la sécurité et de la gouvernance des données.

Horton-Works Distribution

La plate-forme de données Horton-Works (HDP) est entièrement une plate-forme open source conçue pour manœuvrer des données provenant de nombreuses sources et formats. La plate-forme comprend divers outils Hadoop tels que le système de fichiers distribués Hadoop (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive et des composants supplémentaires.

Il prend également en charge des fonctionnalités telles que:

  • HDP rend Hive Plus vite à travers son nouveau projet Stinger.
  • HDP évite le blocage du fournisseur en s'engageant à une version fourchue de Hadoop.
  • HDP se concentre sur l'amélioration de convivialité de la plateforme Hadoop.

Distribution de MapR

MapR est un fournisseur de solutions Hadoop axé sur les plates-formes, tout comme HortonWorks et Cloudera. MapR intègre son propre système de base de données, connu sous le nom de MapR-DB tout en offrant des services de distribution Hadoop. MapR-DB serait quatre à sept fois plus rapide que la base de données Hadoop, c'est-à-dire HBase, qui est exécutée sur d'autres distributions.

Il a ses caractéristiques intrigantes comme:

  • C'est la seule distribution Hadoop qui inclut Pig, Hive et Sqoop sans aucune dépendance Java, car elle repose sur MapR-File System.
  • MapR est la distribution Hadoop la plus prête pour la production avec de nombreuses améliorations qui la rendent plus conviviale, plus rapide et plus fiable.

Parlons maintenant de la distribution Cloudera Hadoop en profondeur.

Abonnez-vous à notre chaîne YouTube pour obtenir de nouvelles mises à jour ...

Cloudera Hadoop: Distribution de Cloudera

Cloudera est l'acteur le plus connu de l'espace Hadoop à sortir la première distribution commerciale Hadoop.

Fig: Distribution de Cloudera Hadoop

Cloudera Hadoop Distribution prend en charge l'ensemble de fonctionnalités suivant:

  1. Le CDH de Cloudera comprend tous les composants open source, cible les déploiements de classe entreprise et est l’une des distributions commerciales Hadoop les plus populaires.
  2. Connue pour ses innovations, Cloudera a été la première à proposer SQL-pour-Hadoop avec son Impala moteur de requête.
  3. La console de gestion - Gestionnaire Cloudera , est facile à utiliser et à implémenter avec une interface utilisateur riche affichant toutes les informations du cluster de manière organisée et propre.
  4. Dans CDH, vous pouvez ajouter des services au cluster opérationnel sans aucune interruption.
  5. D'autres ajouts de Cloudera incluent la sécurité, l'interface utilisateur et des interfaces pour l'intégration avec des applications tierces.
  6. CDH fournit Modèles de nœuds c'est-à-dire qu'il permet la création d'un groupe de nœuds dans un cluster Hadoop avec une configuration variable. Il supprime l'utilisation de la même configuration dans tout le cluster Hadoop.
  7. Il prend également en charge:
    • Fiabilité
      Les fournisseurs Hadoop agissent rapidement en réponse chaque fois qu'un bogue est détecté. Dans le but de rendre les solutions commerciales plus stables, des correctifs et des correctifs sont déployés immédiatement.
    • Soutien
      Les fournisseurs de Cloudera Hadoop fournissent des conseils et une assistance techniques qui permettent aux clients d'adopter facilement Hadoop pour les tâches de niveau entreprise et les applications critiques.

    • Complétude
      Les fournisseurs Hadoop associent leurs distributions à divers autres outils complémentaires qui aident les clients à personnaliser l'application Hadoop pour répondre à leurs tâches spécifiques.

Les distributions Cloudera proposent 2 types d'éditions différents.

  1. Édition Cloudera Express
  2. Cloudera Enterprise Edition

Voyons maintenant les différences entre eux.

nombres de fibonacci c ++
Fonctionnalités Cloudera-Express Cloudera-Entreprise
Gestion de cluster
1. Gestion multi-clusterOuiOui
2. Gestion des ressourcesOuiOui
Déploiement
1. Prise en charge des CDH 4 et 5OuiOui
2. Mise à niveau progressive de CDHNonOui
Gestion des services et de la configuration
1. Gérez les services HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark et AccumuloOuiOui
2. Redémarrage progressif des servicesNonOui
Sécurité
1. Authentification LDAPNonOui
2. Authentification SAMLNonOui
Surveillance et diagnostic
1. Antécédents de santéOuiOui
Gestion des alertes
1. Alerte par e-mailOuiOui
2. Alerte via SNMPNonOui
Fonctions de gestion avancées
1. Sauvegarde et restauration automatiséesNonOui
2. Navigation et recherche de fichiersNonOui
3. Rapports d'utilisation de MapReduce, Impala, HBase, YarnNonOui

Cloudera Hadoop: Cloudera Manager

Selon Cloudera, Cloudera Manager est le meilleur moyen de installer , configurer , gérer , et moniteur la pile Hadoop.

Il offre:

  1. Déploiement et configuration automatisés
  2. Surveillance et rapports personnalisables
  3. Dépannage robuste et sans effort
  4. Zéro - Maintenance des temps d'arrêt

Obtenez des connaissances approfondies sur Cloudera Hadoop et ses différents outils

Démonstration de Cloudera Manager

Explorons le Cloudera Manager.

1. La figure ci-dessous montre le nombre de services en cours d'exécution dans Cloudera Manager. Vous pouvez également afficher les graphiques sur l'utilisation du processeur du cluster, l'utilisation du disque IO, etc.

Fig: Page d'accueil de Cloudera Manager

2. L'image ci-dessous montre le cluster HBase. Il vous donne des tableaux et des graphiques sur les conditions de santé du serveur HBase REST en cours d'exécution.

Fig: Conditions de santé du serveur HBase

3. Examinons maintenant l'onglet Instances du cluster HBase où vous pouvez vérifier l'état et la configuration IP.

Fig: état et adresse IP du serveur hôte du cluster HBase

4. Ensuite, vous avez l'onglet Configuration. Ici, vous pouvez voir tous les paramètres de configuration et modifier leurs valeurs.

Fig: Configuration du cluster HBase

Voyons maintenant ce que sont les colis à Cloudera.

Cloudera Hadoop: Colis

Un colis est un format de distribution binaire contenant les fichiers programme, ainsi que des métadonnées supplémentaires utilisées par Cloudera Manager.

Les parcelles sont autonomes et installées dans un répertoire versionné, ce qui signifie que plusieurs versions d'un service donné peuvent être installées côte à côte.

Voici les avantages de l'utilisation de Parcel:

  • Il fournit la distribution de CDH en tant qu'objet unique, c'est-à-dire qu'au lieu d'avoir un package séparé pour chaque partie de CDH, les parcelles n'ont qu'un seul objet à installer.

  • Il offre une cohérence interne (comme le CDH complet est distribué comme un seul colis, tous les composants CDH sont appariés et il n'y aura aucun risque que des pièces différentes proviennent de différentes versions de CDH).

  • Vous pouvez installer, mettre à niveau, rétrograder, distribuer et activer les parcelles dans CDH en quelques clics.

Voyons maintenant comment installer et activer le service Kafka dans CDH à l'aide de Parcels.

  1. Aller à la page d'accueil du gestionnaire Cloudera >> Hôtes >> Colis comme indiqué ci-dessous

    Fig: Sélection des parcelles des hôtes

2. Si vous ne voyez pas Kafka dans la liste des colis, vous pouvez ajouter le colis à la liste.

  1. Trouvez le colis de la version Kafka que vous souhaitez utiliser. Si vous ne le voyez pas, vous pouvez ajouter le référentiel de parcelles à la liste.
  2. Trouvez le colis correspondant à la version de Kafka que vous souhaitez installer - Distribution Cloudera des versions d'Apache Kafka .
    La figure ci-dessous montre la même chose.

Fig: chemin du référentiel pour la parcelle.

3. Copiez le lien comme indiqué dans la figure ci-dessus et ajoutez-le au référentiel de colis distant comme indiqué ci-dessous.

Fig: Ajout du chemin Kafka depuis le référentiel

Quatre.Après avoir ajouté le chemin, Kafka sera prêt pour le téléchargement. Vous pouvez simplement cliquer sur le bouton de téléchargement et télécharger le Kafka.

Fig: Téléchargement du Kafka

5. Une fois Kafka téléchargé, il vous suffit de le distribuer et de l'activer.

Fig: Activer le Kafka

Une fois qu'il est activé, vous pouvez continuer et afficher le Kafka dans l'onglet services du gestionnaire Cloudera.

Fig: service Kafka

Cloudera Hadoop: Création d'un flux de travail Oozie

Créer un workflow en écrivant manuellement le code XML puis en l'exécutant est compliqué. Vous pouvez référer ceci Planification du travail Oozie blog, pour connaître l'approche traditionnelle.

Vous pouvez voir l'image ci-dessous, où nous avons écrit un fichier XML pour créer un flux de travail Oozie simple. Fig: Création d'un flux de travail Oozie en utilisant une approche traditionnelle

Comme vous pouvez le voir, même pour créer un simple planificateur Oozie, nous avons dû écrire un énorme code XML, ce qui prend du temps, et le débogage de chaque ligne devient fastidieux. Afin de surmonter cela, Cloudera Manager a introduit une nouvelle fonctionnalité appelée Teinte qui fournit une interface graphique et des fonctionnalités simples de glisser-déposer pour créer et exécuter des flux de travail Oozie.

Voyons maintenant comment Hue effectue la même tâche de manière simplifiée.

Avant de créer un flux de travail, créons d'abord des fichiers d'entrée, c'est-à-dire clickstream.txt et user.txt.
Dans le fichier user.txt, nous avons l'ID d'utilisateur, le nom, l'âge, le pays et le sexe comme indiqué ci-dessous. Nous avons besoin de ce fichier utilisateur pour connaître le nombre d'utilisateurs et les clics sur l'URL (mentionnée dans le fichier de flux de clics) en fonction de l'ID utilisateur.

Fig: Création d'un fichier texte

Afin de connaître le nombre de clics de l'utilisateur sur chaque URL, nous avons un flux de clics contenant l'ID utilisateur et l'URL.

Fig: fichier Clickstream

Écrivons les requêtes dans le fichier de script.

Fig: fichier de script

Après avoir créé le fichier utilisateur, le fichier de flux de clics et le fichier de script, nous pouvons continuer et créer le flux de travail Oozie.

1. Vous pouvez simplement faire glisser et déposer le flux de travail Oozie comme indiqué dans l'image.

Fig: fonction de glisser-déposer de la création du flux de travail Oozie

2. Peu de temps après avoir abandonné votre action, vous devez spécifier les chemins d'accès au fichier de script et ajouter les paramètres mentionnés dans le fichier de script. Ici, vous devez ajouter les paramètres OUTPUT, CLICKSTREAM et USER et spécifier le chemin d'accès à chacun des paramètres.

Fig: Ajout d'un fichier de script et des paramètres requis pour exécuter l'action

3. Une fois que vous avez spécifié les chemins et ajouté les paramètres, enregistrez et soumettez simplement le flux de travail comme indiqué dans l'image ci-dessous.

Fig: Enregistrer et soumettre l'action Oozie

4. Une fois que vous soumettez la tâche, votre travail est terminé. L'exécution et les autres étapes sont prises en charge par Hue.

application de l'analyse de Big Data

Fig: Statut d'exécution du job Oozie

5.Maintenant que nous avons exécuté la tâche Oozie, jetons un œil à l'onglet Action. Il contient l'ID utilisateur et l'état du workflow. Il affiche également les codes d'erreur le cas échéant, l'heure de début et de fin de l'action.

Fig: éléments présents dans l'onglet action du workflow Oozie

6. À côté de l'onglet Action se trouve l'onglet Détails. En cela, nous pouvons voir l'heure de début et l'heure de la dernière modification du travail.

Fig: Détails du flux de travail Oozie.

7. À côté de l'onglet Détails, nous avons l'onglet Configuration du flux de travail.

Fig: Paramètres de configuration du workflow Oozie

7. Lors de l'exécution de l'action, s'il y a des erreurs, elles seront répertoriées dans l'onglet Journal. Vous pouvez vous référer aux instructions d'erreur et les déboguer en conséquence.

Fig: fichier journal contenant les codes d'erreur et les instructions d'erreur

8. Voici le code XML du workflow généré automatiquement par Hue.

Fig: code XML du workflow Oozie

9.1. Comme vous avez déjà spécifié le chemin du répertoire de sortie à l'étape 2, vous avez ici le répertoire de sortie dans le navigateur HDFS comme indiqué ci-dessous.

Fig: Répertoire de sortie du navigateur HDFS

9.2 Une fois que vous avez cliqué sur le répertoire de sortie, vous trouverez un fichier texte nommé output.txt et ce fichier texte contient la sortie réelle comme indiqué dans la figure ci-dessous.

Fig: Texte de sortie final

C'est ainsi que Hue simplifie notre travail en fournissant les options de glisser-déposer pour créer un flux de travail Oozie.

J'espère que ce blog a été utile pour comprendre la distribution Cloudera et les différents composants Cloudera.

Envie de participer à la révolution du Big Data?

Maintenant que vous avez compris Cloudera Hadoop Distribution, consultez le par Edureka, une entreprise d'apprentissage en ligne de confiance avec un réseau de plus de 250 000 apprenants satisfaits répartis dans le monde entier. Le cours de formation à la certification Edureka Big Data Hadoop aide les apprenants à devenir des experts dans les domaines HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume et Sqoop en utilisant des cas d'utilisation en temps réel sur le commerce de détail, les médias sociaux, l'aviation, le tourisme et la finance.

Vous avez une question pour nous? Veuillez le mentionner dans la section commentaires et nous vous recontacterons.