Installer Hadoop: Configurer un cluster Hadoop à nœud unique



Ce tutoriel est un guide étape par étape pour installer le cluster Hadoop et le configurer sur un seul nœud. Toutes les étapes d'installation de Hadoop concernent la machine CentOS.

Installer Hadoop: Configurer un cluster Hadoop à nœud unique

De nos précédents blogs sur , vous devez avoir une idée théorique sur Hadoop, HDFS et son architecture.Mais pour obtenir vous avez besoin de bonnes connaissances pratiques.J'espère que vous auriez aimé notre précédent blog sur , je vais maintenant vous présenter les connaissances pratiques sur Hadoop et HDFS. La première étape consiste à installer Hadoop.

Il existe deux façons d'installer Hadoop, c'est-à-dire Nœud unique et Multi nœud .





Cluster à nœud unique signifie qu'un seul DataNode exécutant et configurant tous les NameNode, DataNode, ResourceManager et NodeManager sur une seule machine. Ceci est utilisé à des fins d'étude et de test. Par exemple, considérons un exemple d'ensemble de données dans un secteur de la santé. Ainsi, pour tester si les travaux Oozie ont planifié tous les processus tels que la collecte, l'agrégation, le stockage et le traitement des données dans un ordre approprié, nous utilisons un cluster à nœud unique. Il peut facilement et efficacement tester le flux de travail séquentiel dans un environnement plus petit par rapport aux grands environnements qui contiennent des téraoctets de données répartis sur des centaines de machines.

Alors que dans un Cluster multi-nœuds , il existe plusieurs DataNode en cours d'exécution et chaque DataNode s'exécute sur des machines différentes. Le cluster multi-nœuds est pratiquement utilisé dans les organisations pour analyser le Big Data. Compte tenu de l'exemple ci-dessus, en temps réel lorsque nous traitons des pétaoctets de données, elles doivent être réparties sur des centaines de machines pour être traitées. Ainsi, nous utilisons ici un cluster multi-nœuds.



Dans ce blog, je vais vous montrer comment installer Hadoop sur un cluster à un seul nœud.

Conditions préalables

  • BOÎTE VIRTUELLE : il est utilisé pour installer le système d'exploitation dessus.
  • SYSTÈME OPÉRATEUR : Vous pouvez installer Hadoop sur des systèmes d'exploitation basés sur Linux. Ubuntu et CentOS sont très couramment utilisés. Dans ce tutoriel, nous utilisons CentOS.
  • JAVA : Vous devez installer le package Java 8 sur votre système.
  • HADOOP : Vous avez besoin du package Hadoop 2.7.3.

Installez Hadoop

Étape 1: Cliquez ici pour télécharger le package Java 8. Enregistrez ce fichier dans votre répertoire personnel.

Étape 2: Extrayez le fichier Java Tar.

Commander : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Installer Hadoop - Edureka



Fig: Installation Hadoop - Extraction de fichiers Java

code de tri de fusion C ++

Étape 3: Téléchargez le package Hadoop 2.7.3.

Commander : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Fig: Installation de Hadoop - Téléchargement de Hadoop

Étape 4: Extrayez le fichier tar Hadoop.

Commander : tar -xvf hadoop-2.7.3.tar.gz

Fig: Installation Hadoop - Extraction de fichiers Hadoop

Étape 5: Ajoutez les chemins Hadoop et Java dans le fichier bash (.bashrc).

Ouvert . bashrc fichier. Maintenant, ajoutez Hadoop et Java Path comme indiqué ci-dessous.

Commander : vi .bashrc

Fig: Installation Hadoop - Définition de la variable d'environnement

Ensuite, enregistrez le fichier bash et fermez-le.

Pour appliquer toutes ces modifications au terminal actuel, exécutez la commande source.

Commander : source .bashrc

Fig: Installation Hadoop - Actualisation des variables d'environnement

Pour vous assurer que Java et Hadoop ont été correctement installés sur votre système et sont accessibles via le terminal, ex exécutez les commandes java -version et hadoop version.

Commander : Java-version

Fig: Installation Hadoop - Vérification de la version Java

Commander : hadoopversion

Fig: Installation de Hadoop - Vérification de la version de Hadoop

Étape 6 : Modifier le .

Commander: cd hadoop-2.7.3 / etc / hadoop /

Commander: ls

Tous les fichiers de configuration Hadoop se trouvent dans hadoop-2.7.3 / etc / hadoop répertoire comme vous pouvez le voir dans l'instantané ci-dessous:

Fig: Installation Hadoop - Fichiers de configuration Hadoop

Étape 7 : Ouvert core-site.xml et éditez la propriété mentionnée ci-dessous dans la balise de configuration:

core-site.xml informe le démon Hadoop où NameNode s'exécute dans le cluster. Il contient les paramètres de configuration du cœur Hadoop, tels que les paramètres d'E / S communs à HDFS et MapReduce.

Commander : vi core-site.xml

Fig: Installation Hadoop - Configuration de core-site.xml

fs.default.name hdfs: // localhost: 9000

Étape 8: Éditer hdfs-site.xml et éditez la propriété mentionnée ci-dessous dans la balise de configuration:

hdfs-site.xml contient les paramètres de configuration des démons HDFS (c'est-à-dire NameNode, DataNode, Secondary NameNode). Il inclut également le facteur de réplication et la taille de bloc de HDFS.

Commander : vi hdfs-site.xml

Fig: Installation Hadoop - Configuration de hdfs-site.xml

dfs.replication 1 dfs.permission false

Étape 9 : Modifier le mapred-site.xml et modifiez la propriété mentionnée ci-dessous dans la balise de configuration:

mapred-site.xml contient les paramètres de configuration de l'application MapReduce comme le nombre de JVM pouvant s'exécuter en parallèle, la taille du mappeur et du processus de réduction, les cœurs de processeur disponibles pour un processus, etc.

Dans certains cas, le fichier mapred-site.xml n'est pas disponible. Il faut donc créer le fichier mapred-site.xmlen utilisant le modèle mapred-site.xml.

Commander : cp mapred-site.xml.template mapred-site.xml

Commander : nous mapred-site.xml.

Fig: Installation Hadoop - Configuration de mapred-site.xml

mapreduce.framework.name fil

Étape 10: Éditer yarn-site.xml et éditez la propriété mentionnée ci-dessous dans la balise de configuration:

yarn-site.xml contient les paramètres de configuration de ResourceManager et NodeManager comme la taille de gestion de la mémoire de l'application, l'opération nécessaire sur le programme et l'algorithme, etc.

Commander : vi fil-site.xml

Fig: Installation Hadoop - Configuration de yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Étape 11: Éditer hadoop-env.sh et ajoutez le chemin Java comme indiqué ci-dessous:

hadoop-env.sh contient les variables d'environnement utilisées dans le script pour exécuter Hadoop comme le chemin d'accès Java, etc.

Commander : nous hadoop-env.sh

Fig: Installation de Hadoop - Configuration de hadoop-env.sh

Étape 12: Accédez au répertoire de base Hadoop et formatez le NameNode.

Commander : CD

Commander : cd hadoop-2.7.3

Commander : bin / hadoop but -format

Fig: Installation Hadoop - Formater NameNode

Cela formate le HDFS via NameNode. Cette commande n'est exécutée que pour la première fois. Formater le système de fichiers signifie initialiser le répertoire spécifié par la variable dfs.name.dir.

Ne formatez jamais, installez et exécutez le système de fichiers Hadoop. Vous perdrez toutes vos données stockées dans le HDFS.

didacticiels ms sql pour les débutants

Étape 13: Une fois le NameNode formaté, allez dans le répertoire hadoop-2.7.3 / sbin et démarrez tous les démons.

Commander: cd hadoop-2.7.3 / sbin

Soit vous pouvez démarrer tous les démons avec une seule commande, soit le faire individuellement.

Commander: ./ start-all.sh

La commande ci-dessus est une combinaison de start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Ou vous pouvez exécuter tous les services individuellement comme ci-dessous:

Nom de débutNœud:

Le NameNode est la pièce maîtresse d'un système de fichiers HDFS. Il conserve l'arborescence de répertoires de tous les fichiers stockés dans le HDFS et suit tous les fichiers stockés dans le cluster.

Commander: ./hadoop-daemon.sh but de démarrage

Fig: Installation Hadoop - Nœud de nom de départ

Démarrez DataNode:

Au démarrage, un DataNode se connecte au Namenode et il répond aux demandes du Namenode pour différentes opérations.

Commander: ./hadoop-daemon.sh start datanode

Fig: Installation Hadoop - Démarrage de DataNode

Démarrez ResourceManager:

ResourceManager est le maître qui arbitre toutes les ressources de cluster disponibles et aide ainsi à gérer les applications distribuées s'exécutant sur le système YARN. Son travail consiste à gérer chaque NodeManagers et le ApplicationMaster de chaque application.

Commander: ./fil-daemon.sh démarrer resourcemanager

Fig: Installation d'Hadoop - Démarrage de ResourceManager

Démarrez NodeManager:

Le NodeManager dans chaque structure de machine est l'agent qui est responsable de la gestion des conteneurs, de la surveillance de leur utilisation des ressources et du rapport de la même chose au ResourceManager.

Commander: ./fil-daemon.sh démarre nodemanager

Fig: Installation d'Hadoop - Démarrage de NodeManager

Démarrez JobHistoryServer:

JobHistoryServer est chargé de traiter toutes les demandes liées à l'historique des travaux du client.

Commander : ./mr-jobhistory-daemon.sh démarrer le serveur d'historique

Étape 14: Pour vérifier que tous les services Hadoop sont opérationnels, exécutez la commande ci-dessous.

Commander: jps

Fig: Installation Hadoop - Vérification des démons

Étape 15: Ouvrez maintenant le navigateur Mozilla et accédez à localhost : 50070 / dfshealth.html pour vérifier l'interface NameNode.

Fig: Installation Hadoop - Démarrage de WebUI

Félicitations, vous avez réussi à installer un cluster Hadoop à nœud unique en une seule fois.Dans notre prochain blog de , nous expliquerons également comment installer Hadoop sur un cluster multi-nœuds.

Maintenant que vous avez compris comment installer Hadoop, consultez le par Edureka, une entreprise d'apprentissage en ligne de confiance avec un réseau de plus de 250 000 apprenants satisfaits répartis dans le monde entier. Le cours de formation à la certification Edureka Big Data Hadoop aide les apprenants à devenir des experts dans les domaines HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume et Sqoop en utilisant des cas d'utilisation en temps réel sur le commerce de détail, les médias sociaux, l'aviation, le tourisme et la finance.

Vous avez une question pour nous? Veuillez le mentionner dans la section commentaires et nous vous recontacterons.