Comment créer un cluster Hadoop avec Amazon EMR?



Dans cet article, nous explorerons le service AWS EMR et dans le processus, nous apprendrons comment créer un cluster Hadoop avec Amazon EMR?

Dans cet article sur Comment créer Cluster Avec Amazon EMR, nous verrions comment exécuter et mettre à l'échelle facilement des applications Hadoop et Big Data. Les pointeurs suivants seront traités dans cet article,

Passez à autre chose: Comment créer un cluster Hadoop avec Amazon EMR?





Comment créer un cluster Hadoop avec Amazon EMR?

Lorsque nous recherchons quelque chose dans Google ou Yahoo, nous obtenons la réponse en une fraction de seconde. Comment est-il possible que Google, Yahoo et d'autres moteurs de recherche renvoient les résultats si rapidement à partir du Web en constante croissance? Les moteurs de recherche explorent Internet, téléchargent les pages Web et créent un index comme indiqué ci-dessous. Pour toute requête de notre part, ils utilisent l'index pour déterminer quelles sont toutes les pages Web contenant le texte que nous recherchions. En regardant l'index ci-dessous sur le côté droit, nous pouvons clairement savoir que Hadoop existe des pages Web 1, 2 et 3.

Image - Comment créer un cluster Hadoop avec Amazon EMR - EdurekaPuis le Algorithme de classement des pages est utilisé en fonction de la manière dont les pages sont connectées pour déterminer quelle page afficher en haut et laquelle en bas. Dans le scénario ci-dessous, W1 est le «plus populaire» parce que tout le monde s'y connecte et W4 est le «moins populaire» car personne ne s'y connecte. Ainsi, W1 est affiché en haut et W4 en bas dans les résultats de la recherche.



Avec l'explosion des pages Web, ces moteurs de recherche trouvaient des défis pour créer un index et faire les calculs de PageRanking. C'est là que la naissance de Hadoop a eu lieu dans Yahoo et est devenu plus tard FOSS (Free and Open Source Software) sous l'ASF (Apache Software Foundation). Une fois sous l'ASF, de nombreuses entreprises ont commencé à s'intéresser à Hadoop et ont commencé à contribuer à son amélioration. Hadoop a été celui qui a lancé la révolution du Big Data, mais de nombreux autres logiciels comme Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume ont commencé à évoluer pour combler les limites et les lacunes de Hadoop.

Les moteurs de recherche Web ont été les premiers à utiliser Hadoop, mais plus tard, de nombreux cas d'utilisation ont commencé à évoluer à mesure que de plus en plus de données étaient générées. Prenons l'exemple d'une application de commerce électronique utilisée pour recommander des livres à l'utilisateur. Selon le diagramme ci-dessous, l'utilisateur1 a acheté livre1, livre2 et livre3, l'utilisateur2 a acheté des livres et ainsi de suite. En regardant de plus près, nous pouvons observer que user1 et user2 ont des goûts similaires à ceux qu'ils ont achetés book1 et book2. Ainsi, book3 peut être recommandé à l'utilisateur2 et book4 peut être recommandé à l'utilisateur1. C'est ce qu'on appelle le filtrage collaboratif, un type d'algorithme d'apprentissage automatique. Nous pouvons retourner le diagramme ci-dessous et obtenir des livres similaires.

Dans le cas ci-dessus, nous avons créé un index, un PageRanked et recommandé à l'utilisateur, la taille des données était petite et nous avons donc pu visualiser les données et en déduire certains résultats. Au fur et à mesure que la taille des données augmente de jour en jour et devient incontrôlable, c'est là que les outils Big Data comme Hadoop entrent en scène.



Hadoop résout de nombreux problèmes, mais installer Hadoop et d'autres logiciels Big Data n'a jamais été une tâche facile. Il y a beaucoup de paramètres de configuration à modifier, comme les problèmes d'intégration, d'installation et de configuration avec lesquels travailler. C'est là que des entreprises comme Cloudera, et l'aide de Databricks. Ils facilitent l'installation du logiciel Big Data et fournissent un support commercial, par exemple, disons que quelque chose se passe dans la production. Amazon EMR (Elastic MapReduce) facilite grandement l'utilisation de Hadoop, etc. Le nom Elastic MapReduce est un peu inapproprié car EMR prend également en charge d'autres modèles de calcul distribué comme les ensembles de données distribués résilients et pas seulement MapReduce.

Dans ce didacticiel, nous explorerons comment configurer un cluster EMR sur le cloud AWS et dans le prochain didacticiel, nous explorerons comment exécuter Spark, Hive et d'autres programmes par-dessus.

Passez à autre chose: Comment créer un cluster Hadoop avec Amazon EMR?

Démo: création d'un cluster EMR dans AWS

Étape 1: Accédez à la console de gestion EMR et cliquez sur «Créer un cluster». Dans la console, les métadonnées du cluster terminé est également sauvegardé gratuitement pendant deux mois. Cela permet au cluster terminé d'être cloné et créé à nouveau.

Étape 2 : Depuis l'écran des options rapides, cliquez sur «Aller aux options avancées» pour spécifier beaucoup plus de détails sur le cluster.

Étape 3: Dans l'onglet Options avancées, nous pouvons sélectionner différents logiciels à installer sur le cluster EMR. Pour une interface SQL, Hive peut être sélectionné. Pour une interface de langage de flux de données, Pig peut être sélectionné. Pour la coordination d'applications distribuées, ZooKeeper peut être sélectionné et ainsi de suite. Cet onglet nous permet également d'ajouter des étapes, ce qui est une tâche facultative. Les étapes sont des tâches de traitement Big Data utilisant MapReduce, Pig, Hive, etc. Elles peuvent être ajoutées dans cet onglet ou plus tard une fois le cluster créé. Cliquez sur «Suivant» pour sélectionner le matériel requis pour le cluster EMR.

qu'est-ce que l'héritage multiple en java

Étape 4: Hadoop suit l'architecture maître-travailleur dans laquelle le maître effectue toute la coordination, comme la planification et l'attribution du travail et la vérification de leur progression, tandis que les travailleurs effectuent le travail réel de traitement et de stockage des données. Un seul maître est un point de défaillance unique (SPOF). Amazon EMR prend en charge le multi-maître pour la haute disponibilité (HA). L'étape précédente permet de configurer un cluster multi-maître dans EMR.

EMR autorise deux types de nœuds, Core et Task. Le nœud central est utilisé à la fois pour le traitement et le stockage des données, le nœud de tâche est utilisé uniquement pour le traitement des données. Pour ce didacticiel, nous ne pouvons sélectionner qu'un seul noyau et aucun nœud de tâche, car cela implique moins de coûts pour nous. Aussi, choisissez Instances ponctuelles plus de Sur demande car les instances Spot sont moins chères. Le hic avec les instances Spot est qu'elles peuvent être arrêtées automatiquement par AWS avec un préavis de deux minutes . C'est très bien pour la pratique et dans certains scénarios réels également. Les instances Spot sont automatiquement arrêtées car elles ont une faible priorité sur les autres types d'instances. Cliquez sur «Suivant».

Étape 5: Spécifiez le nom du cluster. et cliquez sur «Suivant». Notez que la «protection de terminaison» est activée par défaut, cela garantit que le cluster EMR n'est pas supprimé accidentellement en introduisant quelques étapes lors de la terminaison du cluster.

Étape 6: Dans l'onglet, les différentes options de sécurité pour le cluster EMR sont spécifiées. Le KeyPair doit être sélectionné pour la connexion à l'instance EC2. EMR crée automatiquement les rôles et groupes de sécurité appropriés et les associe aux nœuds EC2 maître et de travail. Cliquez sur «Créer un cluster».

La création du cluster prend quelques minutes car les instances EC2 doivent être achetées et les différents logiciels Big Data doivent être installés et configurés. Au départ, l'état du cluster serait à l'état «Démarrage» et passerait à l'état «En attente». Dans l'état «En attente», le cluster EMR attend simplement que nous soumettions différents travaux de traitement Big Data tels que MR, Spark, Hive, etc.

trouver le nombre maximum dans le tableau java

En outre, notez la console de gestion EC2 et notez que les instances EC2 maître et de travail doivent être en état de fonctionnement. Ce sont les instances Spot qui ont été créées dans le cadre de la création du cluster EMR. Le même EC2 peut également être observé à partir de l'onglet Matériel de la console de gestion EMR. Notez que dans l'onglet Matériel, le prix des instances Spot EC2 est indiqué à 0,032 $ / heure. Le prix des instances Spot continue de changer avec le temps et est bien inférieur à celui de la tarification On-Demand EC2.

Étape 7: Maintenant que le cluster EMR a été ajouté avec succès, des tâches de traitement d'étapes ou de Big Data peuvent être ajoutées. Allez dans l'onglet Steps et cliquez sur «Add Step» et sélectionnez le type d'étape (MR, Hive, Spark, etc.). Nous explorerons la même chose dans le prochain tutoriel. Pour l'instant, cliquez sur Annuler.

Étape 8: Maintenant que nous avons vu comment démarrer le DME, voyons comment l'arrêter.

Étape 8.1: Cliquez sur Terminer.

Étape 8.2: Comme mentionné dans les étapes précédentes, la «Protection de terminaison» est activée pour le cluster EMR et le bouton Terminer a été désactivé. Cliquez sur Modifier.

Étape 8.3: Sélectionnez le bouton radio «Off» et cliquez sur la coche. Maintenant, le bouton Terminer doit être activé. C'est l'étape supplémentaire introduite par EMR, juste pour nous assurer que nous ne supprimons pas accidentellement le cluster EMR.

cas de commutation dans les programmes d'exemple java

Notez que le cluster EMR sera à l'état de terminaison et que les EC2 seront arrêtés. Enfin, le cluster EMR passera à l'état Terminé, à partir de là, notre facturation avec AWS s'arrête. Assurez-vous de mettre fin au cluster, afin de ne pas entraîner de coûts AWS supplémentaires.

Conclusion

Dans ce tutoriel, nous avons vu comment démarrer le cluster EMR en quelques minutes à partir de la console Web (navigateur), la même chose peut être automatisée à l'aide du , AWS SDK ou en utilisant AWS CloudFormation . Comme nous l'avons remarqué, la mise en place d'un cluster EMR peut être effectuée en quelques minutes et le traitement Big Data peut être démarré immédiatement, une fois le traitement terminé, la sortie peut être stockée dans S3 ou DynamoDB et donc l'arrêt du cluster pour arrêter la facturation. En raison de ce modèle de tarification et de la facilité d'utilisation, EMR est un grand succès auprès de ceux qui effectuent le traitement Big Data. Inutile d’acheter un serveur en grand nombre, d’obtenir des licences pour le logiciel Big Data et de les maintenir. »

Alors ça y est les gars, cela nous amène à la fin de cet article sur Comment créer un cluster Hadoop avec Amazon EMR?Si vous souhaitez acquérir une expertise dans ce domaine, Edureka a mis au point un programme qui couvre exactement ce dont vous auriez besoin pour réussir l'examen d'architecte de solution! Vous pouvez consulter les détails du cours pour formation.

En cas de questions liées à ce blog, n'hésitez pas à poser une question dans la section commentaires ci-dessous et nous serons plus qu'heureux de vous répondre dans les plus brefs délais.