Apache Flink: le framework d'analyse Big Data de nouvelle génération pour le traitement de données par flux et par lots



Apprenez tout sur Apache Flink et la configuration d'un cluster Flink dans ce blog. Flink prend en charge le traitement en temps réel et par lots et est une technologie Big Data incontournable pour Big Data Analytics.

Apache Flink est une plate-forme open source pour le traitement de flux distribués et de données par lots. Il peut fonctionner sur Windows, Mac OS et Linux OS. Dans cet article de blog, expliquons comment configurer le cluster Flink localement. Il est similaire à Spark à bien des égards - il dispose d'API pour le traitement de graphes et d'apprentissage automatique comme Apache Spark - mais Apache Flink et Apache Spark ne sont pas exactement les mêmes.





Pour configurer le cluster Flink, vous devez avoir java 7.x ou supérieur installé sur votre système. Depuis que j'ai Hadoop-2.2.0 installé à ma fin sur CentOS (Linux), j'ai téléchargé le package Flink qui est compatible avec Hadoop 2.x. Exécutez la commande ci-dessous pour télécharger le package Flink.

Commander: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Décompressez le fichier pour obtenir le répertoire flink.

Commander: tar -xvf Téléchargements / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Commander: ls

Ajoutez des variables d'environnement Flink dans le fichier .bashrc.

Commander: sudo gedit .bashrc

Vous devez exécuter la commande ci-dessous pour que les modifications du fichier .bashrc soient activées

Commander: source .bashrc

Accédez maintenant au répertoire flink et démarrez le cluster localement.

Commander: cd hefty-1.0.0

Commander: bin / start-local.sh

Une fois que vous avez démarré le cluster, vous pourrez voir un nouveau démon JobManager en cours d'exécution.

que fait math.abs en java

Commander: jps

Ouvrez le navigateur et accédez à http: // localhost: 8081 pour voir l'interface utilisateur Web Apache Flink.

Examinons un simple exemple de comptage de mots en utilisant Apache Flink.

Avant d'exécuter l'exemple, installez netcat sur votre système (sudo yum install nc).

Maintenant, dans un nouveau terminal, exécutez la commande ci-dessous.

Commander: nc -lk 9000

Exécutez la commande ci-dessous dans le terminal flink. Cette commande exécute un programme qui prend les données diffusées en entrée et effectue une opération de comptage de mots sur ces données diffusées.

Commander: bin / exemples d'exécution flink / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Dans l'interface utilisateur Web, vous pourrez voir un travail en cours d'exécution.

Exécutez la commande ci-dessous dans un nouveau terminal, cela imprimera les données diffusées et traitées.

Commander: tail -f log / flink - * - jobmanager - *. out

Allez maintenant au terminal où vous avez démarré netcat et tapez quelque chose.

Au moment où vous appuyez sur le bouton Entrée de votre mot-clé après avoir tapé des données sur le terminal netcat, l'opération de comptage de mots sera appliquée sur ces données et la sortie sera imprimée ici (journal du gestionnaire de tâches de flink) en quelques millisecondes!

Dans un laps de temps très très court, les données seront diffusées, traitées et imprimées.

Il y a beaucoup plus à apprendre sur Apache Flink. Nous aborderons d'autres sujets Flink dans notre prochain blog.

Vous avez une question pour nous? Mentionnez-les dans la section commentaires et nous vous répondrons.

Articles Similaires:

Apache Falcon: nouvelle plateforme de gestion de données pour l'écosystème Hadoop