Programmation Pig: Créez votre premier script Apache Pig



Lisez cet article de blog pour créer votre premier script Apache Pig. Les scripts Apache Pig sont utilisés pour exécuter un ensemble de commandes Apache Pig collectivement.

Programmation Pig: Créez votre premier script Apache Pig

Dans notre , nous allons maintenant apprendre à créer un script Apache Pig. Les scripts Apache Pig sont utilisés pour exécuter un ensemble de commandes Apache Pig collectivement. Cela aide à réduire le temps et les efforts investis dans l'écriture et l'exécution de chaque commande manuellement tout en faisant cela dans la programmation Pig.Il fait également partie intégrante de la .Ce blog est un guide étape par étape pour vous aider à créer votre premier script Apache Pig.

Modes d'exécution des scripts Apache Pig

Mode local : En «mode local», vous pouvez exécuter le script pig dans le système de fichiers local. Dans ce cas, vous n'avez pas besoin de stocker les données dans le système de fichiers Hadoop HDFS, mais vous pouvez travailler avec les données stockées dans le système de fichiers local lui-même.





qu'est-ce qu'un tableau dynamique

Mode MapReduce : En «mode MapReduce», les données doivent être stockées dans le système de fichiers HDFS et vous pouvez traiter les données à l’aide du script pig.

Script Apache Pig en mode MapReduce

Supposons que notre tâche soit de lire les données d'un fichier de données et d'afficher le contenu requis sur le terminal en sortie.



L'exemple de fichier de données contient les données suivantes:

Fichier txt d

Enregistrez le fichier texte sous le nom «information.txt»



L'exemple de fichier de données contient cinq colonnes Prénom , Nom de famille , MobileNon , Ville , et Métier séparé par La touche TAB . Notre tâche est de lire le contenu de ce fichier à partir du HDFS et d'afficher toutes les colonnes de ces enregistrements.

Pour traiter ces données à l'aide de Pig, ce fichier doit être présent dans Apache Hadoop HDFS.

Commander : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Étape 1: Ecrire un script Pig

Créez et ouvrez un fichier de script Apache Pig dans un éditeur (par exemple, gedit).

Commander : sudo gedit /home/edureka/output.pig

Cette commande créera un fichier ‘output.pig’ dans le répertoire personnel de l’utilisateur edureka.

Écrivons quelques commandes PIG dans le fichier output.pig.

A = CHARGER '/edureka/information.txt' en utilisant PigStorage ('') comme (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A générer FName, MobileNo, Profession DUMP B

Enregistrez et fermez le fichier.

  • La première commande charge le fichier «information.txt» dans la variable A avec schéma indirect (FName, LName, MobileNo, City, Profession).
  • La deuxième commande charge les données requises de la variable A vers la variable B.
  • La troisième ligne affiche le contenu de la variable B sur le terminal / console.

Étape 2: Exécuter le script Apache Pig

Pour exécuter le script pig en mode HDFS, exécutez la commande suivante:

structures de données et algorithmes java

Commander : cochon /home/edureka/output.pig

Une fois l'exécution terminée, examinez le résultat. Ces images ci-dessous montrent les résultats et leur carte intermédiaire et réduisent les fonctions.

L'image ci-dessous montre que le script s'est exécuté avec succès.

L'image ci-dessous montre le résultat de notre script.

Félicitations pour l'exécution de votre premier script Apache Pig avec succès!

Vous savez maintenant comment créer et exécuter un script Apache Pig. D'où notre prochain blog en couvrira comment créer des UDF (fonctions définies par l'utilisateur) dans Apache Pig et exécutez-le en mode MapReduce / HDFS.

Maintenant que vous avez créé et exécuté Apache Pig Script, consultez le par Edureka, une entreprise d'apprentissage en ligne de confiance avec un réseau de plus de 250 000 apprenants satisfaits répartis dans le monde entier. Le cours de formation à la certification Edureka Big Data Hadoop aide les apprenants à devenir des experts dans les domaines HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume et Sqoop en utilisant des cas d'utilisation en temps réel sur le commerce de détail, les médias sociaux, l'aviation, le tourisme et la finance.

Vous avez une question pour nous? Veuillez le mentionner dans la section commentaires et nous vous recontacterons.