Apache Spark avec Hadoop - Pourquoi est-ce important?



La mise en œuvre d'Apache Spark avec Hadoop à grande échelle par les grandes entreprises indique son succès et son potentiel en matière de traitement en temps réel.

Hadoop, le cadre de traitement des données qui est devenu une plate-forme à part entière, devient encore meilleur lorsque de bons composants y sont connectés. Certaines lacunes de Hadoop, comme le composant MapReduce de Hadoop, ont la réputation d'être lentes pour l'analyse des données en temps réel.





Entrez Apache Spark, un moteur de traitement de données basé sur Hadoop conçu pour les charges de travail par lots et en streaming, maintenant dans sa version 1.0 et équipé de fonctionnalités qui illustrent les types de travail que Hadoop est poussé à inclure. Spark s'exécute sur les clusters Hadoop existants pour fournir des fonctionnalités améliorées et supplémentaires.

Examinons les principales fonctionnalités de Spark et son fonctionnement avec Hadoop et .



Avantages clés d'Apache Spark:

img2-R

Fonctionnalités impressionnantes de Spark:

  • Intégration Hadoop - Spark peut fonctionner avec des fichiers stockés dans HDFS.
  • Shell interactif de Spark - Spark est écrit en Scala et possède sa propre version de l’interpréteur Scala.
  • Suite analytique de Spark - Spark est livré avec des outils pour l'analyse interactive des requêtes, le traitement et l'analyse de graphiques à grande échelle et l'analyse en temps réel.
  • Ensembles de données distribués résilients (RDD) - Les RDD sont des objets distribués qui peuvent être mis en cache en mémoire, sur un cluster de nœuds de calcul. Ce sont les principaux objets de données utilisés dans Spark.
  • Opérateurs distribués - Outre MapReduce, il existe de nombreux autres opérateurs que l’on peut utiliser sur les RDD.

Avantages de l'utilisation d'Apache Spark avec Hadoop:

t type de données de date sql
  • Apache Spark s'intègre dans la communauté open-source Hadoop, s'appuyant sur le système de fichiers distribués Hadoop (HDFS). Cependant, Spark n'est pas lié au paradigme MapReduce en deux étapes et promet des performances jusqu'à 100 fois plus rapides que Hadoop MapReduce pour certaines applications.



  • Bien adapté aux algorithmes d'apprentissage automatique - Spark fournit des primitives pour le calcul de cluster en mémoire qui permettent aux programmes utilisateur de charger des données dans la mémoire d'un cluster et de l'interroger à plusieurs reprises.

  • Courez 100 fois plus vite - Spark, le logiciel d'analyse peut également accélérer les tâches exécutées sur la plate-forme de traitement de données Hadoop. Surnommé le «couteau suisse Hadoop», Apache Spark offre la possibilité de créer des tâches d'analyse de données qui peuvent s'exécuter 100 fois plus rapidement que celles exécutées sur Apache Hadoop MapReduce standard. MapReduce a été largement critiqué comme étant un goulot d'étranglement dans les clusters Hadoop car il exécute les travaux en mode batch, ce qui signifie que l'analyse en temps réel des données n'est pas possible.

    que signifie l'espace de noms en c ++
  • Alternative à MapReduce - Spark fournit une alternative à MapReduce. Il exécute les travaux par courtes rafales de micro-lots espacés de cinq secondes ou moins. Il offre également plus de stabilité que les frameworks Hadoop en temps réel orientés flux tels que Twitter Storm. Le logiciel peut être utilisé pour une variété de tâches, telles qu'une analyse continue de données en direct et, grâce à une bibliothèque de logiciels, des tâches plus approfondies en calcul impliquant l'apprentissage automatique et le traitement de graphiques.

  • Prise en charge de plusieurs langues - À l'aide de Spark, les développeurs peuvent écrire des tâches d'analyse de données en Java, Scala ou Python, en utilisant un ensemble de plus de 80 opérateurs de haut niveau.

  • Support de la bibliothèque - Les bibliothèques de Spark sont conçues pour compléter les types de travaux de traitement explorés de manière plus agressive avec les derniers déploiements commercialement pris en charge de Hadoop. MLlib implémente un grand nombre d'algorithmes d'apprentissage automatique courants, tels que la classification bayésienne naïve ou le clustering Spark Streaming permet un traitement à grande vitesse des données ingérées à partir de plusieurs sources et GraphX ​​permet des calculs sur des données graphiques.

  • API stable - Avec la version 1.0, Apache Spark propose une API stable (interface de programmation d'application), que les développeurs peuvent utiliser pour interagir avec Spark via leurs propres applications. Cela aide à utiliser Storm plus facilement dans le déploiement basé sur Hadoop.

  • Composant SPARK SQL - Composant Spark SQL pour accéder aux données structurées, permet aux données d'être interrogées aux côtés des données non structurées dans le travail d'analyse. Spark SQL, qui n'est actuellement qu'en version alpha, permet d'exécuter des requêtes de type SQL sur des données stockées dans Apache Hive. Extraire des données de Hadoop via des requêtes SQL est une autre variante de la fonctionnalité de requête en temps réel qui se développe autour de Hadoop.

  • Compatibilité Apache Spark avec Hadoop [HDFS, HBASE et YARN] - Apache Spark est entièrement compatible avec le système de fichiers distribués (HDFS) de Hadoop, ainsi qu’avec d’autres composants Hadoop tels que YARN (Yet Another Resource Negotiator) et la base de données distribuée HBase.

Adopteurs de l'industrie:

Des sociétés informatiques telles que Cloudera, Pivotal, IBM, Intel et MapR ont toutes intégré Spark dans leurs piles Hadoop. Databricks, une société fondée par certains des développeurs de Spark, offre un support commercial pour le logiciel. Yahoo et la NASA, entre autres, utilisent le logiciel pour les opérations de données quotidiennes.

Conclusion:

Ce que Spark a à offrir sera forcément un grand tirage au sort pour les utilisateurs et les fournisseurs commerciaux de Hadoop. Les utilisateurs qui cherchent à implémenter Hadoop et qui ont déjà construit un grand nombre de leurs systèmes d'analyse autour de Hadoop sont attirés par l'idée de pouvoir utiliser Hadoop comme système de traitement en temps réel.

Spark 1.0 leur fournit une autre variété de fonctionnalités pour prendre en charge ou créer des éléments propriétaires. En fait, l'un des trois grands fournisseurs Hadoop, Cloudera, a déjà fourni un support commercial à Spark via son offre Cloudera Enterprise. Hortonworks propose également Spark en tant que composant de sa distribution Hadoop. La mise en œuvre de Spark à grande échelle par les plus grandes entreprises indique son succès et son potentiel en matière de traitement en temps réel.

différence entre java et classe

Vous avez une question pour nous? Mentionnez-les dans la section commentaires et nous vous recontacterons.

Articles Similaires: