INTRODUCTION À APACHE HIVE

Apache Hive est un package d'entreposage de données construit sur Hadoop et utilisé pour l'analyse des données. Hive s'adresse aux utilisateurs à l'aise avec SQL. Il est similaire à SQL et appelé HiveQL, utilisé pour gérer et interroger des données structurées. Apache Hive est utilisé pour résumer la complexité de Hadoop. Ce langage permet également aux programmeurs traditionnels de cartographie / réduction de brancher leurs mappeurs et réducteurs personnalisés. La caractéristique populaire de Hive est qu'il n'est pas nécessaire d'apprendre Java.

Hive, un cadre d'entreposage de dates à l'échelle de péta-octets open source basé sur Hadoop, a été développé par l'équipe d'infrastructure de données de Facebook. Hive est également l'une des technologies utilisées pour répondre aux exigences de Facebook. Hive est très populaire auprès de tous les utilisateurs en interne de Facebook et est utilisé pour exécuter des milliers de tâches sur le cluster avec des centaines d'utilisateurs, pour une grande variété d'applications. Le cluster Hive-Hadoop de Facebook stocke plus de 2 Po de données brutes et charge régulièrement 15 To de données quotidiennement.

Examinons certaines de ses fonctionnalités qui le rendent populaire et convivial:

que fait .format en python

Permet aux programmeurs de brancher des mappeurs et des réducteurs personnalisés.
Dispose d'une infrastructure d'entrepôt de données.
Fournit des outils pour activer l'ETL de données facile.
Définit un langage de requête de type SQL appelé QL.

Cas d'utilisation d'Apache Hive - Facebook:

Cas d

Avant de mettre en œuvre Hive, Facebook a dû faire face à de nombreux défis, car la taille des données générées augmentait ou plutôt explosait, ce qui rendait leur gestion très difficile. Le SGBDR traditionnel ne pouvait pas gérer la pression et, par conséquent, Facebook recherchait de meilleures options. Pour résoudre ce problème imminent, Facebook a d'abord essayé d'utiliser Hadoop MapReduce, mais avec des difficultés de programmation et des connaissances obligatoires en SQL, cela en a fait une solution peu pratique. Hive leur a permis de surmonter les défis auxquels ils étaient confrontés.

Avec Hive, ils peuvent désormais effectuer les opérations suivantes:

Les tables peuvent être portionnées et groupées
Flexibilité et évolution du schéma
Les pilotes JDBC / ODBC sont disponibles
Les tables Hive peuvent être définies directement dans HDFS
Extensible - Types, formats, fonctions et scripts

Cas d'utilisation de Hive dans le secteur de la santé:

Où utiliser Hive?

Apache Hive peut être utilisé aux endroits suivants:

Exploration de données
Traitement des journaux
Indexation des documents
Intelligence d'affaires orientée client
Modélisation prédictive
Tests d'hypothèses

Architecture de la ruche:

Hive comprend les principaux composants suivants:

Metastore - Pour stocker les métadonnées.
JDBC / ODBC - Compilateur de requêtes et moteur d'exécution pour convertir les requêtes SQL en une séquence de MapReduce.
SerDe et ObjectInspectors - Pour les formats et types de données.
UDF / UDAF - Pour les fonctions définies par l'utilisateur.
Clients - Similaire à la ligne de commande MySQL et à une interface utilisateur Web.

Composants de Hive:

Metastore:

Le Metastore stocke les informations sur les tables, les partitions, les colonnes dans les tables. Il existe 3 façons de stocker dans Metastore: Metastore intégré, Metastore local et Metastore distant. La plupart du temps, Remote Metastore sera utilisé en mode production.

Limitations de Hive:

qu'est-ce que ide en java

Hive présente les limitations suivantes et ne peut pas être utilisé dans de telles circonstances:

Non conçu pour le traitement des transactions en ligne.
Fournit une latence acceptable pour la navigation interactive des données.
N'offre pas de requêtes en temps réel et de mises à jour au niveau des lignes.
La latence des requêtes Hive est généralement très élevée.

Vous avez une question pour nous? Mentionnez-les dans la section commentaires et nous vous recontacterons.

Articles Similaires:

Commandes Hive

Introduction à Apache Hive

Apache Hive est un package d'entreposage de données construit sur Hadoop et utilisé pour l'analyse des données. Hive s'adresse aux utilisateurs à l'aise avec SQL.

Cas d'utilisation d'Apache Hive - Facebook:

Cas d'utilisation de Hive dans le secteur de la santé:

Où utiliser Hive?

Architecture de la ruche:

Composants de Hive:

Limitations de Hive:

Catégories

Popular Articles

4 raisons pratiques d'apprendre Hadoop 2.0

Opportunités de carrière Python: Votre guide de carrière pour la programmation Python

Faites de la magie avec Tableau!

Ethereum Private Network - Créez votre propre Ethereum Blockchain!

Qu'est-ce que MySQL? - Une introduction aux systèmes de gestion de base de données

Démarrer avec DAX dans Power BI

Tutoriel Amazon Elastic Block Store: tout ce que vous devez savoir

Différence entre Data Scientist et Data Analyst

Classes et objets Python - Programmation orientée objet

Comment écrire un fichier en PHP?

Comment créer JFrame en Java?

Comment implémenter la transition CSS: les animations sont bien faites