Modèles de données Hive



Les modèles de données Hive contiennent les composants suivants tels que des bases de données, des tables, des partitions et des compartiments ou des clusters.Hive prend en charge les types primitifs tels que les entiers, les flottants, les doubles et les chaînes.

Hive est un système d'entrepôt de données pour Hadoop qui facilite la synthèse des données, les requêtes ad hoc et l'analyse de grands ensembles de données stockés dans des systèmes de fichiers compatibles Hadoop. Hive structure les données en concepts de base de données bien compris tels que les tables, les lignes, les colonnes et les partitions. Il prend en charge les types primitifs tels que les entiers, les flottants, les doubles et les chaînes. Hive prend également en charge les tableaux associatifs, les listes, les structures et l'API de sérialisation et désérialisée est utilisée pour déplacer des données dans et hors des tables.





Examinons en détail les modèles de données Hive

Modèles de données Hive:

Les modèles de données Hive contiennent les composants suivants:



est un et a une relation en java
  • Bases de données
  • les tables
  • Partitions
  • Godets ou clusters

Partitions:

Partition signifie diviser une table en parties à gros grains en fonction de la valeur d’une colonne de partition telle que «données». Cela accélère les requêtes sur des tranches de données

Modèles de données Hive

Alors, quelle est la fonction de la partition? Les clés de partition déterminent la manière dont les données sont stockées. Ici, chaque valeur unique de la clé de partition définit une partition de la table. Les partitions sont nommées d'après des dates pour plus de commodité. Il est similaire à «Block Splitting» dans HDFS.



mon tutoriel sql pour les débutants

Godets:

Les buckets donnent une structure supplémentaire aux données qui peuvent être utilisées pour des requêtes efficaces. Une jointure de deux tables regroupées sur les mêmes colonnes, y compris la colonne de jointure, peut être implémentée en tant que jointure côté carte. Le regroupement par ID utilisé signifie que nous pouvons rapidement évaluer une requête basée sur l'utilisateur en l'exécutant sur un échantillon aléatoire de l'ensemble total d'utilisateurs.

type de données de date du serveur SQL

Vous avez une question pour nous? Veuillez les mentionner dans la section commentaires et nous vous recontacterons.

Articles Similaires:

Commandes Hive utiles