TUTORIEL BIG DATA

Big Data, n'avez-vous pas entendu ce terme auparavant? Je suis sûr que vous avez. Depuis 4 à 5 ans, tout le monde parle de Big Data. Mais savez-vous vraiment ce qu'est exactement ce Big Data, comment cela a-t-il un impact sur nos vies et pourquoi les organisations recherchent des professionnels avec ? Dans ce tutoriel Big Data, je vais vous donner un aperçu complet du Big Data.

Vous trouverez ci-dessous les sujets que je couvrirai dans ce tutoriel sur le Big Data:

Histoire du Big Data
Facteurs moteurs du Big Data
Qu'est-ce que le Big Data?
Caractéristiques du Big Data
Types de Big Data
Exemples de Big Data
Applications du Big Data
Les défis du Big Data

Tutoriel Big Data - Edureka

Permettez-moi de commencer ce tutoriel Big Data par une courte histoire.

Histoire du Big Data

Dans les temps anciens, les gens voyageaient d'un village à un autre sur une charrette à cheval, mais avec le temps, les villages sont devenus des villes et les gens se sont dispersés. La distance à parcourir d'une ville à l'autre a également augmenté. Donc, il est devenu un problème de voyager entre les villes, avec les bagages. À l'improviste, un gars intelligent a suggéré, nous devrions toiletter et nourrir un cheval davantage, pour résoudre ce problème. Quand je regarde cette solution, ce n'est pas si mal, mais pensez-vous qu'un cheval peut devenir un éléphant? Je ne pense pas. Un autre gars intelligent a dit, au lieu d'un cheval tirant la charrette, laissez-nous 4 chevaux pour tirer la même charrette. Que pensez-vous de cette solution? Je pense que c'est une solution fantastique. Désormais, les gens peuvent parcourir de grandes distances en moins de temps et même transporter plus de bagages.

Le même concept s'applique au Big Data. Big Data dit que jusqu'à aujourd'hui, nous acceptions de stocker les données sur nos serveurs car le volume des données était assez limité et le temps de traitement de ces données était également acceptable. Mais maintenant, dans ce monde technologique actuel, les données croissent trop vite et les gens se fient souvent aux données. De plus, la vitesse à laquelle les données augmentent, il devient impossible de stocker les données sur un serveur.

À travers ce blog sur le tutoriel Big Data, explorons les sources du Big Data, que les systèmes traditionnels ne parviennent pas à stocker et à traiter.

Facteurs moteurs du Big Data

structure de données de file d'attente en java

La quantité de données sur la planète Terre augmente de façon exponentielle pour de nombreuses raisons. Diverses sources et nos activités quotidiennes génèrent de nombreuses données. Avec l'invention du Web, le monde entier est en ligne, tout ce que nous faisons laisse une trace numérique. Avec la mise en ligne des objets intelligents, le taux de croissance des données a augmenté rapidement. Les principales sources de Big Data sont les sites de médias sociaux, les réseaux de capteurs, les images / vidéos numériques, les téléphones portables, les enregistrements de transactions d'achat, les journaux Web, les dossiers médicaux, les archives, la surveillance militaire, le commerce électronique, la recherche scientifique complexe, etc. Toutes ces informations représentent environ quelques quintillions d'octets de données. D'ici 2020, les volumes de données seront d'environ 40 zettaoctets, ce qui équivaut à ajouter chaque grain de sable de la planète multiplié par soixante-quinze.

Qu'est-ce que le Big Data?

Le Big Data est un terme utilisé pour désigner une collection d'ensembles de données volumineux et complexes, difficiles à stocker et à traiter à l'aide des outils de gestion de base de données disponibles ou des applications de traitement de données traditionnelles. Le défi comprend la capture, la conservation, le stockage, la recherche, le partage, le transfert, l'analyse et la visualisation de ces données.

Caractéristiques du Big Data

Les cinq caractéristiques qui définissent le Big Data sont: le volume, la vitesse, la variété, la véracité et la valeur.

LE VOLUME
Le volume fait référence à la «quantité de données», qui augmente de jour en jour à un rythme très rapide. La taille des données générées par les humains, les machines et leurs interactions sur les médias sociaux eux-mêmes est énorme. Les chercheurs ont prédit que 40 zettaoctets (40000 exaoctets) seront générés d'ici 2020, soit une augmentation de 300 fois par rapport à 2005.
RAPIDITÉ
La vitesse est définie comme le rythme auquel différentes sources génèrent les données chaque jour. Ce flux de données est massif et continu. Il y a actuellement 1,03 milliard d'utilisateurs actifs quotidiens (Facebook DAU) sur mobile, ce qui représente une augmentation de 22% d'une année sur l'autre. Cela montre à quelle vitesse le nombre d'utilisateurs augmente sur les réseaux sociaux et à quelle vitesse les données sont générées quotidiennement. Si vous êtes capable de gérer la vitesse, vous pourrez générer des informations et prendre des décisions basées sur des données en temps réel.
VARIÉTÉ
Comme de nombreuses sources contribuent au Big Data, le type de données qu'elles génèrent est différent. Il peut être structuré, semi-structuré ou non structuré. Par conséquent, il existe une variété de données qui sont générées chaque jour. Auparavant, nous avions l'habitude d'obtenir les données d'Excel et de bases de données, maintenant les données se présentent sous la forme d'images, d'audios, de vidéos, de données de capteurs, etc., comme indiqué dans l'image ci-dessous. Par conséquent, cette variété de données non structurées crée des problèmes de capture, de stockage, d'extraction et d'analyse des données.
VÉRACITÉ
La véracité fait référence aux données douteuses ou incertaines des données disponibles en raison de l'incohérence et du caractère incomplet des données. Dans l'image ci-dessous, vous pouvez voir que quelques valeurs manquent dans le tableau. De plus, quelques valeurs sont difficiles à accepter, par exemple - 15000 valeur minimum dans la 3ème ligne, ce n'est pas possible. Cette incohérence et incomplétude est la véracité.
Les données disponibles peuvent parfois devenir désordonnées et difficiles à faire confiance. Avec de nombreuses formes de mégadonnées, la qualité et la précision sont difficiles à contrôler, comme les publications Twitter avec des hashtags, des abréviations, des fautes de frappe et des discours familiers. Le volume est souvent à l'origine du manque de qualité et d'exactitude des données.
- En raison de l'incertitude des données, 1 chef d'entreprise sur 3 ne fait pas confiance aux informations qu'il utilise pour prendre des décisions.
- Une enquête a révélé que 27% des répondants ne savaient pas dans quelle mesure leurs données étaient inexactes.
- La mauvaise qualité des données coûte à l'économie américaine environ 3,1 billions de dollars par an.
VALEUR
Après avoir discuté du volume, de la vélocité, de la variété et de la véracité, il y a un autre V qui doit être pris en compte lors de l'examen du Big Data, c'est-à-dire de la valeur. C'est bien beau d'avoir accès à de grandsLes donnéesmaisà moins que nous ne puissions le transformer en valeur, il est inutile. En le transformant en valeur, je veux dire, ajoute-t-il aux avantages des organisations qui analysent le Big Data? L'organisation travaille-t-elle sur le Big Data avec un ROI (retour sur investissement) élevé? À moins que cela ajoute à leurs profits en travaillant sur le Big Data, cela ne sert à rien.

Parcourez notre vidéo Big Data ci-dessous pour en savoir plus sur le Big Data:

Tutoriel Big Data pour les débutants | Qu'est-ce que le Big Data | Edureka

Comme indiqué dans Variety, il existe différents types de données qui sont générées chaque jour. Alors, comprenons maintenant les types de données:

Types de Big Data

Le Big Data peut être de trois types:

Structuré
Semi-structuré
Non structuré

Structuré
Les données qui peuvent être stockées et traitées dans un format fixe sont appelées données structurées. Les données stockées dans un système de gestion de base de données relationnelle (SGBDR) sont un exemple de données «structurées». Il est facile de traiter des données structurées car elles ont un schéma fixe. Le langage de requête structuré (SQL) est souvent utilisé pour gérer ce type de données.
Semi-structuré
Les données semi-structurées sont un type de données qui n'ont pas de structure formelle de modèle de données, c'est-à-dire une définition de table dans un SGBD relationnel, mais qui ont néanmoins des propriétés organisationnelles comme des balises et d'autres marqueurs pour séparer les éléments sémantiques qui le rendent plus facile analyser. Les fichiers XML ou les documents JSON sont des exemples de données semi-structurées.
Non structuré
Les données qui ont une forme inconnue et ne peuvent pas être stockées dans le SGBDR et ne peuvent pas être analysées à moins qu'elles ne soient transformées en un format structuré sont appelées données non structurées. Les fichiers texte et les contenus multimédias comme les images, les audios, les vidéos sont des exemples de données non structurées. Les données non structurées se développent plus rapidement que d'autres, les experts affirment que 80% des données d'une organisation ne sont pas structurées.

Jusqu'à présent, je viens de couvrir l'introduction du Big Data. De plus, ce tutoriel Big Data parle d'exemples, d'applications et de défis dans le Big Data.

Exemples de Big Data

Chaque jour, nous téléchargeons des millions d'octets de données. 90% des données mondiales ont été créées au cours des deux dernières années.

Walmart gère plus de 1 million transactions clients toutes les heures.
Facebook stocke, accède et analyse 30+ pétaoctets des données générées par l'utilisateur.
230+ millions des tweets sont créés chaque jour.
Plus que 5 milliards les gens appellent, envoient des SMS, tweetent et naviguent sur les téléphones mobiles du monde entier.
Les utilisateurs de YouTube mettent en ligne 48 heures de nouvelle vidéo chaque minute de la journée.
Poignées Amazon 15 millions les données utilisateur du flux de clics client par jour pour recommander des produits.
294 milliards des courriels sont envoyés tous les jours. Les services analysent ces données pour trouver les spams.
Les voitures modernes ont près de 100 capteurs qui surveille le niveau de carburant, la pression des pneus, etc., chaque véhicule génère beaucoup de données de capteur.

Applications du Big Data

On ne peut pas parler de données sans parler des personnes, des personnes qui bénéficient des applications Big Data. Aujourd'hui, presque toutes les industries exploitent les applications Big Data d'une manière ou d'une autre.

Des soins de santé plus intelligents : En utilisant les pétaoctets de données du patient, l’organisation peut extraire des informations significatives, puis créer des applications capables de prédire à l’avance la détérioration de l’état du patient.

Télécom : Les secteurs des télécoms collectent des informations, les analysent et apportent des solutions à différents problèmes. En utilisant des applications Big Data, les entreprises de télécommunications ont pu réduire considérablement la perte de paquets de données, qui se produit lorsque les réseaux sont surchargés, et ainsi fournir une connexion transparente à leurs clients.

Vente au détail : Le commerce de détail a certaines des marges les plus étroites et est l'un des plus grands bénéficiaires du big data. L'intérêt d'utiliser le Big Data dans le commerce de détail est de comprendre le comportement des consommateurs. Le moteur de recommandation d'Amazon fournit des suggestions basées sur l'historique de navigation du consommateur.

Contrôle de la circulation : La congestion routière est un défi majeur pour de nombreuses villes du monde. Une utilisation efficace des données et des capteurs sera essentielle pour mieux gérer le trafic, les villes devenant de plus en plus densément peuplées.

Fabrication : L'analyse des mégadonnées dans l'industrie manufacturière peut réduire les défauts de composants, améliorer la qualité des produits, augmenter l'efficacité et économiser du temps et de l'argent.

Qualité de la recherche : Chaque fois que nous extrayons des informations de Google, nous générons simultanément des données pour celles-ci. Google stocke ces données et les utilise pour améliorer sa qualité de recherche.

Quelqu'un a dit à juste titre: «Tout n'est pas rose dans le jardin!» . Jusqu'à présent, dans ce tutoriel sur le Big Data, je viens de vous montrer l'image rose du Big Data. Mais s'il était si facile de tirer parti du Big Data, ne pensez-vous pas que toutes les organisations y investiraient? Laissez-moi vous dire d’emblée que ce n’est pas le cas. Il y a plusieurs défis qui se présentent lorsque vous travaillez avec le Big Data.

Maintenant que vous êtes familiarisé avec le Big Data et ses différentes fonctionnalités, la prochaine section de ce blog sur le Big Data Tutorial vous éclairera sur certains des défis majeurs auxquels le Big Data est confronté.

Les défis du Big Data

Laissez-moi vous dire quelques défis qui accompagnent le Big Data:

Qualité des données - Le problème ici est le 4^eV c'est-à-dire véracité. Les données ici sont très désordonnées, incohérentes et incomplètes. Les données sales coûtent 600 milliards de dollars aux entreprises chaque année aux États-Unis.

Découverte - Trouver des informations sur le Big Data, c'est comme trouver une aiguille dans une botte de foin. Il est très difficile d'analyser des pétaoctets de données à l'aide d'algorithmes extrêmement puissants pour trouver des modèles et des informations.

Espace de rangement - Plus une organisation possède de données, plus les problèmes de gestion peuvent devenir complexes. La question qui se pose ici est «Où le stocker?». Nous avons besoin d'un système de stockage qui peut facilement augmenter ou diminuer à la demande.

Analytique - Dans le cas du Big Data, la plupart du temps, nous ne sommes pas conscients du type de données que nous traitons, donc analyser ces données est encore plus difficile.

Sécurité - Étant donné que les données sont de grande taille, leur sécurité est un autre défi. Cela comprend l'authentification de l'utilisateur, la restriction de l'accès en fonction d'un utilisateur, l'enregistrement des historiques d'accès aux données, l'utilisation appropriée du cryptage des données, etc.

Manque de talent - Il y a beaucoup de projets Big Data dans les grandes organisations, mais une équipe sophistiquée de développeurs, de scientifiques des données et d'analystes qui ont également une quantité suffisante de connaissances du domaine reste un défi.

Hadoop à la rescousse

Nous avons un sauveur pour faire face aux défis du Big Data - c'est Hadoop . Hadoop est un cadre de programmation open source basé sur Java qui prend en charge le stockage et le traitement d'ensembles de données extrêmement volumineux dans un environnement informatique distribué. Il fait partie du projet Apache parrainé par la Apache Software Foundation.

Hadoop, avec son traitement distribué, gère de gros volumes de données structurées et non structurées plus efficacement que l'entrepôt de données d'entreprise traditionnel. Hadoop permet d'exécuter des applications sur des systèmes avec des milliers de nœuds matériels de base et de gérer des milliers de téraoctets de données. Les organisations adoptent Hadoop car il s'agit d'un logiciel open source et peut fonctionner sur du matériel de base (votre ordinateur personnel).Les économies de coûts initiales sont spectaculaires car le matériel de base est très bon marché. Au fur et à mesure que les données organisationnelles augmentent, vous devez ajouter de plus en plus de matériel de base à la volée pour le stocker et, par conséquent, Hadoop s'avère économique.De plus, Hadoop a derrière lui une solide communauté Apache qui continue de contribuer à son avancement.

Comme promis précédemment, à travers ce blog sur le tutoriel Big Data, je vous ai donné le maximum d'informations sur le Big Data. C'est la fin du tutoriel Big Data. Maintenant, la prochaine étape consiste à connaître et à apprendre Hadoop. Nous avons un série de tutoriels Hadoop blogs qui donneront une connaissance détaillée de l'écosystème Hadoop complet.

Cordialement, Joyeux Hadooping!

Maintenant que vous avez compris ce qu'est le Big Data, consultez le par Edureka, une entreprise d'apprentissage en ligne de confiance avec un réseau de plus de 250 000 apprenants satisfaits répartis dans le monde entier. Le cours de formation à la certification Edureka Big Data Hadoop aide les apprenants à devenir des experts dans les domaines HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume et Sqoop en utilisant des cas d'utilisation en temps réel sur le commerce de détail, les médias sociaux, l'aviation, le tourisme et la finance.

Vous avez une question pour nous? Veuillez le mentionner dans la section commentaires et nous vous recontacterons.

Tutoriel Big Data: tout ce que vous devez savoir sur le Big Data!

Ce blog sur le tutoriel Big Data vous donne un aperçu complet du Big Data, de ses caractéristiques, de ses applications ainsi que des défis du Big Data.

Tutoriel Big Data

Histoire du Big Data

Facteurs moteurs du Big Data

Qu'est-ce que le Big Data?

Caractéristiques du Big Data

LE VOLUME

RAPIDITÉ

VARIÉTÉ

VÉRACITÉ

VALEUR

Tutoriel Big Data pour les débutants | Qu'est-ce que le Big Data | Edureka

Types de Big Data

Structuré

Semi-structuré

Non structuré

Exemples de Big Data

Applications du Big Data

Les défis du Big Data

Hadoop à la rescousse

Catégories

Popular Articles

Une introduction à l'éditeur Power Query

Comment implémenter la fonction de tri en C ++?

Top 10 des cadres de machine learning que vous devez connaître

ISO 9000 vs Six Sigma: un guide visuel

#IndiaITRepublic - Top 10 des faits sur les startups informatiques

L'IA à Wimbledon: points forts de la puissance, analyses et informations

Comment créer un utilisateur dans MongoDB?

Certification PMP - Devenez un professionnel certifié en gestion de projet

Apache Spark combineByKey expliqué

Qu'est-ce que Power BI - Premiers pas avec Microsoft Power BI

Comment vérifier si un numéro donné est un numéro Armstrong ou non?

Services Google Cloud: tout ce que vous devez savoir sur les services GCP