Qu'est-ce que la science des données? Guide du débutant à la science des données



La science des données est l'avenir de l'intelligence artificielle. Découvrez ce qu'est la science des données, comment peut-elle ajouter de la valeur à votre entreprise et à ses différentes phases du cycle de vie.

Alors que le monde entrait dans l'ère des mégadonnées, le besoin de stockage a également augmenté. C'était le principal défi et préoccupation des entreprises jusqu'en 2010. L'objectif principal était de créer un cadre et des solutions pour stocker les données. Maintenant, lorsque Hadoop et d'autres frameworks ont résolu avec succès le problème du stockage, l'accent s'est déplacé vers le traitement de ces données. La science des données est la sauce secrète ici. Toutes les idées que vous voyez dans les films de science-fiction hollywoodiens peuvent réellement devenir réalité grâce à la science des données. La science des données est l'avenir de l'intelligence artificielle. Par conséquent, il est très important de comprendre ce qu'est la science des données et comment peut-elle ajouter de la valeur à votre entreprise.

Le guide des carrières techniques Edureka 2019 est sorti! Les rôles les plus chauds, les parcours d'apprentissage précis, les perspectives de l'industrie et plus encore dans le guide. Télécharger maintenant.

Dans ce blog, je couvrirai les sujets suivants.





À la fin de ce blog, vous serez en mesure de comprendre ce qu'est la science des données et son rôle dans l'extraction d'informations significatives à partir des ensembles complexes et volumineux de données qui nous entourent.Pour obtenir des connaissances approfondies sur la science des données, vous pouvez vous inscrire en direct par Edureka avec une assistance 24/7 et un accès à vie.

Qu'est-ce que la science des données?

La science des données est un mélange de divers outils, algorithmes et principes d'apprentissage automatique dans le but de découvrir des modèles cachés à partir des données brutes. Mais en quoi est-ce différent de ce que font les statisticiens depuis des années?



La réponse réside dans la différence entre expliquer et prédire.

Analyste de données v / s Data Science - Edureka

Comme vous pouvez le voir sur l'image ci-dessus, un analyste de donnéesexplique généralement ce qui se passe en traitant l'historique des données. D'autre part, le Data Scientist effectue non seulement l'analyse exploratoire pour en découvrir des informations, mais utilise également divers algorithmes avancés d'apprentissage automatique pour identifier l'occurrence d'un événement particulier dans le futur. Un Data Scientist examinera les données sous de nombreux angles, parfois sous des angles inconnus auparavant.



Ainsi, la science des données est principalement utilisée pour prendre des décisions et des prédictions en utilisant l'analyse causale prédictive, l'analyse prescriptive (prédictive plus science décisionnelle) et l'apprentissage automatique.

  • Analyse causale prédictive - Si vous voulez un modèle capable de prédire les possibilités d'un événement particulier dans le futur, vous devez appliquer l'analyse causale prédictive. Disons que si vous fournissez de l'argent à crédit, la probabilité que les clients effectuent des paiements de crédit futurs à temps est une question qui vous préoccupe. Ici, vous pouvez créer un modèle qui peut effectuer des analyses prédictives sur l'historique des paiements du client pour prédire si les futurs paiements seront ponctuels ou non.
  • Analyse prescriptive: Si vous voulez un modèle qui a l'intelligence de prendre ses propres décisions et la capacité de le modifier avec des paramètres dynamiques, vous avez certainement besoin d'analyses prescriptives pour cela. Ce domaine relativement nouveau consiste à fournir des conseils. En d'autres termes, il prédit non seulement mais suggère une gamme d'actions prescrites et les résultats associés.
    Le meilleur exemple en est la voiture autonome de Google dont j'ai également parlé plus tôt. Les données recueillies par les véhicules peuvent être utilisées pour former des voitures autonomes. Vous pouvez exécuter des algorithmes sur ces données pour y apporter de l'intelligence. Cela permettra à votre voiture de prendre des décisions telles que quand tourner, quel chemin prendre,quand ralentir ou accélérer.
  • Apprentissage automatique pour faire des prédictions - Si vous disposez des données transactionnelles d'une société de financement et que vous avez besoin de créer un modèle pour déterminer la tendance future, les algorithmes d'apprentissage automatique sont le meilleur choix. Cela relève du paradigme de l'apprentissage supervisé. Cela s'appelle supervisé car vous disposez déjà des données sur la base desquelles vous pouvez entraîner vos machines. Par exemple, un modèle de détection de fraude peut être formé à l'aide d'un historique des achats frauduleux.
  • Apprentissage automatique pour la découverte de modèles - Si vous ne disposez pas des paramètres sur la base desquels vous pouvez faire des prédictions, vous devez trouver les modèles cachés dans l'ensemble de données pour pouvoir faire des prédictions significatives. Ce n’est rien d’autre que le modèle non supervisé car vous n’avez pas d’étiquettes prédéfinies pour le regroupement. L'algorithme le plus couramment utilisé pour la découverte de modèles est le clustering.
    Disons que vous travaillez dans une compagnie de téléphone et que vous devez établir un réseau en installant des tours dans une région. Ensuite, vous pouvez utiliser la technique de clustering pour trouver ces emplacements de tour, ce qui garantira que tous les utilisateurs reçoivent une force de signal optimale.

Voyons en quoi la proportion des approches décrites ci-dessus diffère pour l'analyse des données et la science des données. Comme vous pouvez le voir dans l'image ci-dessous, l'analyse des donnéesinclut des analyses descriptives et des prévisions dans une certaine mesure. D'autre part, la science des données concerne davantage l'analyse prédictive causale et l'apprentissage automatique.

Analyse de la science des données - Edureka

Maintenant que vous savez ce qu'est exactement la Data Science, voyons maintenant la raison pour laquelle elle était nécessaire en premier lieu.

Pourquoi la science des données?

  • Traditionnellement, les données dont nous disposions étaient principalement structurées et de petite taille, qui pouvaient être analysées à l'aide d'outils de BI simples.Contrairement aux données dusystèmes traditionnels qui étaient principalement structurés, aujourd'hui, la plupart des données sont non structurées ou semi-structurées. Jetons un coup d'œil aux tendances des données dans l'image ci-dessous qui montre que d'ici 2020, plus de 80% des données ne seront pas structurées.
    Flux de données non structurées - Edureka
    Ces données sont générées à partir de différentes sources telles que les journaux financiers, les fichiers texte, les formulaires multimédias, les capteurs et les instruments. Les outils de BI simples ne sont pas capables de traiter cet énorme volume et cette variété de données. C'est pourquoi nous avons besoin d'outils et d'algorithmes analytiques plus complexes et avancés pour traiter, analyser et en tirer des informations significatives.

Ce n'est pas la seule raison pour laquelle la science des données est devenue si populaire. Voyons plus en détail comment la science des données est utilisée dans divers domaines.

  • Et si vous pouviez comprendre les besoins précis de vos clients à partir des données existantes telles que l'historique de navigation, l'historique des achats, l'âge et les revenus du client. Il ne fait aucun doute que vous disposiez de toutes ces données auparavant, mais maintenant, avec la grande quantité et la variété de données, vous pouvez former des modèles plus efficacement et recommander le produit à vos clients avec plus de précision. Ne serait-ce pas étonnant car cela apportera plus d’activité à votre organisation?
  • Prenons un scénario différent pour comprendre le rôle de la science des données dans la prise de décision.Et si votre voiture avait l'intelligence de vous ramener à la maison? Les voitures autonomes collectent des données en direct à partir de capteurs, y compris des radars, des caméras et des lasers pour créer une carte de ses environs. Sur la base de ces données, il prend des décisions telles que quand accélérer, quand accélérer, quand dépasser, où prendre un virage - en utilisant des algorithmes avancés d'apprentissage automatique.
  • Voyons comment la science des données peut être utilisée dans l'analyse prédictive. Prenons l'exemple des prévisions météorologiques. Les données des navires, des avions, des radars et des satellites peuvent être collectées et analysées pour construire des modèles. Ces modèles permettront non seulement de prévoir les conditions météorologiques, mais également d'aider à prévoir l'occurrence de toute calamité naturelle. Cela vous aidera à prendre au préalable les mesures appropriées et à sauver de nombreuses vies précieuses.

Jetons un coup d'œil à l'infographie ci-dessous pour voir tous les domaines dans lesquels la science des données crée son impression.

Cas d

Qu'est-ce qu'un Data Scientist?

Il existe plusieurs définitions disponibles sur Data Scientists. En termes simples, un Data Scientist est celui qui pratique l'art de la Data Science.Le terme «Data Scientist» a étéinventé après avoir considéré le fait qu'un Data Scientist puise beaucoup d'informations dans les domaines et applications scientifiques, qu'il s'agisse de statistiques ou de mathématiques.

Que fait un Data Scientist?

Les data scientists sont ceux qui résolvent des problèmes de données complexes grâce à leur solide expertise dans certaines disciplines scientifiques. Ils travaillent avec plusieurs éléments liés aux mathématiques, aux statistiques, à l'informatique, etc. (bien qu'ils ne soient peut-être pas experts dans tous ces domaines).Ils utilisent beaucoup les dernières technologies pour trouver des solutions et parvenir à des conclusions cruciales pour la croissance et le développement d’une organisation. Les scientifiques des données présentent les données sous une forme beaucoup plus utile par rapport aux données brutes dont ils disposent à partir de formes structurées et non structurées.

exemple de contrôleur de vue modèle Java

Pour en savoir plus sur un Data Scientist, vous pouvez consulter cet article sur

Pour aller plus loin, parlons maintenant de BI. Je suis sûr que vous avez peut-être également entendu parler de la Business Intelligence (BI). Souvent, la science des données est confondue avec la BI. Je vais énoncer quelques concis et clairsdes contrastes entre les deux qui vous aideront à mieux comprendre. Regardons.

Intelligence d'affaires (BI) vs science des données

  • La Business Intelligence (BI) analyse essentiellement les données précédentes pour trouver du recul et des informations permettant de décrire les tendances commerciales. Ici, BI vous permet de prendre des données de sources externes et internes, de les préparer, d'exécuter des requêtes dessus et de créer des tableaux de bord pour répondre à des questions telles queanalyse des revenus trimestrielsou des problèmes commerciaux. La BI peut évaluer l'impact de certains événements dans un futur proche.
  • La science des données est une approche plus tournée vers l'avenir, une méthode exploratoire axée sur l'analyse des données passées ou actuelles et la prédiction des résultats futurs dans le but de prendre des décisions éclairées. Il répond aux questions ouvertes sur «quoi» et «comment» les événements se produisent.

Jetons un coup d'œil à quelques fonctionnalités contrastées.

Fonctionnalités Intelligence économique (BI) Science des données
Source d'informationStructuré
(Généralement SQL, souvent Data Warehouse)
Structuré et non structuré

(journaux, données cloud, SQL, NoSQL, texte)

ApprocheStatistiques et visualisationStatistiques, apprentissage automatique, analyse de graphes, programmation neurolinguistique (PNL)
ConcentrerPassé et présentPrésent et futur
OutilsPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Tout cela concernait la science des données. Comprenons maintenant le cycle de vie de la science des données.

Une erreur courante dans les projets de science des données est de se précipiter dans la collecte et l'analyse de données, sans comprendre les exigences ni même définir correctement le problème commercial. Par conséquent, il est très important pour vous de suivre toutes les phases tout au long du cycle de vie de la Data Science pour assurer le bon fonctionnement du projet.

Cycle de vie de la science des données

Voici un bref aperçu des principales phases du cycle de vie de la science des données:

Cycle de vie de la science des données - Edureka


Découverte de la science des données - EdurekaPhase 1 - Découverte:
Avant de commencer le projet, il est important de comprendre les différentes spécifications, exigences, priorités et budget requis. Vous devez posséder la capacité de poser les bonnes questions.Ici, vous évaluez si vous disposez des ressources nécessaires en termes de personnes, de technologie, de temps et de données pour soutenir le projet.Dans cette phase, vous devez également cadrer le problème commercial et formuler des hypothèses initiales (IH) à tester.

Préparation des données Data Science - Edureka

Phase 2 - Préparation des données: Dans cette phase, vous avez besoin d'un bac à sable analytique dans lequel vous pouvez effectuer des analyses pendant toute la durée du projet. Vous devez explorer, prétraiter et conditionner les données avant la modélisation. De plus, vous exécuterez ETLT (extraire, transformer, charger et transformer) pour obtenir des données dans le bac à sable. Jetons un coup d'œil au flux d'analyse statistique ci-dessous.

Cycle de vie de la science des données
Vous pouvez utiliser R pour le nettoyage, la transformation et la visualisation des données. Cela vous aidera à repérer les valeurs aberrantes et à établir une relation entre les variables.Une fois que vous avez nettoyé et préparé les données, il est temps de faire des explorationsanalytiquedessus. Voyons comment vous pouvez y parvenir.

Phase 3 - Planification du modèle: Planification de modèles de science des données - Edureka Ici, vous allez déterminer les méthodes et techniques pour dessiner les relations entre les variables.Ces relations définiront la base des algorithmes que vous implémenterez dans la phase suivante.Vous appliquerez l'analyse exploratoire des données (EDA) à l'aide de diverses formules statistiques et outils de visualisation.

Jetons un coup d'œil à divers outils de planification de modèles.

Outils de planification de modèles en science des données - Edureka

  1. R dispose d'un ensemble complet de capacités de modélisation et fournit un bon environnement pour la construction de modèles d'interprétation.
  2. Services d'analyse SQL peut effectuer des analyses dans la base de données à l'aide de fonctions d'exploration de données courantes et de modèles prédictifs de base.
  3. SAS / ACCÈS peut être utilisé pour accéder aux données de Hadoop et est utilisé pour créer des diagrammes de flux de modèles répétables et réutilisables.

Bien que de nombreux outils soient présents sur le marché, R est l'outil le plus couramment utilisé.

Maintenant que vous avez un aperçu de la nature de vos données et que vous avez décidé des algorithmes à utiliser. Dans la prochaine étape, vous allezappliquerl'algorithme et construire un modèle.

Construction de modèles de science des données - EdurekaPhase 4 - Construction du modèle: Dans cette phase, vous développerez des ensembles de données à des fins de formation et de test. Ici yVous devez vous demander si vos outils existants suffiront pour exécuter les modèles ou s'ils auront besoin d'un environnement plus robuste (comme un traitement rapide et parallèle). Vous analyserez diverses techniques d'apprentissage telles que la classification, l'association et le regroupement pour construire le modèle.

Vous pouvez réaliser la création de modèles grâce aux outils suivants.

Outils de création de modèles en science des données

Phase 5 - Opérationnalisation: La science des données est opérationnelle - Edureka Dans cette phase, vous fournissez des rapports finaux, des briefings, du code et des documents techniques.De plus, parfois un projet pilote est également mis en œuvre dans un environnement de production en temps réel. Cela vous donnera une image claire des performances et des autres contraintes associées à petite échelle avant le déploiement complet.


Communication en science des données - EdurekaPhase 6 - Communiquer les résultats:
Il est maintenant important d'évaluer si vous avez réussi à atteindre votre objectif que vous aviez prévu dans la première phase. Ainsi, dans la dernière phase, vous identifiez tous les résultats clés, communiquez avec les parties prenantes et déterminez si les résultatsdu projet sont un succès ou un échec sur la base des critères développés dans la phase 1.

Maintenant, je vais prendre une étude de cas pour vous expliquer les différentes phases décrites ci-dessus.

Étude de cas: prévention du diabète

Et si nous pouvions prédire l'apparition du diabète et prendre au préalable les mesures appropriées pour le prévenir?
Dans ce cas d'utilisation, nous prédirons la survenue du diabète en utilisant tout le cycle de vie dont nous avons parlé précédemment. Passons en revue les différentes étapes.

Étape 1:

  • Premier,nous collecterons les données en fonction des antécédents médicauxdu patient comme indiqué dans la phase 1. Vous pouvez vous référer aux exemples de données ci-dessous.

Exemple de données Data Science - Edureka

  • Comme vous pouvez le voir, nous avons les différents attributs mentionnés ci-dessous.

Les attributs:

  1. npreg - Nombre de fois enceinte
  2. glucose - concentration de glucose plasmatique
  3. bp - Tension artérielle
  4. peau - Épaisseur du pli cutané du triceps
  5. bmi - Indice de masse corporelle
  6. ped - Fonction généalogique du diabète
  7. âge - Âge
  8. revenu - Revenu

Étape 2:

  • Maintenant, une fois que nous avons les données, nous devons nettoyer et préparer les données pour l'analyse des données.
  • Ces données présentent de nombreuses incohérences telles que des valeurs manquantes, des colonnes vides, des valeurs abruptes et un format de données incorrect qui doivent être nettoyés.
  • Ici, nous avons organisé les données dans une seule table sous différents attributs, ce qui leur donne un aspect plus structuré.
  • Jetons un coup d'œil aux exemples de données ci-dessous.

Data Science Données incohérentes - Edureka

Ces données présentent de nombreuses incohérences.

  1. Dans la colonne npreg , 'Un' est écrit enmots,alors qu'il devrait être sous la forme numérique comme 1.
  2. Dans la colonne pb l'une des valeurs est 6600 ce qui est impossible (au moins pour l'homme) car bp ne peut pas atteindre une valeur aussi énorme.
  3. Comme vous pouvez le voir le revenu La colonne est vide et n'a pas non plus de sens pour prédire le diabète. Par conséquent, il est redondant de l'avoir ici et doit être supprimé du tableau.
  • Nous allons donc nettoyer et prétraiter ces données en supprimant les valeurs aberrantes, en remplissant les valeurs nulles et en normalisant le type de données. Si vous vous en souvenez, c'est notre deuxième phase qui est le prétraitement des données.
  • Enfin, nous obtenons les données propres comme indiqué ci-dessous qui peuvent être utilisées pour l'analyse.

Données cohérentes Data Science - Edureka

Étape 3:

Faisons maintenant une analyse comme indiqué précédemment dans la phase 3.

  • Tout d'abord, nous allons charger les données dans le bac à sable analytique et y appliquer diverses fonctions statistiques. Par exemple, R a des fonctions comme décrit ce qui nous donne le nombre de valeurs manquantes et de valeurs uniques. Nous pouvons également utiliser la fonction de résumé qui nous donnera des informations statistiques telles que la moyenne, la médiane, la plage, les valeurs min et max.
  • Ensuite, nous utilisons des techniques de visualisation comme des histogrammes, des graphiques linéaires, des boîtes à moustaches pour avoir une idée juste de la distribution des données.

Visualisation de la science des données - Edureka

Étape 4:

Maintenant, sur la base des informations tirées de l'étape précédente, le meilleur ajustement pour ce type de problème est l'arbre de décision. Voyons comment?

  • Depuis, nous avons déjà les principaux attributs d'analyse comme npreg, bmi , etc., nous allons donc utilisertechnique d'apprentissage supervisé pour construire unmodèle ici.
  • De plus, nous avons particulièrement utilisé l'arbre de décision car il prend en compte tous les attributs en une seule fois, comme ceux qui ont unrelation linéaire ainsi que celles qui ont une relation non linéaire. Dans notre cas, nous avons une relation linéaire entre npreg et âge, alors que la relation non linéaire entre npreg et ped .
  • Les modèles d'arbres de décision sont également très robustes car nous pouvons utiliser les différentes combinaisons d'attributs pour créer divers arbres et enfin implémenter celui avec le maximum d'efficacité.

Jetons un œil à notre arbre de décision.

Ensemble de données de l

Ici, le paramètre le plus important est le niveau de glucose, c'est donc notre nœud racine. Maintenant, le nœud actuel et sa valeur déterminent le prochain paramètre important à prendre. Cela continue jusqu'à ce que nous obtenions le résultat en termes de pos ou nég . Pos signifie que la tendance au diabète est positive et nég signifie que la tendance au diabète est négative.

Si vous souhaitez en savoir plus sur la mise en œuvre de l'arbre de décision, reportez-vous à ce blog

Étape 5:

Dans cette phase, nous lancerons un petit projet pilote pour vérifier si nos résultats sont appropriés. Nous rechercherons également les contraintes de performances le cas échéant. Si les résultats ne sont pas précis, nous devons replanifier et reconstruire le modèle.

Étape 6:

Une fois que nous avons exécuté le projet avec succès, nous partagerons la sortie pour un déploiement complet.

Être Data Scientist est plus facile à dire qu'à faire. Voyons donc ce dont vous avez besoin pour être un Data Scientist.Un Data Scientist nécessite essentiellement des compétencesde trois zones principales comme indiqué ci-dessous.

Compétences en science des données - Edureka

Comme vous pouvez le voir dans l'image ci-dessus, vous devez acquérir diverses compétences techniques et non techniques. Vous devez être bon statistiques et mathématiques pour analyser et visualiser les données. Il va sans dire, Apprentissage automatique constitue le cœur de la science des données et vous oblige à être bon dans ce domaine. De plus, vous devez avoir une solide compréhension de la domaine vous travaillez pour comprendre clairement les problèmes de l'entreprise. Votre tâche ne s'arrête pas là. Vous devez être capable de mettre en œuvre divers algorithmes qui nécessitent une bonne codage compétences. Enfin, une fois que vous avez pris certaines décisions clés, il est important que vous les transmettiez aux parties prenantes. Tellement bon la communication ajoutera certainement des points brownie à vos compétences.

Je vous invite instamment à voir ce didacticiel vidéo sur la science des données qui explique ce qu'est la science des données et tout ce dont nous avons discuté dans le blog. Allez-y, profitez de la vidéo et dites-moi ce que vous en pensez.

Qu'est-ce que la science des données? Cours de science des données - Tutoriel de science des données pour les débutants | Edureka

Cette vidéo de cours Edureka Data Science vous expliquera les besoins en science des données, ce qu'est la science des données, les cas d'utilisation de la science des données pour les entreprises, la BI vs la science des données, les outils d'analyse de données, le cycle de vie de la science des données avec une démo.

En fin de compte, il ne sera pas faux de dire que l’avenir appartient aux Data Scientists. On prévoit que d'ici la fin de l'année 2018, il y aura un besoin d'environ un million de Data Scientists. De plus en plus de données offriront des opportunités de prendre des décisions commerciales clés. Cela va bientôt changer la façon dont nous regardons le monde inondé de données qui nous entourent. Par conséquent, un Data Scientist doit être hautement qualifié et motivé pour résoudre les problèmes les plus complexes.

J'espère que vous avez aimé lire mon blog et compris ce qu'est la science des données.Découvrez notre ici, cela vient avec une formation en direct animée par un instructeur et une expérience de projet réelle.