Importance de la science des données avec Cassandra



Cassandra est une base de données open source permettant de gérer de grandes quantités de données sur de nombreux serveurs, de sorte que la demande de scientifiques des données ayant une connaissance de Cassandra est élevée.

'

L'expansion rapide des données numériques via les ordinateurs, le mobile, la vidéo, les médias sociaux, les capteurs numériques, etc., combinée à des percées majeures en matière de puissance de traitement à moindre coût, d'applications de base de données open source et de bande passante plus large, a suscité un intérêt massif dans l'ensemble du monde des affaires pour le domaine émergent de la science du Big Data et analytique.





Les mégadonnées en gros volumes non structurés sont trop énormes pour être gérées et analysées par des méthodes traditionnelles. La quantité et la vitesse des données actuelles font de la capture, du filtrage, du stockage et de l’analyse un véritable défi. De nouveaux produits sont développés régulièrement pour y faire face, ce qui nécessite de nouvelles compétences et expertises. Il existe un besoin croissant de personnes capables d'intégrer de nouvelles infrastructures, plates-formes et processus dans l'organisation ainsi que de personnes capables de créer de nouvelles analyses et algorithmes capables de créer une énorme intelligence de grande valeur commerciale. Pour plus d'informations, lisez notre article de blog sur

comment créer des fichiers journaux en java

Pertinence de la science des données dans différents secteurs:

Data Science & Analytics a des applications dans tous les secteurs:



  • commerce électronique - Des moteurs de personnalisation et de recommandation qui augmentent les ventes.
  • La publicité - Diffusion d'annonces très ciblées et en temps réel aux consommateurs.
  • Médias et divertissement - Développement de contenu personnalisé qui maximise l'engagement des utilisateurs.
  • Des médias sociaux - Augmentation de la «rigidité» du site, de la croissance des utilisateurs, de la capacité à suivre les tendances rapides en fonction des sentiments des consommateurs.
  • Services financiers –Pratiques de prêt optimisées qui minimisent les risques et la fraude.
  • Pharma / Bioinformatique - Amélioration de la découverte de médicaments, traitements plus efficaces des maladies menaçantes, améliorations du génie génétique.
  • Soins de santé - Meilleure notation des patients médicaux pour les risques sanitaires ainsi que l'anticipation et la prévention précoce des maladies.
  • Puissance / Énergie - Intelligence de réseau intelligent, efficacité d'utilisation, économies d'énergie et réduction des temps d'arrêt.
  • Sécurité des informations - Détection et surveillance des vols considérablement améliorées des informations et des actifs précieux de l'entreprise.

Compétences clés des professionnels de la science des données:

Le domaine de la science des données nécessite des professionnels qui:

  • Comprend l'analyse des données et la science de la décision
  • Connaissez bien l'informatique
  • Avoir un bon sens des affaires
  • Posséder la capacité de communiquer efficacement avec les décideurs

Lire la suite: Compétences de base requises pour être Data Scientist.

Technologies communes associées à la pratique de la science des données:

Technologies associées à la science des données



  • Bases de données

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • Langues

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Ruche, Cochon, Lucene, Mahout, Solr

  • Statistiques et prévisions

Angoss, MATLAB, R, SAS, SPSS

ARCHE, GARCH, SVAR, VAR, VEC, GAUSS

  • Visualisation de données

QlikView, Spotfire, Tableau, yWorks, R

comment créer un fichier en java
  • BI et rapports

BusinessObjects, Cognos, MicroStrategy

Qu'est-ce que Cassandra?

  • Apache Cassandra est un système de gestion de base de données distribué open source conçu pour gérer de grandes quantités de données sur de nombreux serveurs de base.
  • Cassandra offre une haute disponibilité sans point de défaillance unique.
  • Cassandra offre une prise en charge robuste des clusters couvrant plusieurs centres de données, avec une réplication asynchrone sans maître permettant des opérations à faible latence pour tous les clients.

Pour plus d'informations, lisez notre article de blog sur le .

Comment Data Science utilise Cassandra?

Cassandra est & timide & timide une base de données distribuée pour les services à faible latence et à haut débit qui gèrent des charges de travail en temps réel comprenant des centaines de mises à jour par seconde et des dizaines de milliers de lectures par seconde.

Cassandra Cas d'utilisation - AVANTAGES:

PROS est une société de logiciels Big Data avec des analyses prescriptives dans son logiciel qui permet à ses clients d'analyser leurs données et d'obtenir des informations et des conseils pour optimiser leur tarification, leurs ventes et leur gestion des revenus.

Ils disposent d'un service en temps réel qui calcule la disponibilité des compagnies aériennes, en tenant compte de manière dynamique des données de contrôle des revenus et des niveaux d'inventaire qui peuvent changer plusieurs centaines de fois par seconde.

Ce service est interrogé plusieurs milliers de fois par seconde, ce qui se traduit par des dizaines de milliers de recherches de données. Leur couche de stockage backend pour ce service est Cassandra.

Pour leur solution en temps réel, PROS a réalisé un besoin de:

  • Un cache distribué hautement disponible.
  • Facilement évolutif.
  • Avec une architecture sans maître.
  • Avec une réplication des données en temps quasi réel, même entre les centres de données.
  • Cela peut gérer les lectures et les écritures en temps réel.

PROS a évalué Cassandra contre Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort et Redis. Apache Cassandra arrive assez facilement en tête de liste.

PROS et Cassandra

  • PROS utilise Cassandra comme base de données distribuée pour des services à faible latence et à haut débit qui gèrent des charges de travail en temps réel comprenant des centaines de mises à jour par seconde et des dizaines de milliers de lectures par seconde.
  • Par exemple, ils disposent d'un service en temps réel qui calcule la disponibilité des compagnies aériennes de manière dynamique en tenant compte des données de contrôle des revenus et des niveaux d'inventaire qui peuvent changer plusieurs centaines de fois par seconde. Ce service est interrogé plusieurs milliers de fois par seconde, ce qui se traduit par des dizaines de milliers de recherches de données. Leur couche de stockage backend pour ce service est Cassandra. Certaines de leurs offres SaaS utilisent Cassandra comme magasin backend pour gérer une combinaison de charges de travail par lots en temps réel et basées sur Hadoop.
  • En parlant de Hadoop et de Cassandra, ils prennent les données de Cassandra et les placent dans Hadoop et exécutent des lots et des analyses à ce sujet, puis cela retourne dans Cassandra. Ceci est réalisé grâce à l'intégration Hadoop de Cassandra.
  • Les travaux Hadoop extraient des données de Cassandra, appliquent des transformations ou des analyses spécifiques aux travaux et repoussent les données dans Cassandra. Ils n'utilisent pas l'édition Enterprise de Datastax (responsable officiel Cassandra) pour cette intégration, mais uniquement l'installation open source Hadoop avec Cassandra.

Modélisation des données avec Cassandra:

Lorsqu'on cherche à remplacer un magasin clé-valeur par quelque chose de plus capable de répliquer en temps réel et de distribution de données, la recherche sur Dynamo, le théorème CAP et le modèle de cohérence éventuelle montre que Cassandra s'adapte assez bien à ce modèle. Au fur et à mesure que l'on en apprend davantage sur les capacités de modélisation des données, nous évoluons progressivement vers la décomposition des données.

Si l'on vient d'un arrière-plan de base de données relationnelle avec une forte sémantique ACID, alors il faut prendre le temps de comprendre le modèle de cohérence éventuel.

Comprenez très bien l'architecture de Cassandra et ce qu'elle fait sous le capot. Avec Cassandra 2.0, vous obtenez des transactions et des déclencheurs légers, mais ils ne sont pas les mêmes que les transactions de base de données traditionnelles avec lesquelles on peut être familier. Par exemple, il n’existe aucune contrainte de clé étrangère disponible - elle doit être gérée par sa propre application. Comprendre clairement ses cas d'utilisation et ses modèles d'accès aux données avant de modéliser les données avec Cassandra et lire toute la documentation disponible est indispensable.

Conclusion:

Apache Cassandra évolue rapidement et nous apprenons et comprenons ses capacités, en particulier du côté de la modélisation des données. Nous la considérons comme une base de données NoSQL distribuée de choix pour nos services et solutions Big Data.

Edureka fournit une pour ceux qui souhaitent devenir data scientist. Le cours couvre une gamme de techniques Hadoop, R et d'apprentissage automatique englobant l'étude complète de la science des données. Edureka fournit également qui vous aide à maîtriser les bases de données NoSQL. Ce cours est conçu pour fournir des connaissances et des compétences pour devenir un expert Cassandra à succès.