Tutoriel R - Un guide du débutant pour apprendre la programmation R



Ce blog sur le didacticiel R vous présente l'outil R et vous aide à comprendre les différents principes de base de la programmation R en détail avec des exemples.

R est l'outil d'analyse de données le plus populaire car il est open-source, flexible, propose plusieurs packages et dispose d'une énorme communauté. Il est conçu pour les programmeurs de logiciels, les statisticiens et les mineurs de données, et par conséquent, a donné lieu à la popularité de .Dans ce blog Tutoriel R, je vais vous donner un aperçu complet de R avec des exemples.

Vous trouverez ci-dessous les sujets de ce blog du didacticiel R dont je parlerai dans l'ordre suivant:





  1. Pourquoi avons-nous besoin d'Analytics ?
  2. Qu'est-ce que l'analyse commerciale ?
  3. Pourquoi R et qui utilise R ?
  4. Installation de R
  5. Opérateurs de données
  6. Types de données
  7. Contrôle de flux

Tutoriel R: Pourquoi avons-nous besoin d'analyses?

Avant de répondre à la question, permettez-moi de vous présenter quelques-uns des problèmes et leurs solutions en R dans plusieurs domaines.



banque - Tutoriel R - Edureka

Bancaire :

Une grande quantité de données clients est générée chaque jour dans les banques. While traitant régulièrement avec des millions de clients, il devient difficile de suivre leurs prêts hypothécaires.



Solution :

R construit un modèle personnalisé qui maintient les prêts accordés à chaque client individuel, ce qui nous aide à décider du montant à payer par le client au fil du temps.

Assurance :

L'assurance dépend largement des prévisions. C'est difficile dedécider quelle politique accepter ou rejeter.

Solution:

En utilisant le rapport de crédit continu comme entrée, nous pouvons créer un modèle dans R qui évaluera non seulement l'appétit pour le risque, mais fera également une prévision prédictive.

Soins de santé:

Chaque année, des millions de personnes sont admises à l'hôpital et des milliards sont dépensés chaque année uniquement dans le processus d'admission.

Solution :

Compte tenu des antécédents du patient et des antécédents médicaux, un modèle prédictif peut être construit pour identifier qui est à risque d'hospitalisation et dans quelle mesure l'équipement médical doit être mis à l'échelle.

Nous savons maintenant comment l'analyse des données aide les organisations à exploiter leurs données et à les utiliser pour identifier de nouvelles opportunités. Si nous parlons de la nécessité de l'analyse dans une organisation, vous devez rencontrer ces 4 aspects:

Ensuite, avançons dans le blog du tutoriel R, où nous allons d'abord comprendre ce qu'est exactement l'analyse commerciale.

Tutoriel R: Qu'est-ce que Business Analytics?

L'analyse commerciale est un processus qui consiste à examiner de grands ensembles de données et à obtenir des modèles cachés, des corrélations et d'autres informations. Cela vous aide essentiellement à comprendre toutes les données que vous avez collectées, qu'il s'agisse de données organisationnelles, de données de recherche de marché ou de produits ou de tout autre type de données. Il devient facile pour vous de prendre de meilleures décisions, de meilleurs produits, de meilleures stratégies de marketing, etc. Reportez-vous à l'image ci-dessous pour une meilleure compréhension:

Si vous regardez la figure ci-dessus, vos données dans la première image sont dispersées. Maintenant, si vous voulez quelque chose de spécifique comme un enregistrement particulier dans une base de données, cela devient fastidieux. Pour simplifier cela, vous avez besoin d'une analyse. Avec l'analyse, il devient facile d'établir une corrélation entre les données. Une fois que vous avez établi ce qu'il faut faire, il devient assez facile pour vous de prendre des décisions telles que la voie que vous souhaitez suivre ou en termes d'analyse commerciale, quelle voie mènera à l'amélioration de votre organisation.

Mais vous ne pouvez pas vous attendre à ce que les personnes de la chaîne ci-dessus comprennent toujours les données brutes que vous leur fournissez après l'analyse. Donc, pour surmonter cet écart, nous avons un concept de visualisation de données .

Visualisation de données : La visualisation des données est un accès visuel à d'énormes quantités de données que vous avez générées après l'analyse. L'esprit humain traite les images visuelles et les graphiques visuels sont mieux que les données brutes. Il est toujours facile pour nous de comprendre un graphique à secteurs ou un graphique à barres par rapport aux nombres bruts. Maintenant, vous vous demandez peut-être comment réaliser cette visualisation de données à partir des données que vous avez déjà analysées?
Il existe différents outils disponibles sur le marché pour la visualisation de données:

Vous devez tous vous demander qu'il existe déjà tant d'outils qui vous aident à réaliser la visualisation des données et une certaine quantité d'analyses, pourquoi opter pour R?

Mon prochain sujet dans le blog du didacticiel R traite donc de «pourquoi R» et de «qui utilise R».

Tutoriel R: Pourquoi R et qui utilise R?

Pourquoi R?

R est un langage de programmation et de statistique.

R est utilisé pour l'analyse et la visualisation des données.

R est simple et facile à apprendre, lire et écrire.

R est un exemple de FLOSS (Free Libre and Open Source Software) où on peut distribuer librement des copies de ce logiciel, lire son code source, le modifier, etc.

Qui utilise R?

  • Le Consumer Financial Protection Bureau utilise R pour l'analyse des données
  • Les statisticiens de John Deere utilisent R pour la modélisation de séries chronologiques et l'analyse géospatiale de manière fiable et reproductible.
  • Bank of America utilise R pour le reporting.
  • R fait partie de la pile technologique derrière le célèbre moteur de recommandation de Foursquare.
  • ANZ, la quatrième plus grande banque d'Australie, utilise R pour l'analyse du risque de crédit.
  • Google utilise R pour prédire l'activité économique.
  • Mozilla, la fondation responsable du navigateur Web Firefox, utilise R pour visualiser l'activité Web.

Voici quelques-uns des domaines où R est utilisé:

Maintenant, avançons dans le blog du tutoriel R et installons R.

Tutoriel R: Installation de R

Laissez-moi vous guider tout au long du processus d'installation de R sur votre système. Suivez simplement les étapes ci-dessous:

Étape 1 : Allez sur le lien- https://cran.r-project.org/

Étape 2 : Téléchargez et installez R 3.3.3 sur votre système.

Reportez-vous à la capture d'écran ci-dessous pour mieux comprendre.

En suivant les étapes ci-dessus, vous avez terminé avec la partie d'installation R. Maintenant, vous pouvez directement commencer à coder dans R en téléchargeant RStudio IDE. Pour télécharger ceci, suivez les étapes ci-dessous:

Étape 1 : Allez sur le lien - https://www.rstudio.com/

Étape 2 : Téléchargez et installez Rstudio sur votre système.

Après avoir tout installé, vous êtes prêt à coder!

Tutoriel R pour les débutants | Tutoriel de programmation R | Edureka

Ensuite, avançons dans le blog R Tutorial et comprenons ce que sont les opérateurs de données dans R.

Tutoriel R: Opérateurs de données dans R

Il existe principalement 5 types d'opérateurs différents, répertoriés ci-dessous:

  1. Opérateurs arithmétiques : Effectuez des opérations arithmétiques telles que l'addition, la soustraction, la multiplication, la division, etc.
  2. Opérateurs d'affectation :Les opérateurs d'affectation sont utilisés pour affecter des valeurs. Par exemple:
  • Opérateur d'affectation =
    Syntaxe:
    nom de variable = valeur
> x = 5 >X 
Sortie: [1] 5
  • Opérateur d'assignation<-
    Syntaxe:
    Nom de variable<- value

    > x<- 15 > x
    Sortie: [1] 15
  • Opérateur d'assignation<<-
    Syntaxe:
    Nom de variable<<- value
> x<<- 2 > x
Sortie: [1] 2
  • Opérateur d'affectation ->
    Syntaxe:
    valeur -> nom de la variable

    > 25 -> x > x 
    Sortie: [1] 25

3. Opérateur relationnel : Il définit une relation entre deux entités. Par exemple: ,<=,!= etc.

> xx! = 2
Production:[1] VRAI

4. Opérateurs logiques : Ces opérateurs comparent les deux entités et sont généralement utilisés avec des valeurs booléennes (logiques) telles que &, | et !.

> x2 et 3
Production:[1] VRAI

5. Opérateurs spéciaux : Ces opérateurs sont utilisés à des fins spécifiques, pas pour le calcul logique. Par exemple:

  • Il crée la série de nombres en séquence pour un vecteur.

    > xx
    Sortie: [1] 2 3 4 5 6 7 8
  • % en% Cet opérateur permet d'identifier si un élément appartient à un vecteur.
    Exemple

    > xyy% en% x
    Sortie: [1] TRUE

Tutoriel R: Types de données

Les types de données sont utilisés pour stocker des informations. Dans R, nous n'avons pas besoin de déclarer une variable comme un type de données. Les variables sont affectées avec des objets R et le type de données de l'objet R devient le type de données de la variable.Il existe principalement six types de données présents dans R:

Entrons plus en détail sur chacun d'eux:

Vecteur : Un vecteur est une séquence d'éléments de données du même type de base. Exemple:

vtr = (1, 3, 5, 7 9)

ou

vtr<- (1, 3, 5 ,7 9)

Il existe 5 vecteurs atomiques, également appelés cinq classes de vecteurs.

liste : Les listes sont les objets R qui contiennent des éléments de différents types tels que des nombres & moins, des chaînes, des vecteurs et une autre liste à l'intérieur.

> n = c (2, 3, 5) > s = c ('aa', 'bb', 'cc', 'dd', 'ee') > x = liste (n, s, VRAI) > x

Production -

[[1]] [1] 2 3 5 [[2]] [1] 'aa' 'bb' 'cc' 'dd' 'ee' [[3]] [1] TRUE

Tableaux : Les tableaux sont les objets de données R qui peuvent stocker des données dans plus de deux dimensions. Il prend des vecteurs en entrée et utilise les valeurs du paramètre dim pour créer un tableau.

vecteur1<- c(5,9,3) vecteur2<- c(10,11,12,13,14,15) résultat<- array(c(vector1,vector2),dim = c(3,3,2))

Production -

,, 1 [, 1] [, 2] [, 3] [1,] 5 10 13 [2,] 9 11 14 [3,] 3 12 15 ,, 2 [, 1] [, 2] [, 3 ] [1,] 5 10 13 [2,] 9 11 14 [3,] 3 12 15

Tableaux : Les matrices sont les objets R dans lesquels les éléments sont disposés dans une disposition rectangulaire bidimensionnelle. Une matrice est créée à l'aide de la fonction matrix (). Exemple: matrice (données, nrow, ncol, byrow, dimnames) où,

Les données est le vecteur d'entrée qui devient les éléments de données de la matrice.

nrow est le nombre de lignes à créer.

ncol est le nombre de colonnes à créer.

byrow est un indice logique. Si TRUE, les éléments vectoriels d'entrée sont organisés par ligne.

dimname correspond aux noms attribués aux lignes et aux colonnes.

> Tapis<- matrix(c(1:16), nrow = 4, ncol = 4 ) > Tapis
Production :
[, 1] [, 2] [, 3] [, 4] [1,] 1 5 9 13 [2,] 2 6 10 14 [3,] 3 7 11 15 [4,] 4 8 12 16

Les facteurs : Les facteurs sont les objets de données qui sont utilisés pour catégoriser les données et les stocker sous forme de niveaux. Ils peuvent stocker à la fois des chaînes et des entiers. Ils sont utiles dans l'analyse des données pour la modélisation statistique.

> données<- c('East','West','East','North','North','East','West','West“,'East“) > factor_data<- factor(data) > factor_data

Production :

[1] Est Ouest Est Nord Nord Est Ouest Ouest Est Niveaux: East North West

Cadres de données : Un bloc de données est une table ou une structure de type tableau à deux dimensions dans laquelle chaque colonne contient les valeurs d'une variable et chaque ligne contient un ensemble de valeurs de chaque colonne.

> std_id = c (1: 5) > nom_std = c ('Rick', 'Dan', 'Michelle', 'Ryan', 'Gary') > marques = c (623,3,515,2,611,0,729,0,843,25) > données std<- data.frame(std_id, std_name, marks) > données std

Production :

std_id marques std_name 1 1 Rick 623,30 2 2 et 515,20 3 3 Michelle 611,00 4 4 Ryan 729,00 5 5 Gary 843,25

Par cela, nous arrivons à la fin des différents types de données dans R. Ensuite, avançons dans le blog R Tutorial et comprenons un autre concept clé - les instructions de contrôle de flux.

Tutoriel R: instructions de contrôle de flux

Les instructions de contrôle de flux jouent un rôle très important car elles vous permettent de contrôler le flux d'exécution d'un script à l'intérieur d'une fonction. Les instructions de contrôle de flux les plus couramment utilisées sont représentées dans l'image ci-dessous:

Maintenant, discutons de chacun d'eux avec des exemples.

Didacticiel R: instructions de sélecteur

  • Si la déclaration de contrôle : Cette instruction de contrôle évalue une seule condition. C'est assez facile car il n'a qu'un seul mot-clé «si» suivi de la condition, puis d'un certain ensemble d'instructions qui doivent être exécutées au cas où il serait vrai. Reportez-vous à l'organigramme ci-dessous pour mieux comprendre:

Dans cet organigramme, le code répondra de la manière suivante:

  1. Tout d'abord, il entrera dans la boucle où il vérifie la condition.
  2. Si la condition est vraie, le code conditionnel ou les instructions écrites seront exécutés.
  3. Si la condition est fausse, les instructions sont ignorées.

Voici un exemple de si instruction de contrôle dans R. Essayez d'exécuter cet exemple dans R Studio.

x = 2 répéter {x = x ^ 2 print (x) if (x> 100) {break}

Production :

[1] 4 [1] 16 [1] 256
  • If Else Control Statement :Examentype de déclaration de contrôleévalue un groupe de conditions et sélectionne les instructions. Reportez-vous à l'organigramme ci-dessous pour mieux comprendre:

Dans cet organigramme, le code répondra de la manière suivante:

  1. Tout d'abord, il entrera dans la boucle où il vérifie la condition.
  2. Si la condition est vraie, les premières instructions «if» seront exécutées.
  3. Si la condition est fausse, alors elle passe à la condition «else if» et si elle est vraie, le code «else if» sera exécuté.
  4. Enfin, si le code «else if» est également faux, il ira au code «else» et il sera exécuté. Cela signifie que si aucune de ces conditions n'est vraie, alors l'instruction «else» est exécutée.

Voici un exemple de sinon instruction de contrôle dans R. Essayez d'exécuter cet exemple dans R Studio.

x5) {print ('x est supérieur à 5')} elseif (x == 5) {print ('x est égal à 5')} else {print ('x n'est pas supérieur à 5')}

Production:

[1] 'x est égal à 5'
  • Déclarations de commutateur : Ces instructions de contrôle sont essentiellement utilisées pour comparer une certaine expression à une valeur connue. Reportez-vous à l'organigramme ci-dessous pour mieux comprendre:

Dans cet organigramme de cas Switch, le code répondra dans les étapes suivantes:

transformations actives et passives dans l'informatica
  1. Tout d'abord, il entrera dans le cas du commutateur qui a une expression.
  2. Ensuite, il ira à la condition du cas 1, vérifie la valeur passée à la condition. Si c'est vrai, le bloc Statement s'exécutera. Après cela, il se détachera de ce boîtier d'interrupteur.
  3. Dans le cas où il est faux, il passera au cas suivant. Si la condition du cas 2 est vraie, il exécutera l'instruction et sortira de ce cas, sinon il passera à nouveau au cas suivant.
  4. Supposons maintenant que vous n’avez spécifié aucun cas ou que l’utilisateur a saisi une erreur, puis il passera au cas par défaut où il imprimera votre déclaration par défaut.

Voici un exemple d'instruction switch dans R. Essayez d'exécuter cet exemple dans R Studio.

vtr<- c(150,200,250,300,350,400) option <-'mean' switch(option, 'mean' = print(mean(vtr)), 'mode' = print(mode((vtr))), 'median' = print(median((vtr))) ) 

Production :

[1] 275

Tutoriel R: instructions de boucle

Les boucles vous aident à répéter certains ensembles d'actions afin que vous n'ayez pas à les exécuter à plusieurs reprises. Imaginez que vous deviez effectuer une opération 10 fois, si vous commencez à écrire le code à chaque fois, la longueur du programme augmente et il vous sera difficile de le comprendre plus tard. Mais en même temps, en utilisant une boucle, si j'écris la même instruction dans une boucle, cela fait gagner du temps et facilite la lisibilité du code. Il est également plus optimisé en ce qui concerne l'efficacité du code.

Dans l'image ci-dessus, ' répéter' et ' tandis que 'Les instructions vous aident à exécuter un certain ensemble de règles jusqu'à ce que la condition soit vraie mais' pour' est une instruction de boucle utilisée lorsque vous savez combien de fois vous souhaitez répéter un bloc d'instructions. Maintenant, si vous savez que vous voulez le répéter 10 fois, vous utiliserez l'instruction 'for' mais si vous n'êtes pas sûr du nombre de fois que vous voulez que le code soit répété, vous irez avec 'répéter' ou boucle 'while'.

Discutons de chacun d'eux avec des exemples.

  • Répéter : La boucle de répétition permet d'exécuter le même ensemble de code encore et encore jusqu'à ce qu'une condition d'arrêt soit remplie. Reportez-vous à l'organigramme ci-dessous pour mieux comprendre:

Dans l'organigramme ci-dessus, le code répondra dans les étapes suivantes:

  1. Tout d'abord, il entrera et exécutera un ensemble de code.
  2. Ensuite, il vérifiera la condition, s'il est vrai, il reviendra et exécutera à nouveau le même ensemble de code jusqu'à ce qu'il soit censé être faux.
  3. S'il s'avère faux, il quittera directement la boucle.
  • Tandis que : L'instruction while permet également d'exécuter le même ensemble de code encore et encore jusqu'à ce qu'une condition d'arrêt soit remplie. Reportez-vous à l'organigramme ci-dessous pour mieux comprendre:

Dans l'organigramme ci-dessus, le code répondra dans les étapes suivantes:

  1. Tout d'abord, il vérifiera l'état.
  2. S'il s'avère vrai, il exécutera l'ensemble de code.
  3. Ensuite, il vérifie à nouveau la condition, si elle est vraie, il exécutera à nouveau le même code. Dès que la condition s'avère fausse, il quitte immédiatement la boucle.

Vous trouverez ci-dessous un exemple d'instruction while dans R. Essayez d'exécuter cet exemple dans R Studio.

x = 2 tandis que (x<1000) { x=x^2 print(x) } 

Production:

4 16 256 65 536

Vous devez donc vous demander en quoi ces deux déclarations diffèrent? Laissez-moi dissiper votre doute!
Ici, la principale différence entre l'instruction Repeat et while est qu'elle change en fonction de votre état. Tandis que loop définit essentiellement quand vous allez entrer dans la boucle pour exécuter les instructions et répéter loop définit le moment où vous quittez la boucle après l'exécution des instructions. Donc, ces deux instructions sont appelées boucle de contrôle d'entrée et boucle de contrôle de sortie. C’est ainsi que les déclarations while et répétées sont différentes.

  • Pour la boucle: Les boucles For sont utilisées lorsque vous devez exécuter un bloc de code plusieurs fois. Reportez-vous à l'organigramme ci-dessous pour mieux comprendre:

Dans l'organigramme ci-dessus, le code répondra dans les étapes suivantes:

  1. Tout d'abord, il y a l'initialisation où vous spécifiez combien de fois vous voulez que la boucle se répète.
  2. Ensuite, il vérifie la condition. Si la condition est vraie, il exécutera l'ensemble de code pour le nombre de fois spécifié.
  3. Dès que la condition s'avère fausse, il quitte immédiatement la boucle.

Vous trouverez ci-dessous un exemple d'instruction for dans R. Essayez d'exécuter cet exemple dans R Studio.

vtr<- c(7,19,25,65, 45) for( i in vtr) { print(i) } 

Production :

7 19 25 65 45

Ensuite, passons à notre dernier ensemble d'instructions dans le blog R Tutorial, c'est-à-dire les instructions de saut.

Tutoriel R: Instructions Jump

Déclaration de rupture : Les instructions Break aident à terminer le programme et relance le contrôle à l'instruction suivante suivant la boucle. Ces instructions sont également utilisées dans le cas de commutation. Reportez-vous à l'organigramme ci-dessous pour mieux comprendre:

Dans l'organigramme ci-dessus, le code répondra dans les étapes suivantes:

  1. Tout d'abord, il entrera dans la boucle où il vérifie la condition.
  2. Si la condition de boucle est fausse, elle quitte directement la boucle.
  3. Si la condition est vraie, il vérifiera alors la condition de rupture.
  4. Si la condition de rupture est vraie, elle existe à partir de la boucle.
  5. Si la condition de rupture est fausse, il exécutera les instructions qui restent dans la boucle, puis répétera les mêmes étapes.

Voici un exemple d'instruction jump dans R. Essayez d'exécuter cet exemple dans R Studio.

X<- 1:5 for (val in x) { if (val == 3){ break } print(val) } 

Production:

[1] 1 [1] 2

Prochaine déclaration : Une instruction suivante est utilisée lorsque vous souhaitez ignorer l'itération actuelle de la boucle sans la terminer. L'instruction suivante est assez similaire à «continuer» dans un autre langage de programmation. Reportez-vous à l'organigramme ci-dessous pour mieux comprendre:

Dans l'organigramme ci-dessus, le code répondra dans les étapes suivantes:

  1. Tout d'abord, il entrera dans la boucle où il vérifie la condition.

  2. Si la condition de boucle est fausse, elle quitte directement la boucle.

  3. Si la condition de boucle est vraie, il exécutera les instructions du bloc 1.

  4. Après cela, il vérifiera la «prochaine» déclaration. S'il est présent, les instructions suivantes ne seront pas exécutées dans la même itération de la boucle.

  5. Si l'instruction «next» n'est pas présente, toutes les instructions suivantes seront exécutées.

Voici un exemple de l'instruction suivante dans R. Essayez d'exécuter cet exemple dans R Studio.

for (i in 1:15) {if ((i %% 2) == 0) {next} print (i)}

Production :

1 3 5 7 9 11 13 15

C'est la fin du blog du tutoriel R. J'espère que vous êtes clair sur chacun des concepts dont j'ai discuté ci-dessus. Restez à l'écoute, mon prochain blog portera sur la formation R où j'expliquerai quelques autres concepts de R en détail avec examples.

Maintenant que vous avez compris les bases de R, consultez le par Edureka, une entreprise d'apprentissage en ligne de confiance avec un réseau de plus de 250 000 apprenants satisfaits répartis dans le monde entier. La formation Data Analytics with R d'Edureka vous aidera à acquérir une expertise dans la programmation R, la manipulation de données, l'analyse de données exploratoire, la visualisation de données, l'exploration de données, la régression, l'analyse des sentiments et l'utilisation de R Studio pour des études de cas réelles sur le commerce de détail, les médias sociaux.

Vous avez une question pour nous? Veuillez le mentionner dans la section commentaires de ce blog «Tutoriel R» et nous vous répondrons dans les plus brefs délais.