Tutoriel Python Pandas: apprendre les pandas pour l'analyse des données



Dans ce didacticiel Python Pandas, vous apprendrez les différentes opérations de Pandas. Il comprend également un cas d'utilisation, dans lequel vous pouvez analyser les données à l'aide de Pandas.

Dans ce blog, nous discuterons de l'analyse des données à l'aide de Pandas en Python.Aujourd'hui, est une compétence chaude dans l'industrie qui a dépassé PHP en 2017 et C # en 2018 en termes de popularité et d'utilisation globales.Avant de parler de Pandas, il faut comprendre le concept des tableaux Numpy. Pourquoi? Parce que Pandas est une bibliothèque de logiciels open source qui repose sur . Dans ce didacticiel Python Pandas, je vais vous guider à travers les sujets suivants, qui serviront de bases pour les blogs à venir:

opérateur de résolution de portée c ++

Commençons. :-)





Qu'est-ce que Python Pandas?

Pandas est utilisé pour la manipulation, l'analyse et le nettoyage des données. Les pandas Python sont bien adaptés à différents types de données, tels que:

  • Données tabulaires avec des colonnes de type hétérogène
  • Données de séries chronologiques ordonnées et non ordonnées
  • Données de matrice arbitraires avec étiquettes de ligne et de colonne
  • Données non étiquetées
  • Toute autre forme d'ensembles de données d'observation ou statistiques

Comment installer Pandas?

Pour installer Python Pandas, allez sur votre ligne de commande / terminal et tapez 'pip install pandas' ou bien, si vous avez anaconda installé sur votre système, tapez simplement 'conda install pandas'. Une fois l'installation terminée, allez dans votre IDE (Jupyter, PyCharm etc.) et importez-le simplement en tapant: «import pandas as pd»



En allant de l'avant dans le didacticiel sur les pandas Python, examinons certaines de ses opérations:

Opérations Pandas Python

En utilisant les pandas Python, vous pouvez effectuer de nombreuses opérations avec des séries, des blocs de données, des données manquantes, des regroupements par etc. Certaines des opérations courantes de manipulation de données sont répertoriées ci-dessous:



PandasOperations - Tutoriel Python Pandas - Edureka

Maintenant, comprenons toutes ces opérations une par une.

Découpage de la trame de données

Pour effectuer un découpage des données, vous avez besoin d'un bloc de données. Ne vous inquiétez pas, le bloc de données est une structure de données bidimensionnelle et un objet pandas le plus courant. Alors tout d'abord, créons un bloc de données.

Reportez-vous au code ci-dessous pour son implémentation dans PyCharm:

import pandas as pd XYZ_web = {'Jour': [1,2,3,4,5,6], 'Visiteurs': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) impression (df)

Production :

Bounce_Rate Visiteurs de jour 0 20 1 1000 1 20 2700 2 23 3 6000 3 15 4 1000 4 10 5400 5 34 6350

Le code ci-dessus convertira un dictionnaire en une trame de données pandas avec un index à gauche. Maintenant, découpons une colonne particulière de cette trame de données. Reportez-vous à l'image ci-dessous:

imprimer (df.head (2))

Production:

Bounce_Rate Visiteurs de jour 0 20 1 1000 1 20 2700

De même, si vous voulez les deux dernières lignes des données, tapez la commande ci-dessous:

imprimer (df.tail (2))

Production:

Bounce_Rate Visiteurs de jour 4 10 5400 5 34 6350

Ensuite, dans le didacticiel Python Pandas, effectuons la fusion et la jointure.

Fusionner et rejoindre

Lors de la fusion, vous pouvez fusionner deux blocs de données pour former un seul bloc de données. Vous pouvez également décider quelles colonnes vous souhaitez rendre communes. Permettez-moi de mettre en œuvre cela pratiquement, je vais d'abord créer trois trames de données, qui ont des paires clé-valeur, puis fusionner les trames de données ensemble. Reportez-vous au code ci-dessous:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Production:

importez les pandas en tant que pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) merged = pd.merge (df1, df2) print (fusionné)

Comme vous pouvez le voir ci-dessus, les deux trames de données ont fusionné en une seule trame de données. Désormais, vous pouvez également spécifier la colonne que vous souhaitez rendre commune. Par exemple, je veux que la colonne «HPI» soit commune et pour tout le reste, je veux des colonnes séparées. Alors, permettez-moi de mettre en œuvre cela pratiquement:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) merged = pd.merge (df1, df2, on = 'HPI') print (fusionné)

Production:

IND_GDP Int_Rate Low_Tier_HPI Chômage 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Ensuite, laissez-nous comprendre joindre dans le didacticiel python pandas. C'est encore une autre méthode pratique pour combiner deux dataframes différemment indexées en une seule dataframe de résultat. Ceci est assez similaire à l'opération de «fusion», sauf que l'opération de jointure sera sur «l'index» au lieu des «colonnes». Mettons-le en œuvre pratiquement.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Chômage': [1,3,5,6]}, index = [2001, 2003,2004,2004]) a rejoint = df1. joindre (df2) imprimer (joint)

Production:

IND_GDP Int_Rate Low_Tier_HPI Chômage 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Comme vous pouvez le constater dans la sortie ci-dessus, en 2002 (index), il n'y a pas de valeur attachée aux colonnes «low_tier_HPI» et «chômage», donc il a imprimé NaN (Not a Number). Plus tard en 2004, les deux valeurs sont disponibles, il a donc imprimé les valeurs respectives.

Vous pouvez parcourir cet enregistrement du didacticiel Python Pandas où notre instructeur a expliqué les sujets de manière détaillée avec des exemples qui vous aideront à mieux comprendre ce concept.

Python pour l'analyse des données | Tutoriel Python Pandas | Formation Python | Edureka


En allant de l'avant dans le didacticiel Python pandas, comprenons comment concaténer deux cadres de données de données.

Enchaînement

La concaténation colle essentiellement les dataframes ensemble. Vous pouvez sélectionner la dimension sur laquelle vous souhaitez concaténer. Pour cela, il suffit d'utiliser «pd.concat» et de passer la liste des dataframes à concaténer. Prenons l'exemple ci-dessous.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Production:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Comme vous pouvez le voir ci-dessus, les deux dataframes sont collées ensemble dans une seule dataframe, où l'index commence de 2001 à 2008. Ensuite, vous pouvez également spécifier axis = 1 afin de joindre, fusionner ou annuler le long des colonnes. Reportez-vous au code ci-dessous:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

Production:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005 NaN NaN NaN 80.0 50.0 2.0 2006 NaN NaN NaN 90.0 45.0 3.0 NaN NaN NaN 2005 NaN NaN NaN 80.0 50.0 2.0 2006 NaN NaN NaN 90.0 45.0 NaN 2007 1.0 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Comme vous pouvez ci-dessus, il y a un tas de valeurs manquantes. Cela se produit parce que les dataframes n’ont pas de valeurs pour tous les index sur lesquels vous souhaitez concaténer. Par conséquent, vous devez vous assurer que toutes les informations sont correctement alignées lorsque vous joignez ou concaténez sur l'axe.

Changer l'index

Ensuite, dans le didacticiel python pandas, nous allons comprendre comment modifier les valeurs d'index dans un dataframe. Par exemple, créons un dataframe avec des paires clé / valeur dans un dictionnaire et modifions les valeurs d'index. Prenons l'exemple ci-dessous:

Voyons comment cela se passe réellement:

import pandas as pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) print (df)

Production:

Bounce_Rate Visiteurs Jour 1 20200 2 45100 3 60230 4 10300

Comme vous pouvez le constater dans la sortie ci-dessus, la valeur d'index a été modifiée par rapport à la colonne «Jour».

Modifier les en-têtes de colonne

Modifions maintenant les en-têtes de colonne dans ce tutoriel python pandas. Prenons le même exemple, où je changerai l'en-tête de colonne de «Visiteurs» à «Utilisateurs». Alors, permettez-moi de le mettre en œuvre pratiquement.

import pandas as pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (colonnes = {'Visiteurs': 'Utilisateurs'}) print (df)

Production:

Bounce_Rate Day Users 0 20 1200 1 45 2100 2 60 3230 3 10 4300

Comme vous le voyez ci-dessus, l'en-tête de colonne «Visiteurs» a été remplacé par «Utilisateurs». Ensuite, dans le didacticiel python pandas, effectuons la munging de données.

Munging de données

Dans Data munging, vous pouvez convertir une donnée particulière dans un format différent. Par exemple, si vous avez un fichier .csv, vous pouvez le convertir en .html ou en tout autre format de données. Alors, permettez-moi de mettre en œuvre cela pratiquement.

import pandas as pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-Youth-ChômageAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Une fois que vous exécutez ce code, un fichier HTML sera créé nommé «edu.html». Vous pouvez directement copier le chemin du fichier et le coller dans votre navigateur qui affiche les données au format HTML. Reportez-vous à la capture d'écran ci-dessous:


Ensuite, dans le didacticiel sur les pandas de python, jetons un coup d'œil à un cas d'utilisation qui parle du chômage mondial des jeunes.

Tutoriel Python Pandas: cas d'utilisation pour analyser les données de chômage des jeunes

Énoncé du problème :Vous recevez un ensemble de données qui comprend le pourcentage de jeunes chômeurs dans le monde de 2010 à 2014. Vous devez utiliser cet ensemble de données et trouver l'évolution du pourcentage de jeunes pour chaque pays de 2010 à 2011.

Tout d'abord, comprenons l'ensemble de données qui contient les colonnes comme le nom du pays, le code du pays et l'année de 2010 à 2014. Maintenant en utilisant pandas, nous utiliserons «pd.read_csv» pour lire le fichier au format .csv.
Reportez-vous à la capture d'écran ci-dessous:

Avançons et effectuons une analyse des données dans laquelle nous allons découvrir le changement en pourcentage des jeunes chômeurs entre 2010 et 2011. Ensuite, nous visualiserons la même chose en utilisant bibliothèque, qui est une bibliothèque puissante pour la visualisation en Python. Il peut être utilisé dans les scripts Python, le shell, les serveurs d'applications Web et d'autres boîtes à outils GUI. Vous pouvez utiliser en savoir plus ici:

Maintenant, implémentons le code dans PyCharm:

import pandas as pd import matplotlib.pyplot as plt from matplotlib import style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-chômageAPI_ILO_country_YU.csv', index_col = 0) df = country. head (5) df = df.set_index (['Country Code']) sd = sd.reindex (columns = ['2010', '2011']) db = sd.diff (axis = 1) db.plot (kind = 'bar') plt.show ()

Comme vous pouvez le voir ci-dessus, j'ai effectué l'analyse sur les 5 premières lignes de la base de données du pays. Ensuite, j'ai défini une valeur d'index comme étant «Code du pays», puis réindexe la colonne à 2010 et 2011. Ensuite, nous avons une autre base de données de base de données, qui imprime la différence entre les deux colonnes ou la variation en pourcentage des jeunes chômeurs de 2010 à 2011. Enfin, j'ai tracé un barplot en utilisant la bibliothèque Matplotlib en Python.


Maintenant, si vous avez remarqué dans le graphique ci-dessus, en Afghanistan (AFG) entre 2010 et 2011, il y a eu une augmentation du nombre de jeunes chômeurs d'environ. 0,25%. Puis en Angola (AGO), il y a une tendance négative qui signifie que le pourcentage de jeunes chômeurs a diminué. De même, vous pouvez effectuer une analyse sur différents ensembles de données.

J'espère que mon blog sur 'Python Pandas Tutorial' était pertinent pour vous. Pour obtenir des connaissances approfondies sur python ainsi que sur ses différentes applications, vous pouvez vous inscrire en direct par Edureka avec une assistance 24/7 et un accès à vie.

barre de progression en html en utilisant javascript

Vous avez une question pour nous? Veuillez le mentionner dans la section commentaires de ce blog «Tutoriel Python Pandas» et nous vous répondrons dans les plus brefs délais.