English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Exemple de méthode de base Pandas
Jusqu'à présent, nous avons découvert trois Pandas DataStructures et comment les créer. En raison de son importance dans le traitement des données en temps réel, nous nous concentrerons principalement sur les objets DataFrame, et discuterons d'autres DataStructures.
方法 | 描述 |
axes | Retourner la liste des étiquettes de l'axe des lignes. |
dtype | Retourner le dtype de l'objet. |
empty | Si la Series est vide, retourner True. |
ndim | Retourner la dimension des données de base selon la définition. |
size | Retourner le nombre d'éléments dans les données de base. |
values | Retourner Series sous forme de ndarray. |
head() | 返回前n行。 |
tail() | 返回最后n行。 |
import pandas as pd import numpy as np # 用100 nombres aléatoires pour créer une Series s = pd.Series(np.random.randn(4)) print(s)
Résultat de l'exécution :
0 0.967853 1 -0.148368 2 -1.395906 3 -1.758394 dtype: float64
Retourner la liste des étiquettes de la Series.
import pandas as pd import numpy as np # 用100 nombres aléatoires pour créer une Series s = pd.Series(np.random.randn(4)) print ("Les axes sont:") print(s.axes)
Résultat de l'exécution :
Les axes sont: [RangeIndex(start=0, stop=4, step=1])
Le résultat ci-dessus est de 0 à5(c'est-à-dire [0,1,2,3,4])
Retourner une valeur booléenne, indiquant si l'objet est vide. True signifie que l'objet est vide
import pandas as pd import numpy as np # 用100 nombres aléatoires pour créer une Series s = pd.Series(np.random.randn(4)) print ("Est-ce que l'Objet est vide?") print(s.empty)
Résultat de l'exécution :
Est-ce que l'Objet est vide? False
Retourner la dimension de l'objet. Selon la définition, la Series est un1D Structure de données, donc elle retourne
import pandas as pd import numpy as np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print s print ("Les dimensions de l'objet:") print(s.ndim)
Résultat de l'exécution :
0 0.175898 1 0.166197 2 -0.609712 3 -1.377000 dtype: float64 Les dimensions de l'objet: 1
Retourner la taille (longueur) de la Series.
import pandas as pd import numpy as np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(2)) print s print ("La taille de l'objet:") print(s.size)
Résultat de l'exécution :
0 3.078058 1 -1.207803 dtype: float64 La taille de l'objet: 2
Retourner les données Series sous forme d'array.
import pandas as pd import numpy as np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print s print ("La série de données réelle est:") print(s.values)
Résultat de l'exécution :
0 1.787373 1 -0.605159 2 0.180477 3 -0.140922 dtype: float64 La série de données réelle est: [ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]
Pour afficher les données en tête et en queue des objets Series ou DataFrame, utilisez les méthodes head() et tail().
head() Retourner les n premières lignes (index d'observation). Le nombre d'éléments affichés par défaut est5,mais vous pouvez passer des nombres personnalisés.
import pandas as pd import numpy as np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print ("La série initiale est:") print s print ("Les deux premières lignes de la série de données:") print(s.head(2))
Résultat de l'exécution :
最初的系列是: 0 0.720876 1 -0.765898 2 0.479221 3 -0.139547 dtype: float64 Les deux premières lignes de la série de données: 0 0.720876 1 -0.765898 dtype: float64
tail() Retourner les dernières n lignes (observer les valeurs de l'index). Le nombre d'éléments affichés par défaut est5,mais vous pouvez passer des nombres personnalisés.
import pandas as pd import numpy as np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print('最初的系列是:') print(s) print('数据序列的最后两行:') print(s.tail(2)
Résultat de l'exécution :
最初的系列是: 0 -0.655091 1 -0.881407 2 -0.608592 3 -2.341413 dtype: float64 数据序列的最后两行: 2 -0.608592 3 -2.341413 dtype: float64
现在让我们了解什么是DataFrame基本功能。下表列出了有助于DataFrame基本功能的重要属性或方法。
属性/方法 | 描述 |
T | 行和列互相转换 |
axes | 返回以行轴标签和列轴标签为唯一成员的列表。 |
dtypes | 返回此对象中的dtypes。 |
empty | 如果NDFrame完全为空[没有项目],则为true;否则为false。如果任何轴的长度为0。 |
ndim | 轴数/数组尺寸。 |
shape | 返回表示DataFrame维度的元组。 |
size | NDFrame中的元素数。 |
values | NDFrame的数字表示。 |
head() | 返回前n行。 |
tail() | 返回最后n行。 |
下面我们创建一个DataFrame并查看上述属性的所有操作方式。
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ('Our data series is:') print(df)
Résultat de l'exécution :
Our data series is: Âge Nom Évaluation 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80
返回DataFrame的转置。行和列将互换。
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ('数据序列的转置是:') print(df.T)
Résultat de l'exécution :
数据序列的转置是: 0 1 2 3 4 5 6 Age 25 26 25 23 30 29 23 Name Tom James Ricky Vin Steve Smith Jack Rating 4.23 3.24 3.98 2.56 3.2 4.6 3.8
返回行轴标签和列轴标签的列表。
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ('行轴标签和列轴标签是:') print(df.axes)
Résultat de l'exécution :
行轴标签和列轴标签是: [RangeIndex(start=0, stop=7, step=1), Index(['Age', 'Name', 'Rating'], dtype='object')]
返回每一列的数据类型。
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ('每列的数据类型如下:') print(df.dtypes)
Résultat de l'exécution :
每列的数据类型如下: Age int64 Name object Rating float64 dtype: object
Retourne une valeur booléenne indiquant si l'objet est vide ; True signifie que l'objet est vide.
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ("Est-ce que l'objet est vide?") print(df.empty)
Résultat de l'exécution :
Est-ce que l'objet est vide? False
Retourne le nombre d'objets. Selon la définition, DataFrame est2Objet D.
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ("Notre objet est:") print df print ("La dimension de l'objet est:") print(df.ndim)
Résultat de l'exécution :
Notre objet est: Âge Nom Rating 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 La dimension de l'objet est: 2
Retourne un tuple représentant les dimensions du DataFrame. Le tuple (a, b), où a représente le nombre de lignes et b le nombre de colonnes.
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ("Notre objet est:") print df print ("La forme de l'objet est:") print(df.shape)
Résultat de l'exécution :
Notre objet est: Âge Nom Évaluation 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 La forme de l'objet est: (7, 3)
Retourne le nombre d'éléments du DataFrame.
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ("Notre objet est:") print df print ("Le nombre total d'éléments dans notre objet est:") print(df.size)
Résultat de l'exécution :
Notre objet est: Âge Nom Évaluation 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 Le nombre total d'éléments dans notre objet est: 21
Retourne les données réelles du DataFrame sous forme de NDarray.
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ("Notre objet est:") print df print ("Les données réelles dans notre cadre de données sont:") print(df.values)
Résultat de l'exécution :
Notre objet est: Âge Nom Évaluation 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 Les données réelles dans notre cadre de données sont: [[25 'Tom' 4.23] [26 'James' 3.24] [25 'Ricky' 3.98] [23 'Vin' 2.56] [30 'Steve' 3.2] [29 'Smith' 4.6] [23 'Jack' 3.8]]
Pour visualiser les données du début et de la fin de l'objet DataFrame, utilisez les méthodes head() et tail(). head() renvoie les n premières lignes (sur l'index observé). Le nombre d'éléments affichés par défaut est5,mais vous pouvez passer des nombres personnalisés.
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ("Notre cadre de données est:") print df print ("Les deux premières lignes du cadre de données sont:") print(df.head(2))
Résultat de l'exécution :
Notre cadre de données est: Âge Nom Évaluation 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 Les deux premières lignes du cadre de données sont: Âge Nom Évaluation 0 25 Tom 4.23 1 26 James 3.24
tail() Retourner les dernières n lignes (observer les valeurs de l'index). Le nombre d'éléments affichés par défaut est5,mais vous pouvez passer des nombres personnalisés.
import pandas as pd import numpy as np # Créer un dictionnaire de Series d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Âge':pd.Series([25,26,25,23,30,29,23]), 'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Créer un DataFrame df = pd.DataFrame(d) print ("Notre cadre de données est:") print df print ("Les deux dernières lignes du cadre de données sont:") print(df.head(2))
Résultat de l'exécution :
Notre cadre de données est : Âge Nom Évaluation 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 Les deux dernières lignes du cadre de données sont: Âge Nom Évaluation 5 29 Smith 4.6 6 23 Jack 3.8