English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Méthodes de base Pandas

Exemple de méthode de base Pandas

Jusqu'à présent, nous avons découvert trois Pandas DataStructures et comment les créer. En raison de son importance dans le traitement des données en temps réel, nous nous concentrerons principalement sur les objets DataFrame, et discuterons d'autres DataStructures.

方法描述
axesRetourner la liste des étiquettes de l'axe des lignes.
dtypeRetourner le dtype de l'objet.
emptySi la Series est vide, retourner True.
ndimRetourner la dimension des données de base selon la définition.
sizeRetourner le nombre d'éléments dans les données de base.
valuesRetourner Series sous forme de ndarray.
head()返回前n行。
tail()返回最后n行。
Créons une Series et regardons les opérations des propriétés de toutes les listes ci-dessus.
 import pandas as pd
 import numpy as np
 # 用100 nombres aléatoires pour créer une Series
 s = pd.Series(np.random.randn(4))
 print(s)

Résultat de l'exécution :

0 0.967853
1  -0.148368
2  -1.395906
3  -1.758394
dtype: float64

axes

Retourner la liste des étiquettes de la Series.

 import pandas as pd
 import numpy as np
 # 用100 nombres aléatoires pour créer une Series
 s = pd.Series(np.random.randn(4))
 print ("Les axes sont:")
 print(s.axes)

Résultat de l'exécution :

 Les axes sont:
 [RangeIndex(start=0, stop=4, step=1])

Le résultat ci-dessus est de 0 à5(c'est-à-dire [0,1,2,3,4])

empty

Retourner une valeur booléenne, indiquant si l'objet est vide. True signifie que l'objet est vide

 import pandas as pd
 import numpy as np
 # 用100 nombres aléatoires pour créer une Series
 s = pd.Series(np.random.randn(4))
 print ("Est-ce que l'Objet est vide?")
 print(s.empty)

Résultat de l'exécution :

Est-ce que l'Objet est vide?
False

ndim

Retourner la dimension de l'objet. Selon la définition, la Series est un1D Structure de données, donc elle retourne

 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print s
 print ("Les dimensions de l'objet:")
 print(s.ndim)

Résultat de l'exécution :

     0 0.175898
1   0.166197
2  -0.609712
3  -1.377000
dtype: float64
Les dimensions de l'objet:
1

size

Retourner la taille (longueur) de la Series.

 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(2))
 print s
 print ("La taille de l'objet:")
 print(s.size)

Résultat de l'exécution :

0   3.078058
1  -1.207803
dtype: float64
La taille de l'objet:
2

values

Retourner les données Series sous forme d'array.

 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print s
 print ("La série de données réelle est:")
 print(s.values)

Résultat de l'exécution :

0   1.787373
1  -0.605159
2   0.180477
3  -0.140922
dtype: float64
La série de données réelle est:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]

Head et Tail

Pour afficher les données en tête et en queue des objets Series ou DataFrame, utilisez les méthodes head() et tail().

head() Retourner les n premières lignes (index d'observation). Le nombre d'éléments affichés par défaut est5,mais vous pouvez passer des nombres personnalisés.

 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print ("La série initiale est:")
 print s
 print ("Les deux premières lignes de la série de données:")
 print(s.head(2))

Résultat de l'exécution :

最初的系列是:
0 0.720876
1  -0.765898
2   0.479221
3  -0.139547
dtype: float64
Les deux premières lignes de la série de données:
0 0.720876
1  -0.765898
dtype: float64

tail() Retourner les dernières n lignes (observer les valeurs de l'index). Le nombre d'éléments affichés par défaut est5,mais vous pouvez passer des nombres personnalisés.

 import pandas as pd
 import numpy as np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print('最初的系列是:')
 print(s)
 print('数据序列的最后两行:')
 print(s.tail(2)

Résultat de l'exécution :

最初的系列是:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64
数据序列的最后两行:
2 -0.608592
3 -2.341413
dtype: float64

DataFrame 基本功能

现在让我们了解什么是DataFrame基本功能。下表列出了有助于DataFrame基本功能的重要属性或方法。

属性/方法描述
T行和列互相转换
axes返回以行轴标签和列轴标签为唯一成员的列表。
dtypes返回此对象中的dtypes。
empty如果NDFrame完全为空[没有项目],则为true;否则为false。如果任何轴的长度为0。
ndim轴数/数组尺寸。
shape返回表示DataFrame维度的元组。
sizeNDFrame中的元素数。
valuesNDFrame的数字表示。
head()返回前n行。
tail()返回最后n行。

下面我们创建一个DataFrame并查看上述属性的所有操作方式。

Example

 import pandas as pd
 import numpy as np
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]),
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ('Our data series is:')
 print(df)

Résultat de l'exécution :

Our data series is:
    Âge Nom Évaluation
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30 Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

T (Transpose)

返回DataFrame的转置。行和列将互换。

 import pandas as pd
 import numpy as np
  
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]),
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ('数据序列的转置是:')
 print(df.T)

Résultat de l'exécution :

数据序列的转置是:
         0     1       2      3      4      5       6
Age      25    26      25     23     30     29      23
Name Tom James Ricky Vin Steve Smith Jack
Rating   4.23  3.24    3.98   2.56   3.2    4.6     3.8

axes

返回行轴标签和列轴标签的列表。

 import pandas as pd
 import numpy as np
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]),
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ('行轴标签和列轴标签是:')
 print(df.axes)

Résultat de l'exécution :

  行轴标签和列轴标签是:
 [RangeIndex(start=0, stop=7, step=1), Index(['Age', 'Name', 'Rating'],
 dtype='object')]

dtypes

返回每一列的数据类型。

 import pandas as pd
 import numpy as np
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]),
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ('每列的数据类型如下:')
 print(df.dtypes)

Résultat de l'exécution :

每列的数据类型如下:
Age int64
Name object
Rating float64
dtype: object

empty

Retourne une valeur booléenne indiquant si l'objet est vide ; True signifie que l'objet est vide.

 import pandas as pd
 import numpy as np
  
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]),
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ("Est-ce que l'objet est vide?")
 print(df.empty)

Résultat de l'exécution :

 Est-ce que l'objet est vide?
 False

ndim

Retourne le nombre d'objets. Selon la définition, DataFrame est2Objet D.

 import pandas as pd
 import numpy as np
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]),
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ("Notre objet est:")
 print df
 print ("La dimension de l'objet est:")
 print(df.ndim)

Résultat de l'exécution :

     Notre objet est:
      Âge Nom Rating
0     25     Tom      4.23
1     26     James    3.24
2     25     Ricky    3.98
3     23     Vin      2.56
4     30 Steve    3.20
5     29     Smith    4.60
6     23     Jack     3.80
La dimension de l'objet est:
2

shape

Retourne un tuple représentant les dimensions du DataFrame. Le tuple (a, b), où a représente le nombre de lignes et b le nombre de colonnes.

 import pandas as pd
 import numpy as np
  
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]),
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ("Notre objet est:")
 print df
 print ("La forme de l'objet est:")
 print(df.shape)

Résultat de l'exécution :

     Notre objet est:
   Âge Nom Évaluation
0  25    Tom     4.23
1  26    James   3.24
2  25    Ricky   3.98
3  23    Vin     2.56
4  30 Steve   3.20
5  29    Smith   4.60
6  23    Jack    3.80
La forme de l'objet est:
(7, 3)

size

Retourne le nombre d'éléments du DataFrame.

 import pandas as pd
 import numpy as np
  
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]),
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ("Notre objet est:")
 print df
 print ("Le nombre total d'éléments dans notre objet est:")
 print(df.size)

Résultat de l'exécution :

     Notre objet est:
    Âge Nom Évaluation
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30 Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
Le nombre total d'éléments dans notre objet est:
21

values

Retourne les données réelles du DataFrame sous forme de NDarray.

 import pandas as pd
 import numpy as np
  
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]),
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ("Notre objet est:")
 print df
 print ("Les données réelles dans notre cadre de données sont:")
 print(df.values)

Résultat de l'exécution :

     Notre objet est:
    Âge Nom Évaluation
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30 Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
Les données réelles dans notre cadre de données sont:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]

Head & Tail

Pour visualiser les données du début et de la fin de l'objet DataFrame, utilisez les méthodes head() et tail(). head() renvoie les n premières lignes (sur l'index observé). Le nombre d'éléments affichés par défaut est5,mais vous pouvez passer des nombres personnalisés.

 import pandas as pd
 import numpy as np
  
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]),
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ("Notre cadre de données est:")
 print df
 print ("Les deux premières lignes du cadre de données sont:")
 print(df.head(2))

Résultat de l'exécution :

     Notre cadre de données est:
    Âge Nom Évaluation
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30 Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
Les deux premières lignes du cadre de données sont:
   Âge Nom Évaluation
0  25    Tom    4.23
1  26    James  3.24

tail() Retourner les dernières n lignes (observer les valeurs de l'index). Le nombre d'éléments affichés par défaut est5,mais vous pouvez passer des nombres personnalisés.

 import pandas as pd
 import numpy as np
 # Créer un dictionnaire de Series
 d = {'Nom':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Âge':pd.Series([25,26,25,23,30,29,23]), 
    'Évaluation':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Créer un DataFrame
 df = pd.DataFrame(d)
 print ("Notre cadre de données est:")
 print df
 print ("Les deux dernières lignes du cadre de données sont:")
 print(df.head(2))

Résultat de l'exécution :

Notre cadre de données est :
    Âge Nom Évaluation
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30 Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
Les deux dernières lignes du cadre de données sont:
    Âge Nom Évaluation
5   29    Smith    4.6
6   23    Jack     3.8