English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Structure de données Pandas

Pandas possède trois structures de données couramment utilisées

Series DataFrame Panel

Ces structures de données sont basées sur les tableaux ndarray de Numpy, ce qui signifie qu'elles ont toutes des vitesses d'exécution très rapides.

Comparaison entre Python, Numpy et Pandas

Python

list : type de données natif Python, principalement utilisé pour une dimension, fonction simple, efficacité faible Dict : type de données natif Python, paires de clés et de valeurs multidimensionnelles, efficacité faible

Numpy

ndarray : type de données de base Numpy, type de données unique Se concentrer sur la structure de données/Opérations/Dimension (relation entre les données)

Pandas

Series :1Dimension, similaire à celui avec des indices1ndarray multidimensionnel DataFrame :2Dimension, type de données tabulaire, similaire à celui avec des indices de ligne / colonne2ndarray multidimensionnel, qui s'intéresse à la relation entre les données et les indices (application réelle des données)

Comparaison en termes de praticité, de force fonctionnelle et de maniabilité : list < ndarray < Series/DataFrame

Dans les travaux de normalisation et d'analyse des données, l'array ndarray en tant que complément nécessaire, la plupart des données essaient d'utiliser les types de données Pandas

Le meilleur moyen de considérer ces structures de données est que la structure de données à haute dimension est le conteneur des structures de données à basse dimension. Par exemple, DataFrame est le conteneur de Series, et Panel est le conteneur de DataFrame.

Structure de données DimensionExplication
Series1Utilisé pour stocker des données unidimensionnelles d'une séquence
Data Frames2DataFrame, en tant que structure de données plus complexe, est utilisée pour stocker des données multidimensionnelles
Panel3Général3D étiquette, tableau de taille variable.

La création et la gestion des tableaux bidimensionnels est une tâche fastidieuse, lors de l'écriture de fonctions, il faut que l'utilisateur envisage la direction du jeu de données. Cependant, l'utilisation des structures de données Pandas peut réduire l'énergie de l'utilisateur.
Par exemple, pour les données de tableau (DataFrame), il est sémantiquement plus important de considérer l'index (ligne) et les colonnes que les axes 0 et 1.1plus utile en haut.

Variabilité

Toutes les structures de données Pandas sont variables en valeur (peuvent être modifiées), à l'exception de Series, d'autres tailles sont variables. La série est invariable en taille.

Remarque -DataFrame est largement utilisé et est l'une des structures de données les plus importantes. Le panel est utilisé beaucoup moins souvent.

Series

Series est une structure de tableau à un dimension qui contient des données uniformes. Par exemple, la série suivante est composée d'entiers10,23,56de la collection...

10235617526173902672

Series est une structure de tableau à un dimension qui contient des données uniformes. Par exemple, la série suivante est composée d'entiers10,23,56de la collection...

Points clés

Données similaires Taille invariable Valeur variable

Data Frames

DataFrame est un tableau à deux dimensions qui contient des données hétérogènes. Par exemple,

NomÂgeGenreRating
Steve32Masculin3.45
Lia28Féminin4.6
Vin45Masculin3.9
Katie38Féminin2.78

Le tableau suivant représente les données du équipe de vente de l'organisation et leur grade de performance global, les données sont représentées par les lignes et les colonnes, chaque colonne représentant une propriété, chaque ligne représentant une personne.

Type de données de la colonne
ColonneType
Nom String
Âge Integer
Genre String
Rating Float
Points clés

Données hétérogènes Taille invariable Données variables

Panel

Le Panel est une structure de données tridimensionnelle qui contient des données hétérogènes. Il est difficile de représenter graphiquement un panel. Cependant, un panel peut être décrit comme un conteneur de DataFrame.

Points clés

Données hétérogènes Taille variable Données variables