English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Pandas possède trois structures de données couramment utilisées
Series DataFrame Panel
Ces structures de données sont basées sur les tableaux ndarray de Numpy, ce qui signifie qu'elles ont toutes des vitesses d'exécution très rapides.
list : type de données natif Python, principalement utilisé pour une dimension, fonction simple, efficacité faible Dict : type de données natif Python, paires de clés et de valeurs multidimensionnelles, efficacité faible
ndarray : type de données de base Numpy, type de données unique Se concentrer sur la structure de données/Opérations/Dimension (relation entre les données)
Series :1Dimension, similaire à celui avec des indices1ndarray multidimensionnel DataFrame :2Dimension, type de données tabulaire, similaire à celui avec des indices de ligne / colonne2ndarray multidimensionnel, qui s'intéresse à la relation entre les données et les indices (application réelle des données)
Comparaison en termes de praticité, de force fonctionnelle et de maniabilité : list < ndarray < Series/DataFrame
Dans les travaux de normalisation et d'analyse des données, l'array ndarray en tant que complément nécessaire, la plupart des données essaient d'utiliser les types de données Pandas
Le meilleur moyen de considérer ces structures de données est que la structure de données à haute dimension est le conteneur des structures de données à basse dimension. Par exemple, DataFrame est le conteneur de Series, et Panel est le conteneur de DataFrame.
Structure de données | Dimension | Explication |
Series | 1 | Utilisé pour stocker des données unidimensionnelles d'une séquence |
Data Frames | 2 | DataFrame, en tant que structure de données plus complexe, est utilisée pour stocker des données multidimensionnelles |
Panel | 3 | Général3D étiquette, tableau de taille variable. |
La création et la gestion des tableaux bidimensionnels est une tâche fastidieuse, lors de l'écriture de fonctions, il faut que l'utilisateur envisage la direction du jeu de données. Cependant, l'utilisation des structures de données Pandas peut réduire l'énergie de l'utilisateur.
Par exemple, pour les données de tableau (DataFrame), il est sémantiquement plus important de considérer l'index (ligne) et les colonnes que les axes 0 et 1.1plus utile en haut.
Toutes les structures de données Pandas sont variables en valeur (peuvent être modifiées), à l'exception de Series, d'autres tailles sont variables. La série est invariable en taille.
Remarque -DataFrame est largement utilisé et est l'une des structures de données les plus importantes. Le panel est utilisé beaucoup moins souvent.
Series est une structure de tableau à un dimension qui contient des données uniformes. Par exemple, la série suivante est composée d'entiers10,23,56de la collection...
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Series est une structure de tableau à un dimension qui contient des données uniformes. Par exemple, la série suivante est composée d'entiers10,23,56de la collection...
Données similaires Taille invariable Valeur variable
DataFrame est un tableau à deux dimensions qui contient des données hétérogènes. Par exemple,
Nom | Âge | Genre | Rating |
Steve | 32 | Masculin | 3.45 |
Lia | 28 | Féminin | 4.6 |
Vin | 45 | Masculin | 3.9 |
Katie | 38 | Féminin | 2.78 |
Le tableau suivant représente les données du équipe de vente de l'organisation et leur grade de performance global, les données sont représentées par les lignes et les colonnes, chaque colonne représentant une propriété, chaque ligne représentant une personne.
Colonne | Type |
Nom | String |
Âge | Integer |
Genre | String |
Rating | Float |
Données hétérogènes Taille invariable Données variables
Le Panel est une structure de données tridimensionnelle qui contient des données hétérogènes. Il est difficile de représenter graphiquement un panel. Cependant, un panel peut être décrit comme un conteneur de DataFrame.
Données hétérogènes Taille variable Données variables