English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
This tutorial is prepared for those who want to learn the basic knowledge and various functions of pandas. It is particularly useful for those engaged in data cleaning and analysis work. After completing this tutorial, you will find that you have a moderate level of professional knowledge, from which you can obtain a higher level of professional knowledge.
Before learning pandas, you should have a basic understanding of computer programming terminology. A basic understanding of any programming language is a plus. The pandas library uses most of the features of NumPy. It is recommended that you read tutorials on NumPy first before continuing with this tutorial.
Pandas is suitable for processing the following types of data:
Table data similar to SQL or Excel tables, containing heterogeneous columns; Elements of NumPy arrays must have the same data type, so they have the same size in memory. Ordered and unordered (non-fixed frequency) time series data; Matrix data with row and column labels, including homogenous or heterogeneous data; Observational and statistical datasets of any other form do not need to be pre-marked when transferred into Pandas data structures.
The main data structures of Pandas are Series (one-dimensional data) and DataFrame (two-dimensional data), which are sufficient to handle most typical use cases in fields such as finance, statistics, social sciences, and engineering. For R users, DataFrame provides more features than R language data.frame. Pandas is developed based on NumPy and can be perfectly integrated with other third-party scientific computing support libraries. Pandas is like a universal Swiss Army knife, and the following only lists some of its advantages:
Handle missing data in floating-point and non-floating-point data, represented as NaN; Variable size: insert or delete columns of multi-dimensional objects such as DataFrame; Automatic and explicit data alignment: explicitly align objects with a set of tags, or ignore tags and automatically align with data during Series, DataFrame calculations; Powerful and flexible grouping (group by) function: split-Application-Combine datasets, aggregate and transform data; Easily convert irregular and non-indexed data in Python and NumPy data structures into DataFrame objects; Perform operations such as slicing, fancy indexing, and subset decomposition on large datasets based on intelligent tags; Intuitively merge (merge),**Connect (join)**Ensemble de données ; Flexibly reshape (reshape),**Perspective (pivot)**Ensemble de données ; Support de structure de balise d'axe : une étiquette d'échelle supporte plusieurs balises ; Outils IO matures : lecture de fichiers texte (CSV et autres fichiers supportant des séparateurs), fichiers Excel, bases de données et autres sources de données, utilisant l'HDF extrêmement rapide5 Enregistrement de format / Chargement des données ; Séries temporelles : prise en charge de la génération de plages de dates, de la conversion de fréquence, des statistiques de fenêtre mobile, de la régression linéaire de fenêtre mobile, du déplacement de dates et d'autres fonctionnalités de séries temporelles.
Ces fonctionnalités sont principalement conçues pour résoudre les problèmes des autres langages de programmation et des environnements de recherche. Le traitement des données est généralement divisé en plusieurs étapes : préparation et nettoyage des données, analyse et modélisation des données, visualisation et tabulation des données, Pandas est un outil idéal pour le traitement des données.
Pandas est très rapide. De nombreux algorithmes sous-jacents de Pandas sont optimisés avec Cython. Cependant, pour maintenir la généralité, il est inévitable de sacrifier certains performances, et il est tout à fait possible de développer des outils spécifiques plus rapides que Pandas si l'on se concentre sur une fonction particulière. Pandas est un dépendance de statsmodels, et donc une composante importante de l'écosystème de calcul statistique en Python. Pandas est largement utilisé dans le domaine financier.
$ pip install pandas $ python -i >>> pandaspd >>> df = pd.() >>> print(df) Empty DataFrame Columns: [] Index: []