Redimensionnement des données R

Fusionner des frames de données

Utilisation de merge() en R pour fusionner des frames de données merge() Fonction.

La syntaxe de la fonction merge() est la suivante :

#　S3　Méthode
merge(x,　y,　…)
#　data.frame　de　S3　Méthode　
merge(x,　y,　by　=　intersect(names(x),　names(y))),
　　　　　　by.x　=　by,　by.y　=　by,　all　=　FALSE,　all.x　=　all,　all.y　=　all,
　　　　　　sort　=　TRUE,　suffixes　=　c(".x",".y"),　no.dups　=　TRUE,
　　　　　　incomparables　=　NULL,　…)

Explications des paramètres courants :

x, y：frames de données
by, by.x, by.y：spécifie le nom des colonnes correspondantes dans deux frames de données, par défaut, utilise les noms de colonnes identiques dans les deux frames de données.
all：valeur logique; all = L est une abréviation de all.x = L et all.y = L, L peut être TRUE ou FALSE.
all.x：valeur logique, la valeur par défaut est FALSE. Si TRUE, affiche les lignes correspondantes dans x, même si il n'y a pas de correspondance dans y, les lignes sans correspondance dans y sont représentées par NA.
all.y：valeur logique, la valeur par défaut est FALSE. Si TRUE, affiche les lignes correspondantes dans y, même si il n'y a pas de correspondance dans x, les lignes sans correspondance dans x sont représentées par NA.
sort：valeur logique, indique si les colonnes doivent être triées.

La fonction merge() est très similaire à la fonction JOIN de SQL :

Natural join ou INNER JOIN：如果表中有至少一个匹配，则返回行
Left outer join ou LEFT JOIN：即使右表中没有匹配，也从左表返回所有的行
Right outer join ou RIGHT JOIN：即使左表中没有匹配，也从右表返回所有的行
Full outer join ou FULL JOIN：只要其中一个表中存在匹配，则返回行

Exemple

# data frame　1
df1　=　data.frame(SiteId　=　c(1:6),　Site　=　c("Google","w3codebox","Taobao","Facebook","Zhihu","Weibo"))
# data frame　2
df2　=　data.frame(SiteId　=　c(2,　4,　6,　7,　8),　Country　=　c("CN","USA","CN","USA","IN"))　
# INNER JOIN　
df1　=　merge(x=df1,y=df2,by="SiteId")
print("-----　INNER JOIN　-----)
print(df1)
# FULL JOIN
df2　=　merge(x=df1,y=df2,by="SiteId",all=TRUE)
print("-----　FULL JOIN　-----)
print(df2)
# LEFT JOIN
df3　=　merge(x=df1,y=df2,by="SiteId",all.x=TRUE)
print("-----　LEFT JOIN　-----)
print(df3)
# RIGHT JOIN
df4　=　merge(x=df1,y=df2,by="SiteId",all.y=TRUE)
print("-----　RIGHT JOIN　-----)
print(df4)

Le résultat de l'exécution du code suivant est :

[1] "-----　INNER JOIN　-----"
　　SiteId　Site　Country
1　　　　　　2　　　w3codebox　CN
2　　　　　　4　Facebook　USA
3　　　　　　6　　　　Weibo　CN
[1] "-----　FULL JOIN　-----"
　　SiteId　Site　Country.x　Country.y
1　　　　　　2　　　w3codebox　CN　CN
2　　　　　　4　Facebook　USA　USA
3　　　　　　6　　　　Weibo　CN　CN
4　　　　　　7　　　　　<NA>　<NA>　<NA>　<NA>　USA
5　　　　　　8　　　　　<NA>　<NA>　<NA>　<NA>　IN
[1] "-----　LEFT JOIN　-----"
　　SiteId　Site.x　Country　Site.y　Country.x　Country.y
1　　　　　　2　　　w3codebox　CN　w3codebox　CN　CN
2　　　　　　4　Facebook　USA　Facebook　USA　USA
3　　　　　　6　　　　Weibo　CN　Weibo　CN　CN
[1] "-----　RIGHT JOIN　-----"
　　SiteId　Site.x　Country　Site.y　Country.x　Country.y
1　　　　　　2　　　w3codebox　CN　w3codebox　CN　CN
2　　　　　　4　Facebook　USA　Facebook　USA　USA
3　　　　　　6　　　　Weibo　CN　Weibo　CN　CN
4　　　　　　7　　　　　<NA>　<NA>　<NA>　<NA>　<NA>　USA
5　　　　　　8　　　　　<NA>　<NA>　<NA>　<NA>　<NA>　<NA>　IN

Intégration et séparation des données

Utilisation de R melt() et cast() Les fonctions pour intégrer et séparer les données.

melt() : Transformation des données en format large en format long.
cast() : Transformation des données en format long en format large.

La figure suivante bien illustrée montre les fonctionnalités des fonctions melt() et cast() (des exemples détaillés suivront) :

melt() will stack each column of the dataset into one column, function syntax format:

melt() regroupe chaque colonne du jeu de données dans une seule colonne, syntaxe de la fonction :

Description des paramètres :

melt(data, ..., na.rm = FALSE, value.name = "value")
data : ensemble de données.
... : autres paramètres passés à d'autres méthodes ou venant d'autres méthodes.
na.rm : supprimer les valeurs NA du jeu de données.

value.name : nom de variable pour stocker les valeurs.

# Installer les bibliothèques dépendantes :
install.packages("MASS", repos = "https://mirrors.ustc.edu.cn/CRAN/)　
　　
# melt() et cast() nécessitent la bibliothèque　
install.packages("reshape2, repos = "https://mirrors.ustc.edu.cn/CRAN/)　
install.packages("reshape", repos = "https://mirrors.ustc.edu.cn/CRAN/)

Exemple de test :

Exemple

# Charger les bibliothèques
library(MASS)　
library(reshape2)　
library(reshape)　
　　
# Créer un jeu de données
id<-　c(1,　1,　2,　2)　
temps <-　c(1,　2,　1,　2)　
x1　<-　c(5,　3,　6,　2)　
x2　<-　c(6,　5,　1,　4)　
mydata <-　data.frame(id, temps, x1, x2)　
　　
# Tableau de données original
cat("Tableau de données original:\n")　
print(mydata)　
# Intégration
md <-　melt(mydata, id = c("id","temps"))　
　　
cat("\nAprès intégration:\n")　
print(md)

Le résultat de l'exécution du code suivant est :

Tableau de données original :
id temps x1　x2
1　　1　　　　1　　5　　6
2　　1　　　　2　　3　　5
3　　2　　　　1　　6　　1
4　　2　　　　2　　2　　4
Après intégration :
id time variable value
1　　1　　　　1　　　　　　　x1　　　　　5
2　　1　　　　2　　　　　　　x1　　　　　3
3　　2　　　　1　　　　　　　x1　　　　　6
4　　2　　　　2　　　　　　　x1　　　　　2
5　　1　　　　1　　　　　　　x2　　　　　6
6　　1　　　　2　　　　　　　x2　　　　　5
7　　2　　　　1　　　　　　　x2　　　　　1
8　　2　　　　2　　　　　　　x2　　　　　4

La fonction cast() est utilisée pour restaurer les données fusionnées, dcast() retourne un tableau de données, acast() retourne un vecteur/Matrice/Tableau.

La syntaxe de la fonction cast() :

dcast(
　　data,
　　formula,
　　fun.aggregate = NULL,
　　...,
　　margins = NULL,
　　subset = NULL,
　　fill = NULL,
　　drop = TRUE,
　　value.var = guess_value(data)
)
acast(
　　data,
　　formula,
　　fun.aggregate = NULL,
　　...,
　　margins = NULL,
　　subset = NULL,
　　fill = NULL,
　　drop = TRUE,
　　value.var = guess_value(data)
)

Description des paramètres :

data : tableau de données fusionné.
formula : format des données restructurées, similaire à x ~ y, x étant l'étiquette de ligne, y l'étiquette de colonne.
fun.aggregate : fonction d'agrégation, utilisée pour traiter les valeurs.
margins : vecteur de noms de variables (peut inclure "grand\_col" et "grand\_row"), utilisé pour calculer les marges, réglage TURE pour calculer toutes les marges.
subset : filtrer les résultats selon des conditions, format similaire subset = .(variable=="length")。
drop : conserver les valeurs par défaut.
value.var : suivi du champ à traiter.

Exemple

# Charger les bibliothèques
library(MASS)　
library(reshape2)　
library(reshape)　
　　
# Créer un jeu de données
id<-　c(1,　1,　2,　2)　
temps <-　c(1,　2,　1,　2)　
x1　<-　c(5,　3,　6,　2)　
x2　<-　c(6,　5,　1,　4)　
mydata <-　data.frame(id, temps, x1, x2)　
# Intégration
md <-　melt(mydata, id = c("id","temps"))　
# Imprimer le jeu de données recasté en utilisant la fonction cast()　
cast.data <-　cast(md, id~variable, moyenne)　
　　
print(cast.data)　
　　
cat("\n")　
temps.cast <-　cast(md, temps~variable, moyenne)　
print(temps.cast)　
cat("\n")　
id.temps <-　cast(md, id~temps, moyenne)　
print(id.time)　
cat("\n")　
id.time.cast <-　cast(md, id+time~variable)　
print(id.time.cast)　
cat("\n")　
id.variable.time <-　cast(md, id+variable~time)　
print(id.variable.time)　
cat("\n")　
id.variable.time2　<-　cast(md, id~variable+time)　
print(id.variable.time2)

Le résultat de l'exécution du code suivant est :

id x1　　x2
1　　1　　4　5.5
2　　2　　4　2.5
　　temps x1　　x2
1　　　　1　5.5　3.5
2　　　　2　2.5　4.5
　　id　　　1　2
1　　1　5.5　4
2　　2　3.5　3
　　id temps x1　x2
1　　1　　　　1　　5　　6
2　　1　　　　2　　3　　5
3　　2　　　　1　　6　　1
4　　2　　　　2　　2　　4
　　id variable　1　2
1　　1　　　　　　　x1　5　3
2　　1　　　　　　　x2　6　5
3　　2　　　　　　　x1　6　2
4　　2　　　　　　　x2　1　4
　　id x1_1　x1_2　x2_1　x2_2
1　　1　　　　5　　　　3　　　　6　　　　5
2　　2　　　　6　　　　2　　　　1　　　　4

Paquets R Data frames R

Tutoriel R

Redimensionnement des données R

Fusionner des frames de données

Intégration et séparation des données