Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Syntaxis - Convenciones tiles para la doma Remodelar Datos - Cambia el esquema de los datos
dplyr::tbl_df(iris) dplyr::data_frame(a = 1:3, b = 4:6)
Convierte datos a una tbl. Objetos tbl son mas fciles de
inspeccionar que data frames. Ro solo muestra los datos w
ww
w w
w
ww
w
w
Combina vectores en un data
frame (optimizado).
que caben en la pantalla: w
Aw
1005 1005
A
1013
A dplyr::arrange(mtcars, mpg)
1013
A
1010
A 1010
A
1010
A Ordena filas por valores de una
Source: local data frame [150 x 5]
dplyr::glimpse(iris)
Resumen con mucha informacin sobre los datos tbl.
Subconjuntos de Observaciones Subconjuntos de Variables
utils::View(iris)
Observa el conjunto de datos en lo que parece una hoja
de clculo (nota la V capital). w
110w
110w
110ww wwww
110
110 wp110
110
1007
1007pw
dplyr::filter(iris, Sepal.Length > 7)
Extrae filas que cumplen criterios lgicos.
1009
45
100945
dplyr::select(iris, Sepal.Width, Petal.Length, Species)
Selecciona columnas por nombre o funciones de ayuda.
dplyr::distinct(iris)
Remueve filas duplicadas. Funciones de ayuda para for select - ?select
dplyr::sample_frac(iris, 0.5, replace = TRUE) select(iris, contains("."))
Selecciona una fraccin de filas al azar. Selecciona columnas cuyos nombres contienen una cadena de caracteres.
select(iris, ends_with("Length"))
dplyr::sample_n(iris, 10, replace = TRUE)
Selecciona columnas cuyos nombres terminan con una cadena de caracteres.
Selecciona n filas al azar. select(iris, everything())
dplyr::%>% dplyr::slice(iris, 10:15) Selecciona todas las columnas.
Pasa el objeto a la izquierda al primer argumento (o Selecciona filas por posicin. select(iris, matches(".t."))
argumento . ) de la funcin a la derecha creando un tubo. dplyr::top_n(storms, 2, date)
Selecciona columnas cuyo nombre cumple con una expresin regular.
select(iris, num_range("x", 1:5))
+ =
A 1 A T
B 2 B F
C 3 D T
dplyr::summarise(iris, avg = mean(Sepal.Length)) dplyr::mutate(iris, sepal = Sepal.Length + Sepal. Width)
Uniones mutantes
Resume datos a una sola fila de valores. Calcula y aade una o mas columnas nuevas.
dplyr::left_join(a, b, by = "x1")
x1 x2 x3
dplyr::summarise_each(iris, funs(mean)) dplyr::mutate_each(iris, funs(min_rank)) A 1 T
Applica la funcin summary a cada columna. Aplica una funcin de ventana a cada columna.
B
C
2
3
F
NA Une filas coincidentes de b a a.
dplyr::count(iris, Species, wt = Sepal.Length) dplyr::transmute(iris, sepal = Sepal.Length + Sepal. Width) x1 x3 x2
dplyr::right_join(a, b, by = "x1")
A T 1
Cuenta el numero de valores nicos para cada variable Calcula una o mas columnas nuevas, borra columnas B F 2 Une filas coincidentes de a a b.
D T NA
(con o sin ponderacin). originales.
x1 x2 x3 dplyr::inner_join(a, b, by = "x1")
A 1 T
funcin de Funcin de B 2 F Une datos. Reten solo filas en ambos.
resumen ventana x1
A
x2
1
x3
T
dplyr::full_join(a, b, by = "x1")
Summarise usa funciones de resumen, funciones que Mutate usa funciones de ventana, funciones que toman un B
C
2
3
F
NA
Une datos. Reten todos los valores, todas
toman un vector de valores y devuelven un solo valor como: vector de valores y devuelven otro vector de valores como: D NA T las files.
dplyr::lead Uniones con filtros
dplyr::first min dplyr::cumall
Copia con valores adelantados por dplyr::semi_join(a, b, by = "x1")
Primer valor de un vector. Valor minimo en un vector. 1. all cumulativo
x1
A
x2
1
dplyr::last max B 2 Todas las filas con coincidencia en b.
dplyr::lag dplyr::cumany
Ultimo valor de un vector. Valor mximo en un vector. Copia con valores atrasados por 1. any cumulativo x1 x2 dplyr::anti_join(a, b, by = "x1")
C 3
dplyr::nth mean dplyr::dense_rank dplyr::cummean Todas las filas sin coincidencia en b.
N-avo valor de un vector. Valor promedio de un vector. Rangos sin brechas. mean cumulativo y z
dplyr::n median dplyr::min_rank cumsum x1 x2 x1 x2
# de valores en u vector. Valore mediano en un vector. Rangos. Empates reciben rango min. sum cumulativo
+ =
A 1 B 2
C 3
dplyr::n_distinct var dplyr::percent_rank cummax
B 2
C 3 D 4
# valores distintos en un Varianza de un vector. Rangos con escala del [0, 1]. max cumulativo Operaciones de conjuntos
vector sd
dplyr::row_number cummin
IQR Desviacin estndar de un
x1 x2
dplyr::intersect(y, z)
Rangos. Empates van al primer min cumulativo B 2
IQR de un vector vector.
valor.
C 3
Filas que aparecen en y y z.
cumprod
x1 x2
dplyr::ntile
Group Data Separa vector en n baldes.
prod cumulativo
pmax
A
B
1
2
dplyr::union(y, z)
C 3 Filas que aparecen en una o ambas y y z.
dplyr::group_by(iris, Species) dplyr::between max por elementos
D 4
Agrupo datos en filas por los valores en Species. Los valores estn entre a y b? pmin
x1 x2 dplyr::setdi(y, z)
A 1
dplyr::ungroup(iris) dplyr::cume_dist min por elementos Filas que aparecen en y pero no en z.
Remueve la agrupacin del data frame. Cumulative distribution. Ligar
iris %>% group_by(Species) %>% summarise() iris %>% group_by(Species) %>% mutate()
x1
A
x2
1
Calcula una fila separada con el resumen para cada grupo. Calcula nuevas variables por grupo.
B 2 dplyr::bind_rows(y, z)
C 3
B
C
2
3
Aade z a y como nuevas filas
D 4
ir ir dplyr::bind_cols(y, z)
C x1 x2 x1 x2
A 1 B 2 Aade z a y como nuevas columnas.
B 2 C 3
C 3 D 4 Ojo: distribuye filas por posicin.
RStudio es un marca registrada de RStudio, Inc. CC BY RStudio info@rstudio.com 844-448-1212 rstudio.com devtools::install_github("rstudio/EDAWR") para sets de datos Lee mas con browseVignettes(package = c("dplyr", "tidyr")) dplyr 0.4.0 tidyr 0.2.0 Actualizado: 1/15
Traducido por Frans van Dunn innovateonline.nl