Está en la página 1de 2

Importación de datos:: HOJA DE TRUCOS

R's tidyverse está construido alrededor datos ordenados guardado


Leer datos tabulares - Estas funciones comparten los argumentos comunes: Tipos de datos
en tibbles que son tramas de datos mejoradas.
adivinar funciones readr
El anverso de esta hoja muestra cómo leer leer_*( file, col_names = TRUE, col_types = NULL, locale = default_locale (), na = c ("", "NA"), quoted_na = TRUE, comment =
los tipos de cada columna y
"", trim_ws = TRUE, skip = 0, n_max = Inf, guess_max = min (1000, n_max), progreso = interactivo ())
archivos de texto en R con convierte tipos cuando sea apropiado (pero NO convertirá
readr. cadenas a factores automáticamente).
Archivos delimitados por comas
El reverso muestra cómo crear tibbles ABC
aBC Un mensaje muestra el tipo de cada columna en el resultado.
read_csv (" file.csv ")
con tibble y diseñar datos ordenados 1 2 3
1,2,3 4 5 NA Tomake file.csv ejecutar:
con tidyr.
4,5, NA write_file (x = "a, b, c \ n1,2,3 \ n4,5, NA", ruta = "archivo.csv")
# # Analizado con la especificación de columna:
# # cols (
OTROS TIPOS DE DATOS ABC Archivos delimitados por punto y coma la edad es un
## edad = col_integer (),
aBC
Pruebe uno de los siguientes paquetes para importar otros tipos de 1 2 3 read_csv2 (" file2.csv ") ## sex = col_character (), entero
archivos 1; 2; 3 4 5 NA escribir_archivo (x = "a; b; c \ n1; 2; 3 \ n4; 5; NA", ruta = "archivo2.csv") ## ganar = col_double ()
4; 5; NA # #)
• refugio Archivos SPSS, Stata y SAS
Archivos con cualquier delimitador el sexo es un
• readxl - archivos de Excel (.xls y .xlsx)
ABC read_delim (" file.txt ", delim =" | ") ganar es un carácter doble (numérico)
• DBI - bases de datos a|b|c
1 2 3 write_file (x = "a | b | c \ n1 | 2 | 3 \ n4 | 5 | NA", ruta = "archivo.txt")
• jsonlite - json 1|2|3 4 5 NA 1. Utilizar problemas() para diagnosticar problemas.
• xml2 - XML 4 | 5 | NA Archivos de ancho fijo x <- read_csv ("archivo.csv"); problemas (x)
• httr - API web read_fwf (" file.fwf ", col_positions = c (1, 3, 5))
• rvest - HTML (Web Scraping) ABC
aBC write_file (x = "abc \ n1 2 3 \ n4 5 NA", ruta = "archivo.fwf")
1 2 3 2. Utilice una función col_ para guiar el análisis.
123 4 5 NA • col_guess () - el valor por defecto
Archivos delimitados por tabulaciones
Guardar datos 4 5 NA
read_tsv (" file.tsv ") También read_table ().
• col_character ()

write_file (x = "a \ tb \ tc \ n1 \ t2 \ t3 \ n4 \ t5 \ tNA", ruta = "archivo.tsv") • col_double (), col_euro_double ()


Salvar X , un objeto R, para camino , una ruta de archivo, como: • col_datetime ( formato = "") también
ARGUMENTOS ÚTILES col_date ( formato = ""), col_time ( formato = "")
Archivo delimitado por comas
Archivo de ejemplo Saltar líneas • col_factor ( niveles, ordenados = FALSO)
write_csv ( x, ruta, na = "NA", agregar = FALSO, col_names aBC 1 2 3

=! agregar) write_file ("a, b, c \ n1,2,3 \ n4,5, NA", "archivo.csv") read_csv (f, saltar = 1) • col_integer ()
1,2,3 4 5 NA
f <- "archivo.csv" • col_logical ()
Archivo con delimitador arbitrario 4,5, NA
write_delim ( x, ruta, delim = "", na = "NA", append = • col_number (), col_numeric ()
FALSE, col_names =! append) AB C Sin encabezado Leer en un subconjunto • col_skip ()
ABC
1 2 3
read_csv (f, col_names = FALSE) 1 2 3 read_csv (f, n_max = 1) x <- read_csv ("archivo.csv", col_types = cols (A =
CSV para Excel
4 5 NA col_double (),
write_excel_csv ( x, ruta, na = "NA", agregar = FALSO,
X y z Proporcionar encabezado B = col_logical (),
col_names =! agregar)
AB C Valores faltantes
C = factor_col ()))
read_csv (f, col_names = c ("x", "y", "z")) ABC
Cadena para archivar
1 2 3 NA 2 3 read_csv (f, na = c ("1", "."))
write_file ( x, ruta, agregar = FALSO)
4 5 NA 4 5 NA 3. De lo contrario, lea como vectores de caracteres y luego analice con una
Vector de cadena a archivo, un elemento por línea Objeto a función parse_.

write_lines ( x, ruta, na = "NA", agregar = FALSO) Leer datos no tabulares • parse_guess ()

archivo RDS • parse_character ()

write_rds ( x, ruta, comprimir = c ("ninguno", "gz", "bz2", • parse_datetime () también parse_date () y


Leer un archivo en una sola cadena Leer un archivo en un vector sin formato
"xz"), ...) parse_time ()
read_file ( archivo, locale = default_locale ()) read_file_raw ( archivo)
• parse_double ()
Archivos delimitados por tabuladores
Leer cada línea en su propia cadena Leer cada línea en un vector sin formato • parse_factor ()
write_tsv ( x, ruta, na = "NA", agregar = FALSO, col_names
read_lines ( file, skip = 0, n_max = -1L, na = character (), locale = read_lines_raw ( archivo, saltar = 0, n_max = -1L, progreso • parse_integer ()
=! agregar)
default_locale (), progress = interactive ()) = interactivo ())
• parse_logical ()
Leer archivos de registro de estilo Apache • parse_number ()
read_log ( archivo, col_names = FALSE, col_types = NULL, skip = 0, n_max = -1, progress = interactive ()) x $ A <- número_parse (x $ A)

RStudio® es una marca comercial de RStudio, Inc. • CC BY SA RStudio • info@rstudio.com • 844-448-1212 • rstudio.com • Obtenga más información en tidyverse.org • readr 1.1.0 • tibble 1.2.12 • tidyr 0.6 .0 • Actualizado: 2019–08
Tibbles - un marco de datos mejorado Tidy Data con tidyr Células partidas
Datos ordenados es una forma de organizar datos tabulares. Proporciona una estructura de datos coherente en todos los paquetes. Una mesa está
los tibble El paquete proporciona una nueva clase S3 Utilice estas funciones para dividir
ordenada si: Datos ordenados:
para almacenar datos tabulares, tibble. Tibbles hereda A * B -> C o combinar celdas en individuales,
la clase de marco de datos, pero mejora tres ABCYABC ABC UNA * segundo C aisladas
comportamientos: valores.

• Subconjunto - [ siempre devuelve un tibble nuevo, [[y $


siempre devuelve un vector. separar( data, col, into, sep = "[^ [: alnum:]]
Cada variable es en Cada observación, o Facilita las variables Conserva los casos durante + ", eliminar = VERDADERO, convertir = FALSO,
• Sin coincidencia parcial - Debes usar completo su propio columna caso, está en su propio fila acceder como vectores operaciones vectorizadas extra = "advertir", llenar = "advertir", ...)
nombres de columna al crear subconjuntos
Separe cada celda en una columna para hacer varias
• Monitor - Cuando imprime un tibble, R proporciona una vista
Reformar datos cambiar el diseño de los valores en una tabla columnas.
concisa del Tabla 3
Utilizar reunir() y propagar() para reorganizar los valores de una tabla en un nuevo diseño.
datos que caben en una # A tibble: 234 × 6 fabricante
modelo de visualización
año del país Velocidad año del país casos popular

pantalla <chr> <chr> <dbl>


1999 1999 19M
1
2
audi
audi
a4
a4
1.8
1.8 reunir( datos, clave, valor, ..., na.rm = FALSE, propagar( datos, clave, valor, relleno = NA, convertir = FALSO, UNA 0,7 mil / 19M UNA 0,7 mil

3 audi a4 2.0 UNA 2000 2K / 20M UNA 2000 2K 20M


4
5
audi
audi
a4
a4
2.0
2.8 convertir = FALSO, factor_key = FALSE) drop = TRUE, sep = NULL) segundo 1999 37K / 172M segundo 1999 37K 172
6 audi a4 2.8
audi a4 3.1
7
segundo 2000 80K / 174M segundo 2000 80K 174

ww
8 audi a4 quattro 1.8
9 audi a4 quattro 1.8 reunir () mueve los nombres de las columnas a un llave spread () mueve los valores únicos de un llave C 1999 212K / 1T C 1999 212K 1T
10 audi a4 quattro 2.0
#. . . con 224 filas más, y 3
# más variables: año <int>, columna, reuniendo los valores de la columna en una columna en los nombres de las columnas, extendiendo el C 2000 213K / 1T C 2000 213K 1T
# cyl <int>, trans <chr>

soltero valor columna. valores de un valor columna en las nuevas columnas.


separado (tabla3, tasa, sep = "/",
pantalla tibble table4a Tabla 2
into = c ("casos", "pop"))
país 1999 2000 año del país casos país tipo de año contar año del país casos popular
156 1999 6
157 1999 6
automático (l4)
automático (l4)
UNA 0,7 mil 2K UNA 1999 0,7 mil UNA 1999 casos 0,7 mil UNA 1999 0,7 mil 19M
158
159
2008
2008
6
8
automático (l4)
auto (s4) segundo 37K 80K segundo 1999 37K UNA 1999 popular 19M UNA 2000 2K 20M filas_separadas data, ..., sep = "[^ [: alnum:].]
160 1999 4 manuales (m5)
161 1999 4 automático (l4) C 212K 213K C 1999 212K UNA 2000 casos 2K segundo 1999 37K 172M
162 2008 4 manuales (m5) + ", convertir = FALSO)
163
164
2008
2008
4 manuales (m5)
4 automático (l4)
UNA 2000 2K UNA 2000 popular 20M segundo 2000 80K 174M
165 2008 4
Separe cada celda en una columna para hacer varias
automático (l4)
166 1999 4 automático (l4) segundo 2000 80K segundo 1999 casos 37K C 1999 212K 1T
[getOption alcanzado ("max.print")
C 2000 213K 172M C 2000 213K 1T
filas.
- - omitido 68 filas] segundo 1999 popular
Una mesa grande
llave valor segundo 2000 casos 80K
para mostrar visualización del marco de datos Tabla 3
segundo 2000 popular 174M
C 1999 casos 212K país año Velocidad país año Velocidad
• Controle la apariencia predeterminada con opciones:
C 1999 popular 1T UNA 1999 0,7 mil / 19M UNA 1999 0,7 mil

opciones ( tibble.print_max = n, C 2000 casos 213K UNA 2000 2K / 20M UNA 1999 19M
tibble.print_min = m, tibble.width = Inf) C 2000 popular 1T segundo 1999 37K / 172M UNA 2000 2K
segundo 2000 80K / 174M UNA 2000 20M
reunir (table4a, `1999`,` 2000`, llave valor
• Ver el conjunto de datos completo con Ver() o vislumbrar() C 1999 212K / 1T segundo 1999 37K
clave = "año", valor = "casos") spread (tabla2, tipo, recuento) C 2000 213K / 1T segundo 1999 172M
• Volver al marco de datos con as.data.frame () segundo 2000 80K
segundo 2000 174M
CONSTRUYE UN TIBBLE EN DOS DÍAS
Manejar valores perdidos C
C
1999
1999
212K
1T
tibble …)
Ambos drop_na ( datos, ...) llenar( data, ..., .direction = c ("abajo", "arriba")) reemplazar_na ( datos, C 2000 213K
Construya por columnas. C 2000 1T
hacer esto Suelta filas que contienen Complete las columnas NA en ... con los valores no reemplazar = lista (), ...)
tibble x = 1: 3, y = c ("a", "b", "c")) tibble NA está en… columnas. NA más recientes. Reemplace NA por columna. filas_separadas (tabla3, tasa, sep = "/")
X X X
tribble …)
x1 x2 x1 x2 x1 x2 x1 x2 x1 x2 x1 x2
Una tibble: 3 × 2
Construye por filas. X y UNA 1 UNA 1 UNA 1 UNA 1 UNA 1 UNA 1 unir( data, col, ..., sep = "_", remove = TRUE)
tribble (~ x, ~ y, <int> <chr> segundoN / A re 3 segundo
N/A segundo 1 segundo
N/A segundo 2

1 1 una C N/A CN/A C 1 CN/A C 2 Contraiga celdas en varias columnas para hacer una
1, "a", 2 2 segundo re 3 re 3 re 3 re 3 re 3
sola columna.
2, "b", 3 3 C mi N/A mi N/A mi 3 mi N/A mi 2
table5
3, "c")
drop_na (x, x2) llenar (x, x2) reemplazar_na (x, lista (x2 = 2)) año del siglo país país año

as_tibble ( X, …) Convierta el marco de datos a tibble. afgano 19 99 afgano 19 99


afgano 00 afgano 20 00
Expandir tablas - cree rápidamente tablas con combinaciones de valores
20

bordear( x, nombre = "nombre", valor = "valor") Brasil 19 99 Brasil 19 9 9

Convertir vector con nombre a tibble Brasil 20 00 Brasil 20 00


completar( datos, ..., llenar = lista ()) expandir( datos, ...) China 19 99 China 19 9 9
is_tibble ( X) Prueba si x es un tibble. China 20 00 China 20 00
Agrega a los datos que faltan combinaciones de los valores de las Cree un nuevo tibble con todas las combinaciones posibles de los valores
variables enumeradas en ... de las variables enumeradas en ... unir (tabla5, siglo, año,
completo (mtcars, cyl, gear, carb) expandir (mtcars, cyl, gear, carb) col = "año", sep = "")
RStudio® es una marca comercial de RStudio, Inc. • CC BY SA RStudio • info@rstudio.com • 844-448-1212 • rstudio.com • Obtenga más información en tidyverse.org • readr 1.1.0 • tibble 1.2.12 • tidyr 0.6 .0 • Actualizado: 2019–08

También podría gustarte