R Studio

Notebook, txt, html
REDONDEAR
round(resultado,2)
Instalación de paquetes
install.packages('dplyr')
install.packages('tidyverse')
install.packages('readr')
Instalamos librerías:
library(readr)
library(plyr)
library(dplyr)
library(tidyverse)
Leer base de datos:

DF<-read_csv("Nombre del archivo")
Dimensiones de DF
1º Caso: Dimensiones (número de filas y columnas)
dim(DF)
2º Caso: Número de observaciones o filas

nrow(DF)
3º Caso: Número de variables o columnas

ncol(DF)
Casos completos
1º Caso: cantidad de casos u observaciones completos(Sin NA)
sum(complete.cases(DF) )
2º Caso : cantidad de casos u observaciones incompletos

Q: a cuantas “bodegas” (observaciones) afecta los NA 's?
sum(!complete.cases(DF) )
Cantidad de NA’s o Datos faltantes

1º Caso: cantidad na’s de toda la DF
sum(is.na(DF))
2º Caso: cantidad na’s de una variable o columna

sum(is.na(DF$Nombre de columna))
Observación con más datos faltantes

Forma 1:
indice<-which.max(rowSums(is.na(DF))) #índice de la fila
DF$columna[indice] # indica la observación de la columna
Tamaño efectivo
1º Caso: De toda la muestra
sum(complete.cases(DF) )
2º Caso: De la variable o columna

sum(complete.cases(DF$Nombre de columna) )
Suma de fila u observación (de columnas)

rowSums(DF[,5:8]) # Se selecciona la columna 5 hasta la 8
# Luego , se suma las filas de esas columnas seleccionadas
Variable con mayor cantidad de datos faltantes

indice<-which.max(colSums(is.na(DF))) #índice de la columna con más NA's
indice
Variable con menor cantidad de datos faltantes
indice<-which.min(colSums(is.na(DF))) #índice de la columna con más NA's
indice
Variable o columna con menor valor

indice_menor<-which.min(DF$columna_dato) #devuelve el índice menor de la columna
menor_valor <- DF$columna_requerida[indice_menor] #devuelve el valor menor de la

columna requerida a la que le pertenece ese menor valor
DF[which.min(DF$columna_dato),c(x)] # x: es la posición de columna requerida, dato

que me piden
# también se puedeañadir seleccionar más de una variable c(1,5)
Variable o columna con mayor valor

indice_mayor<-which.max(DF$columna_dato) #devuelve el índice mayor de la columna
mayor_valor <- DF$columna_requerida[indice_mayor] #devuelve el valor menor de la
columna requerida a la que le pertenece ese menor valor
DF[which.max(DF$columna_dato),c(x)] # x: es la posición de columna requerida
Cantidad de categorías de una variable (no

repetidos)
length(unique(DF$variable)) #unique:valores únicos (no repetitivos)
# length: cuantos/cantidad de valores únicos o longitud
Niveles del factor A

levels(factor(DF$A)) # para obtener los niveles del factor
# A: variable o columna
Frecuencia de la categoría de un variable A
(cantidad de veces que se repite un dato en una
columna/variable)
table(DF$Columna)
# para utilizar table la base de datos o al menos la variable de uso debe estar libre de NA’s
summary
1º Caso: Resumen de toda la base de datos
summary(DF)
2º Caso: Resumen de una variable (numérica → min q1 mean median q3 max)

summary(DF$variable)
Nombre más largo de una variable/ columna

Nombre_mas_largo<-max(str_length(DF$Columna)) #str_length: longitud
Descriptores de dispersión
Mediana (median)
median(DF$columna)
Moda
participaciones<- table (anchov$Barco)
moda <-participaciones[which.max(participaciones)]
moda
Media o promedio (mean)

mean(DF$columna)
Desviación estándar (sd)

sd(DF$columna, na.rm = TRUE) #na.rm = TRUE elimina los NA’s
Coeficiente de variación(cv)
cv<-round(sd(DF$columna, na.rm = TRUE)/mean(DF$columna, na.rm = TRUE),2)
Rango (range)
range(DF$columna, na.rm = TRUE)
rango<- max - min #otra forma: revisando summary (max y min)
Rango Intercuartil
IQR(DF$columna) # si no funciona : na.rm = TRUE
RI<- q3 - q1 #otra forma: revisando summary (q1 y q3)
Varianza
round(var(DF$columna, na.rm = TRUE),2)
var<-sd(DF$columna, na.rm = TRUE)^2
Filter
edad_mayor20<-filter(DF,DF$Edad>20) #condición: DF$Edad>20
DF %>% filter(Edad > 20)
D_UK<- filter(DC, Pais=="United Kingdom") #crea una tabla con todas las columnas de DC
y además todos los países deben ser igual a United Kingdom
Select
1º Caso: seleccionar una o más variables
select(DF,variable2, variable3)
2º Caso: seleccionar todos menos una variable en específico

select(DF, -variable1) #select
Otros:
● cbin: agregar o concatenar una nueva columna o variable “venta_mensual” (lo
agrega al final).
DF<-cbind(DFT,venta_mensual) #(DFT: base original DF: nueva base)
● aggregate: divide los datos en subconjuntos, calcula estadísticas de resumen para

cada subconjunto y devuelve el resultado en un grupo por formulario
DFD<- aggregate(DF[,c("venta_mensual")], by=list(Distrito=DFT$Distrito), FUN=sum)
Renombra la columna o variable : el 2 la posición en la se encuentra

names (DF)[2] = "Total Ventas"
Gráficos
boxplot
boxplot(DF$Estatura,na.rm = TRUE, horizontal = TRUE, main="Titulo",xlab="eje x" ,
ylab="eje y")
Plot
plot(x = banco$education, main = "Gráfica de Educación",
xlab = "Nivel educativo", ylab = "Frecuencia",
col = c("royalblue", "seagreen", "purple", "grey"))
hist()
x<- DFU$ContDia[DD1]
hist(x, prob=TRUE, breaks=seq(0,10000, by=1000))
abline(v=c(mean(x),median(x),col=c(“red”,”blue”)
—-----------------------------------------------------------------------------------
hist(distancia, freq = FALSE, main = "Curva densidad", ylab =
"Densidad")
lines(density(distancia), lwd = 2, col = 'red')
—----------------------------------------------------------------
-hist(distancia, prob = TRUE, main = "Histograma con curva
normal", ylab = "Densidad")
x <- seq(min(distancia), max(distancia), length = 40)
f <- dnorm(x, mean = mean(distancia), sd = sd(distancia))
lines(x, f, col = "red", lwd = 2)
Preguntas teóricas
● Sesgada a la derecha: si la media es mayor que la mediana
● Sesgada a la izquierda: si la media es menor que la mediana
● Los datos están concentrados: si la diferencia entre rango (max-min) y rango
intercuartil IQR(DF$variable) o Q3-Q1 es grande
NOTAS
DFU$TMA<- DFU$Muertos /DFU$Contagiados*100
plot(DFU$Fecha, DFU$TMA)
—---------------------------------------------------
3)v 4)v

R Studio

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

R Studio

Cargado por

Copyright:

Formatos disponibles

Notebook, txt, html

Leer base de datos:

2º Caso: Número de observaciones o filas

3º Caso: Número de variables o columnas

2º Caso : cantidad de casos u observaciones incompletos

Cantidad de NA’s o Datos faltantes

2º Caso: cantidad na’s de una variable o columna

Observación con más datos faltantes

2º Caso: De la variable o columna

Suma de fila u observación (de columnas)

Variable con mayor cantidad de datos faltantes

Variable o columna con menor valor

menor_valor <- DF$columna_requerida[indice_menor] #devuelve el valor menor de la

DF[which.min(DF$columna_dato),c(x)] # x: es la posición de columna requerida, dato

Variable o columna con mayor valor

DF[which.max(DF$columna_dato),c(x)] # x: es la posición de columna requerida

Cantidad de categorías de una variable (no

Niveles del factor A

2º Caso: Resumen de una variable (numérica → min q1 mean median q3 max)

Nombre más largo de una variable/ columna

Media o promedio (mean)

Desviación estándar (sd)

2º Caso: seleccionar todos menos una variable en específico

DF<-cbind(DFT,venta_mensual) #(DFT: base original DF: nueva base)

● aggregate: divide los datos en subconjuntos, calcula estadísticas de resumen para

DFD<- aggregate(DF[,c("venta_mensual")], by=list(Distrito=DFT$Distrito), FUN=sum)

Renombra la columna o variable : el 2 la posición en la se encuentra

x <- seq(min(distancia), max(distancia), length = 40)

f <- dnorm(x, mean = mean(distancia), sd = sd(distancia))

lines(x, f, col = "red", lwd = 2)

También podría gustarte