Está en la página 1de 15

Notebook, txt, html

REDONDEAR
round(resultado,2)

Instalación de paquetes
install.packages('dplyr')
install.packages('tidyverse')
install.packages('readr')

Instalamos librerías:
library(readr)
library(plyr)
library(dplyr)
library(tidyverse)

Leer base de datos:


DF<-read_csv("Nombre del archivo")

Dimensiones de DF
1º Caso: Dimensiones (número de filas y columnas)
dim(DF)

2º Caso: Número de observaciones o filas


nrow(DF)

3º Caso: Número de variables o columnas


ncol(DF)

Casos completos
1º Caso: cantidad de casos u observaciones completos(Sin NA)
sum(complete.cases(DF) )

2º Caso : cantidad de casos u observaciones incompletos


Q: a cuantas “bodegas” (observaciones) afecta los NA 's?
sum(!complete.cases(DF) )

Cantidad de NA’s o Datos faltantes


1º Caso: cantidad na’s de toda la DF
sum(is.na(DF))

2º Caso: cantidad na’s de una variable o columna


sum(is.na(DF$Nombre de columna))

Observación con más datos faltantes


Forma 1:
indice<-which.max(rowSums(is.na(DF))) #índice de la fila
DF$columna[indice] # indica la observación de la columna

Tamaño efectivo
1º Caso: De toda la muestra
sum(complete.cases(DF) )

2º Caso: De la variable o columna


sum(complete.cases(DF$Nombre de columna) )

Suma de fila u observación (de columnas)


rowSums(DF[,5:8]) # Se selecciona la columna 5 hasta la 8
# Luego , se suma las filas de esas columnas seleccionadas

Variable con mayor cantidad de datos faltantes


indice<-which.max(colSums(is.na(DF))) #índice de la columna con más NA's
indice
Variable con menor cantidad de datos faltantes
indice<-which.min(colSums(is.na(DF))) #índice de la columna con más NA's
indice

Variable o columna con menor valor


indice_menor<-which.min(DF$columna_dato) #devuelve el índice menor de la columna

menor_valor <- DF$columna_requerida[indice_menor] #devuelve el valor menor de la


columna requerida a la que le pertenece ese menor valor

DF[which.min(DF$columna_dato),c(x)] # x: es la posición de columna requerida, dato


que me piden
# también se puedeañadir seleccionar más de una variable c(1,5)

Variable o columna con mayor valor


indice_mayor<-which.max(DF$columna_dato) #devuelve el índice mayor de la columna
mayor_valor <- DF$columna_requerida[indice_mayor] #devuelve el valor menor de la
columna requerida a la que le pertenece ese menor valor

DF[which.max(DF$columna_dato),c(x)] # x: es la posición de columna requerida

Cantidad de categorías de una variable (no


repetidos)
length(unique(DF$variable)) #unique:valores únicos (no repetitivos)
# length: cuantos/cantidad de valores únicos o longitud

Niveles del factor A


levels(factor(DF$A)) # para obtener los niveles del factor
# A: variable o columna
Frecuencia de la categoría de un variable A
(cantidad de veces que se repite un dato en una
columna/variable)
table(DF$Columna)
# para utilizar table la base de datos o al menos la variable de uso debe estar libre de NA’s

summary
1º Caso: Resumen de toda la base de datos
summary(DF)

2º Caso: Resumen de una variable (numérica → min q1 mean median q3 max)


summary(DF$variable)

Nombre más largo de una variable/ columna


Nombre_mas_largo<-max(str_length(DF$Columna)) #str_length: longitud
Descriptores de dispersión
Mediana (median)
median(DF$columna)

Moda
participaciones<- table (anchov$Barco)
moda <-participaciones[which.max(participaciones)]
moda

Media o promedio (mean)


mean(DF$columna)

Desviación estándar (sd)


sd(DF$columna, na.rm = TRUE) #na.rm = TRUE elimina los NA’s

Coeficiente de variación(cv)
cv<-round(sd(DF$columna, na.rm = TRUE)/mean(DF$columna, na.rm = TRUE),2)

Rango (range)
range(DF$columna, na.rm = TRUE)
rango<- max - min #otra forma: revisando summary (max y min)

Rango Intercuartil
IQR(DF$columna) # si no funciona : na.rm = TRUE
RI<- q3 - q1 #otra forma: revisando summary (q1 y q3)

Varianza
round(var(DF$columna, na.rm = TRUE),2)
var<-sd(DF$columna, na.rm = TRUE)^2
Filter
edad_mayor20<-filter(DF,DF$Edad>20) #condición: DF$Edad>20
DF %>% filter(Edad > 20)

D_UK<- filter(DC, Pais=="United Kingdom") #crea una tabla con todas las columnas de DC
y además todos los países deben ser igual a United Kingdom

Select
1º Caso: seleccionar una o más variables
select(DF,variable2, variable3)

2º Caso: seleccionar todos menos una variable en específico


select(DF, -variable1) #select

Otros:
● cbin: agregar o concatenar una nueva columna o variable “venta_mensual” (lo
agrega al final).

DF<-cbind(DFT,venta_mensual) #(DFT: base original DF: nueva base)

● aggregate: divide los datos en subconjuntos, calcula estadísticas de resumen para


cada subconjunto y devuelve el resultado en un grupo por formulario

DFD<- aggregate(DF[,c("venta_mensual")], by=list(Distrito=DFT$Distrito), FUN=sum)

Renombra la columna o variable : el 2 la posición en la se encuentra


names (DF)[2] = "Total Ventas"

Gráficos
boxplot
boxplot(DF$Estatura,na.rm = TRUE, horizontal = TRUE, main="Titulo",xlab="eje x" ,
ylab="eje y")
Plot
plot(x = banco$education, main = "Gráfica de Educación",
xlab = "Nivel educativo", ylab = "Frecuencia",
col = c("royalblue", "seagreen", "purple", "grey"))

hist()
x<- DFU$ContDia[DD1]
hist(x, prob=TRUE, breaks=seq(0,10000, by=1000))
abline(v=c(mean(x),median(x),col=c(“red”,”blue”)

—-----------------------------------------------------------------------------------
hist(distancia, freq = FALSE, main = "Curva densidad", ylab =
"Densidad")
lines(density(distancia), lwd = 2, col = 'red')
—----------------------------------------------------------------
-hist(distancia, prob = TRUE, main = "Histograma con curva
normal", ylab = "Densidad")

x <- seq(min(distancia), max(distancia), length = 40)

f <- dnorm(x, mean = mean(distancia), sd = sd(distancia))

lines(x, f, col = "red", lwd = 2)

Preguntas teóricas
● Sesgada a la derecha: si la media es mayor que la mediana
● Sesgada a la izquierda: si la media es menor que la mediana
● Los datos están concentrados: si la diferencia entre rango (max-min) y rango
intercuartil IQR(DF$variable) o Q3-Q1 es grande
NOTAS
DFU$TMA<- DFU$Muertos /DFU$Contagiados*100
plot(DFU$Fecha, DFU$TMA)
—---------------------------------------------------

3)v 4)v

También podría gustarte