Está en la página 1de 5

TALLER DE ESTADISTICA DESCRIPTIVA EN R

#Instalar y cargar los paquetes necesarios

#Recuerden que este proceso debe hacerse cada vez

install.packages("tidyverse")

library("tidyverse")

library("readxl")

#Cargamos el dataset

ICFES = read_excel("BASEICFES.xlsx")

#Vamos a echarle un vistazo a los datos

glimpse(ICFES)

#Crear nuevo data frame con los datos de los primeros 1000 puntajes

Becas = ICFES %>% top_n(1000,PUNT_GLOBAL)

#Vamos a manipular un poco los datos

#Arreglar de forma ascendente (default) o descendente

ascendente = Becas %>%

arrange((PUNT_GLOBAL))
#Seleccionar un grupo de variables para trabajar

Becas_2 = Becas %>%

select(ESTU_EDAD, ESTU_GENERO,COLE_AREA_UBICACION,FAMI_ESTRATO_VIVIENDA,

PUNT_GLOBAL)

bec = Becas %>%

select(-c(COLE_COD_MCPIO_UBICACION, ESTU_RESIDE_MCPIO))

#Modificar los nombres de las variables

names(Data.frame.origen) = c("Periodo","Año","Permanencia","Resultado_prueba")

#Identificar tipos de variables

summary(Becas_2)

#Filtrar usando los criterios que se quieran

Becas_2 %>%

filter(ESTU_EDAD >= 18)

a = Becas_2 %>%

filter(ESTU_EDAD > 16, COLE_AREA_UBICACION == "R",ESTU_GENERO == "F")

b = Becas_2 %>%

filter(ESTU_EDAD > 16, COLE_AREA_UBICACION == "R",ESTU_GENERO == "M")

#Resumen de estadÃ-sticas de estudiantes becados mayores de 16

#De colegio rural de sexo Femenino Y Masculino


a %>%

summarise(

Promedio_F = mean(PUNT_GLOBAL),

Mediana_F = median(PUNT_GLOBAL),

Desviación_F = sd(PUNT_GLOBAL),

CV_F= Desviación_F*100/Promedio_F

b %>%

summarise(

Promedio_M = mean(PUNT_GLOBAL),

Mediana_M = median(PUNT_GLOBAL),

Desviación_M = sd(PUNT_GLOBAL),

CV_M= Desviación_M*100/Promedio_M

#Analicemos con ayuda de tablas variables cualitativas

#Veamos la proporción de estudiantes de área rural y urbana

#Creamos una tabla con variable ubicación, cuentas y porcentaje

Tabla1= Becas_2 %>%

group_by(COLE_AREA_UBICACION) %>%

summarize(Cuentas = n(),

Porcentaje = n()*100/nrow(Becas_2))

Tabla1

Tabla2= Becas_2 %>%

group_by(FAMI_ESTRATO_VIVIENDA) %>%

summarize(Cuentas = n(),
Porcentaje = n()*100/nrow(Becas_2))

Tabla2

Tabla3= Becas_2 %>%

group_by(ESTU_GENERO) %>%

summarize(Cuentas = n(),

Porcentaje = n()*100/nrow(Becas_2))

Tabla3

#Analicemos una variable cualitativa de manera gráfica

#Diagrama de barras

ggplot(Tabla1, aes(x=COLE_AREA_UBICACION,y=Porcentaje))+

geom_bar(width=0.5,color="black",stat = "identity",fill="green",alpha=I(1))+

labs(x="Ubicación colegio")+

geom_text(aes(label = paste0(round(Porcentaje), "%")),

position = position_stack(vjust = 0.5))

#Analicemos la variable puntaje,variable cuantitativa

#La forma que ya conocen

hist(Becas_2$PUNT_GLOBAL)

#Usando ggplot, hay dos formas

qplot(Becas_2$PUNT_GLOBAL,

geom="histogram",

main = "Histograma para resultado de la prueba",


xlab = "Puntaje",

fill=I("blue"),

col=I("black"),

alpha=I(0.5),

xlim=c(420,500))

ggplot(data=Becas_2, aes(ESTU_EDAD)) +

geom_histogram(color="black",fill="pink",alpha=I(0.3))+

labs(title="Histograma Edades",x="Edad",y="Frecuencia")+

xlim(c(14,20))

#Añadir un boxplot que compare distribución de H y M, Urbano y Rural

as = ggplot(Becas,aes(as.factor(COLE_AREA_UBICACION),PUNT_GLOBAL))+

geom_boxplot(fill="blue", color="black",alpha=I(0.5))

as = as + labs(x="Ubicación del colegio",y="Puntaje")

as = as + stat_summary(fun = mean, geom="point", shape=25, size=4)

as

ggplot(ICFES,aes(as.factor(FAMI_ESTRATO_VIVIENDA),PUNT_GLOBAL))+geom_boxplot()

ggplot(Becas_2,aes(as.factor(ESTU_EDAD),PUNT_GLOBAL))+geom_boxplot()

#Revisar conceptos previos en los descargables y contenido

También podría gustarte