Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Zulmary Carrillo
2023-08-27
1. Introducció n
Debemos instalar y descargar las librerías que vamos a utilizar.
library(dplyr)
##
## Attaching package: 'dplyr'
##
## Attaching package: 'moments'
2 Data frame
Vamos a utilizar un conjunto de datos, que fueron recogidos aplicando una encuesta a una
muestra de estudiantes universitarios. Es un data frame con 400 observaciones y 46
variables. En este documento, se importará la base de datos desde una direcció n web.
library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/
Estudiantes.Rdata?raw=false")
## Downloading data from:
https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?
raw=false
## [1] "Estudiantes"
4. Funció n “summary”
En R, la funció n “summary” muestra un resumen general sobre las variables del data frame
(mínimo, má ximo, media, mediana, primer y tercer cuartil). Ademá s, R reconoce que las
variables categó ricas, por lo que muestra la frecuencia de cada categoría.
summary(datosCompleto)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
## IDARE2.10 Puntaje
## Length:400 Min. : 0.00
## Class :character 1st Qu.:19.00
## Mode :character Median :26.50
## Mean :31.79
## 3rd Qu.:35.00
## Max. :81.00
## [1] 3.25125
## [1] 3.3
## 50%
## 3.3
## [1] 5
En cualquier caso, el valor de la moda fue 5.
Interpretació n: La nota má s frecuente fue de 5.0.
## [1] 0.9786952
## [1] 0.9892902
## [1] 0.9892902
## [1] 30.428
## 5%
## 1.5
## 20%
## 2.4
## 40% 70%
## 3.0 3.8
## 25%
## 2.575
## 50%
## 3.3
## 75%
## 4
median(x [which (x <= median (x))]) #H) Primer cuartil. Compare con (E)
## [1] 2.7
median (x [which (x > median (x))]) #I) Tercer cuartil. Compare con (G)
## [1] 4
Observe que P5=1.5, P20=2.4, P40=3.0, P70=3.8, Q1=2.575, Q2=3.3 (coincide con la
mediana), Q3=4.0, P0=1.0 (coincide con el dato menor), P100=5.0 (coincide con el dato
mayor).
Para el aná lisis exploratorio, se pueden utilizar las siguientes funciones, entre las cuales, se
encuentran los valores mínimos, má ximos y el rango intercuartil:
IQR(x) #J). Rango intercuartílico
## [1] 1.425
## [1] 1.45
Insertando Imagen
9 Medidas de forma
Calcule el sesgo y la curtosis de las notas del tercer parcial. Interprete los resultados
obtenidos.
El sesgo y la curtosis se hallan de la librería “moments”.
skewness(x) #A) Sesgo
## [1] -0.1090939
## [1] 2.38379
Interpetació n:
Como el sesgo es negativo, podemos concluir que la distribució n de estos datos es segada a
la izquierda.
Como la curtosis es menor que 3, podemos concluir que la distribució n de los datos es
platicú rtica.
Insertando Imagen
Insertando Imagen
Caso 2: Medida dentro de un nivel categó rico
Supongamos que se quiere calcular una medida (digamos, la media de P3) para un nivel
específico de una variable categó rica (digamos los colegios privados). Primero, se aplica la
funció n “filter” de la librería “dplyr” para filtrar y luego se obtiene la medida de interés.
Ejemplo:
a) El promedio de las notas del tercer examen en los colegios privados fue:
datosCompleto%>% filter(Colegio=="Privado")->Privados #A) Grupo de los
colegios privados
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios privados
mean(P3pr) #C) Media de P3 en
los colegios privados
## [1] 3.252577
b) El promedio de las notas del tercer examen en los colegios pú blicos fue:
datosCompleto%>% filter(Colegio=="Publico")->Privados #A) Grupo de los
colegios publicos
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios públicos
mean(P3pr) #C) Media de P3 en
los colegios públicos
## [1] 3.25
## Femenino Masculino
## 3.204717 3.310227
b) Supongamos que nuestro grupo de interés son los colegios pú blicos. La media de las
notas del tercer paracial obtenidas por los hombres y las mujeres se obtienen así:
datosCompleto%>% filter(Colegio=="Publico")->Privados #A) Grupo los
colegios privados
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios privados
tapply(P3pr, Privados$Sexo, mean) #C) En Privados:
Media de P3 en masculino y femenino
## Femenino Masculino
## 3.29619 3.20198
summarise(n = length(as.numeric(P3)),
Promedio = mean(as.numeric(P3)),
Desviacion = sd(as.numeric(P3)),
Minimo = min(as.numeric(P3)),
Maximo = max(as.numeric(P3)))
## # A tibble: 2 × 6
## Sexo n Promedio Desviacion Minimo Maximo
## <chr> <int> <dbl> <dbl> <dbl> <dbl>
## 1 Femenino 106 3.20 0.964 1 5
## 2 Masculino 88 3.31 0.907 1 5