Está en la página 1de 8

Medidas Estadísticas

Zulmary Carrillo

2023-08-21

1. Introducció n
Descargamos las librerias que vamos a utilizar
library(dplyr)

##
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':


##
## filter, lag

## The following objects are masked from 'package:base':


##
## intersect, setdiff, setequal, union

library(modeest) # Para hallar la moda


library(moments) # Para hallar las medidas de forma

##
## Attaching package: 'moments'

## The following object is masked from 'package:modeest':


##
## skewness

2. Data Frame
3. Medidas de Tendencia Central
Hallar la media, media y moda de las calificaciones del tercer paracial. Interprete sus
respuestas.
r P3 <- as.numeric(datosCompleto$P3) x<-P3
a. La media se calcula de la siguiente manera:
r mean(x) #A) Media aritmética
## [1] 3.25125 Interpretació n: La media no se interpreta.
b. La mediana se puede obtener de dos maneras:
r median(x) #B) Mediana
## [1] 3.3
r quantile(x, probs=0.5) #C) Mediana o Segundo cuartil
2. Data Frame
## 50% ## 3.3 El valor de la mediana fue de 3.3.
Interpretació n: El 50% de los estudiantes obtuvo una nota en el tercer parcial menor o
igual que 3.3.
c. La moda
r mfv(x) #D) Moda con la librería "modeest"
## [1] 5 El valor de la moda fue de 5.0
Interpretació n: La nota má s frecuente fue de 5.0.
4. Medidas de dispersió n o de variabilidad
Calcule la varianza, la desviació n está ndar y el coeficiente de variació n. Interprete sus
respuestas.
a. Varianza
var(x) #A) Varianza muestral

## [1] 0.9786952

El valor de la varianza fue de 0.9786952.


Interpretació n: La varianza no se interpreta.
b. La desviació n está ndar (o desviació n típica) se puede hallar de dos maneras:
sqrt(var(x)) #B) Desviación estándar muestral

## [1] 0.9892902

sd(x) #C) Desviación estándar muestral

## [1] 0.9892902

El valor de la desviació n está ndar fue de 0.9892902.


Interpretació n: La desviació n está ndar no se interpreta.
c. El coeficiente de variació n se halla definiendo y aplicando una funció n:
CV<-function(x){ #D) Funcion que permite calcular el coeficiente de
variación
y<-100*sd(x)/mean(x)
return(y)
}

CV(x) #E) Coeficiente de variación

## [1] 30.428

El valor del coeficiente de variació n fue de 30.428.


Interpretació n: El porcentaje no es muy alto. Por lo tanto, las calificaciones del tercer
parcial tienen una dispersió n relativamente buena.

5. Medidas de Posició n Relativa


Calcule los percentiles 5 (P5), 20 (P20), 40 (P40), 70 (P70), los tres cuartiles (Q1, Q2,Q3),
los percentiles extremos (P0, P100) y el y el rango intercuartil de las notas del tercer
parcial. Interprete algunos de los resultados obtenidos.
a. Los percentiles (y/o cuartiles) se pueden calcular de varias maneras, como se
muestra a continuació n:
quantile(x, probs=0.05) #A) Percentil 5

## 5%
## 1.5

quantile(x, probs=0.20) #B) Percentil 20

## 20%
## 2.4

quantile(x, probs=c(0.4,0.7)) #C) Percentiles 40 y 70

## 40% 70%
## 3.0 3.8

quantile(x) #D) Da los tres cuartiles y los


percentiles extremos

## 0% 25% 50% 75% 100%


## 1.000 2.575 3.300 4.000 5.000

quantile(x, probs=0.25) #E) Primer cuartil

## 25%
## 2.575

quantile(x, probs=0.50) #F) Segundo cuartil o mediana

## 50%
## 3.3

quantile(x, probs=0.75) #G) Tercer cuartil

## 75%
## 4

median(x [which (x <= median (x))]) #H) Primer cuartil. Compare con (E)

## [1] 2.7

median (x [which (x > median (x))]) #I) Tercer cuartil. Compare con (G)
## [1] 4

Observamos que P5=1.5, P20=2.4, P40=3.0, P70=3.8, Q1=2.575, Q2=3.3 (coincide con la
mediana), Q3=4.0, P0=1.0 (coincide con el dato menor), P100=5.0 (coincide con el dato
mayor).
b. Para el aná lisis exploratorio, se pueden utilizar las siguientes funciones, entre las
cuales, se encuentran los valores mínimos, má ximos y el rango intercuartil:
IQR(x) #J). Rango intercuartílico

## [1] 1.425

fivenum(x) #K) min, tres cuartiles, max

## [1] 1.00 2.55 3.30 4.00 5.00

Interpretació n: A manera de ejemplo, solo dos medidas, el percentil 20 y el tercer cuartil


(véase imagen de abajo):
El 20% de los estudiantes obtuvo una nota en el tercer parcial menor o igual que 2.4 y el
80%, una nota mayor que 2.4.
El 75% de los estudiantes obtuvo una nota en el tercer parcial menor o igual que 4.0 y el
25%, una nota mayor que 4.0.

6. Medidas de Forma
Calcule el sesgo y la curtosis de las notas del tercer parcial. Interprete los resultados
obtenidos.
a. El sesgo y la curtosis se hallan de la librería “moments”.
skewness(x) #A) Sesgo

## [1] -0.1090939

kurtosis(x) #B) Curtosis

## [1] 2.38379

Los valores del sego y la curtosis son -0.1090939 y 2.3837897, respectivamente.


Interpetació n:
Como el sesgo es negativo, podemos concluir que la distribució n de estos datos es segada a
la izquierda.
Como la curtosis es menor que 3, podemos concluir que la distribució n de los datos es
platicú rtica.

7. Medidas de una Etapa


Son todas las medidas calculadas de toda la muestra completa (sin particionar), como se
indica en la imagen de abajo.

8. Medidas en dos Etapas


Son las medidas calculadas en una partició n de la muestra, ubicada en un segundo nivel. Se
pueden calcular de dos maneras:
Caso 1: Medidas en todos los niveles categó ricos.
Caso 2: Medidas dentro de un nivel categó rico.
8.1. Caso 1: Medidas en todos los niveles categó ricos
Supongamos que se quiere calcular una medida (digamos, la media) para cada uno de los
niveles de una variable categó rica (digamos los colegios privados). Entonces aplicamos la
funció n “tapply” para realizar la operació n corespondiente.
La línea de comando bá sica es:
tapply(Numérica, Categó rica, Medida)
Como se observa, esta funció n tiene tres argumentos:
El primero, la variable numérica a la que queremos aplicar la funció n. El segundo, el factor
para cada uno de cuyos niveles vamos a calcular la funció n. El tercero, la funció n que
queremos calcular (en nuestro ejemplo, la media).
*Ejemplo: La media de las calificaciones del tercer parcial para los colegios privados y para
los pú blicos se halla de la siguiente manera:
tapply(x, datosCompleto$Colegio, mean) #A) Media de P3 tanto en públicos
como privados

## Privado Publico
## 3.252577 3.250000

8.2. Caso 2: Medida dentro de un nivel categó rico


Supongamos que se quiere calcular una medida (digamos, la media de P3) para un nivel
específico de una variable categó rica (digamos los colegios privados). Primero, se aplica la
funció n “filter” de la librería “dplyr” para filtrar y luego se obtiene la medida de interés.
a) El promedio de las notas del tercer examen en los colegios privados fue:
datosCompleto%>% filter(Colegio=="Privado")->Privados #A) Grupo de los
colegios privados
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios privados
mean(P3pr) #C) Media de P3 en
los colegios privados

## [1] 3.252577

b) El promedio de las notas del tercer examen en los colegios pú blicos fue:
datosCompleto%>% filter(Colegio=="Publico")->Privados #A) Grupo de los
colegios publicos
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios públicos
mean(P3pr) #C) Media de P3 en
los colegios públicos

## [1] 3.25

Comparamos los resultados con los del ejemplo anterior.

9. Medidas en tres Etapas


9.1. Primera forma
Consideremos solo un grupo de interés (digamos, colegios privados). Supongamos que,
dentro de ese grupo, se quiere calcular una medida (digamos, la media de P3) para cada
uno de los niveles de otra variable categó rica (digamos, el Sexo). Entonces, primero, se
aplica la funció n “filter” de la librería “dplyr” para filtrar y, después, la funció n “tapply” para
realizar la operació n corespondiente.
*Ejemplo a) Supongamos que nuestro grupo de interés son los colegios privados. La media
de las notas del tercer paracial obtenidas por los hombres y las mujeres se obtienen así:
datosCompleto%>% filter(Colegio=="Privado")->Privados #A) Grupo los
colegios privados
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios privados
tapply(P3pr, Privados$Sexo, mean) #C) En Privados:
Media de P3 en masculino y femenino

## Femenino Masculino
## 3.204717 3.310227
b) Supongamos que nuestro grupo de interés son los colegios pú blicos. La media de las
notas del tercer paracial obtenidas por los hombres y las mujeres se obtienen así:
datosCompleto%>% filter(Colegio=="Publico")->Privados #A) Grupo los
colegios privados
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios privados
tapply(P3pr, Privados$Sexo, mean) #C) En Privados:
Media de P3 en masculino y femenino

## Femenino Masculino
## 3.29619 3.20198

c) En la imagen de abajo se resumen los resultados obtenidos en los incisos a y b.

Insertando imagen
9.2. Segunda forma
*Ejemplo Otra forma de hallar la nota promedio de P3 (considerando la situació n anterior)
es como se muestra a continuació n (se le han agregado otras medidas a manera de
ejemplo):
datosCompleto %>% filter(Colegio=="Privado") %>% group_by(Sexo) %>%

summarise(n = length(as.numeric(P3)),
Promedio = mean(as.numeric(P3)),
Desviacion = sd(as.numeric(P3)),
Minimo = min(as.numeric(P3)),
Maximo = max(as.numeric(P3)))
## # A tibble: 2 × 6
## Sexo n Promedio Desviacion Minimo Maximo
## <chr> <int> <dbl> <dbl> <dbl> <dbl>
## 1 Femenino 106 3.20 0.964 1 5
## 2 Masculino 88 3.31 0.907 1 5

También podría gustarte