Medidas Estadísticas

Medidas Estadisticas
Zulmary Carrillo
2023-08-27
1. Introducció n
Debemos instalar y descargar las librerías que vamos a utilizar.
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':

##
## filter, lag
## The following objects are masked from 'package:base':

##
## intersect, setdiff, setequal, union
library(modeest) # Para hallar la moda

library(moments) # Para hallar las medidas de forma
##
## Attaching package: 'moments'
## The following object is masked from 'package:modeest':

##
## skewness
2 Data frame
Vamos a utilizar un conjunto de datos, que fueron recogidos aplicando una encuesta a una
muestra de estudiantes universitarios. Es un data frame con 400 observaciones y 46
variables. En este documento, se importará la base de datos desde una direcció n web.
library(repmis)
## Registered S3 method overwritten by 'httr':

## method from
## print.response rmutil
source_data("https://github.com/hllinas/DatosPublicos/blob/main/
Estudiantes.Rdata?raw=false")
## Downloading data from:
https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?
raw=false
## SHA-1 hash of the downloaded data file is:

## 6bf9d5a19779293538bd61d55d0662bdaf8100a1
## [1] "Estudiantes"
datosCompleto <- Estudiantes
4. Funció n “summary”
En R, la funció n “summary” muestra un resumen general sobre las variables del data frame
(mínimo, má ximo, media, mediana, primer y tercer cuartil). Ademá s, R reconoce que las
variables categó ricas, por lo que muestra la frecuencia de cada categoría.
summary(datosCompleto)
## Observacion ID Sexo SexoNum

## Min. : 1.0 Length:400 Length:400 Min. :0.0000
## 1st Qu.:100.8 Class :character Class :character 1st Qu.:0.0000
## Median :200.5 Mode :character Mode :character Median :0.0000
## Mean :200.5 Mean :0.4725
## 3rd Qu.:300.2 3rd Qu.:1.0000
## Max. :400.0 Max. :1.0000
## Edad Fuma Estatura Colegio
## Length:400 Length:400 Length:400 Length:400
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Estrato Financiacion Acumulado P1

## Min. :1.000 Length:400 Length:400 Length:400
## 1st Qu.:1.000 Class :character Class :character Class :character
## Median :2.000 Mode :character Mode :character Mode :character
## Mean :1.992
## 3rd Qu.:3.000
## Max. :3.000
## P2 P3 Final Definitiva
##
##
##
## Gastos Ingreso Gas Clases
##
##
##
## Ley PandemiaCat PandemiaNum Likert1

## Length:400 Length:400 Min. :1.000 Min. :1.00
## Class :character Class :character 1st Qu.:2.000 1st Qu.:2.00
## Mode :character Mode :character Median :3.000 Median :3.00
## Mean :2.522 Mean :2.89
## 3rd Qu.:3.000 3rd Qu.:4.00
## Max. :3.000 Max. :5.00
## Likert2 Likert3 Likert4 Likert5
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:2.000
## Median :3.000 Median :3.000 Median :3.000 Median :3.000
## Mean :3.015 Mean :2.995 Mean :3.022 Mean :2.942
## 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000
## AGPEQ1 AGPEQ2 AGPEQ3 SATS1

##
##
##
## SATS2 SATS3 SATS4 IDARE1.1
##
##
##
## IDARE1.2 IDARE1.3 IDARE1.4 IDARE1.5
##
##
##
## IDARE2.6 IDARE2.7 IDARE2.8 IDARE2.9
##
##
##
## IDARE2.10 Puntaje
## Length:400 Min. : 0.00
## Class :character 1st Qu.:19.00
## Mode :character Median :26.50
## Mean :31.79
## 3rd Qu.:35.00
## Max. :81.00
5 Estadísticos de una variable numérica

Vamos a revisar las medidas para una variable numérica en particular, digamos, las notas
del tercer parcial (P3):
P3 <- as.numeric(datosCompleto$P3)
x<-P3
6 Medidas de tendencia central

Hallar la media, media y moda de las calificaciones del tercer paracial. Interprete sus
respuestas.
a. La media se calcula de la siguiente manera:
mean(x) #A) Media aritmética
## [1] 3.25125
El valor de la media fue de 3.25125.

Interpretació n: La media no se interpreta.
b. La mediana se puede obtener de dos maneras:
median(x) #B) Mediana
## [1] 3.3
quantile(x, probs=0.5) #C) Mediana o Segundo cuartil
## 50%
## 3.3
El valor de la mediana fue de 3.3.

Interpretació n: El 50% de los estudiantes obtuvo una nota en el tercer parcial menor o
igual que 3.3.
c. La moda se calcula mediante la libreria
mfv(x) #D) Moda con la librería "modeest"
## [1] 5
En cualquier caso, el valor de la moda fue 5.
Interpretació n: La nota má s frecuente fue de 5.0.
7 Medidas de dispersió n o de variabilidad

Calcule la varianza, la desviació n está ndar y el coeficiente de variació n. Interprete sus
respuestas.
a. La varianza se calcula de la siguiente manera:
var(x) #A) Varianza muestral
## [1] 0.9786952
El valor de la varianza fue de 0.9786952.

Interpretació n: La varianza no se interpreta.
b. La desviació n está ndar (o desviació n típica) se puede hallar de dos maneras:
sqrt(var(x)) #B) Desviación estándar muestral
## [1] 0.9892902
sd(x) #C) Desviación estándar muestral
## [1] 0.9892902
El valor de la desviació n está ndar fue de 0.9892902.

Interpretació n: La desviació n está ndar no se interpreta.
c. El coeficiente de variació n se halla definiendo y aplicando una funció n:
CV<-function(x){ #D) Funcion que permite calcular el coeficiente de
variación
y<-100*sd(x)/mean(x)
return(y)
}
CV(x) #E) Coeficiente de variación
## [1] 30.428
El valor del coeficiente de variació n fue de 30.428.

Interpretació n: El porcentaje no es muy alto. Por lo tanto, las calificaciones del tercer
parcial tienen una dispersió n relativamente buena.
8 Medidas de posició n relativa

Calcule los percentiles 5 (P5), 20 (P20), 40 (P40), 70 (P70), los tres cuartiles (Q1, Q2, Q3),
los percentiles extremos (P0, P100) y el rango intercuartil de las notas del tercer parcial.
Interprete algunos de los resultados obtenidos.
Los percentiles (y/o cuartiles) se pueden calcular de varias maneras:
quantile(x, probs=0.05) #A) Percentil 5
## 5%
## 1.5
quantile(x, probs=0.20) #B) Percentil 20
## 20%
## 2.4
quantile(x, probs=c(0.4,0.7)) #C) Percentiles 40 y 70
## 40% 70%
## 3.0 3.8
quantile(x) #D) Da los tres cuartiles y los

percentiles extremos
## 0% 25% 50% 75% 100%

## 1.000 2.575 3.300 4.000 5.000
quantile(x, probs=0.25) #E) Primer cuartil
## 25%
## 2.575
quantile(x, probs=0.50) #F) Segundo cuartil o mediana
## 50%
## 3.3
quantile(x, probs=0.75) #G) Tercer cuartil
## 75%
## 4
median(x [which (x <= median (x))]) #H) Primer cuartil. Compare con (E)
## [1] 2.7
median (x [which (x > median (x))]) #I) Tercer cuartil. Compare con (G)
## [1] 4
Observe que P5=1.5, P20=2.4, P40=3.0, P70=3.8, Q1=2.575, Q2=3.3 (coincide con la
mediana), Q3=4.0, P0=1.0 (coincide con el dato menor), P100=5.0 (coincide con el dato
mayor).
Para el aná lisis exploratorio, se pueden utilizar las siguientes funciones, entre las cuales, se
encuentran los valores mínimos, má ximos y el rango intercuartil:
IQR(x) #J). Rango intercuartílico
## [1] 1.425
fivenum(x) #K) min, tres cuartiles, max
## [1] 1.00 2.55 3.30 4.00 5.00
RI <- fivenum(x)[4] - fivenum(x)[2]; RI #C. Rango intercuartílico
## [1] 1.45
Interpretació n: A manera de ejemplo, solo dos medidas, el percentil 20 y el tercer cuartil

(véase imagen de abajo):
El 20% de los estudiantes obtuvo una nota en el tercer parcial menor o igual que 2.4 y el
80%, una nota mayor que 2.4.
El 75% de los estudiantes obtuvo una nota en el tercer parcial menor o igual que 4.0 y el
25%, una nota mayor que 4.0.
Insertando Imagen
9 Medidas de forma
Calcule el sesgo y la curtosis de las notas del tercer parcial. Interprete los resultados
obtenidos.
El sesgo y la curtosis se hallan de la librería “moments”.
skewness(x) #A) Sesgo
## [1] -0.1090939
kurtosis(x) #B) Curtosis
## [1] 2.38379
Interpetació n:
Como el sesgo es negativo, podemos concluir que la distribució n de estos datos es segada a
la izquierda.
Como la curtosis es menor que 3, podemos concluir que la distribució n de los datos es
platicú rtica.
10 Medidas de una etapa

Son todas las medidas calculadas de toda la muestra completa (sin particionar), como se
indica en la imagen de abajo.
Insertando Imagen
11 Medidas en dos etapas

Son las medidas calculadas en una partició n de la muestra, ubicada en un segundo nivel. Se
pueden calcular de dos maneras:
Caso 1: Medidas en todos los niveles categó ricos.
Caso 2: Medidas dentro de un nivel categó rico.
Caso 1: Medidas en todos los niveles categó ricos
Supongamos que se quiere calcular una medida (digamos, la media) para cada uno de los
niveles de una variable categó rica (digamos los colegios privados). Entonces aplicamos la
funció n “tapply” para realizar la operació n corespondiente.
La línea de comando bá sica es:
tapply(Numérica, Categó rica, Medida)
esta funció n tiene tres argumentos:
El primero, la variable numérica a la que queremos aplicar la funció n. El segundo, el factor
para cada uno de cuyos niveles vamos a calcular la funció n. El tercero, la funció n que
queremos calcular (en nuestro ejemplo, la media).
Ejemplo: La media de las calificaciones del tercer parcial para los colegios privados y para
los pú blicos se halla de la siguiente manera:
tapply(x, datosCompleto$Colegio, mean) #A) Media de P3 tanto en públicos
como privados
## Privado Publico
## 3.252577 3.250000
En la imagen de abajo se resume los resultados obtenidos.
Insertando Imagen
Caso 2: Medida dentro de un nivel categó rico
Supongamos que se quiere calcular una medida (digamos, la media de P3) para un nivel
específico de una variable categó rica (digamos los colegios privados). Primero, se aplica la
funció n “filter” de la librería “dplyr” para filtrar y luego se obtiene la medida de interés.
Ejemplo:
a) El promedio de las notas del tercer examen en los colegios privados fue:
datosCompleto%>% filter(Colegio=="Privado")->Privados #A) Grupo de los
colegios privados
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios privados
mean(P3pr) #C) Media de P3 en
los colegios privados
## [1] 3.252577
b) El promedio de las notas del tercer examen en los colegios pú blicos fue:
datosCompleto%>% filter(Colegio=="Publico")->Privados #A) Grupo de los
colegios publicos
de colegios públicos
mean(P3pr) #C) Media de P3 en
los colegios públicos
## [1] 3.25
12 Medidas en tres etapas

Primera forma
Consideremos solo un grupo de interés (digamos, colegios privados). Supongamos que,
dentro de ese grupo, se quiere calcular una medida (digamos, la media de P3) para cada
uno de los niveles de otra variable categó rica (digamos, el Sexo). Entonces, primero, se
aplica la funció n “filter” de la librería “dplyr” para filtrar y, después, la funció n “tapply” para
realizar la operació n corespondiente.
Ejemplo:
a) Supongamos que nuestro grupo de interés son los colegios privados. La media de las
notas del tercer paracial obtenidas por los hombres y las mujeres se obtienen así:
datosCompleto%>% filter(Colegio=="Privado")->Privados #A) Grupo los
colegios privados
tapply(P3pr, Privados$Sexo, mean) #C) En Privados:
Media de P3 en masculino y femenino
## Femenino Masculino
## 3.204717 3.310227
b) Supongamos que nuestro grupo de interés son los colegios pú blicos. La media de las
notas del tercer paracial obtenidas por los hombres y las mujeres se obtienen así:
datosCompleto%>% filter(Colegio=="Publico")->Privados #A) Grupo los
colegios privados
tapply(P3pr, Privados$Sexo, mean) #C) En Privados:
Media de P3 en masculino y femenino
## Femenino Masculino
## 3.29619 3.20198
c) En la imagen de abajo se resumen los resultados obtenidos en los incisos a y b.

Insertando Imagen
Segunda forma
Ejemplo:
Otra forma de hallar la nota promedio de P3 (considerando la situació n anterior) es como
se muestra a continuació n (se le han agregado otras medidas a manera de ejemplo):
datosCompleto %>% filter(Colegio=="Privado") %>% group_by(Sexo) %>%
summarise(n = length(as.numeric(P3)),
Promedio = mean(as.numeric(P3)),
Desviacion = sd(as.numeric(P3)),
Minimo = min(as.numeric(P3)),
Maximo = max(as.numeric(P3)))
## # A tibble: 2 × 6
## Sexo n Promedio Desviacion Minimo Maximo
## <chr> <int> <dbl> <dbl> <dbl> <dbl>
## 1 Femenino 106 3.20 0.964 1 5
## 2 Masculino 88 3.31 0.907 1 5

Medidas Estadísticas

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Medidas Estadísticas

Cargado por

Copyright:

Formatos disponibles

Medidas Estadisticas

## The following objects are masked from 'package:stats':

## The following objects are masked from 'package:base':

library(modeest) # Para hallar la moda

## The following object is masked from 'package:modeest':

## Registered S3 method overwritten by 'httr':

## SHA-1 hash of the downloaded data file is:

datosCompleto <- Estudiantes

## Observacion ID Sexo SexoNum

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

## Estrato Financiacion Acumulado P1

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

## Gastos Ingreso Gas Clases

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

## Ley PandemiaCat PandemiaNum Likert1

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

## SATS2 SATS3 SATS4 IDARE1.1

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

## IDARE1.2 IDARE1.3 IDARE1.4 IDARE1.5

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

## IDARE2.6 IDARE2.7 IDARE2.8 IDARE2.9

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

5 Estadísticos de una variable numérica

6 Medidas de tendencia central

El valor de la media fue de 3.25125.

quantile(x, probs=0.5) #C) Mediana o Segundo cuartil

El valor de la mediana fue de 3.3.

7 Medidas de dispersió n o de variabilidad

El valor de la varianza fue de 0.9786952.

sd(x) #C) Desviación estándar muestral

El valor de la desviació n está ndar fue de 0.9892902.

CV(x) #E) Coeficiente de variación

El valor del coeficiente de variació n fue de 30.428.

8 Medidas de posició n relativa

quantile(x, probs=0.20) #B) Percentil 20

quantile(x, probs=c(0.4,0.7)) #C) Percentiles 40 y 70

quantile(x) #D) Da los tres cuartiles y los

## 0% 25% 50% 75% 100%

quantile(x, probs=0.25) #E) Primer cuartil

quantile(x, probs=0.50) #F) Segundo cuartil o mediana

quantile(x, probs=0.75) #G) Tercer cuartil

fivenum(x) #K) min, tres cuartiles, max

## [1] 1.00 2.55 3.30 4.00 5.00

RI <- fivenum(x)[4] - fivenum(x)[2]; RI #C. Rango intercuartílico

Interpretació n: A manera de ejemplo, solo dos medidas, el percentil 20 y el tercer cuartil

kurtosis(x) #B) Curtosis

10 Medidas de una etapa

11 Medidas en dos etapas

En la imagen de abajo se resume los resultados obtenidos.