Está en la página 1de 12

Medidas Estadisticas

Zulmary Carrillo

2023-08-27

1. Introducció n
Debemos instalar y descargar las librerías que vamos a utilizar.
library(dplyr)

##
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':


##
## filter, lag

## The following objects are masked from 'package:base':


##
## intersect, setdiff, setequal, union

library(modeest) # Para hallar la moda


library(moments) # Para hallar las medidas de forma

##
## Attaching package: 'moments'

## The following object is masked from 'package:modeest':


##
## skewness

2 Data frame
Vamos a utilizar un conjunto de datos, que fueron recogidos aplicando una encuesta a una
muestra de estudiantes universitarios. Es un data frame con 400 observaciones y 46
variables. En este documento, se importará la base de datos desde una direcció n web.
library(repmis)

## Registered S3 method overwritten by 'httr':


## method from
## print.response rmutil

source_data("https://github.com/hllinas/DatosPublicos/blob/main/
Estudiantes.Rdata?raw=false")
## Downloading data from:
https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?
raw=false

## SHA-1 hash of the downloaded data file is:


## 6bf9d5a19779293538bd61d55d0662bdaf8100a1

## [1] "Estudiantes"

datosCompleto <- Estudiantes

4. Funció n “summary”
En R, la funció n “summary” muestra un resumen general sobre las variables del data frame
(mínimo, má ximo, media, mediana, primer y tercer cuartil). Ademá s, R reconoce que las
variables categó ricas, por lo que muestra la frecuencia de cada categoría.
summary(datosCompleto)

## Observacion ID Sexo SexoNum


## Min. : 1.0 Length:400 Length:400 Min. :0.0000
## 1st Qu.:100.8 Class :character Class :character 1st Qu.:0.0000
## Median :200.5 Mode :character Mode :character Median :0.0000
## Mean :200.5 Mean :0.4725
## 3rd Qu.:300.2 3rd Qu.:1.0000
## Max. :400.0 Max. :1.0000
## Edad Fuma Estatura Colegio

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

##

##

##

## Estrato Financiacion Acumulado P1


## Min. :1.000 Length:400 Length:400 Length:400
## 1st Qu.:1.000 Class :character Class :character Class :character
## Median :2.000 Mode :character Mode :character Mode :character
## Mean :1.992
## 3rd Qu.:3.000
## Max. :3.000
## P2 P3 Final Definitiva
## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

##

##

##

## Gastos Ingreso Gas Clases

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

##

##

##

## Ley PandemiaCat PandemiaNum Likert1


## Length:400 Length:400 Min. :1.000 Min. :1.00
## Class :character Class :character 1st Qu.:2.000 1st Qu.:2.00
## Mode :character Mode :character Median :3.000 Median :3.00
## Mean :2.522 Mean :2.89
## 3rd Qu.:3.000 3rd Qu.:4.00
## Max. :3.000 Max. :5.00
## Likert2 Likert3 Likert4 Likert5
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:2.000 1st Qu.:2.000
## Median :3.000 Median :3.000 Median :3.000 Median :3.000
## Mean :3.015 Mean :2.995 Mean :3.022 Mean :2.942
## 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000
## AGPEQ1 AGPEQ2 AGPEQ3 SATS1

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character


##

##

##

## SATS2 SATS3 SATS4 IDARE1.1

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

##

##

##

## IDARE1.2 IDARE1.3 IDARE1.4 IDARE1.5

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

##

##

##

## IDARE2.6 IDARE2.7 IDARE2.8 IDARE2.9

## Length:400 Length:400 Length:400 Length:400

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

##

##

##
## IDARE2.10 Puntaje
## Length:400 Min. : 0.00
## Class :character 1st Qu.:19.00
## Mode :character Median :26.50
## Mean :31.79
## 3rd Qu.:35.00
## Max. :81.00

5 Estadísticos de una variable numérica


Vamos a revisar las medidas para una variable numérica en particular, digamos, las notas
del tercer parcial (P3):
P3 <- as.numeric(datosCompleto$P3)
x<-P3

6 Medidas de tendencia central


Hallar la media, media y moda de las calificaciones del tercer paracial. Interprete sus
respuestas.
a. La media se calcula de la siguiente manera:
mean(x) #A) Media aritmética

## [1] 3.25125

El valor de la media fue de 3.25125.


Interpretació n: La media no se interpreta.
b. La mediana se puede obtener de dos maneras:
median(x) #B) Mediana

## [1] 3.3

quantile(x, probs=0.5) #C) Mediana o Segundo cuartil

## 50%
## 3.3

El valor de la mediana fue de 3.3.


Interpretació n: El 50% de los estudiantes obtuvo una nota en el tercer parcial menor o
igual que 3.3.
c. La moda se calcula mediante la libreria
mfv(x) #D) Moda con la librería "modeest"

## [1] 5
En cualquier caso, el valor de la moda fue 5.
Interpretació n: La nota má s frecuente fue de 5.0.

7 Medidas de dispersió n o de variabilidad


Calcule la varianza, la desviació n está ndar y el coeficiente de variació n. Interprete sus
respuestas.
a. La varianza se calcula de la siguiente manera:
var(x) #A) Varianza muestral

## [1] 0.9786952

El valor de la varianza fue de 0.9786952.


Interpretació n: La varianza no se interpreta.
b. La desviació n está ndar (o desviació n típica) se puede hallar de dos maneras:
sqrt(var(x)) #B) Desviación estándar muestral

## [1] 0.9892902

sd(x) #C) Desviación estándar muestral

## [1] 0.9892902

El valor de la desviació n está ndar fue de 0.9892902.


Interpretació n: La desviació n está ndar no se interpreta.
c. El coeficiente de variació n se halla definiendo y aplicando una funció n:
CV<-function(x){ #D) Funcion que permite calcular el coeficiente de
variación
y<-100*sd(x)/mean(x)
return(y)
}

CV(x) #E) Coeficiente de variación

## [1] 30.428

El valor del coeficiente de variació n fue de 30.428.


Interpretació n: El porcentaje no es muy alto. Por lo tanto, las calificaciones del tercer
parcial tienen una dispersió n relativamente buena.

8 Medidas de posició n relativa


Calcule los percentiles 5 (P5), 20 (P20), 40 (P40), 70 (P70), los tres cuartiles (Q1, Q2, Q3),
los percentiles extremos (P0, P100) y el rango intercuartil de las notas del tercer parcial.
Interprete algunos de los resultados obtenidos.
Los percentiles (y/o cuartiles) se pueden calcular de varias maneras:
quantile(x, probs=0.05) #A) Percentil 5

## 5%
## 1.5

quantile(x, probs=0.20) #B) Percentil 20

## 20%
## 2.4

quantile(x, probs=c(0.4,0.7)) #C) Percentiles 40 y 70

## 40% 70%
## 3.0 3.8

quantile(x) #D) Da los tres cuartiles y los


percentiles extremos

## 0% 25% 50% 75% 100%


## 1.000 2.575 3.300 4.000 5.000

quantile(x, probs=0.25) #E) Primer cuartil

## 25%
## 2.575

quantile(x, probs=0.50) #F) Segundo cuartil o mediana

## 50%
## 3.3

quantile(x, probs=0.75) #G) Tercer cuartil

## 75%
## 4

median(x [which (x <= median (x))]) #H) Primer cuartil. Compare con (E)

## [1] 2.7

median (x [which (x > median (x))]) #I) Tercer cuartil. Compare con (G)

## [1] 4

Observe que P5=1.5, P20=2.4, P40=3.0, P70=3.8, Q1=2.575, Q2=3.3 (coincide con la
mediana), Q3=4.0, P0=1.0 (coincide con el dato menor), P100=5.0 (coincide con el dato
mayor).
Para el aná lisis exploratorio, se pueden utilizar las siguientes funciones, entre las cuales, se
encuentran los valores mínimos, má ximos y el rango intercuartil:
IQR(x) #J). Rango intercuartílico

## [1] 1.425

fivenum(x) #K) min, tres cuartiles, max

## [1] 1.00 2.55 3.30 4.00 5.00

RI <- fivenum(x)[4] - fivenum(x)[2]; RI #C. Rango intercuartílico

## [1] 1.45

Interpretació n: A manera de ejemplo, solo dos medidas, el percentil 20 y el tercer cuartil


(véase imagen de abajo):
El 20% de los estudiantes obtuvo una nota en el tercer parcial menor o igual que 2.4 y el
80%, una nota mayor que 2.4.
El 75% de los estudiantes obtuvo una nota en el tercer parcial menor o igual que 4.0 y el
25%, una nota mayor que 4.0.

Insertando Imagen

9 Medidas de forma
Calcule el sesgo y la curtosis de las notas del tercer parcial. Interprete los resultados
obtenidos.
El sesgo y la curtosis se hallan de la librería “moments”.
skewness(x) #A) Sesgo

## [1] -0.1090939

kurtosis(x) #B) Curtosis

## [1] 2.38379

Interpetació n:
Como el sesgo es negativo, podemos concluir que la distribució n de estos datos es segada a
la izquierda.
Como la curtosis es menor que 3, podemos concluir que la distribució n de los datos es
platicú rtica.

10 Medidas de una etapa


Son todas las medidas calculadas de toda la muestra completa (sin particionar), como se
indica en la imagen de abajo.

Insertando Imagen

11 Medidas en dos etapas


Son las medidas calculadas en una partició n de la muestra, ubicada en un segundo nivel. Se
pueden calcular de dos maneras:
Caso 1: Medidas en todos los niveles categó ricos.
Caso 2: Medidas dentro de un nivel categó rico.
Caso 1: Medidas en todos los niveles categó ricos
Supongamos que se quiere calcular una medida (digamos, la media) para cada uno de los
niveles de una variable categó rica (digamos los colegios privados). Entonces aplicamos la
funció n “tapply” para realizar la operació n corespondiente.
La línea de comando bá sica es:
tapply(Numérica, Categó rica, Medida)
esta funció n tiene tres argumentos:
El primero, la variable numérica a la que queremos aplicar la funció n. El segundo, el factor
para cada uno de cuyos niveles vamos a calcular la funció n. El tercero, la funció n que
queremos calcular (en nuestro ejemplo, la media).
Ejemplo: La media de las calificaciones del tercer parcial para los colegios privados y para
los pú blicos se halla de la siguiente manera:
tapply(x, datosCompleto$Colegio, mean) #A) Media de P3 tanto en públicos
como privados
## Privado Publico
## 3.252577 3.250000

En la imagen de abajo se resume los resultados obtenidos.

Insertando Imagen
Caso 2: Medida dentro de un nivel categó rico
Supongamos que se quiere calcular una medida (digamos, la media de P3) para un nivel
específico de una variable categó rica (digamos los colegios privados). Primero, se aplica la
funció n “filter” de la librería “dplyr” para filtrar y luego se obtiene la medida de interés.
Ejemplo:
a) El promedio de las notas del tercer examen en los colegios privados fue:
datosCompleto%>% filter(Colegio=="Privado")->Privados #A) Grupo de los
colegios privados
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios privados
mean(P3pr) #C) Media de P3 en
los colegios privados

## [1] 3.252577

b) El promedio de las notas del tercer examen en los colegios pú blicos fue:
datosCompleto%>% filter(Colegio=="Publico")->Privados #A) Grupo de los
colegios publicos
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios públicos
mean(P3pr) #C) Media de P3 en
los colegios públicos

## [1] 3.25

12 Medidas en tres etapas


Primera forma
Consideremos solo un grupo de interés (digamos, colegios privados). Supongamos que,
dentro de ese grupo, se quiere calcular una medida (digamos, la media de P3) para cada
uno de los niveles de otra variable categó rica (digamos, el Sexo). Entonces, primero, se
aplica la funció n “filter” de la librería “dplyr” para filtrar y, después, la funció n “tapply” para
realizar la operació n corespondiente.
Ejemplo:
a) Supongamos que nuestro grupo de interés son los colegios privados. La media de las
notas del tercer paracial obtenidas por los hombres y las mujeres se obtienen así:
datosCompleto%>% filter(Colegio=="Privado")->Privados #A) Grupo los
colegios privados
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios privados
tapply(P3pr, Privados$Sexo, mean) #C) En Privados:
Media de P3 en masculino y femenino

## Femenino Masculino
## 3.204717 3.310227

b) Supongamos que nuestro grupo de interés son los colegios pú blicos. La media de las
notas del tercer paracial obtenidas por los hombres y las mujeres se obtienen así:
datosCompleto%>% filter(Colegio=="Publico")->Privados #A) Grupo los
colegios privados
P3pr <- as.numeric(Privados$P3) #B) Parcial 3 dentro
de colegios privados
tapply(P3pr, Privados$Sexo, mean) #C) En Privados:
Media de P3 en masculino y femenino

## Femenino Masculino
## 3.29619 3.20198

c) En la imagen de abajo se resumen los resultados obtenidos en los incisos a y b.


Insertando Imagen
Segunda forma
Ejemplo:
Otra forma de hallar la nota promedio de P3 (considerando la situació n anterior) es como
se muestra a continuació n (se le han agregado otras medidas a manera de ejemplo):
datosCompleto %>% filter(Colegio=="Privado") %>% group_by(Sexo) %>%

summarise(n = length(as.numeric(P3)),
Promedio = mean(as.numeric(P3)),
Desviacion = sd(as.numeric(P3)),
Minimo = min(as.numeric(P3)),
Maximo = max(as.numeric(P3)))

## # A tibble: 2 × 6
## Sexo n Promedio Desviacion Minimo Maximo
## <chr> <int> <dbl> <dbl> <dbl> <dbl>
## 1 Femenino 106 3.20 0.964 1 5
## 2 Masculino 88 3.31 0.907 1 5

También podría gustarte