Clase 03

23/9/2020 Estadística Descriptiva (2)
Estadística Descriptiva
Septiembre 2020
file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 1/31

Objetivos de la Clase de hoy u

Contenido
Presentación de Resultados
Descriptores
Descriptores Numéricos
Medidas de tendencia central
Medidas de Posición
Medidas de dispersión
Forma de la distribución
Descriptores Gráficos
Gráficas de dispersión
Histogramas
Diagramas de caja (boxplot)
Puntos superpuestos

Presentación de resultados
Examinando los datos
El primer análisis de un conjuntos de datos se puede realizar:
A través de un grupo de medidas resumen: métodos numéricos.
A través del análisis exploratorio: métodos gráficos y tabulares.
Los descriptores numéricos ayudan a explicar cómo son las variables,

mientras que los descriptores gráficos sirven para explicar el
comportamiento de las variables.

Descriptores Numéricos
Para resumir la información de un conjunto de datos, la estadística
descriptiva dispone de pocas medidas que concentran la máxima
información y que ofrecen un idea clara del comportamiento general de
los datos. Ellas están clasificadas en tres grupos.

Medidas de Tendencia Central
Cuando se dispone de un conjunto de observaciones, es de

interés encontrar el valor en torno al cual se agrupan la mayoría
de ellas o el centro de las mismas.
Las medidas descriptivas que permiten especificar estos valores

se denominan medidas de localización o medidas de tendencia
central.
Media
La media muestral, denotada como x̄ , se puede calcular como
x1 + x2 + … + xn
x̄ = ,
n
donde x 1, x2 , … , xn representan los n valores observados.
La media poblacional se calcula de forma similar, pero se

denota como μ. En la mayoría de los casos no es posible calcular
μ, dado que los datos de la población rara vez están disponibles.
La media muestral es un estadístico y sirve como una

estimación puntual de la media poblacional. Esta estimación
puede no ser perfecta, pero si la muestra es buena
(representativa de la población), suele ser una estimación

bastante buena.

Ejemplo 1:
library(readr)
DF <- read_csv("Datos_diversos.csv")
## Parsed with column specification:

## cols(
## X1 = col_character(),
## Codigo = col_double(),
## Apellido = col_character(),
## Nombre = col_character(),
## Seccion = col_double(),
## Ciclo = col_double(),
## Edad = col_double(),
## Estatura = col_double(),
## Peso = col_double(),
## Signo = col_character(),
## Sexo = col_character(),
## Carrera = col_character(),
## Reaccion = col_character(),
## Videojuegos = col_character(),
## Deporte = col_character()
## )
media <- mean(DF$Estatura,na.rm = TRUE)

media<-round(media,2)
media
## [1] 158.59
nrow(DF) - sum(is.na(DF$Edad))
## [1] 321
Los 321 participantes tienen una estatura promedio de 158.59

centímetros.

Ejemplo 2: Calcular la media de los siguientes datos:

x<- c(5,7,4,7,2,8,9)
media1<-mean(x)
media1
## [1] 6
x2<- c(5,7,4,7,2,8,95)
media2<-mean(x2)
media2
## [1] 18.28571

Mediana
La mediana no es única, pero siempre existe.
Una mediana es un valor que garantiza que al menos la mitad

de los datos son mayores o iguales a ese valor y al menos la mitad
de los datos son menores o iguales a ese valor.
En R, la mediana es calculada siempre de la misma manera

mediante una fórmula donde:
Si el número de valores es impar, la mediana es la observación central.

Si el número de valores es par, la mediana es la media de las dos observaciones
centrales.
Características de la mediana
Se puede calcular para variables categóricas ordinales o numéricas.

El valor de la mediana depende del número de datos observados.
La mediana es un estadístico que no se ve afectado por valores
extremos ya que sólo influyen los valores centrales. Por eso se le
utiliza cuando hay dato atípicos o la distribución de las frecuencias no
es simétrica.
En su determinación no intervienen todos los valores de la variable.

Ejemplo 4: Calcular la estatura promedio de la sección de estadística de

46 alumnos.
altura <-c(1.80,1.81,1.74,1.65,1.83,1.60,1.80,1.72,1.67,1.80,1.60,1.68,1.50)
median(altura)
## [1] 1.72
Ejemplo 5: Calcular la mediana de los siguientes datos:

x<- c(5,7,4,7,2,8,9)
mediana1<-median(x)
mediana1
## [1] 7
x2<- c(5,7,4,7,2,8,95)
mediana2<-median(x2)
mediana2
## [1] 7

Moda
La moda de un conjunto de datos observados de una variable es el

valor que se presenta con mayor frecuencia. Agrupe los datos y de
acuerdo a sus respectivas frecuencias, el dato o los datos con mayores
frecuencias son la o las modas.
Es importante resaltar que hay diferentes definiciones de moda

dependiendo del texto o autor. En la UTEC
Características de la moda
Se puede calcular para cualquier tipo de variable, aunque tiene

más sentido con datos cualitativos. Ej. en una muestra, el color de
cabello más frecuente.
El valor de la moda no se ve afectada por valores atípicos o

extremos.
La moda no siempre es un valor único: un conjunto de datos

puede tener dos (bimodal) o más modas (multimodal). La moda
puede no existir para un conjunto de datos.
Es más recomendable que la media cuando se trabaja con datos

que aún no han sido depurados.
Es la medida de tendencia central que se recomienda usar cuando

se analizan variables como salarios, ingresos totales, etc.

En cuanto a la moda, R no tiene implementada una función que la

calcule. Por lo que podemos definir una función que calcule la moda de
un conjunto de datos o usar un paquete que la tenga incorporada. Una
función que calcula la moda es
moda <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}
moda1 <- moda(altura)

moda2 <- moda(c(1,2,3,4,5,1,2,3,4,1,2,3,1,2,1))
moda1
## [1] 1.8
moda2
## [1] 1

Medidas de Posición
Es conveniente referirnos a varios términos que son de uso

común en el mundo de la estadística: los cuartiles, los deciles y
los percentiles.
Estas medidas estadísticas corresponden a lo que se denomina

medidas de posición no central.
A un conjunto de datos ordenados se lo puede dividir en un

número fijo de partes iguales.
* Los cuartiles
dividen los datos clasificados en 4 segmentos con el mismo número de
datos por segmento.
El primer cuartil, Q , es el valor para el cual el 25% de las

1
observaciones son más pequeñas y el 75% son más grandes.
Q2 es igual que la mediana (50% son más pequeños, 50% son más
grandes).
Solo el 25% de las observaciones superan el tercer cuartil Q . 3
Observación:
Los cuartiles Q , Q y Q se pueden expresar como P , P

1 2 3 25 50 y
P , respectivamente.
75
Los deciles D , D , D … y D se pueden expresar como P ,

1 2 3 9 10
P , P … y P , respectivamente.
20 30 90

Recordemos que la mediana es el valor que deja 50% de los datos

a izquierda y 50% a derecha, por lo tanto, se puede expresar
también como Q , D y P . 2 5 50
quantile(altura)
## 0% 25% 50% 75% 100%

## 1.50 1.65 1.72 1.80 1.83
quantile(altura,.25)
## 25%
## 1.65
## 50%
## 1.72
## 75%
## 1.8

Medidas de dispersión
Luego de determinar la localización de las observaciones, es

conveniente medir su grado de dispersión o variación alrededor
del centro. Las medidas que permiten especificar esta
característica se denominan medidas de dispersión.
Las medidas de dispersión permiten observar cuán agrupados o

cuán dispersos están los datos.
Estas medidas deben tener la propiedad de que si los datos están

ampliamente extendidos, la medida será alta; y cuando los datos
se encuentren muy agrupados, será baja.
Rango
La medida más sencilla de dispersión es el rango.
Es la amplitud o recorrido de un conjunto de datos.
Rango(x) = x − x
á
m ximo m nimo í
summary(altura) # Indica el mínimo, el máximo, los 3 cuartiles (P25, P50 y P75) y la media.
## Min. 1st Qu. Median Mean 3rd Qu. Max.

## 1.500 1.650 1.720 1.708 1.800 1.830
Rango = max(altura) - min(altura)

Rango

## [1] 0.33
Características del rango
Es una medida muy sencilla pero poco confiable pues solo toma en
cuenta los extremos del conjunto de datos y ellos podrían ser atípicos.
Apropiado para variables numéricas.
Su utilidad puede estar en muestras pequeñas (menos de 10 datos).

Rango intercuartil (IQR)
Es el rango o amplitud del 50% de los datos centrales.

Si es pequeño describe poca variabilidad en los valores centrales.
No depende de valores extremos.
Se calcula para variables numéricas.
RIC = Q 3 − Q 1 = P75 − P25
Rango_Intercuartil <- IQR(altura)

Rango_Intercuartil
## [1] 0.15
Características rango intercuartil:
Es fácil de calcular.
Se ve poco afectado por la presencia de valores atípicos.
En su determinación no interviene la totalidad de los datos.

Varianza
La varianza es el promedio de los cuadrados de las desviaciones

de los datos con respecto a su media aritmética.
Tiene unidades de medición al cuadrado.
No se interpreta.
¿Cómo podríamos hacer para cuantificar la dispersión o

variabilidad de un conjunto de datos? ¿La dispersión con respecto
a quién?
Características de la varianza:
La varianza muestral es una medida bastante buena para medir la

variabilidad entre los datos.
Al igual que la media es muy sensible a la presencia de valores
extremos (más aún por estar elevada al cuadrado).
El inconveniente de la varianza es que las unidades no son las mismas
que la de los datos elevadas al cuadrado. Difícil de interpretar.
varianza <- var(altura)

varianza
## [1] 0.0103359

Desviación estándar
La desviación estándar es la medida de variabilidad más utilizada, es el

desvío estándar muestral o desviación típica.
sd(altura)
## [1] 0.1016656
Características de la desviación estándar
Se expresa en las mismas unidades que los datos originales.

En su cálculo intervienen todos los valores de la distribución y por ello
puede ser complicado.
Se ve muy afectada por la presencia de valores atípicos.

Coeficiente de variación
Compara la variabilidad de conjuntos de datos que tengan unidades

diferentes.
Se calcula para variables numéricas.
s
CV =
x̄
donde s es la desviación estándar.
Características del coeficiente de variación
En su cálculo intervienen todas las observaciones. pudiendo ser muy

influido por valores atípicos.
Puede ser difícil de interpretar.
Pierde su significado si el promedio es igual a cero.

¿La esperanza de vida y la fecundidad total parecen estar asociadas o ser

independientes? Parecen ser lineales y asociado negativamente: como
fertilidad aumenta, la esperanza de vida disminuye. ¿La relación fue la
misma a lo largo de los años o cambió? La relación cambió durante el
años.
Gráficos de dispersión (Scatterplots)

Los diagramas de dispersión son útiles para visualizar la
relación entre dos variables numéricas.
¿La esperanza de vida y la fertilidad total parecen estar

asociadas o son independientes?
Si observamos la gráfica, parecen estar asociados de forma lineal

y negativa: a medida que aumenta la fertilidad, disminuye la
esperanza de vida.
¿La relación fue la misma a lo largo de los años o cambió?
La relación cambió con los años.
Información obtenida de http: //www.gapminder.org

Gráficos de puntos (dot plots)

Útiles para visualizar una variable numérica. Los colores más
oscuros representan áreas donde hay más observaciones.
Considere el promedio de calificaciones (GPA, grade point

average) de un grupo de 193 estudiantes de una universidad
privada de Estados Unidos (información obtenida de OpenIntro
Statistics).
¿Cómo describiría la distribución de los GPA en este conjunto de datos?

Se debe indicar algo sobre el centro, la forma y la extensión de la
distribución.
Gráficos de puntos y media
La media (marcada con un triángulo en la gráfica anterior), es una

forma de medir el centro de una distribución de datos.
La media del GPA para este conjunto de datos es x̄ = 3.59 .
La media muestral, denotada como x̄ , puede calcularse como

x1 + x2 + ⋅ ⋅ ⋅ + xn
x̄ = ,
n
donde x 1, x2 , … , xn representan los n valores observados.
La media de la población también se calcula de la misma

manera, pero se denota como μ. A menudo no es posible
calcular μ ya que los datos de población rara vez están

disponibles.
La media muestral es un estadístico muestral y sirve como una

estimación puntual de la media poblacional. Es posible que
esta estimación no sea perfecta, pero si la muestra es buena
(representativa de la población), generalmente es una estimación
bastante buena.

Gráficos de puntos apilados

Las barras más altas representan áreas donde hay más observaciones,
hace que sea un poco más fácil juzgar el centro y la forma de la
distribución.

Histogramas
Los histogramas proporcionan una vista de la densidad de
datos. Las barras más altas representan donde los datos son
relativamente más comunes.
Los histogramas son especialmente convenientes para describir la

forma de la distribución de datos.
El ancho de clase seleccionado puede alterar la historia que

cuenta el histograma.
Ancho de la clase
El Ancho de clase aproximadamente es: (valor máximo-valor

mínimo)/cantidad de clases
¿Cuáles de estos histogramas son útiles? ¿Cuál revela bastante

sobre los datos? ¿Cuál esconde demasiado?

Forma del histograma: modalidad
Para determinar la modalidad, imagine una curva suave sobre el

histograma.
¿El histograma tiene un solo pico prominente (unimodal), varios

picos prominentes (bimodal/multimodal) o ningún pico aparente
(uniforme)?
*¿Cuantos picos (máximos locales) prominentes tiene el histograma?
Sólo uno ⟶ unimodal

Dos ⟶ bimodal
Tres o más ⟶ multimodal
Ningún pico ⟶ uniforme
Forma de la distribución: asimetría o sesgo

¿El histograma está sesgado a la derecha, sesgado a la izquierda* o
simétrico**?

Cuando los datos se mueven en una dirección se dice que la

distribución tiene cola.
Si la distribución tiene cola hacia la izquierda, entonces es sesgada

hacia la izquierda.
Si la distribución tiene cola hacia la derecha, entonces es sesgada

hacia la derecha.
¿Dónde se ubican la media y la mediana en estas distribuciones?
Forma de la distribución: observaciones

inusuales o datos atípicos
¿Existen observaciones inusuales o posibles datos atípicos
(outliers)?
¿Por qué los outliers son importantes?
Revelan información sobre la falta de simetría/sesgo.

Pueden llevar a revisar la carga de los datos (errores de tipeo).
Brindan información interesante sobre la distribución de los datos.
Ejemplo: Actividades extracurriculares

¿Cómo describiría la forma de la distribución de horas por semana que

los estudiantes pasan en actividades extracurriculares?
Unimodal y sesgado a la derecha, con una observación potencialmente

inusual a las 60 horas/semana.

Boxplot Diagrama de caja

El cuadro en un boxplot representa el 50% de los datos, y la línea
gruesa en el cuadro es la mediana.
Anatomía de un diagrama de caja
Bigotes y valores atípicos
Los bigotes de un boxplot se extienden hasta 1.5 × IQR desde los

cuartiles
alcance máximo del bigote superior = Q 3 + 1.5 × IQR
alcance máximo del bigote inferior = Q 1 − 1.5 × IQR
IQR: 20−10 = 10
alcance máximo de bigote superior = 20 + 1.5 × 10 = 35

alcance máximo de bigote inferior = 10 − 1.5 × 10 = −5
Un valor atípico potencial se define como una observación

más allá del alcance máximo de los bigotes.
Es una observación que parece extrema en relación con el resto

de los datos.
¿Por qué los valores atípicos son importantes?
Revelan información sobre la falta de simetría/sesgo.
Pueden llevar a revisar la carga de los datos (errores de tipeo)
Proporcionan información interesante sobre la distribución de los

datos.

Clase 03

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 03

Cargado por

Copyright:

Formatos disponibles

23/9/2020 Estadística Descriptiva (2)

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 1/31

Objetivos de la Clase de hoy u

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 2/31

A través de un grupo de medidas resumen: métodos numéricos.

A través del análisis exploratorio: métodos gráficos y tabulares.

Los descriptores numéricos ayudan a explicar cómo son las variables,

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 3/31

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 4/31

Medidas de Tendencia Central

Cuando se dispone de un conjunto de observaciones, es de

Las medidas descriptivas que permiten especificar estos valores

La media muestral, denotada como x̄ , se puede calcular como

donde x 1, x2 , … , xn representan los n valores observados.

La media poblacional se calcula de forma similar, pero se

La media muestral es un estadístico y sirve como una

(representativa de la población), suele ser una estimación

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 6/31

## Parsed with column specification:

media <- mean(DF$Estatura,na.rm = TRUE)

Los 321 participantes tienen una estatura promedio de 158.59

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 7/31

Ejemplo 2: Calcular la media de los siguientes datos:

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 8/31

La mediana no es única, pero siempre existe.

Una mediana es un valor que garantiza que al menos la mitad

En R, la mediana es calculada siempre de la misma manera

Si el número de valores es impar, la mediana es la observación central.

Se puede calcular para variables categóricas ordinales o numéricas.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 9/31

Ejemplo 4: Calcular la estatura promedio de la sección de estadística de

Ejemplo 5: Calcular la mediana de los siguientes datos:

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 10/31

La moda de un conjunto de datos observados de una variable es el

Es importante resaltar que hay diferentes definiciones de moda

Se puede calcular para cualquier tipo de variable, aunque tiene

El valor de la moda no se ve afectada por valores atípicos o

La moda no siempre es un valor único: un conjunto de datos

Es más recomendable que la media cuando se trabaja con datos

Es la medida de tendencia central que se recomienda usar cuando

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 12/31

En cuanto a la moda, R no tiene implementada una función que la

moda1 <- moda(altura)

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 13/31

Es conveniente referirnos a varios términos que son de uso

Estas medidas estadísticas corresponden a lo que se denomina

A un conjunto de datos ordenados se lo puede dividir en un

El primer cuartil, Q , es el valor para el cual el 25% de las

observaciones son más pequeñas y el 75% son más grandes.

Solo el 25% de las observaciones superan el tercer cuartil Q . 3

Los cuartiles Q , Q y Q se pueden expresar como P , P

Los deciles D , D , D … y D se pueden expresar como P ,

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 14/31

Recordemos que la mediana es el valor que deja 50% de los datos

## 0% 25% 50% 75% 100%

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 15/31

Luego de determinar la localización de las observaciones, es

Las medidas de dispersión permiten observar cuán agrupados o

Estas medidas deben tener la propiedad de que si los datos están

La medida más sencilla de dispersión es el rango.

Es la amplitud o recorrido de un conjunto de datos.

## Min. 1st Qu. Median Mean 3rd Qu. Max.

Rango = max(altura) - min(altura)

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 16/31