Está en la página 1de 31

23/9/2020 Estadística Descriptiva (2)

Estadística Descriptiva
Septiembre 2020

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 1/31


23/9/2020 Estadística Descriptiva (2)

Objetivos de la Clase de hoy u


Contenido
Presentación de Resultados
Descriptores
Descriptores Numéricos
Medidas de tendencia central
Medidas de Posición
Medidas de dispersión
Forma de la distribución

Descriptores Gráficos
Gráficas de dispersión
Histogramas
Diagramas de caja (boxplot)
Puntos superpuestos

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 2/31


23/9/2020 Estadística Descriptiva (2)

Presentación de resultados
Examinando los datos
El primer análisis de un conjuntos de datos se puede realizar:

A través de un grupo de medidas resumen: métodos numéricos.

A través del análisis exploratorio: métodos gráficos y tabulares.

Los descriptores numéricos ayudan a explicar cómo son las variables,


mientras que los descriptores gráficos sirven para explicar el
comportamiento de las variables.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 3/31


23/9/2020 Estadística Descriptiva (2)

Descriptores Numéricos
Para resumir la información de un conjunto de datos, la estadística
descriptiva dispone de pocas medidas que concentran la máxima
información y que ofrecen un idea clara del comportamiento general de
los datos. Ellas están clasificadas en tres grupos.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 4/31


23/9/2020 Estadística Descriptiva (2)

Medidas de Tendencia Central

Cuando se dispone de un conjunto de observaciones, es de


interés encontrar el valor en torno al cual se agrupan la mayoría
de ellas o el centro de las mismas.

Las medidas descriptivas que permiten especificar estos valores


se denominan medidas de localización o medidas de tendencia
central.

Media

La media muestral, denotada como x̄ , se puede calcular como

x1 + x2 + … + xn
x̄ = ,
n

donde x 1, x2 , … , xn representan los n valores observados.

La media poblacional se calcula de forma similar, pero se


denota como μ. En la mayoría de los casos no es posible calcular
μ, dado que los datos de la población rara vez están disponibles.

La media muestral es un estadístico y sirve como una


estimación puntual de la media poblacional. Esta estimación
puede no ser perfecta, pero si la muestra es buena
file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 5/31
23/9/2020 Estadística Descriptiva (2)

(representativa de la población), suele ser una estimación


bastante buena.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 6/31


23/9/2020 Estadística Descriptiva (2)

Ejemplo 1:
library(readr)
DF <- read_csv("Datos_diversos.csv")

## Parsed with column specification:


## cols(
## X1 = col_character(),
## Codigo = col_double(),
## Apellido = col_character(),
## Nombre = col_character(),
## Seccion = col_double(),
## Ciclo = col_double(),
## Edad = col_double(),
## Estatura = col_double(),
## Peso = col_double(),
## Signo = col_character(),
## Sexo = col_character(),
## Carrera = col_character(),
## Reaccion = col_character(),
## Videojuegos = col_character(),
## Deporte = col_character()
## )

media <- mean(DF$Estatura,na.rm = TRUE)


media<-round(media,2)
media

## [1] 158.59

nrow(DF) - sum(is.na(DF$Edad))

## [1] 321

Los 321 participantes tienen una estatura promedio de 158.59


centímetros.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 7/31


23/9/2020 Estadística Descriptiva (2)

Ejemplo 2: Calcular la media de los siguientes datos:


x<- c(5,7,4,7,2,8,9)
media1<-mean(x)
media1

## [1] 6

x2<- c(5,7,4,7,2,8,95)
media2<-mean(x2)
media2

## [1] 18.28571

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 8/31


23/9/2020 Estadística Descriptiva (2)

Mediana

La mediana no es única, pero siempre existe.

Una mediana es un valor que garantiza que al menos la mitad


de los datos son mayores o iguales a ese valor y al menos la mitad
de los datos son menores o iguales a ese valor.

En R, la mediana es calculada siempre de la misma manera


mediante una fórmula donde:

Si el número de valores es impar, la mediana es la observación central.


Si el número de valores es par, la mediana es la media de las dos observaciones
centrales.

Características de la mediana

Se puede calcular para variables categóricas ordinales o numéricas.


El valor de la mediana depende del número de datos observados.
La mediana es un estadístico que no se ve afectado por valores
extremos ya que sólo influyen los valores centrales. Por eso se le
utiliza cuando hay dato atípicos o la distribución de las frecuencias no
es simétrica.
En su determinación no intervienen todos los valores de la variable.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 9/31


23/9/2020 Estadística Descriptiva (2)

Ejemplo 4: Calcular la estatura promedio de la sección de estadística de


46 alumnos.
altura <-c(1.80,1.81,1.74,1.65,1.83,1.60,1.80,1.72,1.67,1.80,1.60,1.68,1.50)
median(altura)

## [1] 1.72

Ejemplo 5: Calcular la mediana de los siguientes datos:


x<- c(5,7,4,7,2,8,9)
mediana1<-median(x)
mediana1

## [1] 7

x2<- c(5,7,4,7,2,8,95)
mediana2<-median(x2)
mediana2

## [1] 7

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 10/31


23/9/2020 Estadística Descriptiva (2)

Moda

La moda de un conjunto de datos observados de una variable es el


valor que se presenta con mayor frecuencia. Agrupe los datos y de
acuerdo a sus respectivas frecuencias, el dato o los datos con mayores
frecuencias son la o las modas.

Es importante resaltar que hay diferentes definiciones de moda


dependiendo del texto o autor. En la UTEC

Características de la moda

Se puede calcular para cualquier tipo de variable, aunque tiene


más sentido con datos cualitativos. Ej. en una muestra, el color de
cabello más frecuente.

El valor de la moda no se ve afectada por valores atípicos o


extremos.
file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 11/31
23/9/2020 Estadística Descriptiva (2)

La moda no siempre es un valor único: un conjunto de datos


puede tener dos (bimodal) o más modas (multimodal). La moda
puede no existir para un conjunto de datos.

Es más recomendable que la media cuando se trabaja con datos


que aún no han sido depurados.

Es la medida de tendencia central que se recomienda usar cuando


se analizan variables como salarios, ingresos totales, etc.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 12/31


23/9/2020 Estadística Descriptiva (2)

En cuanto a la moda, R no tiene implementada una función que la


calcule. Por lo que podemos definir una función que calcule la moda de
un conjunto de datos o usar un paquete que la tenga incorporada. Una
función que calcula la moda es
moda <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}

moda1 <- moda(altura)


moda2 <- moda(c(1,2,3,4,5,1,2,3,4,1,2,3,1,2,1))
moda1

## [1] 1.8

moda2

## [1] 1

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 13/31


23/9/2020 Estadística Descriptiva (2)

Medidas de Posición

Es conveniente referirnos a varios términos que son de uso


común en el mundo de la estadística: los cuartiles, los deciles y
los percentiles.

Estas medidas estadísticas corresponden a lo que se denomina


medidas de posición no central.

A un conjunto de datos ordenados se lo puede dividir en un


número fijo de partes iguales.

* Los cuartiles
dividen los datos clasificados en 4 segmentos con el mismo número de
datos por segmento.

El primer cuartil, Q , es el valor para el cual el 25% de las


1

observaciones son más pequeñas y el 75% son más grandes.

Q2 es igual que la mediana (50% son más pequeños, 50% son más
grandes).

Solo el 25% de las observaciones superan el tercer cuartil Q . 3

Observación:

Los cuartiles Q , Q y Q se pueden expresar como P , P


1 2 3 25 50 y
P , respectivamente.
75

Los deciles D , D , D … y D se pueden expresar como P ,


1 2 3 9 10

P , P … y P , respectivamente.
20 30 90

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 14/31


23/9/2020 Estadística Descriptiva (2)

Recordemos que la mediana es el valor que deja 50% de los datos


a izquierda y 50% a derecha, por lo tanto, se puede expresar
también como Q , D y P . 2 5 50

quantile(altura)

## 0% 25% 50% 75% 100%


## 1.50 1.65 1.72 1.80 1.83

quantile(altura,.25)

## 25%
## 1.65

quantile(altura,.50)

## 50%
## 1.72

quantile(altura,.75)

## 75%
## 1.8

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 15/31


23/9/2020 Estadística Descriptiva (2)

Medidas de dispersión

Luego de determinar la localización de las observaciones, es


conveniente medir su grado de dispersión o variación alrededor
del centro. Las medidas que permiten especificar esta
característica se denominan medidas de dispersión.

Las medidas de dispersión permiten observar cuán agrupados o


cuán dispersos están los datos.

Estas medidas deben tener la propiedad de que si los datos están


ampliamente extendidos, la medida será alta; y cuando los datos
se encuentren muy agrupados, será baja.

Rango

La medida más sencilla de dispersión es el rango.

Es la amplitud o recorrido de un conjunto de datos.

Rango(x) = x − x
á
m ximo m nimo í

summary(altura) # Indica el mínimo, el máximo, los 3 cuartiles (P25, P50 y P75) y la media.

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 1.500 1.650 1.720 1.708 1.800 1.830

Rango = max(altura) - min(altura)


Rango

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 16/31


23/9/2020 Estadística Descriptiva (2)

## [1] 0.33

Características del rango

Es una medida muy sencilla pero poco confiable pues solo toma en
cuenta los extremos del conjunto de datos y ellos podrían ser atípicos.
Apropiado para variables numéricas.
Su utilidad puede estar en muestras pequeñas (menos de 10 datos).

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 17/31


23/9/2020 Estadística Descriptiva (2)

Rango intercuartil (IQR)

Es el rango o amplitud del 50% de los datos centrales.


Si es pequeño describe poca variabilidad en los valores centrales.
No depende de valores extremos.
Se calcula para variables numéricas.

RIC = Q 3 − Q 1 = P75 − P25

Rango_Intercuartil <- IQR(altura)


Rango_Intercuartil

## [1] 0.15

Características rango intercuartil:

Es fácil de calcular.
Se ve poco afectado por la presencia de valores atípicos.
En su determinación no interviene la totalidad de los datos.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 18/31


23/9/2020 Estadística Descriptiva (2)

Varianza

La varianza es el promedio de los cuadrados de las desviaciones


de los datos con respecto a su media aritmética.

Tiene unidades de medición al cuadrado.

No se interpreta.

¿Cómo podríamos hacer para cuantificar la dispersión o


variabilidad de un conjunto de datos? ¿La dispersión con respecto
a quién?

Características de la varianza:

La varianza muestral es una medida bastante buena para medir la


variabilidad entre los datos.
Al igual que la media es muy sensible a la presencia de valores
extremos (más aún por estar elevada al cuadrado).
El inconveniente de la varianza es que las unidades no son las mismas
que la de los datos elevadas al cuadrado. Difícil de interpretar.

varianza <- var(altura)


varianza

## [1] 0.0103359

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 19/31


23/9/2020 Estadística Descriptiva (2)

Desviación estándar

La desviación estándar es la medida de variabilidad más utilizada, es el


desvío estándar muestral o desviación típica.

sd(altura)

## [1] 0.1016656

Características de la desviación estándar

Se expresa en las mismas unidades que los datos originales.


En su cálculo intervienen todos los valores de la distribución y por ello
puede ser complicado.
Se ve muy afectada por la presencia de valores atípicos.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 20/31


23/9/2020 Estadística Descriptiva (2)

Coeficiente de variación

Compara la variabilidad de conjuntos de datos que tengan unidades


diferentes.
Se calcula para variables numéricas.
s
CV =

donde s es la desviación estándar.

Características del coeficiente de variación

En su cálculo intervienen todas las observaciones. pudiendo ser muy


influido por valores atípicos.
Puede ser difícil de interpretar.
Pierde su significado si el promedio es igual a cero.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 21/31


23/9/2020 Estadística Descriptiva (2)

¿La esperanza de vida y la fecundidad total parecen estar asociadas o ser


independientes? Parecen ser lineales y asociado negativamente: como
fertilidad aumenta, la esperanza de vida disminuye. ¿La relación fue la
misma a lo largo de los años o cambió? La relación cambió durante el
años.

Gráficos de dispersión (Scatterplots)


Los diagramas de dispersión son útiles para visualizar la
relación entre dos variables numéricas.

¿La esperanza de vida y la fertilidad total parecen estar


asociadas o son independientes?

Si observamos la gráfica, parecen estar asociados de forma lineal


y negativa: a medida que aumenta la fertilidad, disminuye la
esperanza de vida.

¿La relación fue la misma a lo largo de los años o cambió?

La relación cambió con los años.

Información obtenida de http: //www.gapminder.org

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 22/31


23/9/2020 Estadística Descriptiva (2)

Gráficos de puntos (dot plots)


Útiles para visualizar una variable numérica. Los colores más
oscuros representan áreas donde hay más observaciones.

Considere el promedio de calificaciones (GPA, grade point


average) de un grupo de 193 estudiantes de una universidad
privada de Estados Unidos (información obtenida de OpenIntro
Statistics).

¿Cómo describiría la distribución de los GPA en este conjunto de datos?


Se debe indicar algo sobre el centro, la forma y la extensión de la
distribución.

Gráficos de puntos y media

La media (marcada con un triángulo en la gráfica anterior), es una


forma de medir el centro de una distribución de datos.

La media del GPA para este conjunto de datos es x̄ = 3.59 .

La media muestral, denotada como x̄ , puede calcularse como


x1 + x2 + ⋅ ⋅ ⋅ + xn
x̄ = ,
n

donde x 1, x2 , … , xn representan los n valores observados.

La media de la población también se calcula de la misma


manera, pero se denota como μ. A menudo no es posible
file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 23/31
23/9/2020 Estadística Descriptiva (2)

calcular μ ya que los datos de población rara vez están


disponibles.

La media muestral es un estadístico muestral y sirve como una


estimación puntual de la media poblacional. Es posible que
esta estimación no sea perfecta, pero si la muestra es buena
(representativa de la población), generalmente es una estimación
bastante buena.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 24/31


23/9/2020 Estadística Descriptiva (2)

Gráficos de puntos apilados


Las barras más altas representan áreas donde hay más observaciones,
hace que sea un poco más fácil juzgar el centro y la forma de la
distribución.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 25/31


23/9/2020 Estadística Descriptiva (2)

Histogramas
Los histogramas proporcionan una vista de la densidad de
datos. Las barras más altas representan donde los datos son
relativamente más comunes.

Los histogramas son especialmente convenientes para describir la


forma de la distribución de datos.

El ancho de clase seleccionado puede alterar la historia que


cuenta el histograma.

Ancho de la clase

El Ancho de clase aproximadamente es: (valor máximo-valor


mínimo)/cantidad de clases

¿Cuáles de estos histogramas son útiles? ¿Cuál revela bastante


sobre los datos? ¿Cuál esconde demasiado?

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 26/31


23/9/2020 Estadística Descriptiva (2)

Forma del histograma: modalidad

Para determinar la modalidad, imagine una curva suave sobre el


histograma.

¿El histograma tiene un solo pico prominente (unimodal), varios


picos prominentes (bimodal/multimodal) o ningún pico aparente
(uniforme)?

*¿Cuantos picos (máximos locales) prominentes tiene el histograma?

Sólo uno ⟶ unimodal


Dos ⟶ bimodal
Tres o más ⟶ multimodal
Ningún pico ⟶ uniforme

Forma de la distribución: asimetría o sesgo


¿El histograma está sesgado a la derecha, sesgado a la izquierda* o
simétrico**?

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 27/31


23/9/2020 Estadística Descriptiva (2)

Cuando los datos se mueven en una dirección se dice que la


distribución tiene cola.

Si la distribución tiene cola hacia la izquierda, entonces es sesgada


hacia la izquierda.

Si la distribución tiene cola hacia la derecha, entonces es sesgada


hacia la derecha.

¿Dónde se ubican la media y la mediana en estas distribuciones?

Forma de la distribución: observaciones


inusuales o datos atípicos
¿Existen observaciones inusuales o posibles datos atípicos
(outliers)?

¿Por qué los outliers son importantes?

Revelan información sobre la falta de simetría/sesgo.


Pueden llevar a revisar la carga de los datos (errores de tipeo).
Brindan información interesante sobre la distribución de los datos.

Ejemplo: Actividades extracurriculares

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 28/31


23/9/2020 Estadística Descriptiva (2)

¿Cómo describiría la forma de la distribución de horas por semana que


los estudiantes pasan en actividades extracurriculares?

Unimodal y sesgado a la derecha, con una observación potencialmente


inusual a las 60 horas/semana.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 29/31


23/9/2020 Estadística Descriptiva (2)

Boxplot Diagrama de caja


El cuadro en un boxplot representa el 50% de los datos, y la línea
gruesa en el cuadro es la mediana.

Anatomía de un diagrama de caja

Bigotes y valores atípicos

Los bigotes de un boxplot se extienden hasta 1.5 × IQR desde los


cuartiles

alcance máximo del bigote superior = Q 3 + 1.5 × IQR

alcance máximo del bigote inferior = Q 1 − 1.5 × IQR

IQR: 20−10 = 10

alcance máximo de bigote superior = 20 + 1.5 × 10 = 35

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 30/31


23/9/2020 Estadística Descriptiva (2)

alcance máximo de bigote inferior = 10 − 1.5 × 10 = −5

Un valor atípico potencial se define como una observación


más allá del alcance máximo de los bigotes.

Es una observación que parece extrema en relación con el resto


de los datos.

¿Por qué los valores atípicos son importantes?

Revelan información sobre la falta de simetría/sesgo.

Pueden llevar a revisar la carga de los datos (errores de tipeo)

Proporcionan información interesante sobre la distribución de los


datos.

file:///C:/Users/Usuario/Desktop/Brigida/UTEC/EyP/2020-II/Semana 4/Clase03.html#(2) 31/31

También podría gustarte