Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Descriptiva
Septiembre 2020
Descriptores Gráficos
Gráficas de dispersión
Histogramas
Diagramas de caja (boxplot)
Puntos superpuestos
Presentación de resultados
Examinando los datos
El primer análisis de un conjuntos de datos se puede realizar:
Descriptores Numéricos
Para resumir la información de un conjunto de datos, la estadística
descriptiva dispone de pocas medidas que concentran la máxima
información y que ofrecen un idea clara del comportamiento general de
los datos. Ellas están clasificadas en tres grupos.
Media
x1 + x2 + … + xn
x̄ = ,
n
Ejemplo 1:
library(readr)
DF <- read_csv("Datos_diversos.csv")
## [1] 158.59
nrow(DF) - sum(is.na(DF$Edad))
## [1] 321
## [1] 6
x2<- c(5,7,4,7,2,8,95)
media2<-mean(x2)
media2
## [1] 18.28571
Mediana
Características de la mediana
## [1] 1.72
## [1] 7
x2<- c(5,7,4,7,2,8,95)
mediana2<-median(x2)
mediana2
## [1] 7
Moda
Características de la moda
## [1] 1.8
moda2
## [1] 1
Medidas de Posición
* Los cuartiles
dividen los datos clasificados en 4 segmentos con el mismo número de
datos por segmento.
Q2 es igual que la mediana (50% son más pequeños, 50% son más
grandes).
Observación:
P , P … y P , respectivamente.
20 30 90
quantile(altura)
quantile(altura,.25)
## 25%
## 1.65
quantile(altura,.50)
## 50%
## 1.72
quantile(altura,.75)
## 75%
## 1.8
Medidas de dispersión
Rango
Rango(x) = x − x
á
m ximo m nimo í
summary(altura) # Indica el mínimo, el máximo, los 3 cuartiles (P25, P50 y P75) y la media.
## [1] 0.33
Es una medida muy sencilla pero poco confiable pues solo toma en
cuenta los extremos del conjunto de datos y ellos podrían ser atípicos.
Apropiado para variables numéricas.
Su utilidad puede estar en muestras pequeñas (menos de 10 datos).
## [1] 0.15
Es fácil de calcular.
Se ve poco afectado por la presencia de valores atípicos.
En su determinación no interviene la totalidad de los datos.
Varianza
No se interpreta.
Características de la varianza:
## [1] 0.0103359
Desviación estándar
sd(altura)
## [1] 0.1016656
Coeficiente de variación
Histogramas
Los histogramas proporcionan una vista de la densidad de
datos. Las barras más altas representan donde los datos son
relativamente más comunes.
Ancho de la clase
IQR: 20−10 = 10