Está en la página 1de 13

2.

Despliegue de datos
(estadística descriptiva)
Análisis estadístico de los
datos contenidos en una única
variable
Descripción
En este capítulo se verá cómo realizar
un análisis estadístico sencillo de los
datos contenidos en una única variable,
hablándose, por tanto, de variable
estadística unidimensional.
Se explicará cómo calcular sus medidas
estadísticas más representativas, así
como la forma de obtener distintas
representaciones gráficas.
Medidas de tendencia
central
• Media: es el resultado de sumar todos los datos y dividir el resultado
por el número total de ellos.
𝑛
𝑥1 + 𝑥2 + ⋯ . +𝑥𝑛 𝑖=1 𝑥𝑖
𝑥= =
𝑛 𝑛

• Moda: es el valor que se repite más veces.

• Mediana: es un valor tal que, supuestos ordenados de forma creciente


todos los valores del conjunto de datos, la mitad de los elementos son
menores a él y la otra mitad son mayores.

• Media geométrica:
𝑥𝑔 = 𝑛 𝑥1 × 𝑥2 × 𝑥3 × ⋯ .× 𝑥𝑛
Medidas de
dispersión
• Rango: es la diferencia entre el valor mayor y el valor menor del conjunto de
datos.

• Varianza:
2
𝑥𝑖 − 𝑥
𝑆𝑥2 =
𝑛−1

• Desviación típica (desviación estándar): es la raíz cuadrada de la


varianza. Se mide en las mismas unidades que los datos objeto de estudio.
𝑆𝑥 = 𝑆𝑥2

Para una distribución normal


𝑥 − 𝑆𝑥 ; 𝑥 + 𝑆𝑥 A una Sx de la media se encuentra el 68.3% de las observaciones
𝑥 − 2𝑆𝑥 ; 𝑥 + 2𝑆𝑥 A dos Sx de la media se encuentra el 95.5% de las observaciones
𝑥 − 3𝑆𝑥 ; 𝑥 + 3𝑆𝑥 A tres Sx de la media se encuentra el 99.7% de las observaciones
Medidas de
dispersión
• Coeficiente de variación de Pearson: da una medida adimensional
de la variación de un conjunto de datos. Es, por tanto, útil para comparar
conjuntos de datos que miden cosas distintas.
𝑆𝑥
𝐶𝑉 = × 100%
𝑥

• Error estándar: se obtiene dividiendo la (cuasi)desviación típica por el


total de datos.
𝑆𝑥
𝑒=
𝑛

• Rango intercuartílico (RIC): es el resultado de restar los cuartiles


tercero y primero (se definen a continuación).
Medidas de posición
• Cuartiles: son los valores que dividen los datos (previamente
ordenados) en cuatro partes iguales.
Mínimo Máximo
25% 25% 25% 25%

Q1 Q2 Q3

• Percentiles: son los 99 valores que dividen al conjunto


ordenado de datos en 100 partes iguales.
Mediana

Cuartiles Q1 Q2 Q3
Percentiles 10% 20% 25% 30% 40% 50% 60% 70% 75% 80% 90%
Medidas de forma
• Asimetría: un valor igual a 0 sugiere que la distribución es simétrica, un
valor mayor que cero indica si hay asimetría a la derecha (los valores más
extremos son mayores que la media); y un valor menor que cero indica que
hay asimetría a la izquierda (los valores más extremos son menores que la
media).
Coeficiente de asimetría de
Fisher:
𝟏 𝟑
× 𝒙𝒊 − 𝒙
𝑪𝑭 = 𝒏
𝑺𝟑𝒙

Asimetría estándar: coeficiente de asimetría corregido, que


𝐶𝐹
proporciona un criterio de normalidad de la distribución. Si este • 𝐶𝐹_𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 =
6
valor está comprendido entre -2 y 2 puede considerarse que la 𝑛
distribución es normal.
Medidas de forma
Curtosis estándar: se trata de un coeficiente corregido para 𝐶𝑘
la curtosis. Si este valor está comprendido entre -2 y 2 puede • 𝐶𝑘_𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑎 =
6
considerarse que la distribución de partida es normal. 𝑛

Curtosis: Indica si la distribución está más o menos apuntada que la distribución


normal. Un valor mayor que cero indica que está más apuntada (forma puntiaguda),
un valor igual a cero indica mismo apuntamiento que la normal, un valor menor que
cero indica menos apuntada (aplanada). Los términos utilizados son: Normal
(mesocúrtica), Aplanada (platicúrtica), Puntiaguda (leptocúrtica)
1 4
× 𝑥𝑖 − 𝑥
𝐶𝑘 = 𝑛 −3
𝑆𝑥4
Representaciones
tabulares
Tabla de frecuencias:
expresa cada dato y las veces
que aparecía en la muestra
(frecuencia absoluta).
Se crea una tabla con
intervalos (clases) y el número
de datos de la muestra que
estaba contenido en cada
uno. El intervalo se representa
por el punto medio del
mismo.
Se recomienda entre 5 y 20
intervalos.
• El número de clases es la
raíz cuadrada del número
de datos.
• Otros criterio, fórmula de
Strugles: El Statgraphics usa como regla :
𝑘 = 1 + 3.322 × 𝑙𝑜𝑔10 𝑛 #𝒄𝒍𝒂𝒔𝒆𝒔 = 𝟏𝟎 × 𝐥𝐨𝐠 𝟏𝟎 (𝒏)
Medidas de forma
• Diagrama de tallo y hojas (Stem-and-Leaf): Representa los datos de
forma que el resultado dé una idea de la forma y características de la
distribución de los datos. Es fácil contar hasta llegar a la mitad del
conjunto de datos y obtener así gráficamente su mediana.
Representaciones
gráficas
Gráfico de cajas y bigotes: da una impresión visual de la asimetría, la dispersión, la
existencia de valores atípicos, etc.
Los bigotes se extienden hasta los valores máximo y mínimo de la serie o hasta 1.5
veces el RIC: se consideran atípicos los valores inferiores a Q1–1.5RIC o superiores a
Q3+1.5RIC
– La mayor o menor longitud de las líneas horizontales dan una idea de mayor o menor
dispersión.
Gráfico de Caja y Bigotes
– También se puede comentar la asimetría de la distribución en función de dicha longitud.

Q1 Q3 Puntos En este caso, hay 4 puntos


alejados alejados y 2 puntos muy alejados.
La presencia de puntos muy
alejados puede indicar la
presencia de valores aberrantes ó
una distribución muy sesgada.
media mediana
Los puntos muy alejados están a más de 3,0 veces
el RIC y se muestran como pequeños cuadrados
39 43 47 51 55 59
diámetro interior
con un signo más dentro de ellos.
(X 0,001)
Representaciones
gráficas
Histograma y polígono de frecuencias:
Se trata de representar gráficamente, en forma de rectángulos contiguos, los
intervalos obtenidos en la tabulación de frecuencias.
Histograma Polígono

6 30

5 25

4 20

porcentaje
frecuencia

3 15

2 10

1 5

0 0
38 42 46 50 54 58 38 42 46 50 54 58
(X 0,001) (X 0,001)
diámetro interior diámetro interior

Histograma Polígono

30 6

25 5

20 4
porcentaje

frecuencia

15 3

10 2

5 1

0 0
38 42 46 50 54 58 38 42 46 50 54 58
(X 0,001) (X 0,001)
diámetro interior diámetro interior
Representaciones
gráficas
• Las gráficas pueden ser en frecuencias relativas o absolutas.
• Las frecuencias relativas salen de dividir las vece que aparece una clase
sobre el número total de datos
Histograma
Histograma

24
100

20
80
16
frecuencia

porcentaje
60
12

40
8

4 20

0
0
38 42 46 50 54 58
(X 0,001) 38 42 46 50 54 58
diámetro interior (X 0,001)
diámetro interior

Polígono Polígono

24 100

20
80

16
porcentaje
frecuencia

60
12
40
8

20
4

0 0
38 42 46 50 54 58 38 42 46 50 54 58
(X 0,001) (X 0,001)
diámetro interior diámetro interior

También podría gustarte