Está en la página 1de 24

Suscríbete a DeepL Pro para poder traducir archivos de mayor ta

Más información disponible en www.DeepL.com/pro.

¿Por qué son importantes las estadísticas descriptivas?


En enero de 1986, el transbordador espacial Challenger se partió en dos poco después
del despegue. El accidente fue causado por una pieza que no estaba diseñada para volar
a la temperatura inusualmente fría de 29◦ F en el momento del lanzamiento.
Estas son las temperaturas de lanzamiento de las 25 primeras misiones del
transbordador (en grados F):
66,70,69,80,68,67,72,70,70,57,63,70,78,67,53,67,75,70,81,76,79,75,76,58,29
10
8
Frecuencia

6
4
2
0
20 30 40 50 60 70 80 90

Temperatura
Las dos funciones más importantes de las estadísticas descriptivas son:
► Comunicar información
► Apoyar el razonamiento sobre los datos

Cuando se exploran datos de gran tamaño, resulta esencial utilizar resúmenes.


Resúmenes gráficos de datos

Lo mejor es utilizar un resumen gráfico para comunicar la información, porque la gente


prefiere mirar imágenes antes que números.

Hay muchas formas de visualizar datos. La naturaleza de los datos y el objetivo de la


visualización determinan qué método elegir.
Gráfico circular y diagrama de puntos

California

Internacional

Otros EE.UU.

Washington
Oregón

Internacional
Oregón

Otros California
Washington EE.UU.

0 10 20 30 40

Porcentaje

El gráfico de puntos facilita la comparación de frecuencias de varias categorías, mientras


que el gráfico circular permite ver más fácilmente a qué fracción del total corresponde
una categoría.
Gráfico de barras
Cuando los datos son cuantitativos (es decir, números), deben colocarse en una recta
numérica. Esto se debe a que el orden y la distancia entre los números transmiten
información importante.
El gráfico de barras es básicamente un diagrama de puntos puesto de lado.

8
6
4
2
0

3 4 5 6

Número de tareas realizadas


El histograma

El histograma permite utilizar bloques con anchuras diferentes.

Punto clave: Las áreas de los bloques son


proporcionales a la frecuencia.

Así, el porcentaje que cae en un bloque puede calcularse sin escala vertical, ya que el
área total es igual al 100%.
Pero es útil tener una escala vertical (escala de densidad). Su unidad es "% por unidad",
por lo que en el ejemplo anterior la unidad vertical es "% por año".
El histograma proporciona dos tipos de información sobre los
datos:

1. Densidad (hacinamiento): La altura de la barra indica cuántos sujetos hay para una
unidad en la escala horizontal. Por ejemplo, la mayor densidad se da en torno a los 19
años, ya que
.04 = 4% de todos los sujetos tienen 19 años. En cambio, sólo alrededor del 0,7%
de los sujetos entran en cada intervalo de un año para las edades comprendidas
entre 60 y 80 años.
2. Porcentajes (frecuencias relativas): Vienen dados por

superficie = altura x anchura.

Por ejemplo, aproximadamente el 14% de todos los sujetos se encuentran en el


intervalo de edad de 60-80 años, porque el área correspondiente es (20 años) x (0,7%
por año)=14%. Alternativamente, puedes encontrar esta respuesta calculando a ojo
que esta área representa aproximadamente 1/7 del área total del histograma, por lo
que aproximadamente 1/7=14% de todos los sujetos se encuentran en ese rango.
El boxplot (diagrama de cajas y bigotes)
El diagrama de caja representa cinco cifras clave de los datos:

30
Millas por galón para 32

20 25
coches
15
10
El diagrama de caja transmite menos información que un histograma, pero ocupa
menos espacio, por lo que es muy adecuado para comparar varios conjuntos de datos:

30 25
Kilómetros por
galón
20 15
10

4 6 8

Número de cilindros
Diagrama de dispersión

El diagrama de dispersión se utiliza para representar datos que vienen como pares.

25000

20000

El diagrama de dispersión visualiza la


15000
Ingresos

relación entre las dos variables.


10000

5000

0
6 8 10 12 14 16

Educación
Proporcionar contexto es importante
Los análisis estadísticos suelen comparar los datos observados con una referencia. Por lo
tanto, el contexto es esencial para la integridad gráfica.
► La visualización de la información cuantitativa" de Edward Tufte (p. 74)

Una forma de proporcionar contexto es utilizar múltiplos pequeños. El diseño compacto


del boxplot lo hace muy adecuado para esta tarea:
Proporcionar contexto con múltiplos pequeños
Medidas de resumen numérico

Para resumir los datos con un número, utilice la media o la mediana. La mediana es el
número que es mayor que la mitad de los datos y menor que la otra mitad.
Media frente a mediana
La media y la mediana son iguales cuando el histograma es simétrico.

100 mediciones de la velocidad de la luz

30
25
20
15
10
5
0

600 700 800 900 1000 1100

km/seg
Media frente a mediana
Cuando el histograma está sesgado a la derecha, la media puede ser mucho mayor que
la mediana.

Por tanto, si el histograma está muy sesgado, utilice la mediana.


Media frente a mediana
Si el precio medio de venta de 10 viviendas es de 1 millón de dólares, entonces sabemos
que 5 viviendas se vendieron por
1 millón de dólares o más.
Si nos dicen que el precio medio de venta es de 1 millón de dólares, no podemos sacar
esa conclusión:
Percentiles

El percentil 90 de los ingresos es


135.000 $: el 90% de los hogares
declaran unos ingresos de 135.000 $ o
menos, el 10% declaran más.

El percentil 75 se denomina 3er cuartil: 85.000 $ El


percentil 50 es la mediana: 50.000 $.
El percentil 25 se denomina 1er cuartil.
Resumen de cinco números

Recuerde que el diagrama de caja ofrece un resumen de los d a t o s con


cinco números: el número más pequeño, el primer cuartil, la mediana, el
tercer cuartil y el número más grande.

Millas por galón para 32

30
25
coches
20
15
10

El rango intercuartílico = 3er cuartil - 1er cuartil.


Mide la dispersión de los datos.
La desviación típica

Una medida de dispersión más utilizada es la desviación típica.


x¯ representa la media de los números x1 , . . . , xn .
La desviación típica de estas cifras es
, ,
u 1 Σn u Σ n
s = ,n (xi - x ¯ ) 2 o , 1 (xi - x ¯ ) 2
i=1
n-1
i=1

Los dos números x¯ y s se utilizan a menudo para resumir datos. Ambos son sensibles
a unos pocos datos grandes o pequeños.
Si eso le preocupa, utilice la mediana y el rango intercuartílico.

También podría gustarte