Estadística Descriptiva

Orlandoni Merli, Giampaolo; 2010. Escalas de medición en Estadística. Telos 12: 243-247 .
En Maracaibo hay una temperatura de 40 °C. En Mérida hay una temperatura de 20 ° C
¿Diría usted que en Maracaibo hay el doble de temperatura que en Mérida?
°F = °C * (9/5) + 32
MEDIDAS DE TENDENCIA CENTRAL
Son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores.
Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Se definen
como un valor representativo de un conjunto de datos. Las medidas de tendencia central más
utilizadas son: Media, Mediana y Moda.
MEDIDAS DE DISPERSIÓN
Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad

de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una
variable están muy alejadas con respecto a un valor de tendencia central, por lo general, la
media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más
homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre
ellos (Desviación Típica, Coeficiente de Variación, Rango, Varianza, Rango Intercuartil).
MEDIDAS ESTADÍSTICAS DE POSICIÓN
Tienen la propiedad de dividir al conjunto de datos, previamente ordenados de menor a mayor,

en grupos con el mismo número de términos (Percentiles, Deciles, Cuartiles ).
MEDIDAS DE TENDENCIA CENTRAL
log (r+1)
log (r+1)
Media Geométrica Modificada
Si lo realizamos usando logaritmo neperiano (ln) : ln (x1+1) + ln (x2+1) + ln (x3+1)
En este caso:
e [ln(xi+1)/n]
= X geo ----- (2.7182818….) 0 = 1
Si a esto le restas 1, es decir, (2.7182818….) 0 -1 = 0
Esto se corresponde con los datos

Medidas de variabilidad o dispersión
La varianza, , se define como la media de las diferencias

cuadráticas de n puntuaciones con respecto a su media
aritmética, es decir
Para datos agrupados en tablas, usando las notaciones

establecidas, la varianza se puede escribir como
La varianza no tiene la misma magnitud que las
observaciones (ej. si las observaciones se miden en metros,
la varianza lo hace en ). Si queremos que la medida
de dispersión sea de la misma dimensionalidad que las
observaciones bastara con tomar su raíz cuadrada. Por ello
se define la desviación típica, , como
La varianza no tiene la misma magnitud que las
observaciones (ej. si las observaciones se miden en metros,
la varianza lo hace en ). Si queremos que la medida
de dispersión sea de la misma dimensionalidad que las
observaciones bastara con tomar su raíz cuadrada. Por ello
se define la desviación típica, , como
Coeficiente de Variación
COEFICIENTE DE VARIACIÓN
Medida estadística que nos informa acerca de la dispersión relativa de un conjunto de datos
El coeficiente de variación es una calificación que permite a los usuarios evaluar la calidad
estadística de las estimaciones.
Se considera que una estimación con un coeficiente de variación:
1. Hasta del 7%, es precisa;
2. Entre el 8 y el 14% significa que existe una precisión aceptable;
3. Entre el 15% y 20% precisión regular y por lo tanto se debe utilizar con precaución.
4. Mayor del 20% indica que la estimación es poco precisa y por lo tanto se recomienda utilizarla
sólo con fines descriptivos
OTRAS MEDIDAS DE VARIABILIDAD
Desviación Media (DM): Valor promedio de las

desviaciones, tomadas en valor absoluto con
respecto a la media. Se calcula de la siguiente
manera
n

i 1
[ Xi  X ] / N
Otra opción usada para calcularla es empleando la

Mediana (Me) o la Moda (Mo):
n

i
[ X i  Me ]
1
/N
n

i
[ X i  Mo ]
1
/N
MEDIDAS DE POSICIÓN
La medida de posición es un número que representa un punto

específico dentro de una serie de valores. Una medida de
posición muy útil para describir la población, es la
denominada percentil. En forma intuitiva podemos decir que
es un valor tal que por debajo de él se encuentra
determinado porcentaje de los datos.
Las medidas de posición más usadas son los percentiles, los

cuarteles y los deciles.
Se denominan percentiles a los valores que corresponden a

determinado porcentaje de la frecuencia acumulada. Por
ejemplo, el percentil 65 (P65) es el valor que corresponde
al 65 % de la frecuencia acumulada, es decir por debajo de
ese valor se encuentra el 65 % de los datos.
Los percentiles múltiplos de diez ( P10, P20, P30, P90) se le

denominan deciles (D1, D2, D3 , D9).
Los tres percentiles (P25, P50 y P75) que dividen a una

serie de datos en cuatro partes iguales se denominan
cuartiles y se representan por Q1, Q2 y Q3 respectivamente.
Por lo tanto Q1 = P25, Q2 = P50 ( = Mediana) y Q3 = P75.
Para calcular percentiles a una serie de datos no agrupados
se procede de la siguiente manera:
- Se ordenan los datos de menor a mayor
- Si los datos son pares, se aplica la siguiente formula:
Kx (X * n) / k
- Si los datos son impares, se aplica la siguiente formula:
Kx[X*(n+1)]/k
Donde:
X = percentil (1,2,3,....,98,99)
quartil(1,2,ó 3)
ó decil (1,2,3,4,...,9)
n = número de datos, y k = 100 (si es percentil),
= 4 (si es quartil)
= 10 (si es decil)
Ejemplo:
Calificaciones en un examen de Estadística (escala 1 a 20)
16. 14, 17, 16, 11, 18,6, 15.
Se ordenan las calificaciones de menor a mayor
6, 11, 14, 15, 16, 16, 17, 18 (Son datos pares)
P75 = (75*8)/100 =6
El percenlil 75 se encuentra en la sexta posición (su valor
es 16) y por debajo de este valor esta el 75 % de los
datos.
D7 = (7*8)/lO = 5.6
El decil 7 se encuentra entre el 5to. Y el 6to. dato, (su
valor esta entre 16-16).
Q3 = (3*8)/4 = 6
Esto significa que el Q3 se encuentra en la sexta posición
(su valor es 16).
Ejemplo. Caso de la fabricación de Chocolates
La fábrica de chocolate, tiene indicios que el peso de las barras que produce, presenta una
variabilidad más alta que la deseada, no obstante que el peso nominal es de 30 gramos.
Se desea estudiar esta situación e identificar algunas acciones que permitan generar una mejora en
cuanto a la heterogeneidad.
¿Qué tan grave es la situación?. Dado que la variabilidad es inevitable, ¿qué quiere decir una
variabilidad más alta que la deseada? ¿Cuál es la deseada? ¿Cuál es el peso de las barras de
chocolate que se producen?
La respuesta a esta última pregunta no es un solo número, porque existe variabilidad, porque se
sabe que es inevitable que todas las barras de chocolate salgan con peso diferente.
Una muestra aleatoria de barras de chocolate es obtenida, los pesos registrados aparecen a
continuación:
30,44 29,96 30,14 29,96 29,83 30,47 30,26 29,77 30,13 29,91
30,02 29,76 30,3 30,01 30,2 30,1 30,1 30,35 30,07 29,85
29,67 29,67 29,95 30,05 30,15 30,22 30,07 30,06 29,69 29,67
No obstante que son solo 30 datos, obtener alguna conclusión solo mirando los datos anteriores es
difícil. Para tener una primera mirada de la situación podemos recurrir al más sencillo de los
gráficos un diagrama de puntos.
Diagrama de puntos para el peso de barras de chocolate en una muestra aleatoria de 30 unidades.
Gráfico muy sencillo, que permite ver de un solo golpe de vista todos los datos, su ubicación relativa, las zonas donde
están más concentrados y si aparecen algunas posibles anomalías (puntos atípicos). Este gráfico es muy útil, sobre
todo cuando la muestra no es demasiado grande.
Se detecta que los datos varían entre los valores extremos de 29.67 gramos (mínimo) y 30,47 gramos
(máximo).
A la diferencia se le denomina rango. Rango = Máximo-Mínimo=30,47 gr. - 29,67 gr. = 0,8 gr.
Podemos responder ahora la pregunta: ¿Existe demasiada variabilidad?
Sabemos que la diferencia entre la barra más pesada y la más liviana es de 0,8 gramos. ¿Es grande este valor?
Para intentar responder, como clientes de los chocolates, hacemos conciencia que si en el mercado nos dieran
una barra de chocolate de 29,7 gramos, cuando en el empaque dice 30 gramos, muy seguramente no lo
notaríamos, de la misma manera si la barra pesara 30,5 gramos, tampoco nos enteraríamos del exceso.
La reflexión anterior, nos haría pensar, en calidad de consumidores, que la variabilidad revelada en la muestra
no es exagerada.
Sin embargo, desde el punto de vista del fabricante otro podría ser el panorama, pues por un lado, para la
industria de alimentos y los procesos de empacado, existe la legislación que toma en consideración la
variabilidad, pero que define normas muy precisas para su control.
En esta situación la pregunta podría convertirse en: ¿Estamos cumpliendo con las normas legales?
Por otro lado, dependiendo de la capacidad de los procesos de la fábrica y de las políticas de la empresa frente
a la competitividad, la propia empresa podría tener normas internas de calidad, mucho más exigentes que las
normas legales.
En este casos la pregunta sería: ¿Estamos cumpliendo con las normas y políticas de la empresa?
En ambos casos, para emitir un juicio, requeriríamos de las especificaciones para el producto.
Imaginemos que la empresa por todas las consideraciones anteriores, ha definido el siguiente límite de
especificación:
una barra de chocolate se considera conforme si su peso se encuentra entre 29,7 gramos y 30,3 gramos.
¿Qué nos dice la muestra frente a estas especificaciones?
Calculemos pues, con este criterio, qué porcentaje de las barras de chocolate de la muestra no cumplen con
las especificaciones.
La respuesta puede deducirse a partir del siguiente diagrama de puntos en el que se han marcado los límites
de especificación para las barras de chocolate.
Valoración de la variabilidad al confrontar la muestra con los límites de especificación del producto.
Observemos que de las 30 barras de chocolate hay 5 que no cumplen con las especificaciones definidas por la
fábrica, lo cual representa aproximadamente es un 17%, lo cual denota una situación delicada.
Esta exploración, nos ha permitido corroborar la sensatez de la presunción que ha dado origen a
estas pesquisas. Antes de seguir adelante, conviene plantear una reflexión:
¿Si tomáramos de nuevo una muestra aleatoria de 30 barras, obtendríamos exactamente los mismos
resultados?
CONSTRUCCION DE HISTOGRAMA
Veamos el siguiente ejemplo : suponga que una persona investiga el precio de cierto artículo y
elige 40 puntos de venta al azar obteniendo los siguientes resultados :
60 75 89 77 65 80 63 72
87 64 73 75 67 74 75 74
68 73 75 75 74 76 71 76
86 82 70 71 68 78 83 77
74 67 88 80 72 78 85 84
Observaciones
Tipo de variable : Discreta.
Tamaño de la muestra = n = 40.
No es posible a partir de la sola presentación de los datos obtener ninguna conclusión.
Aunque podemos hacer cierto cálculos sobre lo datos tal como están ( datos no agrupados ) a
continuación estudiaremos la forma de agruparlos.
Si presentamos los datos compactados en una tabla, hablaremos de datos agrupados.
Para agrupar los datos contabilizaremos el número de veces que se repiten los diferentes datos en la
muestra.
A esto lo llamaremos frecuencia absoluta y lo denotaremos por ni
La tabla siguiente muestra estas frecuencias en el rango de valores de Xi.
Observemos que los valores mínimo y máximo en la muestra son : 60 y 89 respectivamente.
El rango de los datos lo denotaremos por R y se calcula como :

R = Xmax - Xmin.
R = 89 – 60 = 29
Xi Ni Xi ni Xi ni Xi ni
60 1 69 0 78 2 87 1
61 0 70 1 79 0 88 1
62 0 71 2 80 2 89 1
63 1 72 2 81 0
64 1 73 2 82 1
65 1 74 4 83 1
66 0 75 5 84 1
67 2 76 2 85 1
68 2 77 2 86 1
Cada uno de los valores de Xi a través del rango de valores de la variable lo llamaremos
clase o categoría. En la tabla anterior vemos que tenemos 30 clases.
La tabla de frecuencias con 30 clases tiene las siguientes deficiencias:

1.- Muchas clases.
2.- Cada clase con frecuencia baja.
Para compactar los datos más adecuadamente utilizaremos intervalos de clases.
Un intervalo de clase es una unidad de agrupamiento de datos. Esta compuesto por un

limite inferior y un limite superior. Ejemplo : 4 – 8 es un intervalo de clases.
Para determinar el número de intervalos utilizaremos la fórmula a continuación, que da una
referencia
de cuantos intervalos de clases K utilizar.
K = 1 + 3.3*log(n) (Regla de Sturgers)
En nuestro ejemplo :
K = 1 + 3.3*log(40).
K = 6.3
Algunos autores sugieren la siguiente regla:
El número de clases en que se agrupan los datos se determina con la raíz cuadrada del
número de datos cuando este es menor de 200:
Para muestras con 200 o más datos el número de clases se determina con la raíz cúbica
del
número de datos:
Dado que K es una referencia podemos utilizar 6 o 7 intervalos de clases.
Como norma, K debe ser mayor o igual que 5 y menor o igual que 20.
En nuestro caso utilizaremos K = 6.
El siguiente paso es determinar la cantidad de datos que potencialmente será incluido en cada
intervalo de clase. Esta cantidad la llamaremos amplitud y la denotaremos por A.
Para ello hacemos A = R/K = 29/6= 4.833….
Si redondeamos podemos utilizar A = 5.
Construcción de los intervalos de clases
60 -
El limite inferior del primer intervalo de clase es 60
El limite superior del primer intervalo de clase se 60 - 65

obtiene agregando al limite inferior una cantidad
igual a A (= R/K) . Es decir será 60 + 5 = 65
El limite inferior del segundo intervalo de clase será 60 - 65

el número inmediatamente siguiente al límite superior
del intervalo anterior. 65 -
Siguiendo con los lineamientos

anteriores los 6 intervalos de clase
son : 60 – 65
65 – 70
70 – 75
75 – 80
80 – 85
85 – 90
Tabla de Frecuencias
La tabla de frecuencias es una tabla cuyas filas corresponden a cada intervalo de clases y consta
de varias columnas.
La primera columna es la de frecuencias absolutas ni en cada intervalo y se obtiene asignando
cada dato en la muestra en cada intervalo.
Intervalo de Frecuencia
Clase Abs. ( ni )
[60 – 65[ 3
[65 – 70[ 5
[70 – 75[ 11
[75 – 80[ 11
[80 – 85[ 5
[85 – 90[ 5
Notemos que :
k
n
i 1
i  n.
Es decir, la suma de todas las frecuencias absolutas es igual al número de datos.

k

Además de tener una columna con las frecuencias absolutas podemos construir una
columna de frecuencias relativas f i.
n i  n
ni
fi  , i  1,...., k
i 1
n
Intervalo de Frecuencia Frecuencia

Clase Abs. ( ni ) Rel. ( fi )
[60 – 65[ 3 0.075
[65 – 70[ 5 0.125
[70 – 75[ 11 0.275
[75 – 80[ 11 0.275
[80 – 85[ 5 0.125
[85 – 90[ 5 0.125
k
Notar que :
i 1
fk  1 La suma de las frecuencias relativas es igual a 1.
Para construir un Histograma (gráfico de barras y sirve para graficar las frecuencias relativas o
absolutas para variables cuantitativas) seguimos el siguiente procedimiento :
1. En el eje horizontal ( abscisas ) escribimos equi-espaciadas, las fronteras de los intervalos de

clase.
2. A continuación dibujamos barras contiguas (pegadas entre sí), una por cada intervalo de clase,
haciendo coincidir su base con los límites del intervalo de clase respectivo.
3. La altura de la barra se indica en las ordenadas y es proporcional a la frecuencia relativa o

frecuencia absoluta, dependiendo de que histograma se desea obtener.
Entonces, dibujamos el Histograma de Frecuencias Relativas para la siguiente distribución de
frecuencias:
Intervalo Frecuen Frecuen

HISTOGRAMA DE FRECUENCIA
de cia cia
RELATIVA
Clase Abs. Rel. ( fi ) 0.40
( ni )
0.30
[60 – 65[ 3 0.075
[65 – 70[ 5 0.125 0.20
[70 – 75[ 11 0.275

0.10
[75 – 80[ 11 0.275
[80 – 85[ 5 0.125 60 65 70 75 80 85 90
[85 – 90[ 5 0.125

La formas de un histograma puede ser diversas, pero se destacan las siguientes :
HISTOGRAMA
HISTOGRAMA
Forma Acampanada o Normal
Uniforme
HISTOGRAMA
HISTOGRAMA
Forma Sesgada a la derecha
Forma Sesgada a la izquierda

EL DIAGRAMA DE TALLOS Y HOJAS (Stem-and-Leaf Display)
Diagrama de Caja o Boxplot
Ejemplo
Domino´s Pizza ofrece entregas gratuitas de pizza a 15 km a la redonda. Raúl el propietario,

desea información relacionada con el tiempo de entrega.
¿Cuánto tiempo tarda una entrega típica?.
¿En que margen de tiempos deben completarse la mayoría de las entregas?.
En el caso de una muestra de 20 entregas, Raúl recopiló la siguiente información:
Valor mínimo = 13 min.
Cuartil 1 = 15 min.
Mediana = 18 min.
Cuartil 3 = 22 min.
Valor máximo = 30 min.
se elabora un diagrama de caja para los tiempos de entrega.
¿Qué conclusiones deduce sobre los tiempos de entrega?

El primer paso para elaborar un diagrama de caja consiste en crear una escala adecuada a lo
largo del eje horizontal.
Enseguida, dibujamos una caja que inicie en Q1 (15 min) y termine Q3 (22 min).
Dentro de la caja trazamos una línea vertical para representar a la mediana (18 min).
Por último, prolongamos líneas horizontales a partir de la caja dirigidas al valor mínimo (13 min)
y al valor máximo (30 min).
Estas líneas horizontales que salen de la caja, a veces reciben e nombre de bigotes.
El Diagrama de caja muestra que el valor medio de las entregas, 50%, consume entre 15
y 22 minutos.
La distancia entre los extremos de la caja, 7 minutos, es el rango intercuartil.
Este rango es la distancia entre el primer y tercer cuartel; muestra la propagación o

dispersión de la mayoría de las entregas.
Otro ejemplo:

Estadística Descriptiva

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística Descriptiva

Cargado por

Copyright:

Formatos disponibles

Orlandoni Merli, Giampaolo; 2010. Escalas de medición en Estadística. Telos 12: 243-247 .

En Maracaibo hay una temperatura de 40 °C. En Mérida hay una temperatura de 20 ° C

¿Diría usted que en Maracaibo hay el doble de temperatura que en Mérida?

Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad

MEDIDAS ESTADÍSTICAS DE POSICIÓN

Tienen la propiedad de dividir al conjunto de datos, previamente ordenados de menor a mayor,

Si a esto le restas 1, es decir, (2.7182818….) 0 -1 = 0

Esto se corresponde con los datos

La varianza, , se define como la media de las diferencias

Para datos agrupados en tablas, usando las notaciones

Se considera que una estimación con un coeficiente de variación:

1. Hasta del 7%, es precisa;

2. Entre el 8 y el 14% significa que existe una precisión aceptable;

Desviación Media (DM): Valor promedio de las

Otra opción usada para calcularla es empleando la

La medida de posición es un número que representa un punto

Las medidas de posición más usadas son los percentiles, los

Se denominan percentiles a los valores que corresponden a

Los percentiles múltiplos de diez ( P10, P20, P30, P90) se le

Los tres percentiles (P25, P50 y P75) que dividen a una

- Se ordenan los datos de menor a mayor

- Si los datos son pares, se aplica la siguiente formula:

n = número de datos, y k = 100 (si es percentil),

Calificaciones en un examen de Estadística (escala 1 a 20)

16. 14, 17, 16, 11, 18,6, 15.

Se ordenan las calificaciones de menor a mayor

6, 11, 14, 15, 16, 16, 17, 18 (Son datos pares)

Podemos responder ahora la pregunta: ¿Existe demasiada variabilidad?

¿Qué nos dice la muestra frente a estas especificaciones?

Tipo de variable : Discreta.

Tamaño de la muestra = n = 40.

No es posible a partir de la sola presentación de los datos obtener ninguna conclusión.

Si presentamos los datos compactados en una tabla, hablaremos de datos agrupados.

Observemos que los valores mínimo y máximo en la muestra son : 60 y 89 respectivamente.

El rango de los datos lo denotaremos por R y se calcula como :

clase o categoría. En la tabla anterior vemos que tenemos 30 clases.

La tabla de frecuencias con 30 clases tiene las siguientes deficiencias:

Un intervalo de clase es una unidad de agrupamiento de datos. Esta compuesto por un

K = 1 + 3.3*log(n) (Regla de Sturgers)

número de datos cuando este es menor de 200:

En nuestro caso utilizaremos K = 6.

Construcción de los intervalos de clases

El limite superior del primer intervalo de clase se 60 - 65

El limite inferior del segundo intervalo de clase será 60 - 65

Siguiendo con los lineamientos

Es decir, la suma de todas las frecuencias absolutas es igual al número de datos.

Intervalo de Frecuencia Frecuencia

1. En el eje horizontal ( abscisas ) escribimos equi-espaciadas, las fronteras de los intervalos de

3. La altura de la barra se indica en las ordenadas y es proporcional a la frecuencia relativa o

Intervalo Frecuen Frecuen

[65 – 70[ 5 0.125 0.20

[70 – 75[ 11 0.275

[80 – 85[ 5 0.125 60 65 70 75 80 85 90

[85 – 90[ 5 0.125

Forma Acampanada o Normal

Forma Sesgada a la derecha

Forma Sesgada a la izquierda

Domino´s Pizza ofrece entregas gratuitas de pizza a 15 km a la redonda. Raúl el propietario,

¿Cuánto tiempo tarda una entrega típica?.

¿En que margen de tiempos deben completarse la mayoría de las entregas?.

En el caso de una muestra de 20 entregas, Raúl recopiló la siguiente información:

Valor mínimo = 13 min.

Valor máximo = 30 min.

se elabora un diagrama de caja para los tiempos de entrega.