Está en la página 1de 7

Pontificia Universidad Católica de Chile

Departamento de Matemáticas

Mat 0100 Razonamiento Cuantitativo

Clase #16

Estadı́sticos de resumen

Contenidos

Promedio.

Mediana.
Moda.
Número de cimas de una distribución.

Simetrı́as de cimas de una distribución.


Variación.

Estadı́sticos de resumen
Las tablas de frecuencia y los gráficos nos muestran cómo los datos se distribuyen sobre varias categorı́as. La
distribución de una variable describe los valores asumidos por ella y la frecuencia absoluta o relativa de estos
valores.
En muchos casos, estamos menos interesados en esta distribución completa y más interesados en algunos
términos que la describen y la resumen. Aquı́ veremos cómo podemos caracterizar una distribución de datos por
medidas de su centro, forma y dispersión.
Para ver las tres formas más comunes de caracterizar el centro de una distribución de datos consideremos el
siguiente ejemplo:
Veamos la siguiente tabla de datos que describe el número de series de las cinco pelı́culas de ciencia ficción
más vistas durante el año 2009:
Pelı́cula Número de series
Alien 4
Volver al futuro 3
El planeta de los simios 6
Viaje a las estrellas 11
La guerra de las galaxias 6

¿Cuál es el número promedio de series en estas pelı́culas?


Una forma de responder a esta pregunta serı́a tomando el promedio aritmético o la media de ellas:
4 + 3 + 6 + 11 + 6
=6
5
Es decir, estas cinco pelı́culas tienen un promedio de 6 series. En general, el promedio aritmético de datos se
obtiene sumando todos los valores de los datos y dividiéndolo por el número de datos. Este concepto es el que
usualmente llamamos promedio (también se le dice media) y representa el punto de balance de la distribución de
los datos.
También podrı́amos describir el centro de la distribución de las series de estas cinco pelı́culas mediante su
mediana o valor central del conjunto de datos. Para encontrar la mediana, arreglamos los datos en orden ascen-
dente (o descendente) repitiendo los datos que aparecen más de una vez. Si el número de valores es impar, hay

1
2

exactamente un único valor en el centro y ese valor es la mediana. Si el número es par, en el centro tendremos
dos valores, y la mediana en este caso será el número que está exactamente a la mitad entre ellos. Arreglando los
valores de la tabla tenemos:
3, 4, 6, 6, 11
El número de datos es impar y por lo tanto la mediana es el número del centro, a saber: 6.
Un tercer valor que que ocupamos para describir los datos es la moda. La moda es el valor más común del
grupo de valores en un conjunto de datos. En el caso de las series de las pelı́culas, la moda es 6, dado que es
el único valor que se repite. Una base de datos puede contener una única moda, ninguna moda o más de una.

Ejemplo
Recorriendo ocho locales comerciales, se encontró que un mismo producto (una barra energizante) tenı́a los
siguientes precios para el consumidor:

523, 619, 619, 648, 667, 715, 763, 859

El promedio es:
523 + 619 + 619 + 648 + 667 + 715 + 763 + 859
= 676, 6
8
dado que hay un número par de valores que ya están ordenados, la mediana es:
648 + 667
= 657, 5
2
La moda es:
619
Para explorar la diferencia entre estos tres conceptos, veamos el siguiente ejemplo:
Cinco instituciones de educación superior ofrecen los siguientes montos de dinero como beca para los alumnos
que ingresen a sus instituciones durante el primer año de estudio y que tengan el mejor promedio de notas del
último año de su colegio (0 significa que no ofrecen beca):

0, 0, 0, 0, 2.500.000.

La beca promedio de estas tres instituciones es:


2.500.000
= 500.000 pesos
5
¿Será justo en este caso afirmar que el monto representativo de las becas es de 500.000 pesos? En realidad, no. El
problema aquı́ es que la única institución que realmente ofrece una beca hace que el común de las becas sea más
grande.
Si no contamos la que ofrece la beca, el promedio serı́a 0. Dado que el valor de 2.500.000 es tan grande
comparado con el resto (cero) que lo llamamos un dato anómalo. En general, los datos anómalos pueden hacer
que el promedio se dispare tanto hacia arriba como hacia abajo, haciendo que el promedio no sea representativo
de la base de datos.

Ejemplo
Durante un entrenamiento de gimnasia, el profesor decide hacer un seguimiento de los pulsos de sus cinco
mejores alumnos. En la mitad del entrenamiento, se leen los siguientes ritmos cardı́acos:

130, 135, 140, 145, 325

En este ejemplo, notamos que cuatro de los cinco valores están muy cercanos, mientras que el quinto se dispara
y lo más probable es que el medidor no se encuentre en buen estado, dado que un ritmo de 325 estarı́a causando
un paro cardı́aco al alumno.
3

Por lo tanto ese valor es un dato anómalo y lo que usualmente se hace es no considerarlo. Antes de eliminar
el dato lo correcto serı́a investigar para determinar si es un dato real o no. Considerando la existencia de ese dato,
uno puede calcular la media o la mediana, pero es importante entender según el objetivo de calcular estas medidas
cual es la medida que nos conviene usar, o ser crı́ticos frente a un estudio que use una o la otra. Si tomamos la
media de estos valores, estarı́amos considerando este dato. Lo apropiado en este caso será considerar la mediana,
es decir, 140 como promedio de las pulsaciones en la mitad del entrenamiento.

Ejemplo
En un artı́culo de un periódico aparece la siguiente noticia: “El sueldo promedio de los obreros especializa-
dos que trabajan en compañı́as de electricidad es de 40,000 pesos diarios”. Los trabajadores de cierta compañı́a
eléctrica, al leer este artı́culo, solicitaron un aumento, argumentando que ellos ganaban en promedio 35,000 pe-
sos diarios. El gerente de esta compañı́a rechaza la solicitud de aumento, argumentando que el promedio de sus
sueldos es de 42,000 pesos diarios. ¿Pueden ambos argumentos ser correctos?
En realidad, ambos pueden tener razón, porque los trabajadores pueden estar utilizando la mediana, mientras
que el gerente utiliza la media. Por ejemplo, si la compañı́a tiene cinco empleados calificados cuyos sueldos diarios
son:
34,000, 35,000, 35,000, 51,000, 55,000
entonces la media es 42,000 y la mediana 35,000 pesos diarios y ambos argumentos serı́an correctos.

Distribución de los datos


Ahora queremos prestar atención a la forma grafica que tienen los datos. A tal forma la llamaremos la dis-
tribución de los datos. A pesar de que podemos ver toda la forma de la distribución mediante un gráfico, nos
gustarı́a también describir la forma general del gráfico en palabras. Nos enfocaremos en tres caracterı́sticas de la
distribución: número de cimas, las simetrı́as y las variaciones.

Número de cimas: Dado que nuestro interés primordial es describir la forma general de la distribución, usual-
mente es más fácil trabajar con curvas suaves que con la data real. La siguiente figura muestra tres ejemplos
de esta ide: en dos de ellos (a y b), la distribución está dada por un histograma y en (c) por un gráfico de
lı́nea.
Las lı́neas suaves aproximan la distribución, pero no muestran todos sus detalles.
0.4

0.5
0.3

0.4
0.3
0.2

0.2
0.1

0.1
0.0

0.0

4 6 8 10 12 4 6 8 10 12
4

0.4
0.3
0.2
0.1
0.0
4 6 8 10 12

Las figuras (a) y (c) tienen una única cima (unimodales). Nótese que la cima representa la moda de cada
distribución. La figura (b) tiene dos cimas, ası́ es que la llamamos bimodal. Otras distribuciones podrı́an no
tener cimas, las llamamos distribuciones uniformes y también podrı́an haber con más de dos cimas.

Ejemplo

¿Cuántas cimas esperarı́a usted en las siguientes distribuciones?


1. Estatura de las estudiantes mujeres en la universidad.
2. Estatura de todos los estudiantes en la universidad.
3. El número de estudiantes con un último dı́gito particular (entre 0 y 9) en su credencial universitaria.

1. Se esperarı́a una sola cima porque muchas mujeres están cercanas al promedio (la media) y muy pocas
serı́an mucho más altas o más bajas que la media.
2. Se esperarı́an dos cimas: una correspondiente a la media de las estaturas de los hombres y otra de las
mujeres en la universidad.
3. Dado que el último dı́gito de la credencial universitaria se da al azar, la frecuencia en que aparezca
cada dı́gito deberı́a ser muy parecida y como se trata de 10 dı́gitos, cada uno corresponderı́a al 10 %
del total. Por lo tanto se esperarı́a una distribución sin ninguna cima.

Simetrı́as: Una segunda manera de describir las formas de las distribuciones es mediante sus simetrı́as. Una
distribución es simétrica cuando su parte izquierda es la imagen reflejada en un espejo de su parte derecha.
Ejemplos de distribuciones simétricas pueden verse en las siguientes figuras:
5

Una distribución que no es simétrica debe tener valores que tienden a estar más dispersos hacia un lado que
hacia el otro. En este caso decimos que la distribución está sesgada. En las siguientes figuras vemos tres
distribuciones que muestran las distintas posibilidades.

Media Media
Mediana Mediana
Moda Moda
0.15
0.15

0.10
0.10

0.05
0.05
0.00

0.00

0 5 10 15 0 5 10 15

Sesgada a la izquierda Sesgada a la derecha


6

En la primera figura tenemos que los valores están más esparcidos hacia la izquierda, haciéndola sesgada
hacia la izquierda. Gráficamente se ve como que tiene una cola estirada hacia la izquierda. En el caso de
la segunda figura tenemos una distribución sesgada hacia la derecha y nuevamente observamos una cola
estirada hacia la derecha.
Las figuras tambien muestran cómo el sesgo afecta la posición relativa entre media, mediana y moda. En
una distribución sesgada hacia la izquierda, la cola empuja la media y la mediana hacia la izquierda de la
moda. Similarmente con la distribución sesgada hacia la derecha que empuja la mediana y la media hacia la
derecha de la moda. En el caso de una distribución simétrica, estas tres medidas coinciden.

Ejemplo
En las siguientes situaciones, determine si esperarı́a una distribución simétrica, sesgada hacia
la izquierda o hacia la derecha. Justifique su respuesta.
1. Estatura de una muestra de 100 mujeres.
2. Ingreso familiar en Chile.
3. Velocidad de autos en una carretera en la que se utiliza de modo visible un radar para medir velocida-
des.

1. La distribución de una muestra de mujeres deberı́a ser simétrica, porque es razonable suponer que el
número de mujeres que supera la estatura media es similar a la que está por debajo de ella.
2. La mayorı́a de las familias en Chile tienen ingresos entre bajo y medio, y solamente un porcentaje
pequeñı́simo de la población tiene ingresos considerablemente altos, pero lo suficiente como para
empujar la media a un valor mayor, estirando la distribución hacia la derecha. Por lo tanto, deberı́a ser
una distribución sesgada hacia la derecha.
3. Normalmente los automovilistas tienden a bajar de velocidad ante un aviso de radar. Muy pocos ex-
cederán la velocidad permitida. Por lo tanto, esta será una distribución sesgada hacia la izquierda con
una moda cerca de la velocidad permitida y algunos autos con una velocidad bastante menor que la
permitida.

Variación: Una tercera manera de describir globalmente una distribución es por medio de su variación. Esta es
una medida de cuán dispersos se encuentran los valores de la data. Una distribución en la que los valores de
la data se encuentran muy cercanos, tiene una baja variación.
7

1.0
Variación baja
Variación moderada
Variación alta

0.8
0.6
0.4
0.2
0.0

−3 −2 −1 0 1 2 3

En la figura, vemos ejemplos de tres posibles variaciones. En el caso de variación baja (en azul), tenemos
una cima muy pronunciada. La variación aumenta cuando la data se distribuye más ampliamente en torno
al centro.

Ejemplo

¿Cómo esperarı́a que difiera la variación entre tiempos en una maratón olı́mpica y una maratón local?
En una olimp’iada, están invitados a correr los mejores atletas mundiales, por lo tanto se esperarı́a que sus
tiempos sean muy próximos al récord mundial. Es decir, baja variación.
En el caso de una maratón local, todas las personas pueden participar y mostrarán distintas habilidades para
correr, entre muy lentos y muy rápidos, quizás algunos cercanos al récord mundial. Por lo tanto, la variación
es muy grande y tendremos un gráfico de variación alta.

También podría gustarte