Está en la página 1de 16

Leccin 4.

Estadstica descriptiva
Para datos agrupados en clases

4.1. Variables aleatorias discretas y continuas

Cuando alguna persona hispanohablante aprende el idioma ingls, siempre llega un momento en
que le ensean que el trmino ingls para la expresin cuntos...? (o cuntas...?) depende de
que se trate de cosas que se pueden contar o de cosas que no se pueden contar sino medir. En
estadstica se hace la misma distincin cuando se hace referencia a magnitudes variables: si se trata
de magnitudes que se pueden contar (aunque pudieran quizs ser infinitas), se llaman variables
discretas. En cambio, si las magnitudes no se pueden contar, sino que se miden en algn tipo de
unidades (centmetros, litros, gramos, unidades de dinero, unidades de tiempo, etc.), entonces se
llaman variables continuas. Ejemplos de variables aleatorias discretas seran: el nmero de huevos
que pone cierta gallina cada semana, el nmero de veces que una moneda cae en guila al lanzarse
quince veces al aire, el nmero de reos que se escapan cada mes de las prisiones de Mxico, el
nmero de votantes que manifestarn preferencia por cierto partido poltico en una casilla electoral,
el nmero de hijos que tiene una seora cualquiera que lleve 20 aos de casada, etc. Por otra parte,
ejemplos de variables aleatorias continuas son: el tiempo que tarda una persona en cobrar un cheque
desde que llega a la sucursal del banco hasta que se lo pagan, la cantidad exacta de sangre que
bombea el corazn de un adulto en un latido, la estatura exacta de un soldado elegido al azar, la
cantidad exacta de dinero que rene cada ao el gobierno de un pas (de impuestos y otros ingresos)
para ejercer su presupuesto, etc.

Las variables aleatorias (sean discretas o continuas) tienen siempre una distribucin de frecuencia
relativa (o distribucin de probabilidad) asociada; adems, tal distribucin puede ser terica o
emprica. Por ejemplo, si usted lanza un dado muy bien hecho (dado honrado) un gran nmero de
veces, en teora deber obtener cualquiera de las caras hacia arriba con una frecuencia relativa de 16 ;
igualmente, si lanza una moneda al aire muchas veces, en teora la frecuencia relativa de cualquiera
de los dos lados (guila o sol) es de 12 (es decir, 50%). Podra darse el caso de que en un
experimento particular con slo diez lanzamientos de la moneda usted obtuviera, por ejemplo,
nueve soles y slo una vez guila (es improbable, pero factible). No obstante, sera absolutamente
inverosmil que en 100 lanzamientos usted obtuviera 90 veces sol y nicamente 10 guilas. A
medida que el nmero de ensayos aumenta, las distribuciones empricas tienden rpidamente a la
distribucin terica preestablecida (ley de los grandes nmeros). Sin embargo, en situaciones
prcticas cotidianas las cosas suelen ser mucho ms complejas que slo lanzar dados o monedas al
aire, por lo que a menudo resulta muy difcil o imposible establecer la distribucin terica y hay que
conformarse con algunos experimentos prcticos que ayuden a estimar de manera emprica la
distribucin deseada o, por lo menos, algunos de sus parmetros importantes.

Las variables aleatorias continuas, por sus caractersticas requieren de un tratamiento especial, el
cual consiste en estimar sus respectivas frecuencias relativas (o probabilidades) por intervalos o
clases. A veces tambin se usa la clasificacin en intervalos (o clases) para variables discretas en
muestras muy numerosas. Es cierto que el manejo de la estadstica descriptiva para datos agrupados
en clases es relativamente cmodo y fcil, sobre todo si se hace en hojas de clculo de Excel;
empero, hay que partir de unos supuestos que siempre implicarn una pequea prdida de precisin
en los resultados de las estimaciones.

4.2. Clases y sus caractersticas

1
Una clase es un intervalo de variacin para una variable continua o de variacin terica (ficticia)
para una variable discreta. Por ejemplo, si la variable X representa el tiempo en minutos que
requiere cierta persona para cambiar un neumtico de su automvil, una clase podra ser el intervalo
[1, 5), es decir, el conjunto de valores de X tales que 1 X < 5 (en minutos). Como veremos
despus, casi siempre conviene usar intervalos que son cerrados por la izquierda y abiertos por la
derecha, como en este ejemplo. Si X es una variable discreta (por ejemplo, el nmero de veces que
sale guila en diez lanzamientos de una moneda), se puede usar una variacin continua ficticia para
X y tomar, por ejemplo el intervalo de variacin continua [1.5, 3.5) como aproximacin del
conjunto 2 X 3, esto es, que salgan dos o tres guilas, o bien tomar el intervalo continuo [1.5,
2.5) como sustituto del valor X = 2. Este tipo de aproximacin (que se llama correccin por
continuidad) puede parecer extrao por el momento, pero ms adelante veremos que tiene muchas
ventajas, ya que permite que algunas variables discretas se manejen con distribuciones continuas a
las que se aproximan.

Lmites reales de clase. Casi siempre ocurre que las clases se establecen de tal manera que quedan
algunos huecos (o vacos) entre dos intervalos adyacentes. En tales casos, los intervalos se alargan
artificialmente para abarcar tambin la mitad de los huecos que quedan a sendos lados y producir
una variacin continua de principio a fin. Los extremos de las clases alargadas artificialmente de
esta manera se llaman lmites reales de clase y el intervalo de variacin terica entre los lmites
reales de clase se llama intervalo ampliado. Por convencin, los intervalos ampliados se toman
cerrados por la izquierda y abiertos por la derecha. El lmite real izquierdo se acostumbra llamar
lmite real inferior, mientras que el derecho se llama lmite real superior. Usualmente se emplea la
notacin xL y xU para denotar los lmites reales inferior y superior, respectivamente.

Marcas de clase. Se llaman as a los puntos medios de cada uno de los intervalos. No importa si se
consideran los intervalos originales o los intervalos ampliados, la localizacin de cada marca de
clase ser la misma. La razn de establecer marcas de clase estriba en que no se pueden efectuar
operaciones aritmticas con intervalos, por lo que cada marca de clase se toma como representativa
de su intervalo, y es precisamente ese supuesto el que se traducir en una pequea inexactitud de las
estimaciones resultantes. La notacin para la marca de clase de la isima clase es xi.

Amplitud o anchura de una clase. Se llama as a la distancia entre los lmites reales de clase. La
forma ms sencilla de calcular la amplitud de una clase consiste en restar el lmite real superior
(derecho) menos el lmite real inferior (izquierdo).

En la mayora de los ejemplos prcticos, los datos se organizan de tal modo que todos los
intervalos, excepto quizs el ltimo, tienen la misma amplitud. Sin embargo, eso no es esencial.
Puede haber casos en los que las amplitudes de los diferentes intervalos varen.

En los ejemplos que expondremos en esta leccin usaremos hojas de clculo de Excel para realizar
las operaciones con rapidez. Es cierto que existen algunos programas comerciales ms efectivos que
el Excel para el manejo estadstico de datos, sin embargo la obtencin de tales programas
generalmente implica un desembolso adicional por parte del estudiante, amn de que hay que
invertir tiempo para aprender a usarlos. El software ms popular y usual para el manejo de datos
estadsticos es el programa conocido como MINITAB. Al parecer existe una versin gratuita de 30
das que se puede bajar del Internet, pero despus de ese tiempo hay que comprarlo. Otro programa
muy apreciado para el manejo de datos es el SPSS (Statistical Package for the Social Sciences). Si
el estudiante ya tiene algunos de esos programas instalados y adems sabe usarlos, sera fabuloso;
no obstante, estas lecciones estn enfocadas en principio para estudiantes que slo se ayudan con el
Excel, que es el programa ms conocido y que forma parte del Office instalado en cualquier
computadora.

2
Ejemplo. Supngase que se ha agrupado en clases el nmero de horas semanales que los nios ven
la televisin (incluyendo video casetes y DVD), para una muestra aleatoria de 300 nios, con los
siguientes resultados:

horas semanales frecuencia


de 0 a 6 44
de 7 a 13 96
de 14 a 20 74
de 21 a 27 48
de 28 a 34 21
de 35 a 41 12
de 42 a 48 5

Para trabajar con estos datos, primero hay que determinar las amplitudes de las clases, las marcas de
clase y anotar toda esta informacin en una hoja de clculo de Excel, junto con las frecuencias
respectivas:

horas semanales lmites reales amplitud marca de clase frecuencia


que un nio ve TV de clase de clase
de 0 a 6 [0.5, 6.5) 7 3 44
de 7 a 13 [6.5, 13.5) 7 10 96
de 14 a 20 [13.5, 20.5) 7 17 74
de 21 a 27 [20.5, 27.5) 7 24 48
de 28 a 34 [27.5, 34.5) 7 31 21
de 35 a 41 [34.5, 41.5) 7 38 12
de 42 a 48 [41.5, 48.5) 7 45 5

Antes de proseguir con el anlisis estadstico de estos datos conviene tener una representacin
grfica de los mismos, con objeto de visualizar de qu forma es la distribucin de frecuencias.
Existen muchos tipos de representaciones grficas para datos estadsticos aislados o agrupados, pero
el ms til y comn es el llamado histograma, el cual definimos a continuacin.

Histograma. Es una representacin grfica de una distribucin de frecuencias relativas para datos
aislados o agrupados, en forma de barras rectangulares, cuyas alturas correspondientes son las
respectivas frecuencias (o frecuencias relativas) y cuyas bases son iguales a las clases ampliadas.

Para distribuciones de frecuencias relativas a observaciones aisladas o para distribuciones de


probabilidad de variables aleatorias discretas, conviene tomar bases unitarias en cada rectngulo, a
efecto de que el rea de cada rectngulo (base por altura) sea exactamente igual a la frecuencia
relativa o a la probabilidad correspondiente. De esta forma, vemos que el concepto de rea viene
siendo un sinnimo de probabilidad acumulada en un intervalo. Este mismo concepto se mantiene
para variables aleatorias continuas, de tal suerte que la probabilidad de un intervalo de variacin de
la variable queda representada por un tramo de rea bajo la curva de densidad de probabilidad.

Polgono de frecuencias. Es un grfico de trozos de la frecuencia de clase con relacin a la marca


de clase, Puede obtenerse conectando los puntos medios de las partes superiores de los rectngulos
del histograma (ver figura)

3
Histograma y polgono de frecuencias

El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos originales
se pierden en el proceso de agrupamiento.

Es relativamente fcil dibujar un histograma a mano, con papel, lpiz, colores y regla, pero tambin
se puede dibujar con casi cualquier software de estadstica, incluyendo al programa Excel que no es
propiamente un software de estadstica. En el men herramientas del Excel viene la opcin de
histograma, aunque a veces los dibujos deben ser retocados para darle las preferencias del usuario.
No es necesario que los rectngulos de un histograma queden unidos o adyacentes, pero s es
deseable, porque as tienen mejor aspecto.

El polgono de frecuencias para datos agrupados en clases, o para datos aislados, se dibuja como
sigue: Se marcan en un papel varios puntos de la forma (xi, ni), esto es, (marca de clase, frecuencia)
y se unen con segmentos adyacentes usando una regla.

Veamos cmo se representaran en forma de histograma las frecuencias de la muestra de 300 nios,
en donde se trataba de ver el nmero de horas semanales que miraban la televisin:

4
Histograma (horas semanales que los nios miran televisin)

Se puede apreciar que esta distribucin de frecuencias tiene sesgo positivo.

En la siguiente grfica vemos el polgono de frecuencias superpuesto al histograma:

Polgono de frecuencias para el mismo ejemplo

4.4. Media y desviacin media para datos agrupados

Si ni denota la frecuencia de la isima clase y el nmero total de datos u observaciones es n,


entonces la media se calcula como sigue:
x =
xi ni
n
La desviacin media (o desviacin promedio de la media) se puede calcular en la misma tabla as:

dm = d1 =
|xi x | ni
n

Hacemos las operaciones en las siguientes tablas. Recuerde que para usar el valor absoluto en
Excel, la sintaxis es ABS( ), y para el producto se usa el asterisco *.

5
clases lmites xi ni xi ni
reales
de 0 a 6 [0.5, 6.5) 3 44 132
de 7 a 13 [6.5, 13.5) 10 96 960
de 14 a 20 [13.5, 20.5) 17 74 1258
de 21 a 27 [20.5, 27.5) 24 48 1152
de 28 a 34 [27.5, 34.5) 31 21 651
de 35 a 41 [34.5, 41.5) 38 12 456
de 42 a 48 [41.5, 48.5) 45 5 225
TOTALES n = 300 xi ni = 4834

x =
xi ni = 4834 = 16.11 3 horas semanales.
n 300

clase: i marca: xi frec: ni | xi x | | xi x | ni


a 3 44
1 13.1133333 576.98667
a 10 96
2 6.11333333 586.88000
a 17 74
3 0.88666667 65.61333
a 24 48
4 7.88666667 378.56000
a 31 21
5 14.8866667 312.62000
a 38 12
6 21.8866667 262.64000
a 45 5
7 28.8866667 144.43333
TOTALES n = 300 93.66 2327.73333

dm = d1 =
|xi x | ni = 2327.73 = 7.759 1 horas semanales
n 300

4.5. Mediana y cuantiles para datos agrupados

Todos los cuantiles (mediana, cuartiles, terciles o percentiles de cualquier tipo) se calculan
mediante un procedimiento de interpolacin sencillo. Lo primero que hay que hacer es ubicar la
clase en la que se encuentra el cuantil correspondiente; luego se anota su lmite real inferior y se le
suma una cierta fraccin de la anchura de dicha clase. Veamos por ejemplo, cmo calculamos el
primer cuartil Q1: El 25% del total de datos es 300 4
= 75. Ahora vamos a sumar frecuencias de
clases, de manera acumulada, hasta que la suma que llevemos se pase de 75, y en la clase donde eso
ocurra nos detenemos, ubicndola como la clase buscada. Obviamente 44 + 96 = 140 > 75. Por
consiguiente, el primer cuartil queda localizado en la segunda clase, cuyo lmite real inferior es 6.5.
Ahora bien, observamos que la frecuencia de la segunda clase es 96 y su amplitud es 7. Luego
entonces:
?
Primer cuartil = Q1 = 6.5 + 7
96

Lo que debemos anotar en lugar del signo de interrogacin es una cantidad tal, que sumada a las
frecuencias acumuladas de las clases anteriores a la clase donde est el primer cuartil, es decir,

6
sumada a 44, nos d el 25% del total de datos, o sea 75. Qu debemos sumar a 44 para que d 75?
Obviamente 7544 = 31. Por tanto, ? = 31. Entonces tenemos:

31
Q1 = 6.5 + 7 = 8.76 horas semanales
96

Esto significa que el 25% de la muestra de nios ven la televisin desde 0 hasta 8.76 horas a la
semana.

Usemos ahora el mismo procedimiento para calcular el segundo cuartil, que coincide con la
mediana. El trabajo es ms sencillo si tenemos una tabla de frecuencias acumuladas:

clase lmites reales frecuencia frecuencia acumulada


a
1 [0.5, 6.5) 44 44
a [6.5, 13.5) 96 140
2
a [13.5, 20.5) 74 214
3
a [20.5, 27.5) 48 262
4
a [27.5, 34.5) 21 283
5
a [34.5, 41.5) 12 295
6
a [41.5, 48.5) 5 300
7

Como el 50% de las observaciones es igual a 150, la mediana debe ubicarse en la tercera clase, cuyo
lmite real inferior es 13.5. Luego:
?
me = 13.5 + 7
74
10
donde, evidentemente, ? = 150 140 = 10. Por tanto: me = 13.5 + 7 = 14.446.
74
Esto se interpreta diciendo que el 50% de los nios de la muestra ven la televisin de 0 hasta 14.446
horas a la semana.
Usemos ahora el mismo procedimiento para hallar el tercer cuartil Q3: Como el 75% del total de
datos es 225, viendo la tabla de frecuencias acumuladas se aprecia que el tercer cuartil queda
ubicado en la cuarta clase, cuyo lmite real inferior es 20.35. Luego:

225 214
Q3 = 20.25 + 7 = 21.854 horas semanales.
48

Interpretamos esto diciendo que el 75% de los nios de la muestra ven la televisin desde cero hasta
21.854 horas a la semana. (tambin se puede decir que 25% de los nios de la muestra ven la
televisin 21.854 horas a la semana o ms).

Calculemos ahora el noveno decil, es decir, D9 : Claramente, el 90% de los datos es 270, por lo que
el noveno decil se halla en la quinta clase, cuyo lmite real inferior es 27.5. Entonces:

270 262
D9 = 27.5 + 7 = 30.167 horas semanales.
21

7
Lo que quiere decir que slo el 10% del total de nios de la muestra ven televisin ms de 30.16 6
horas a la semana.

Calculemos ahora el percentil P96 . El 96% de 300 es 288, por tanto el noveno decil est en la sexta
clase, cuyo lmite real inferior es 34.5. Entonces tenemos:

288 283
P96 = 34.5 + 7 = 37.41 6 horas a la semana
12

Lo que implica que 4% de los nios de la muestra ven televisin ese nmero de horas a la semana o
ms.

4.6. La moda para datos agrupados y su interpretacin geomtrica

A diferencia de lo que se expuso antes para datos aislados, la moda para datos agrupados en clases
es algo ms complicada de definir y de calcular. La moda es algn punto intermedio de la clase
modal, la cual es la clase (o clases) que tiene(n) el rectngulo ms alto de todos.

Por otra parte, la clase menos frecuente se llama antimoda. En la figura siguiente se ilustra la clase
antimodal y la clase modal de un histograma:

La moda es algn punto de la clase modal, no necesariamente la marca de clase. Abajo veremos
cmo definirla y calcularla.

Recurdese que la media de una muestra es un estadstico muy sensible a la presencia de puntajes
extremos, llamados puntajes aberrantes, mientras que la mediana no lo es, y tampoco lo es la moda.
En estos casos, ninguna de estas medidas es totalmente satisfactoria como medida de tendencia
central. Para datos aislados, una alternativa es una media ajustada (trimmed mean), la cual se afecta
menos por los puntajes aberrantes que la media, y an no tiene la insensibilidad de la mediana. Para
datos aislados, una media ajustada se encuentra ordenando las observaciones de menor a mayor,
borrando un cierto nmero de medidas en ambos extremos y promediando las medidas restantes; al
porcentaje de valores borrados en cada extremo de la lista se le llama porcentaje de ajuste. En las
competencias olmpicas de clavados o gimnasia, siempre se toma una media ajustada de las
calificaciones de los jueces, borrando la ms alta y la ms baja.

8
Para datos agrupados en clases no existe tal cosa como media ajustada, sin embargo, la moda es de
mucho mayor utilidad prctica que para el caso de datos aislados.

La interpretacin geomtrica de la moda para datos agrupados se aprecia en la siguiente figura:

En la figura se han dibujado la clase modal y las dos clases adyacentes a ella. Los segmentos RT y
QS unen, respectivamente, los vrtices ms altos del rectngulo correspondiente a la clase modal (la
ms alta) con los vrtices ms cercanos de los dos rectngulos adyacentes. La proyeccin del punto
P en el eje x es mo y es ese punto precisamente el que se define como la moda.

En principio, obsrvese que los tringulos PQR y PST son semejantes, ya que tienen sus ngulos
respectivamente iguales. De la semejanza de dichos tringulos se sigue la proporcionalidad de sus
lados, es decir:
EP PF
=
RQ ST

Por otra parte, L1 y U1 son, respectivamente, los lmites reales inferior y superior de la clase modal,
cuya anchura es c. Si mo es la abscisa que corresponde a la proyeccin del punto P, entonces

mo L1 U1 mo
=
1 2

donde 1 y 2 simbolizan los excesos de frecuencia de la clase modal respecto a las clases anterior y
posterior, respectivamente. Si despejamos mo de la relacin anterior, se obtiene:

9
1U1 + 2 L1
mo = .
1 + 2

Si ahora sustituimos U1 = L1 + c en la ltima frmula, se obtiene:

(1 + 2 )L1 + 1 c 1
mo = = L1 + c .
1 + 2 1 + 2

Esta ltima frmula se adopta para el clculo de la moda:

1
mo = = L1 + c .
1 + 2

Apliquemos esta frmula en el ejemplo que se expuso antes, para una muestra de 300 nios:

horas semanales lmites reales frecuencia


que los nios
miran TV
de 0 a 6 [0.5, 6.5) 44
de 7 a 13 [6.5, 13.5) 96
de 14 a 20 [13.5, 20.5) 74
de 21 a 27 [20.5, 27.5) 48
de 28 a 34 [27.5, 34.5) 21
de 35 a 41 [34.5, 41.5) 12
de 42 a 48 [41.5, 48.5) 5

La clase modal es, evidentemente, la segunda. Tenemos 1 = 96 44 = 52; 2 = 96 74 = 22;


adems, 1 + 2 = 74 (fue slo una casualidad que coincidiera con la frecuencia de la tercera
52
clase). Por tanto, la moda es mo = 6.5 + 7 = 11.419.
74
Observacin: Para las distribuciones asimtricas (sesgadas) tenemos las siguientes tres relaciones
empricas entre la media, moda y mediana (vlidas tanto para datos aislados como para datos
agrupados por clases):

1) x mo 3 ( x me ) .

3me mo
2) x=
2

3)
2
me
3
.

10
4.7. Desviacin estndar para datos agrupados

La desviacin estndar es algo engorrosa de calcular usando slo papel, lpiz y calculadora, a
menos de que se trate de slo unas cuantas clases. Por suerte, contamos con las hojas de clculo de
Excel, que permiten hacer el trabajo operativo de modo rpido y preciso.

La desviacin estndar se calcula mediante la frmula siguiente:

s=
( xi x )2 ni
n

donde xi son las marcas de clase y ni las respectivas frecuencias.

Vamos a ver cmo se calcula la desviacin estndar para este mismo ejemplo: Abrimos una hoja de
clculo de Excel y efectuamos las operaciones de manera expedita como se presenta en el siguiente
cuadro.

xi ( xi x ) 2 ni ( xi x ) 2 ni
3 171.959511 44 7566.21849
10 37.3728444 96 3587.79307
17 0.78617778 74 58.1771556
24 62.1995111 48 2985.57653
31 221.612844 21 4653.86973
38 479.026178 12 5748.31413
45 834.439511 5 4172.19756
TOTAL: 28772.1467
dividido entre n: 95.9071556
raz cuadrada: 9.793219877

Por tanto, la desviacin estndar, aproximada a tres dgitos decimales es s = 9.793.

Existe otra frmula alternativa y equivalente para el clculo de la desviacin estndar:

2
s=
xi2 ni xi ni = xi2 ni x 2
n
n n

Es muy fcil comprobar que esta frmula proviene de la conocida igualdad para la varianza
poblacional de una distribucin de frecuencias relativas cualquiera:

varianza poblacional: 2 = ( xi x ) 2 pi = xi2 pi x 2

11
ni
donde pi es la probabilidad (o frecuencia relativa) de xi . Para datos agrupados, pi = .
n
Esta igualdad se demuestra fcilmente si se desarrolla ( xi x ) 2 en la suma del miembro izquierdo.

Ntese tambin que para datos aislados existe una varianza muestral y otra poblacional, que se
diferencian porque en el denominador de la primera aparece n1, mientras que en el de la segunda
es n. Para datos agrupados no existe tal diferencia.

Observacin importante: La imprecisin que se introduce en el manejo estadstico de datos


agrupados en clases al tomar una marca de clase como representativa del intervalo, hace que
algunas de las leyes fundamentales de la estadstica no sean aplicables a datos agrupados. Por
ejemplo, para variables aisladas ya sea discretas o continuas, se puede demostrar con todo rigor que
la mediana es el parmetro que minimiza el error absoluto medio. Para datos agrupados en clases, la
validez de esa ley deja de ser aplicable. Ilustraremos este detalle con nuestro mismo ejemplo del
nmero de horas semanales que los nios miran la televisin. Abrimos una hoja de clculo de Excel
y planteamos las operaciones que se indican:

xi ni pi = ni / 300 | xi x | pi | xi me | pi | xi mo | pi
3 44 0.1466667 1.92328889 1.6787387 1.23477477
10 96 0.3200000 1.95626667 1.4227027 0.45405405
17 74 0.2466667 0.21871111 0.6300000 1.37666667
24 48 0.1600000 1.26186667 1.5286486 2.01297297
31 21 0.0700000 1.04206667 1.1587838 1.37067568
38 12 0.0400000 0.87546667 0.9421622 1.06324324
45 5 0.0166667 0.48144444 0.5092342 0.55968468
TOTALES n = 300 1.0000000 7.7591111 7.8702703 8.07207207

Las sumas inferiores de las tres ltimas columnas son, respectivamente, la desviacin promedio de
la media (desviacin media), la desviacin promedio de la mediana y la desviacin promedio de la
moda. Como podemos apreciar, la desviacin promedio de la media result menor que la desviacin
promedio de la mediana, lo cual sera imposible para valores aislados de una variable aleatoria
discreta o continua, ya que en tales casos se demuestra que la mediana es el parmetro que
minimiza el error absoluto medio.

Existen otras medidas de dispersin menos usuales, adems de la varianza, la desviacin estndar y
las tres desviaciones promedio. Por ejemplo, el rango semiintercuartil Q es la distancia media entre
el primer cuartil y el tercero, esto es:
Q Q1
Q= 3
2

El rango semiintercuartil se usa como una estimacin rpida y aproximada de los valores lmites de
la variable que abarcan a menudo entre un 50% y hasta un 70% de las frecuencias relativas de toda
la muestra (dependiendo de que la distribucin sea simtrica o sesgada).

Para el ejemplo que se examin en esta seccin, el siguiente cuadro es un comparativo de las cinco
medidas de dispersin ms usuales (en orden de importancia). Se excluye la varianza porque sta no
se expresa en las mismas unidades. Se indican asimismo los smbolos empleados :

desviacin estndar (o desviacin tpica) s 9.79322

12
desviacin media (desviacin promedio de la media) d1 7.75911
desviacin promedio de la mediana d2 7.87027
desviacin promedio de la moda d3 8.07207
Rango semiintercuartil Q 6.54687

4.8. Ejercicios de autoevaluacin (autoexamen)

Invitamos al estudiante a poner a prueba su aprovechamiento en el estudio de la leccin, tomando papel y


lpiz (y tambin su computadora) para tratar de resolver los siguientes cinco ejercicios en menos de una hora
y tres cuartos. Slo despus de resolverlos deber cotejar sus respuestas con las correctas, las cuales aparecen
inmediatamente despus de los ejercicios. La pregunta 2 vale cuatro puntos, y en las dems preguntas se da un
punto por cada magnitud acertada de lo que se pregunta. El mximo nmero de aciertos posibles es, por tanto,
20. Si obtiene menos de 13 aciertos, entonces tal vez deber repasar de nuevo esta leccin y la anterior antes
de seguir adelante. De 13 a 14 aciertos es regular, de 15 a 17 bueno, 18 o 19 es muy bueno, y 20 aciertos est
fantstico y se hace acreedor a una calurosa felicitacin.

1. En una hoja de clculo de Excel haga un comparativo de los errores cuadrticos medios de la
media, mediana y moda, para el mismo ejemplo que se manej a lo largo de esta leccin (las horas
semanales que lo nios ven televisin). Se supone que el error cuadrtico medio de la media (es
decir, la varianza) debe ser el mnimo. Compruebe si en efecto ocurre as. (tres puntos)

2. Para el mismo ejemplo de la pregunta 1, compruebe si en efecto ocurre que al trazar una lnea
10
vertical en el histograma, justo en el punto me = 13.5 + 7 , el rea que queda en el histograma
74
a mano izquierda es el 50% del rea total del histograma. [Sugerencia: podra ser ms cmodo
para usted emplear fracciones y no aproximaciones decimales]. (cuatro puntos por el valor exacto
de las reas y slo tres por una aproximacin decimal razonable)

3. El siguiente cuadro resume el nmero de das de estancia post operatoria en el Hospital General
Manuel Gea Gonzlez al sur de la ciudad de Mxico, para una muestra aleatoria de 400 pacientes
que fueron intervenidos quirrgicamente en ese hospital:

das de estancia nmero de das de estancia nmero de


post operatoria pacientes post operatoria pacientes
1a3 48 13 a 15 22
4a6 166 16 a 18 10
7a9 104 19 a 21 4
10 a 12 44 22 a 24 2

En una sola hoja de clculo de Excel calcule la media, la desviacin media, la varianza, y la
desviacin estndar. [Sugerencia: En la primera columna anote las marcas de clase, en la segunda
las frecuencias, en la tercera las frecuencias relativas, etc.]. (cuatro puntos)

4. Para los datos del ejercicio 3, calcule a) la mediana, b) el cuartil Q1 , c) el cuartil Q3 , d) el rango
semiintercuartil Q, e) el percentil P87 y f) d una interpretacin del percentil P87 . (seis puntos)

5. Para los mismos datos del ejercicio 3, calcule a) la moda, b) la desviacin media de la mediana y
c) la desviacin media de la moda. (tres puntos)

13
Respuestas correctas del autoexamen:

1. Los errores cuadrticos medios de la media, mediana y moda, respectivamente, son las sumas que
aparecen al final de las tres ltimas columnas en el cuadro siguiente. Se comprueba que la varianza,
es decir, el error cuadrtico medio de la media (o momento central de segundo orden) es la menor
cifra de las tres.

xi ni pi = ni / 300 ( xi x ) 2 pi ( xi me ) 2 pi ( xi mo ) 2 pi
3 44 0.1466667 25.2207283 19.2147529 10.3954687
10 96 0.3200000 11.9593102 6.32525932 0.6442659
17 74 0.2466667 0.19392385 1.60905405 7.6832883
24 48 0.1600000 9.95192178 14.6047918 25.3253762
31 21 0.0700000 15.5128991 19.1825694 26.8393115
38 12 0.0400000 19.1610471 22.1917385 28.2621549
45 5 0.0166667 13.9073252 15.5591703 18.7948168
TOTALES n = 300 1.0000000 95. 907156 98. 687336 117. 94468

2. El rea total del histograma (suma de las bases por las alturas) es 7 ni = 7 ni = 7 300 = 2100
unidades cuadradas. Ahora bien, el rea de la primera barra (primer rectngulo) es 7 44 y de la
segunda barra es 7 96. Luego tenemos una pequea porcin del tercer rectngulo, cuya altura es
10
74 y de cuya base slo tomamos me 13.5 = 7 unidades de longitud. Por tanto, el rea de esta
74
10
pequea franja es 7 74 = 70. As que la suma de reas que hay a mano izquierda de la recta
74
vertical que pasa por la mediana es 7 44 + 7 96 + 7 10 = 7 (44 + 96 + 10) = 7 150 = 1050
unidades cuadradas, que es precisamente la mitad del rea total del histograma.

3. El siguiente cuadro proporciona toda la informacin pedida:

xi ni pi = ni / 400 xi pi | xi x | ( xi x ) 2 | xi x | pi ( xi x ) 2 pi
2 48 0.120 0.240 5.115 26.1632 0.613800 3.13959
5 166 0.415 2.075 2.115 4.4732 0.877725 1.85639
8 104 0.260 2.080 0.885 0.7832 0.230100 0.20364
11 44 0.110 1.210 3.885 15.0932 0.427350 1.66025
14 22 0.055 0.770 6.885 47.4032 0.378675 2.60718
17 10 0.025 0.425 9.885 97.7132 0.247125 2.44283
20 4 0.010 0.200 12.885 166.0232 0.128850 1.66023
23 2 0.005 0.115 15.885 252.3332 0.079425 1.26167
400 1.000 7.115 2.983050 14.83178
n x d1 s2

14
Leemos, entonces que x = 7.115 das, d1 = dm = 2.98305 das, s 2 = 14.83178, s = 3.8512 das.

4. El siguiente cuadro es til para contestar los incisos de esta pregunta:

clase lmites reales anchura ni acum


a [0.5, 3.5) 48
1 3 48
a [3.5, 6.5) 214
2 3 166
a [6.5, 9.5) 318
3 3 104
a [9.5, 12.5) 362
4 3 44
a [12.5, 15.5) 384
5 3 22
a [15.5, 18.5) 394
6 3 10
a [18.5, 21.5) 398
7 3 4
a [21.5, 24.5) 400
8 3 2

200 48
a) La mediana est en la segunda clase, luego me = 3.5 + 3 6.25 das.
166
100 48
b) El cuartil Q1 est tambin en la segunda clase: Q1 = 3.5 + 3 4.44 das.
166
300 214
c) El cuartil Q3 est en la tercera clase: Q3 = 6.5 + 3 8.98 das.
104
Q Q1
d) Q = 3 2.27 das.
2
e) El 87% de 400 es 348. Por tanto, el percentil P87 est en la cuarta clase. Luego:

348 318
P87 = 9.5 + 3 = 11. 54 das de estancia. f) Esto significa que 13% de los pacientes de
44
esa muestra permanecen en el hospital 11. 54 das o ms, despus de la operacin (o tambin que
87% de los pacientes permanecen. 11. 54 das o menos).
118
5. a) La moda es mo = 3.5 + 3 = 5.4 6 das de estancia. Para los incisos b) y c) vase la
118 + 62
parte inferior de las ltimas dos columnas en el siguiente cuadro:

xi ni pi = ni / 400 | xi me | pi | xi mo | pi
2 48 0.120 0.509639 0.416000
5 166 0.415 0.517500 0.193667
8 104 0.260 0.455783 0.658667
11 44 0.110 0.522831 0.608667
14 22 0.055 0.426416 0.469333
17 10 0.025 0.268825 0.288333
20 4 0.010 0.137530 0.145333
23 2 0.005 0.083765 0.087667

15
400 1.000 2.922289 2.867667

16

También podría gustarte