Está en la página 1de 6

DISTRIBUCIONES EMPÍRICAS

En las clases anteriores se abordaron las fdp y las FDA de cinco distribuciones comunes:
uniforme, binomial, de Poisson, exponencial y normal. ¿Cómo se reconocen estas distribuciones
en la práctica?
La base para identificar cualquier fdp son los datos sin procesar que reunimos sobre la
situación que estamos estudiando. Esta sección muestra cómo los datos muestreados pueden
convertirse en una fdp.

Paso 1. Resuma los datos sin procesar en la forma de un histograma de frecuencia apropiado
para determinar la fdp empírica asociada.

Paso 2. Use la prueba de bondad de ajuste para evaluar si la fdp empírica resultante se
muestrea a partir de una fdp teórica conocida.
Histograma de frecuencias. Este histograma se construye con datos sin procesar dividiendo
el rango de éstos (valor mínimo a valor máximo) en clases que no se traslapan. La frecuencia
en cada clase es la cuenta de los valores de los datos sin procesar que quedan comprendidos
dentro de los límites designados de la clase.
Ejemplo 1.

Los siguientes datos representan el tiempo de servicio (en minutos) en una instalación de servicio de una
muestra de 60 clientes.

.7 .4 3.4 4.8 2.0 1.0 5.5 6.2 1.2 4.4


1.5 2.4 3.4 6.4 3.7 4.8 2.5 5.5 .3 8.7
2.7 .4 2.2 2.4 .5 1.7 9.3 8.0 4.7 5.9
.7 1.6 5.2 .6 .9 3.9 3.3 .2 .2 4.9
9.6 1.9 9.1 1.3 10.6 3.0 .3 2.9 2.9 4.8
8.7 2.4 7.2 1.5 7.9 11.7 6.3 3.8 6.9 5.3

Los valores mínimo y máximo de los datos son 2 y 11.7, respectivamente. Esto significa que la muestra está
cubierta por el rango (0, 12). Dividimos arbitrariamente el rango (0, 12) en 12 clases, cada una de 1 minuto de
ancho. La selección apropiada del ancho de la clase es crucial para revelar la forma de la distribución empírica.
Aun cuando no haya reglas exactas para determinar el ancho de clase óptimo, una regla práctica es utilizar de
10 a 20 clases. En la práctica puede ser necesario probar diferentes anchos de clase antes de decidir sobre un
histograma aceptable.

La siguiente tabla resume la información en forma de histograma de la muestra dada. La columna de frecuencias
relativas fi, se calcula dividiendo las entradas de la columna de frecuencias observadas oi en el total de
observaciones (n = 60). Por ejemplo, f1 = 11/60 = .1833. La columna de frecuencias acumuladas Fi, se genera
al sumar los valores de fi de manera recursiva. Por ejemplo, F1 = f1 = .1833 y F2 = F1 + f2 = .1833 + .1333 =
.3166.
Los valores de fi y Fi proporcionan una versión “discretizada” de la fdp y la FDA en el tiempo de servicio.
Podemos convertir la FDA resultante en una función continua si unimos los puntos resultantes con segmentos
de línea. La figura 1 proporciona la fdp empírica y la FDA para el ejemplo. La FDA, como la presenta el
histograma, aparece definida en los puntos medios de las clases.

1.0 FDA

0.8

0.6

0.4

0.2
fdp
FIGURA 1.
0
FDA lineal de una distribución 1 2 3 4 5 6 7 8 9 10 11 12
empírica t (minutos)

Ahora podemos estimar la media, qt , y la varianza, s2, de la distribución


t empírica. Sea N el número de clases en
el histograma y se defina qt i como el punto medio de la clase i, entonces
𝑁

𝑡̅ = ∑ 𝑓𝑖 𝑡𝑖̅
𝑖=1
𝑁

𝑠2𝑡 = ∑ 𝑓𝑖 (𝑡𝑖̅ − 𝑡)̅ 2


𝑖=1

Aplicando estas fórmulas al ejemplo presente, obtenemos

𝑡̅ = .1833 * .5 + .133 * 1.5 + … + 11.5 * .0167 = 3.934 minutos


s2t = .1883 * 1.5 - 3.93422 + .1333 * 11.5 - 3.93422 +… +
+ .0167 * 111.5 - 3.93422 = 8.646 minutos2
PRUEBA DE BONDAD DE AJUSTE
Esta prueba evalúa si la muestra utilizada para determinar la distribución empírica se tomó de
una distribución teórica específica. Puede realizarse una evaluación inicial de los datos
comparando la FDA empírica con la FDA de la distribución teórica propuesta. Si las dos FDA no se
desvían “en exceso”, entonces es probable que la muestra se tomó de la distribución teórica
propuesta. Esta “corazonada” inicial puede respaldarse aún más con la prueba de bondad de
ajuste. El siguiente ejemplo proporciona los detalles del procedimiento propuesto.

Ejemplo 2
Este ejemplo prueba los datos del ejemplo 1 en cuanto a la hipótesis de una distribución exponencial. La primera
tarea es especificar la función que define la distribución teórica. Según el ejemplo 1, 𝑡̅ = 3.934 minutos. Por
1
consiguiente, 𝜆 = 3.934 = .2542 servicios por minuto según la distribución exponencial hipotética y la fdp y la
FDA asociadas se dan como
𝑓(𝑡) = .254𝑒 −.2542∗𝑡 , 𝑡>0
𝑇
𝐹(𝑇) = ∫ 𝑓(𝑡)𝑑𝑡 = 1 − 𝑒 −.2542∗𝑇 , 𝑇>0
0

Podemos utilizar la FDA, F(T), para calcular la FDA teórica para T = .5, 1.5,…, y 11.5, y luego compararla
gráficamente con el valor empírico Fi, i = 1,2,…, 12, calculado en el ejemplo 1 como se muestra en la figura 2.
Un examen superficial de las dos gráficas sugiere que la distribución exponencial puede proporcionar un ajuste
razonable por los datos observados.

El siguiente paso es implementar la prueba de bondad de ajuste. Existen dos pruebas como esa: (1) la prueba de
Kolmogrov-Smirnov, y (2) la prueba ji cuadrada. Limitaremos la presentación a la prueba ji cuadrada.

FIGURA 2.
Comparación de la FDA empírica y la FDA exponencial teórica

Distribución acumulada empírica


1.0

Distribución acumulada exponencial

0 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.5 11.5
t (minutos)
La prueba ji cuadrada se basa en una medición de la desviación entre las frecuencias empíricas y teóricas.
Específicamente, para la clase i, la frecuencia teórica ni correspondiente a la frecuencia observada oi se
calcula como
𝐼𝑖
𝑛𝑖 = 𝑛 ∫ 𝑓(𝑡)𝑑𝑡
𝐼𝑖−1

= 𝑛(𝐹( 𝐼𝑖 ) − 𝐹( 𝐼𝑖−1 ))

= 60( 𝑒 −.2542∗𝐼𝑖−1 − 𝑒 −.2542∗𝐼𝑖 )

Luego, suponiendo N clases, se calcula una medida de la desviación entre las frecuencias empíricas y
observadas como
𝑁
(𝑜𝑖 − 𝑛𝑖 )2
𝑥2 = ∑
𝑛𝑖
𝑖=1

La medida x2 es asintóticamente una función de densidad de probabilidad ji cuadrada con N – k – 1


grados de libertad, donde k es el número de parámetros estimados desde los datos sin procesar y utilizados
para definir la distribución teórica.
La hipótesis nula de la prueba que expresa que la muestra observada se toma de la distribución teórica
f(t) se acepta si

H: Aceptar f (t) si x2 < x2 N - k - 1, 1 - α

El valor crítico x2 N - k - 1, 1 - α se obtiene a partir de tablas ji cuadrada (vea la tabla A.3, del documento
“Tablas estadísticas” cargado en el aula virtual) correspondientes a N – k – 1 grados de libertad y a un
nivel de significancia α.

Los cálculos de la prueba se muestran en la siguiente tabla:


Como regla práctica, el conteo de frecuencia teórica debe ser al menos de 5. Este requerimiento se suele
resolver combinando clases sucesivas hasta que se satisface la regla, como se muestra en la tabla. El
número resultante de clases llega a ser N = 7. Como estamos estimandoun parámetro a partir de los datos
observados (es decir, l), el grado de libertad de la ji cuadrada es 7 – 1 – 1 = 5. Si consideramos un nivel
de significancia α = .05, obtenemos el valor crítico 𝑥5,.052
= 11.07 (utilice la tabla A.3, del documento
“Tablas estadísticas” cargado en el aula virtual)). Ya que el valor de x2 (= 2.623) es menor que el valor
crítico, aceptamos la hipótesis de que la muestra de toma de una fdp exponencial.

CONJUNTO DE PROBLEMAS _Distribución Empírica


1. Los datos siguientes representan el tiempo entre llegadas (en minutos) a una instalación de servicio:

4.3 3.4 .9 .7 5.8 3.4 2.7 7.8


4.4 .8 4.4 1.9 3.4 3.1 5.1 1.4
.1 4.1 4.9 4.8 15.9 6.7 2.1 2.3
2.5 3.3 3.8 6.1 2.8 5.9 2.1 2.8
3.4 3.1 .4 2.7 .9 2.9 4.5 3.8
6.1 3.4 1.1 4.2 2.9 4.6 7.2 5.1
2.6 .9 4.9 2.4 4.1 5.1 11.5 2.6
.1 10.3 4.3 5.1 4.3 1.1 4.1 6.7
2.2 2.9 5.2 8.2 1.1 3.3 2.1 7.3
3.5 3.1 7.9 .9 5.1 6.2 5.8 1.4
.5 4.5 6.4 1.2 2.1 10.7 3.2 2.3
3.3 3.3 7.1 6.9 3.1 1.6 2.1 1.9

(a) Use Excel para desarrollar tres histogramas con los datos basados en anchos de clase de .5, 1 y 1.5
minutos, respectivamente.
(b) Compare gráficamente la distribución acumulada de la FDA empírica y la de una distribución
exponencial correspondiente.
(c) Pruebe la hipótesis de que la muestra dada se toma de una distribución exponencial. Aplique un nivel
de confianza de 95%.
(d) ¿Cuál de los tres histogramas es el “mejor” para comprobar la hipótesis nula?

2. Los datos siguientes representan el periodo (en segundos) necesarios para transmitir un mensaje.

25.8 67.3 35.2 36.4 58.7


47.9 94.8 61.3 59.3 93.4
17.8 34.7 56.4 22.1 48.1
48.2 35.8 65.3 30.1 72.5
5.8 70.9 88.9 76.4 17.3
77.4 66.1 23.9 23.8 36.8
5.6 36.4 93.5 36.4 76.7
89.3 39.2 78.7 51.9 63.6
89.5 58.6 12.8 28.6 82.7
38.7 71.3 21.1 35.9 29.2

Utilice Excel para construir un histograma apropiado. Compruebe la hipótesis de que estos datos se toman
de una distribución uniforme con un nivel de confianza de 95%, dada la siguiente información adicional
sobre la distribución uniforme teórica:
(a) El rango de la distribución es entre 0 y 100.
(b) El rango de la distribución se estima a partir de los datos muestreados.
(c) El límite máximo en el rango de la distribución es 100, pero el límite mínimo debe estimarse a
partir de los datos muestreados.

3. Para contar el volumen del tráfico en una intersección de congestionamiento se utiliza un dispositivo
automático. Se registra el tiempo de llegada y se transforma en un tiempo ab- soluto que inicia de cero.
La siguiente tabla proporciona los tiempos de llegada (en minutos) de los primeros 60 automotores. Use
Excel para construir un histograma apropiado. Compruebe la hipótesis de que el tiempo entre llegadas
es exponencial utilizando un nivel de confianza de 95%.

Tiempo de Tiempo de Tiempo de Tiempo de


Llegada llegada (min) Llegada llegada (min) Llegada llegada (min) Llegada llegada (min)

1 5.2 16 67.6 31 132.7 46 227.8


2 6.7 17 69.3 32 142.3 47 233.5
3 9.1 18 78.6 33 145.2 48 239.8
4 12.5 19 86.6 34 154.3 49 243.6
5 18.9 20 91.3 35 155.6 50 250.5
6 22.6 21 97.2 36 166.2 51 255.8
7 27.4 22 97.9 37 169.2 52 256.5
8 29.9 23 111.5 38 169.5 53 256.9
9 35.4 24 116.7 39 172.4 54 270.3
10 35.7 25 117.3 40 175.3 55 275.1
11 44.4 26 118.2 41 180.1 56 277.1
12 47.1 27 124.1 42 188.8 57 278.1
13 47.5 28 1127.4 43 201.2 58 283.6
14 49.7 29 127.6 44 218.4 59 299.8
15 67.1 30 127.8 45 219.9 60 300.0

También podría gustarte