Está en la página 1de 12

Universidad de Concepción

Facultad de Ciencias Fı́sicas y Matemáticas


Departamento de Estadı́stica

Lunes 14 de Mayo de 2007


Inferencia Estadı́stica (523311)
Prof. Cristina Paz Burgos

Verificación de Modelos

1. Introducción
Los procedimientos desarrollados para la estimación de parámetros presupone una distribución
hipotética para la población. Si tal distribción no es la correcta, el modelo probabilı́stico resultante
puede ser irreal y dar una pobre representación del fenómeno fı́sico o natural en estudio.
En este capı́tulo estudiaremos algunos métodos para verificar o contrastar una distribución
de probabilidades de una población basándose en una muestra extraı́da desde la población. El
problema de verificación de distribución basado en la información muestral cae dentro del esquema
de pruebas de hipótesis ya estudiado.

2. Prueba de Bondad de Ajuste


Esta prueba se emplea para decidir cuando un conjunto de datos se apega a una distribución
de probabilidad dada. Basándose en qué tan buen ajuste se tiene entre la frecuencia de ocurrencia
de las observaciones y las frecuencias esperadas que se tienen de la distribución hipotética. En la
aplicación de este test debemos distinguir dos casos:

Caso 1: Cuando la distribución hipotética esta completamente especificada con todos sus pará-
metros conocidos.

Supongamos que la supuesta distribución esta completamente especificada con todos sus
parámetros conocidos. En el test χ2 , el estadı́stico de prueba surge de comparar las fre-
cuencias observadas y las frecuencias esperadas. Consideremos una muestra aleatoria de
tamaño n de la distribución de una variable aleatoria X dividida en k clases mutuamente
excluyentes (Ai , i = 1, . . . , k) y sea Ni , i = 1, . . . , k, el número de observaciones en Ai .
Considérese la verificación de la hipótesis nula

H0 : F (x) = F0 (x),

1
en donde el modelo de probabilidad propuesto (F0 (x)) es conocido, respecto de todos sus
parámetros. Dado que se especifica F0 (x) de manera completa, se puede obtener la probabi-
lidad pi de obtener una observación en la i−ésima clase bajo H0 , en donde necesariamente
Pk P
k
pi = 1. Sea ni la realización de Ni para i = 1, . . . , k de manera tal que ni = n.
i=1 i=1
La probabilidad de tener, de manera exacta, ni observaciones en la i−ésima clase es pni i
para i = 1, . . . , k. Dado que existen k categorı́as mutuamente excluyentes con probabilidades
p1 , p2 , . . . , pk , entonces bajo la hipotésis nula la probabilidad de la muestra agrupada es igual
a la función de probabilidad de una distribución multinomial1 . Luego, (N1 , N2 , . . . , Nk ) es
un vector multinomial de parámetros (n; p1 , p2 , . . . , pk ) donde pi = P (x ∈ Ai ) = P (Ai ) bajo
H0 . Cada Ni tiene distribución binomial de parámetros (n, pi ) y por tanto con media npi
(frecuencia esperada). Ası́, el estadı́stico más apropiado es
k
X (Ni − npi )2
D= ∼ χ2k−1 cuando n → ∞.
npi
i=1

Una vez observado (N1 , N2 , . . . , Nk ) podemos calcular el valor observado de D bajo H0 y


si encontramos que este valor es muy grande indicarı́a que hay grandes diferencias entre
las frecuencias observadas y esperadas, por lo que recharazamos H0 . La razón de proceder
de esta manera es que si H0 es verdadera deberı́a tenerse que E(Ni ) = npi para todo
i = 1, . . . , k lo que conducirı́a a un valor observado de D pequeño.

En general la distribución χ2 es una buena aproximación si npi ≥ 5, i = 1, . . . , k, rechazan-


do H0 si
RC = {Dcalculado > χ21−α,k−1 }

o bien
Valor-p = P (χ21−α,k−1 ≥ Dcalculado )

Ejercicio 2.1 Consideremos el lanzamiento de un dado que se lanza 120 veces. Se desea
probar que el dado no esta cargado. Se registraron los siguientes resultados:

Cara del dado 1 2 3 4 5 6


Observación 20 22 17 18 19 24

Utilice un nivel de signifiación del 5 %

1
Ver Anexo

2
Solución
Si el dado no esta cargado, significa que cada cara del dado tiene la misma probabilidad
de ocurrir, luego la distribución hipotética de los resultados es la distribución uniforme
discreta:
1
p(x) = , x = 1, 2, . . . , 6.
6
Si dado no esta cargado, se esperarı́a que cada lado cayera 20 veces, esto es:
1
E(Ni ) = npi = 120 · = 20
6
entonces el estadı́stico de prueba resulta:
k
X 6
X
(Ni − npi )2 (Ni − 20)2
D= = = 1,7.
npi 20
i=1 i=1

Por otro lado, la región crı́tica esta dada por:

RC = {Dcalculado > χ21−α,k−1 } = {Dcalculado > χ20,95,5 } = {Dcalculado > 11,07}


| {z }
11,07

Como 1,7 ∈
/ RC no podemos rechazar H0 , por lo que no existe evidencia suficiente para
rechazar el hecho de que el dado esta cargado.
Calculemos, además su valor p:

Valor-p = P (χ20,95,5 ≥ 1,7)


= 1 − P (χ20,95,5 ≤ 1,7)
= 1 − 0,1 = 0,9 > 0,05 no se rechaza H0

3
Universidad de Concepción
Facultad de Ciencias Fı́sicas y Matemáticas
Departamento de Estadı́stica

Viernes 18 de Mayo de 2007


Inferencia Estadı́stica (523311)
Prof. Cristina Paz Burgos

Ejercicio 2.2 Los estudiantes universitarios han insistido regularmente en tener la libertad de
elegir cuando se inscriben en los cursos. En este semestre hubo 7 secciones de un curso de
matemáticas en particular. Se programaron en varios horarios con variedad de profesores. La
tabla informa acerca del número de alumnos qie seleccionan cada una de las 7 secciones

Sección del curso de Matemáticas 1 2 3 4 5 6 7 total


Número de alumnos 18 12 25 23 8 19 14 119

Utilice para el análisis un nivel de signifiación del 5 %.

Solución
Si no hubo preferencia en la selección de las secciones del curso, se esperarı́a que los 119 estudiantes
esten igualmente distribuı́dos entre las 7 clases con un probabilidad de 17 , luego el número esperado
de alumnos inscritos en cada sección serı́a:
1
E(Ni ) = npi = 119 · = 17 estudiantes.
7
Lo que deseamos probar es que no hubo preferencias, esto es, contrastar:

H0 : No se manifestó preferencia (las secciones están distribuı́das de igual manera)


H1 : Se manifestó preferencia (las secciones no están distribuı́das de igual manera)

Calculemos el estadı́stico de prueba:


7
X (Ni − 17)2
Dcalculado = = 12,9411
17
i=1

Región Crı́tica:
RC = {Dcalculado > χ20,95,6 } = {Dcalculado > 12,59}
| {z }
12,59

Como Dcalculado ∈ RC se rechaza H0

Valor-p = P (χ20,95,6 ≥ 12,94) = 0,0439 ≈ 0,05

Para un nivel de significación del 5 % parece haber preferencia en la selección de las secciones

4
Caso 2: Cuando la distribución no esta completamente identificada y debemos estimar los parámet-
ros desde los datos.

Este caso consiste en que los parámetros de la distribución supuesta necesitan ser estimados
desde los datos. El procedimiento para el Test de Bondad de Ajuste es estimar los paráme-
tros (por algún procedimiento estudiado) y luego proceder como un test χ2 de parámetros
conocidos.

Complicación: las probabilidades teóricas pi son funciones de la muestra; además, son


funciones de los parámetros de la distribución.

Ahora, el estadı́stico de prueba tiene la forma:


k
X (Ni − n p̂i )2
D= → función de la muestra!
n p̂i
i=1

donde p̂i es el estimador máximo verosı́mil de pi .

¿Cuál es la nueva distribución de D?

D ∼ χ2k−s−1

donde s representa al número de parámetros estimados desde los datos.

Región Crı́tica:
RC = {Dcalculado > χ21−α,k−s−1 }

Valor-p:
Valor-p = P (χ21−α,k−s−1 ≥ Dcalculado )

Ejercicio 2.3 Supongamos que los vehı́culos que llegan a ciertos puntos de la ciudad de
Concepción son registrados a intervalos de un minuto, durante 106 ocasiones. Los resultados
del estudio aparecen en la siguiente tabla:
Intervalos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Ni 0 1 3 5 7 13 12 8 9 13 10 5 6 4 5 4 0 1

Uilice un nivel de significación del 5 %.

5
Solución
Lo que deseamos probar es si los datos provienen de la distribución hipotética:

H0 : Los datos provienen de la Distribución Poisson


H1 : Los datos no provienen de la Distribución Poisson

Es decir, debemos determinar:


µx e−µ
p(x) = , x = 0, 1, 2, . . . , 18
x!
donde es necesario estimar el parámetro µ desde los datos, luego s = 1.

El estimador máximo verosı́mil para µ está dado por:


1 · 0 + 2 · 1 + 3 · 3 + . . . + 17 · 0 + 18 · 1 964
x= = = 9,09
108 106
por lo tanto, la función de probailidad queda especificada como:

9,09x · e−9,09
p(x) = , x = 0, 1, 2, . . . , 18 (1)
x!
Luego, estimamos las probabilidades p̂i usando la expresión (2), obteniendo ası́ los siguientes
resultados:

x Ni p̂i
0 0 0.00
1 0 0.00
2 1 0.00
3 3 0.01
4 5 0.03
5 7 0.06
6 13 0.09
7 12 0.11
8 8 0.13
9 9 0.13
10 13 0.12
11 10 0.10
12 5 0.07
13 6 0.05
14 4 0.03
15 5 0.02
16 4 0.01
17 0 0.01
18 1 0.00

6
Ahora, para proseguir debemos determinar intervalos (clases) Ai mutuamente excluyentes
de tal forma que n p̂i ≥ 5, ∀ i, de esta manera se construyen k = 11 intervalos, éstos se
muestran en la tabla siguiente:

Ai Ni p̂i 106 · p̂i Dcalculado


1 0≤x≤4 9 0.05 5.51 2.21
2 x=5 7 0.06 6.18 0.11
3 x=6 13 0.09 9.37 1.41
4 x=7 12 0.11 12.16 0.00
5 x=8 8 0.13 13.82 2.45
6 x=9 9 0.13 13.96 1.76
7 x = 10 13 0.12 12.69 0.01
8 x = 11 10 0.10 10.49 0.02
9 x = 12 5 0.07 7.94 1.09
10 x = 13 6 0.05 5.55 0.04
11 14 ≤ x ≤ 18 14 0.08 8.03 4.43
Total 106 1 ≈ 106 13.53

Por otro lado, la nuestra región crı́tica está dada por:

RC = {Dcalculado > χ21−α,k−s−1 }


= {Dcalculado > χ21−0,05,11−1−1 }
= {Dcalculado > χ20,95,9 }
= {Dcalculado > 16,92}

En vista, de que Dcalculado = 13,53 ∈


/ RC aceptamos la hipótesis de que los datos provienen
de una distribución Poisson con parámetro µ = 9,09 con un 5 % del nivel de significación.

Valor-p:

Valor-p = P (χ21−α,k−s−1 ≥ Dcalculado )


= P (χ20,95,9 ≥ 16,92)
≈ 0,05

7
Ejercicio 2.4 Se mide el número de partı́culas α que llegan a una determinada zona pro-
ducto de una sustancia radiactiva en un corto espacio de tiempo siempre igua, con los
resultados siguientes:

Número de partı́culas 0 1 2 3 4 5 6
Número de periodos de tiempo 269 325 207 82 28 7 2

a) Ajuste una distribución Poisson


b) Calcular la probabilidad de que lleguen a dicha superficie a 0, 1, . . . , 6 partı́culas α
c) Verificar el ajuste mediante un contraste χ2

Solución
a) Para ajustar una distribución Poisson, debemos determinar:

µx e−µ
p(x) = , x = 0, 1, 2, 3, 4, 5, 6
x!
donde es necesario estimar el parámetro µ desde los datos.

El estimador máximo verosı́mil para µ está dado por:


0 · 269 + 1 · 325 + 3 · 207 + . . . + 5 · 7 + 6 · 2 1144
x= = = 1,24
920 920
por lo tanto, la función de probailidad queda especificada como:

1,24x · e−1,24
p(x) = , x = 0, 1, 2, . . . , 6 (2)
x!
b) Las probabilidades p̂i son

Número de partı́culas p̂i


0 0.29
1 0.36
2 0.22
3 0.09
4 0.03
5 0.01
6 0.00

8
c) Lo que deseamos probar es si los datos provienen de la distribución hipotética:

H0 : Los datos provienen de la Distribución Poisson


H1 : Los datos no provienen de la Distribución Poisson

Ai p̂i Ni 920 · p̂i


0 0.29 269 266.2 ≥5 X
1 0.36 325 330.1 ≥5 X
2 0.22 207 204.7 ≥5 X
3 0.09 82 84.6 ≥5 X
4 0.03 28 26.2 ≥5 X
5 0.01 7 6.5 ≥5 X
6 0.00 2 1,3  5 ×
| {z }
se debe combinar con la clase anterior!!
Al combinar las clases 5 y 6 resulta:

Ai Ni p̂i 920 · pi Dcalculado


0 269 0.29 266.2 ≥5 X 0.03
1 325 0.36 330.1 ≥5 X 0.08
2 207 0.22 204.7 ≥5 X 0.03
3 82 0.09 84.6 ≥5 X 0.08
4 28 0.03 26.2 ≥5 X 0.12
5≤x≤6 9 0.01 7.8 ≥5 X 0.17
Total 920 1 ≈ 920 0.50

Por otro lado, la nuestra región crı́tica está dada por:

RC = {Dcalculado > χ21−α,k−s−1 }


= {Dcalculado > χ21−0,05,6−1−1 }
= {Dcalculado > χ20,95,4 }
= {Dcalculado > 9,49}

Valor-p:

Valor-p = P (χ21−α,k−s−1 ≥ Dcalculado )


= P (χ20,95,4 ≥ 9,49)
≈ 0,05

9
2.1. Ejercicios Propuestos

Ejercicio 2.5 Se puede admitir que la distribución uniforme de las edades de una gran población
de la que hemos tomado una muestra aleatoria n = 100 y hemos obtenido la siguiente tabla:

Edades (años) Número de individuos


Menos de 15 16
15-30 22
30-45 20
45-60 19
Más de 60 23
Total 100

Ejercicio 2.6 A lo largo de 540 dı́as se anota el número de accidentes mortales de tráfico que
se producen en una cierta ciudad, obteniéndose los resultados de la tabla adjunta:

Número de accidentes mortales por dı́a Número de dı́as


0 132
1 195
2 120
3 60
4 24
5 09

a) ¿Qué distribución podemos ajustar y por qué?

b) Estudiar la bondad del ajuste

c) ¿Cuántos dı́as se producirán 2 accidentes mortales en un año?

Ejercicio 2.7 Use el test χ2 con 6 intervalos equiprobables bajo H0 , para probar que los siguientes
45 datos provienen de una población normal con media µ = 0,5 y σ 2 = 0,002

0.4976 0.4991 0.5014 0.5008 0.4993 0.4994 0.501 0.4997


0.5013 0.5000 0.5017 0.4984 0.4967 0.5028 0.4975 0.5013
0.5047 0.5069 0.4977 0.4961 0.4987 0.4990 0.4974 0.5008
0.4967 0.4977 0.4992 0.5007 0.4975 0.4998 0.5000 0.5008
0.4959 0.5015 0.5012 0.5056 0.4991 0.5006 0.4987 0.4968

10
Ejercicio 2.8 En un hospital, el número de nacimientos observados para cada mes de un cierto
año, fueron los siguientes:

Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
95 105 95 105 90 95 105 110 105 100 95 100

Si α = 0,01, ¿existe alguna razón para creer que el número de nacimientos no se encuentra en
forma uniforme durante todos los meses del año? ¿Cuál es su valor-p?

Ejercicio 2.9 Supóngase que, en el Ejercicio 2.8, el número de nacimientos que se observaron
cada mes durante un periodo de 10 años es simplememte igual a diez veces los números observados
en el ejercicio anterior para un año.

a) ¿Cambiará esto la conclusión del ejercicio anterior?

b) ¿Que puede concluirse con respecto al empleo de prueba de bondad de ajuste χ2 para valores
grandes de n?

Ejercicio 2.10 Una organización de seguridad vial desea determinar si el número de accidentes
fatales se encuentra distribuido de igual forma para el color de automóviles involucrados en los
accidentes. La organización obtuvo una muestra aleatoria de 600 accidentes automovilı́sticos en
los cuales ocurrió al menos una muerte y anotó el color del automóvil. Se obtuvo la siguiente
información:

Rojo Café Amarillo Blanco Gris Azul


75 125 70 80 135 115

¿Existe alguna razón para creer que las proporciones de color no son idénticas? Úsese α = 0,01

11
3. Anexo

3.1. Distribución Multinomial

La distribución multinomial es una generalización de la distribución binomial en donde se


consideran k diferentes resultados posibles (excluyentes) con probabilidades p1 , p2 , . . . , pk entonces
para n ensayos independientes la función de probabilidad está dada por:
n!
p(x) = px1 px2 . . . pxk k
x1 !x2 ! . . . xk ! 1 2

4. Bibliografı́a
• Cid/Mora/Valenzuela. “Probabilidad y Estadı́stica”.1996.

• Canavos, G. “Probabilidad y Estadı́stica. Aplicaciones y Métodos”. McGraw–Hill. 1988.

12