STD 408 Bis

Notas para un curso de Probabilidad y Estadı́stica
Borradores: Test de bondad de ajuste.
19 de noviembre de 2008
Índice
1. Test de la χ2 para bondad de ajuste 1
1.1. Planteo del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Test de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Ejemplo esquema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Test para el caso en que no se conocen algunos parámetros . . . . . . . . . 5
2. Ejercicios Adicionales 5
1. Test de la χ2 para bondad de ajuste

1.1. Planteo del problema
Dada una muestra aleatoria de volumen n, X = (X1 , . . . , Xn ), de una cierta variable X
se quiere saber si hay motivos razonables para considerar esta variable como una variable
aleatoria con una distribución de probabilidad dada.
Más precisamente, se formula una hipótesis, H, que afirma que los datos observados
constituyen una muestra aleatoria de volumen n de una variable aleatoria X con distribu-
ción Fθ . El problema consiste en elaborar un método para verificar si los datos observados
pueden considerarse conciliables con la hipótesis H.
Algunos ejemplos (para fijar ideas):

Ejemplo 1.1. Una partı́cula de polen suspendida en agua es bombardeada por moléculas en
movimiento térmico. Se la observa durante una hora y se registra la cantidad de impactos
que recibe por segundo. Sea X la variable aleatoria que cuenta la cantidad de impactos por
segundo recibidos por la partı́cula. Se obtuvieron los siguientes datos
X 0 1 2 3 4 5 6
(1)
# de s. con X impactos 1364 1296 642 225 55 15 3
1
Se quiere verificar si los datos provienen de una distribución de Poisson.
Ejemplo 1.2. En una sucesión de 100 lanzamientos independientes de una moneda se
observaron 59 caras y 41 cecas ¿Estos datos son conciliables con la hipótesis de que la
moneda es honesta?
Ejemplo 1.3. De cierto generador de números aleatorios se afirma que los produce de
acuerdo con la distribución U[0, 1]. Para verificar esa hipótesis se producen 10000 números
con el mencionado generador. Para economizar espacio se registra la cantidad de números
de la forma 0. d..., donde d = 0, 1, . . . , 9. Se obtuvieron los resultados siguientes:
d 0 1 2 3 4 5 6 7 8 9
(2)
#{0. d...} 977 1045 1017 1024 901 928 1045 984 1034 1045
¿Estos datos son conciliables con la afirmación?
NB. Los datos de los ejemplos anteriores fueron simulados con los generadores de números
aleatorios disponibles en el software Matlab. (No se trata arbitrarios “dibujos” diseñados
por el autor.)
1.2. Test de bondad de ajuste

El espacio de la variable se divide en k partes disjuntas dos a dos: A1 , A2 , . . . , Ak ,
i.e., los valores de la variable aleatoria X pertenecen a uno y solo a uno de los conjuntos
A1 , A2 , . . . , Ak . Sean p1 , p2 , . . . , pk las probabilidades pi := Pθ (X ∈ Ai ). Se supone que
todas las pi > 0. Sean n1 , n2 , . . . , nk las correspondientes frecuencias de estas partes en la
muestra X:
n
X
ni := 1{Xj ∈ Ai }.
j=1
En otras palabras, ni valores muestrales pertenecen al conjunto Ai y ki=1 ni = n.

P
De acuerdo con la ley fuerte de los grandes números, bajo la hipótesis H, casi segura-
mente (i.e., con probabilidad igual a 1) ocurre lo siguiente:
n
ni 1X
lı́m = lı́m 1{Xj ∈ Ai } = Eθ [1{X1 ∈ Ai }] = Pθ (X1 ∈ Ai ) = pi .
n→∞ n n→∞ n
j=1
En otras palabras, si n es suficientemente grande, las frecuencias relativas nni deben tener
valores muy próximos a las probabilidades pi . La desviación entre ambos grupos de valores
puede medirse del siguiente modo
k n 2
i
X
2
D = wi − pi (3)
i=1
n
2
donde los coeficientes wi se pueden elegir de manera más o menos arbitraria. Cuando la
hipótesis H es verdadera la desviación definida en (3) debe ser pequeña, lo que suguiere
diseñar una regla de decisión de la forma: Rechazar la hipótesis H si se observa que D2 > M
donde M es una constante arbitraria pero fija.
Poniendo wi = pni , K. Pearson demostró que cuando n es grande y la hipótesis H es
verdadera, la distribución de la medida de dispersión
k k
2
X n ni 2 X (ni − npi )2
D = − pi = (4)
p n
i=1 i i=1
npi
es muy parecida a una χ2k−1 . (Una demostración de este resultado puede consultarse en:
Cramer, H., (1970). Métodos matemáticos de estadı́stica, Aguilar, Madrid.)
Se propone la siguiente REGLA DE DECISIÓN : Rechazar la hipótesis H si la medida
de dispersión D2 definida en (4) supera el cuantil 1 − α de la distribución χ2k−1 . En otras
palabras, rechazar H si se observa que D2 > χ2k−1,1−α .
Con esta regla de decisión se garantiza que la probabilidad de equivocarse al rechazar
la hipótesis H cuando ella es verdadera es (aproximadamente) α.
Ejemplo 1.3. (Continuación) Usando este método el problema se resuelve de la sigu-

iente manera. Los conjuntos Ai son los intervalos de la forma [(i − 1)/10, i/10) donde
i = 1, . . . , 10. Si la variable aleatoria X tuviese distribución U[0, 1], pi = P(X ∈ Ai ) = 1/10.
Aquı́ n = 10000 y los ni los valores que se muestran en la tabla (2).
1
D2 = 232 + 452 + 172 + 242 + 992 + 722 + 452 + 162 + 342 + 452 = 23.866

1000
Consultando la tabla de χ29 vemos que χ29, 0.995 = 23.589 y χ29,9.999 = 27.877. Por lo tan-
to, utilizando una regla decisión con nivel 0.005 rechazamos que los datos provengan de
la distribución U[0, 1]. Si la distribución fuese uniforme corremos un riesgo del 0.5 % de
equivocarnos al tomar esa decisión.
Curva peligrosa. El test de bondad de ajuste χ2 funciona bien solamente si npi > 10
para todo i = 1, . . . , k. Si para algún i ocurriese que npi < 10 hay que redefinir la partición
A1 , . . . , Ak del espacio de la variable. Por ejemplo uniendo Ai con Ai+1 . En otras palabras,
si la muestra no es muy grande, la partición del espacio de la variable no puede ser muy
fina.
NB. En todo el razonamiento anterior se presupone (implicitamente) que el parámetro

θ está completamente determinado.
1.3. Ejemplo esquema

El ejemplo siguiente es un esquema de ejemplos que tiene la virtud mostrar, en un
caso particular, una lı́nea de demostración del resultado de Pearson sobre la distribución
asintótica de D2 .
3
Ejemplo 1.4 (Moneda cargada). En una sucesión de n lanzamientos independientes de
una moneda se observaron n1 caras. ¿Estos datos son conciliables con la hipótesis de que
la moneda está cargada con probabilidad p de mostrar cara?
Los datos se pueden considerar como una muestra de n valores de una variable aleatoria,
que es igual a uno o a cero según salga cara o no. La hipótesis H consiste en afirmar que
ambas alternativas tienen las probabilidades fijadas p y 1 − p, respectivamente.
Por lo tanto, la medida de dispersión, D2 , entre las frecuencias observadas, (n1 y n−n1 )
y las frecuencias esperadas (np y n(1 − p)), tiene la siguiente expresión
(n1 − np)2 (n − n1 − n(1 − p))2
D2 = + .
np n(1 − p)
Observando que
(n1 − np)2 (n − n1 − n(1 − p))2 (n1 − np)2 (np − n1 )2
+ = +
np n(1 − p) np n(1 − p)
(1 − p)(n1 − np)2 + p(n1 − np)2
=
np(1 − p)
se obtiene que
!2
(n1 − np)2 n − np
D2 = = p 1
np(1 − p) np(1 − p)
Si la hipótesis H es verdadera, n1 ∼ B(n, p), y de acuerdo con el teorema central del lı́mite
la variable aleatoria
n − np
p 1
np(1 − p)
es asintóticamente normal N (0, 1). Por lo tanto, su cuadrado tiene, en el lı́mite, la dis-
tribución χ21 . En otras palabras, si n es grande D2 tiene una distribución aproximadamente
igual a χ21
Consideraremos que observar n1 caras en n lanzamientos puede conciliarse con la
hipótesis de que la moneda está cargada con probabilidad p de mostrar cara siempre y
cuando
D2 ≤ χ21,1−α ,
donde 100 α % es el porcentaje de veces que tomaremos la decisión erronea de rechazar esa
hipótesis cuando efectivamente la moneda tenı́a una carga de p para el lado de cara.
Ejemplo 1.2. (Continuación) El problema planteado es un caso particular del esquema

anterior, donde p = 1/2, n = 100 y n1 = 59. Por lo tanto
(59 − 50)2 81
D2 = = = 3.24
25 25
Consultado la tabla de χ21 vemos que χ21, 0.9 = 2.706 y χ21, 0.95 = 3.841. A nivel de significación
0.05 observar 59 caras en 100 lanzamientos de una moneda es conciliable con que la moneda
lanzada sea honesta. Sin embargo, a nivel 0.1 no lo es.
4
1.4. Test para el caso en que no se conocen algunos parámetros
Cuando algunos parámetros son desconocidos, se los estima mediante el método de
de máxima verosimilitud. Supongamos que hay r parámetros desconocidos. Los valores
de las estimaciones se enchufan en la distribución como si fuesen los verdaderos valores
parámetros y se aplica el test anteriormente descripto. En este caso, se perderá un grado
por por cada parámetro estimado. Si para construir D2 se recurrió a una partición de k
partes del espacio de la variable X su distribución será aproximadamente una χ2k−1−r .
Ejemplo 1.1. (Continuación) La hipótesis H afirma que la cantidad de impactos por

segundo recibidos por la partı́cula de polen sigue una distribución de Poisson, pero no
indica cuál es su media (el parámetro λ).
El estimador de máxima verosimilitud para la media de una distribución de Poisson,
basado en la muestra aleatoria X, es λ̂mv = X. Usando los datos obtenidos, ver la tabla
(1), obtenemos
0(1364) + 1(1296) + 2(642) + 3(225) + 4(55) + 5(15) + 6(3) 3568

λ̂mv = = = 0.9911 ≈ 1.
3600 3600
Las regiones Ai de la partición Ai se pueden construir usando como criterio que 3600P(X ∈
Ai ) ≥ 10. Si suponemos que X ∼ P(1), su función de probabilidades será P(X = n) =
e−1 /n!, n = 0, 1, . . . .
Usaremos como partición los siguientes conjuntos: A1 = {0}, A2 = {1}, A3 = {2},
A4 = {3, 4, 5, . . . }. En tal caso p1 = p2 = 0.3678, p3 = 0.1839 y p4 = 0.0805. Obtenemos
que
(1364 − 3600p1 )2 (1296 − 3600p2 )2 (642 − 3600p3 )2 (298 − 3600p4 )2

D2 = + + +
3600p1 3600p2 3600p3 3600p4
1593.6064 788.4864 401.6016 67.24
= + + + = 2.6376
1324.08 1324.08 662.04 289.8
Para decidir comparamos el valor de D2 con los cuantiles de la χ22 : χ22, 0.70 = 2.408;
χ22, 0.75 = 2.773. Conclusión: si admite un riesgo del 30 % de error rechazamos que los datos
observados provienen de una variable Poisson; para riesgos menores al 25 % aceptamos que
son conciliables con dicha distribución.
2. Ejercicios Adicionales
1. Conseguir una moneda de 5 centavos. Lanzarla 100 veces y aplicar el test chi cuadrado
para saber si la moneda es honesta.
5
2. Considerar los primeros 1000 decimales del número π:
3.1415926535897932384626433832795028841971693993751058209749445923078164
0628620899862803482534211706798214808651328230664709384460955058223172
5359408128481117450284102701938521105559644622948954930381964428810975
6659334461284756482337867831652712019091456485669234603486104543266482
1339360726024914127372458700660631558817488152092096282925409171536436
7892590360011330530548820466521384146951941511609433057270365759591953
0921861173819326117931051185480744623799627495673518857527248912279381
8301194912983367336244065664308602139494639522473719070217986094370277
0539217176293176752384674818467669405132000568127145263560827785771342
7577896091736371787214684409012249534301465495853710507922796892589235
4201995611212902196086403441815981362977477130996051870721134999999837
2978049951059731732816096318595024459455346908302642522308253344685035
2619311881710100031378387528865875332083814206171776691473035982534904
2875546873115956286388235378759375195778185778053217122680661300192787
66111959092164201989...
Contar la cantidad de veces en que aparece cada dı́gito y aplicar el test chi-cuadrado para
ver si esas frecuencias son compatibles con la hipótesis H : pi = 1/10, i = 0, . . . , 9.
3. En la siguiente tabla se muestran 200 grupos de 5 dı́gitos. Aplicar el test chi-cuadrado

para verificar si esos dı́gitos son compatibles con la hipótesis de que provienen de la dis-
tribución uniforme U(0, 1).
10097 32533 76520 13586 34673 54876 80959 09117 39292 74945
37542 04805 64894 74296 24805 24037 20636 10402 00822 91665
08422 68953 19645 09303 23209 02560 15953 34764 35080 33606
99019 02529 09376 70715 38311 31165 88676 74397 04436 27659
12807 99970 80157 36147 64032 36653 98951 16877 12171 76833
66065 74717 34072 76850 36697 36170 65813 39885 11199 29170
31060 10805 45571 82406 35303 42614 86799 07439 23403 09732
85269 77602 02051 65692 68665 74818 73053 85247 18623 88579
63573 32135 05325 47048 90553 57548 28468 28709 83491 25624
73796 45753 03529 64778 35808 34282 60935 20344 35273 88435
98520 17767 14905 68607 22109 40558 60970 93433 50500 73998
11805 05431 39808 27732 50725 68248 29405 24201 52775 67851
83452 99634 06288 98083 13746 70078 18475 40610 68711 77817
88685 40200 86507 58401 36766 67951 90364 76493 29609 11062
99594 67348 87517 64969 91826 08928 93785 61368 23478 34113
65481 17674 17468 50950 58047 76974 73039 57186 40218 16544
80124 35635 17727 08015 45318 22374 21115 78253 14385 53763
74350 99817 77402 77214 43236 00210 45521 64237 96286 02655
69916 26803 66252 29148 36936 87203 76621 13990 94400 56418
09893 20505 14225 68514 46427 56788 96297 78822 54382 14598
6
4. Conseguir una computadora que tenga instalado el programa Excel y usando ese pro-
grama simular una muestra aleatoria de volumen 100000 de una población normal N (0, 1).
Aplicar el test chi-cuadrado para verificar si la muestra obtenida es compatible con la
hipótesis de que proviene de una distribución normal N (0, 1).

STD 408 Bis

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

STD 408 Bis

Cargado por

Copyright:

Formatos disponibles

Notas para un curso de Probabilidad y Estadı́stica

Borradores: Test de bondad de ajuste.

1. Test de la χ2 para bondad de ajuste

Algunos ejemplos (para fijar ideas):

¿Estos datos son conciliables con la afirmación?

1.2. Test de bondad de ajuste

En otras palabras, ni valores muestrales pertenecen al conjunto Ai y ki=1 ni = n.

Ejemplo 1.3. (Continuación) Usando este método el problema se resuelve de la sigu-

NB. En todo el razonamiento anterior se presupone (implicitamente) que el parámetro

1.3. Ejemplo esquema

Ejemplo 1.2. (Continuación) El problema planteado es un caso particular del esquema

Ejemplo 1.1. (Continuación) La hipótesis H afirma que la cantidad de impactos por

0(1364) + 1(1296) + 2(642) + 3(225) + 4(55) + 5(15) + 6(3) 3568

(1364 − 3600p1 )2 (1296 − 3600p2 )2 (642 − 3600p3 )2 (298 − 3600p4 )2

3. En la siguiente tabla se muestran 200 grupos de 5 dı́gitos. Aplicar el test chi-cuadrado

También podría gustarte