Está en la página 1de 7

Notas para un curso de Probabilidad y Estadı́stica

Borradores: Test de bondad de ajuste.

19 de noviembre de 2008

Índice
1. Test de la χ2 para bondad de ajuste 1
1.1. Planteo del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Test de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Ejemplo esquema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Test para el caso en que no se conocen algunos parámetros . . . . . . . . . 5

2. Ejercicios Adicionales 5

1. Test de la χ2 para bondad de ajuste


1.1. Planteo del problema
Dada una muestra aleatoria de volumen n, X = (X1 , . . . , Xn ), de una cierta variable X
se quiere saber si hay motivos razonables para considerar esta variable como una variable
aleatoria con una distribución de probabilidad dada.
Más precisamente, se formula una hipótesis, H, que afirma que los datos observados
constituyen una muestra aleatoria de volumen n de una variable aleatoria X con distribu-
ción Fθ . El problema consiste en elaborar un método para verificar si los datos observados
pueden considerarse conciliables con la hipótesis H.

Algunos ejemplos (para fijar ideas):


Ejemplo 1.1. Una partı́cula de polen suspendida en agua es bombardeada por moléculas en
movimiento térmico. Se la observa durante una hora y se registra la cantidad de impactos
que recibe por segundo. Sea X la variable aleatoria que cuenta la cantidad de impactos por
segundo recibidos por la partı́cula. Se obtuvieron los siguientes datos
X 0 1 2 3 4 5 6
(1)
# de s. con X impactos 1364 1296 642 225 55 15 3

1
Se quiere verificar si los datos provienen de una distribución de Poisson.
Ejemplo 1.2. En una sucesión de 100 lanzamientos independientes de una moneda se
observaron 59 caras y 41 cecas ¿Estos datos son conciliables con la hipótesis de que la
moneda es honesta?
Ejemplo 1.3. De cierto generador de números aleatorios se afirma que los produce de
acuerdo con la distribución U[0, 1]. Para verificar esa hipótesis se producen 10000 números
con el mencionado generador. Para economizar espacio se registra la cantidad de números
de la forma 0. d..., donde d = 0, 1, . . . , 9. Se obtuvieron los resultados siguientes:

d 0 1 2 3 4 5 6 7 8 9
(2)
#{0. d...} 977 1045 1017 1024 901 928 1045 984 1034 1045

¿Estos datos son conciliables con la afirmación?

NB. Los datos de los ejemplos anteriores fueron simulados con los generadores de números
aleatorios disponibles en el software Matlab. (No se trata arbitrarios “dibujos” diseñados
por el autor.)

1.2. Test de bondad de ajuste


El espacio de la variable se divide en k partes disjuntas dos a dos: A1 , A2 , . . . , Ak ,
i.e., los valores de la variable aleatoria X pertenecen a uno y solo a uno de los conjuntos
A1 , A2 , . . . , Ak . Sean p1 , p2 , . . . , pk las probabilidades pi := Pθ (X ∈ Ai ). Se supone que
todas las pi > 0. Sean n1 , n2 , . . . , nk las correspondientes frecuencias de estas partes en la
muestra X:
n
X
ni := 1{Xj ∈ Ai }.
j=1

En otras palabras, ni valores muestrales pertenecen al conjunto Ai y ki=1 ni = n.


P
De acuerdo con la ley fuerte de los grandes números, bajo la hipótesis H, casi segura-
mente (i.e., con probabilidad igual a 1) ocurre lo siguiente:
n
ni 1X
lı́m = lı́m 1{Xj ∈ Ai } = Eθ [1{X1 ∈ Ai }] = Pθ (X1 ∈ Ai ) = pi .
n→∞ n n→∞ n
j=1

En otras palabras, si n es suficientemente grande, las frecuencias relativas nni deben tener
valores muy próximos a las probabilidades pi . La desviación entre ambos grupos de valores
puede medirse del siguiente modo
k n 2
i
X
2
D = wi − pi (3)
i=1
n

2
donde los coeficientes wi se pueden elegir de manera más o menos arbitraria. Cuando la
hipótesis H es verdadera la desviación definida en (3) debe ser pequeña, lo que suguiere
diseñar una regla de decisión de la forma: Rechazar la hipótesis H si se observa que D2 > M
donde M es una constante arbitraria pero fija.
Poniendo wi = pni , K. Pearson demostró que cuando n es grande y la hipótesis H es
verdadera, la distribución de la medida de dispersión
k k
2
X n  ni 2 X (ni − npi )2
D = − pi = (4)
p n
i=1 i i=1
npi
es muy parecida a una χ2k−1 . (Una demostración de este resultado puede consultarse en:
Cramer, H., (1970). Métodos matemáticos de estadı́stica, Aguilar, Madrid.)
Se propone la siguiente REGLA DE DECISIÓN : Rechazar la hipótesis H si la medida
de dispersión D2 definida en (4) supera el cuantil 1 − α de la distribución χ2k−1 . En otras
palabras, rechazar H si se observa que D2 > χ2k−1,1−α .
Con esta regla de decisión se garantiza que la probabilidad de equivocarse al rechazar
la hipótesis H cuando ella es verdadera es (aproximadamente) α.

Ejemplo 1.3. (Continuación) Usando este método el problema se resuelve de la sigu-


iente manera. Los conjuntos Ai son los intervalos de la forma [(i − 1)/10, i/10) donde
i = 1, . . . , 10. Si la variable aleatoria X tuviese distribución U[0, 1], pi = P(X ∈ Ai ) = 1/10.
Aquı́ n = 10000 y los ni los valores que se muestran en la tabla (2).
1
D2 = 232 + 452 + 172 + 242 + 992 + 722 + 452 + 162 + 342 + 452 = 23.866

1000
Consultando la tabla de χ29 vemos que χ29, 0.995 = 23.589 y χ29,9.999 = 27.877. Por lo tan-
to, utilizando una regla decisión con nivel 0.005 rechazamos que los datos provengan de
la distribución U[0, 1]. Si la distribución fuese uniforme corremos un riesgo del 0.5 % de
equivocarnos al tomar esa decisión.

Curva peligrosa. El test de bondad de ajuste χ2 funciona bien solamente si npi > 10
para todo i = 1, . . . , k. Si para algún i ocurriese que npi < 10 hay que redefinir la partición
A1 , . . . , Ak del espacio de la variable. Por ejemplo uniendo Ai con Ai+1 . En otras palabras,
si la muestra no es muy grande, la partición del espacio de la variable no puede ser muy
fina.

NB. En todo el razonamiento anterior se presupone (implicitamente) que el parámetro


θ está completamente determinado.

1.3. Ejemplo esquema


El ejemplo siguiente es un esquema de ejemplos que tiene la virtud mostrar, en un
caso particular, una lı́nea de demostración del resultado de Pearson sobre la distribución
asintótica de D2 .

3
Ejemplo 1.4 (Moneda cargada). En una sucesión de n lanzamientos independientes de
una moneda se observaron n1 caras. ¿Estos datos son conciliables con la hipótesis de que
la moneda está cargada con probabilidad p de mostrar cara?
Los datos se pueden considerar como una muestra de n valores de una variable aleatoria,
que es igual a uno o a cero según salga cara o no. La hipótesis H consiste en afirmar que
ambas alternativas tienen las probabilidades fijadas p y 1 − p, respectivamente.
Por lo tanto, la medida de dispersión, D2 , entre las frecuencias observadas, (n1 y n−n1 )
y las frecuencias esperadas (np y n(1 − p)), tiene la siguiente expresión
(n1 − np)2 (n − n1 − n(1 − p))2
D2 = + .
np n(1 − p)
Observando que
(n1 − np)2 (n − n1 − n(1 − p))2 (n1 − np)2 (np − n1 )2
+ = +
np n(1 − p) np n(1 − p)
(1 − p)(n1 − np)2 + p(n1 − np)2
=
np(1 − p)
se obtiene que
!2
(n1 − np)2 n − np
D2 = = p 1
np(1 − p) np(1 − p)
Si la hipótesis H es verdadera, n1 ∼ B(n, p), y de acuerdo con el teorema central del lı́mite
la variable aleatoria
n − np
p 1
np(1 − p)
es asintóticamente normal N (0, 1). Por lo tanto, su cuadrado tiene, en el lı́mite, la dis-
tribución χ21 . En otras palabras, si n es grande D2 tiene una distribución aproximadamente
igual a χ21
Consideraremos que observar n1 caras en n lanzamientos puede conciliarse con la
hipótesis de que la moneda está cargada con probabilidad p de mostrar cara siempre y
cuando
D2 ≤ χ21,1−α ,
donde 100 α % es el porcentaje de veces que tomaremos la decisión erronea de rechazar esa
hipótesis cuando efectivamente la moneda tenı́a una carga de p para el lado de cara.

Ejemplo 1.2. (Continuación) El problema planteado es un caso particular del esquema


anterior, donde p = 1/2, n = 100 y n1 = 59. Por lo tanto
(59 − 50)2 81
D2 = = = 3.24
25 25
Consultado la tabla de χ21 vemos que χ21, 0.9 = 2.706 y χ21, 0.95 = 3.841. A nivel de significación
0.05 observar 59 caras en 100 lanzamientos de una moneda es conciliable con que la moneda
lanzada sea honesta. Sin embargo, a nivel 0.1 no lo es.

4
1.4. Test para el caso en que no se conocen algunos parámetros
Cuando algunos parámetros son desconocidos, se los estima mediante el método de
de máxima verosimilitud. Supongamos que hay r parámetros desconocidos. Los valores
de las estimaciones se enchufan en la distribución como si fuesen los verdaderos valores
parámetros y se aplica el test anteriormente descripto. En este caso, se perderá un grado
por por cada parámetro estimado. Si para construir D2 se recurrió a una partición de k
partes del espacio de la variable X su distribución será aproximadamente una χ2k−1−r .

Ejemplo 1.1. (Continuación) La hipótesis H afirma que la cantidad de impactos por


segundo recibidos por la partı́cula de polen sigue una distribución de Poisson, pero no
indica cuál es su media (el parámetro λ).
El estimador de máxima verosimilitud para la media de una distribución de Poisson,
basado en la muestra aleatoria X, es λ̂mv = X. Usando los datos obtenidos, ver la tabla
(1), obtenemos

0(1364) + 1(1296) + 2(642) + 3(225) + 4(55) + 5(15) + 6(3) 3568


λ̂mv = = = 0.9911 ≈ 1.
3600 3600
Las regiones Ai de la partición Ai se pueden construir usando como criterio que 3600P(X ∈
Ai ) ≥ 10. Si suponemos que X ∼ P(1), su función de probabilidades será P(X = n) =
e−1 /n!, n = 0, 1, . . . .
Usaremos como partición los siguientes conjuntos: A1 = {0}, A2 = {1}, A3 = {2},
A4 = {3, 4, 5, . . . }. En tal caso p1 = p2 = 0.3678, p3 = 0.1839 y p4 = 0.0805. Obtenemos
que

(1364 − 3600p1 )2 (1296 − 3600p2 )2 (642 − 3600p3 )2 (298 − 3600p4 )2


D2 = + + +
3600p1 3600p2 3600p3 3600p4
1593.6064 788.4864 401.6016 67.24
= + + + = 2.6376
1324.08 1324.08 662.04 289.8
Para decidir comparamos el valor de D2 con los cuantiles de la χ22 : χ22, 0.70 = 2.408;
χ22, 0.75 = 2.773. Conclusión: si admite un riesgo del 30 % de error rechazamos que los datos
observados provienen de una variable Poisson; para riesgos menores al 25 % aceptamos que
son conciliables con dicha distribución.

2. Ejercicios Adicionales

1. Conseguir una moneda de 5 centavos. Lanzarla 100 veces y aplicar el test chi cuadrado
para saber si la moneda es honesta.

5
2. Considerar los primeros 1000 decimales del número π:
3.1415926535897932384626433832795028841971693993751058209749445923078164
0628620899862803482534211706798214808651328230664709384460955058223172
5359408128481117450284102701938521105559644622948954930381964428810975
6659334461284756482337867831652712019091456485669234603486104543266482
1339360726024914127372458700660631558817488152092096282925409171536436
7892590360011330530548820466521384146951941511609433057270365759591953
0921861173819326117931051185480744623799627495673518857527248912279381
8301194912983367336244065664308602139494639522473719070217986094370277
0539217176293176752384674818467669405132000568127145263560827785771342
7577896091736371787214684409012249534301465495853710507922796892589235
4201995611212902196086403441815981362977477130996051870721134999999837
2978049951059731732816096318595024459455346908302642522308253344685035
2619311881710100031378387528865875332083814206171776691473035982534904
2875546873115956286388235378759375195778185778053217122680661300192787
66111959092164201989...
Contar la cantidad de veces en que aparece cada dı́gito y aplicar el test chi-cuadrado para
ver si esas frecuencias son compatibles con la hipótesis H : pi = 1/10, i = 0, . . . , 9.

3. En la siguiente tabla se muestran 200 grupos de 5 dı́gitos. Aplicar el test chi-cuadrado


para verificar si esos dı́gitos son compatibles con la hipótesis de que provienen de la dis-
tribución uniforme U(0, 1).
10097 32533 76520 13586 34673 54876 80959 09117 39292 74945
37542 04805 64894 74296 24805 24037 20636 10402 00822 91665
08422 68953 19645 09303 23209 02560 15953 34764 35080 33606
99019 02529 09376 70715 38311 31165 88676 74397 04436 27659
12807 99970 80157 36147 64032 36653 98951 16877 12171 76833
66065 74717 34072 76850 36697 36170 65813 39885 11199 29170
31060 10805 45571 82406 35303 42614 86799 07439 23403 09732
85269 77602 02051 65692 68665 74818 73053 85247 18623 88579
63573 32135 05325 47048 90553 57548 28468 28709 83491 25624
73796 45753 03529 64778 35808 34282 60935 20344 35273 88435
98520 17767 14905 68607 22109 40558 60970 93433 50500 73998
11805 05431 39808 27732 50725 68248 29405 24201 52775 67851
83452 99634 06288 98083 13746 70078 18475 40610 68711 77817
88685 40200 86507 58401 36766 67951 90364 76493 29609 11062
99594 67348 87517 64969 91826 08928 93785 61368 23478 34113
65481 17674 17468 50950 58047 76974 73039 57186 40218 16544
80124 35635 17727 08015 45318 22374 21115 78253 14385 53763
74350 99817 77402 77214 43236 00210 45521 64237 96286 02655
69916 26803 66252 29148 36936 87203 76621 13990 94400 56418
09893 20505 14225 68514 46427 56788 96297 78822 54382 14598

6
4. Conseguir una computadora que tenga instalado el programa Excel y usando ese pro-
grama simular una muestra aleatoria de volumen 100000 de una población normal N (0, 1).
Aplicar el test chi-cuadrado para verificar si la muestra obtenida es compatible con la
hipótesis de que proviene de una distribución normal N (0, 1).

También podría gustarte