Documentos de Académico
Documentos de Profesional
Documentos de Cultura
19 de noviembre de 2008
Índice
1. Test de la χ2 para bondad de ajuste 1
1.1. Planteo del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Test de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Ejemplo esquema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Test para el caso en que no se conocen algunos parámetros . . . . . . . . . 5
2. Ejercicios Adicionales 5
1
Se quiere verificar si los datos provienen de una distribución de Poisson.
Ejemplo 1.2. En una sucesión de 100 lanzamientos independientes de una moneda se
observaron 59 caras y 41 cecas ¿Estos datos son conciliables con la hipótesis de que la
moneda es honesta?
Ejemplo 1.3. De cierto generador de números aleatorios se afirma que los produce de
acuerdo con la distribución U[0, 1]. Para verificar esa hipótesis se producen 10000 números
con el mencionado generador. Para economizar espacio se registra la cantidad de números
de la forma 0. d..., donde d = 0, 1, . . . , 9. Se obtuvieron los resultados siguientes:
d 0 1 2 3 4 5 6 7 8 9
(2)
#{0. d...} 977 1045 1017 1024 901 928 1045 984 1034 1045
NB. Los datos de los ejemplos anteriores fueron simulados con los generadores de números
aleatorios disponibles en el software Matlab. (No se trata arbitrarios “dibujos” diseñados
por el autor.)
En otras palabras, si n es suficientemente grande, las frecuencias relativas nni deben tener
valores muy próximos a las probabilidades pi . La desviación entre ambos grupos de valores
puede medirse del siguiente modo
k n 2
i
X
2
D = wi − pi (3)
i=1
n
2
donde los coeficientes wi se pueden elegir de manera más o menos arbitraria. Cuando la
hipótesis H es verdadera la desviación definida en (3) debe ser pequeña, lo que suguiere
diseñar una regla de decisión de la forma: Rechazar la hipótesis H si se observa que D2 > M
donde M es una constante arbitraria pero fija.
Poniendo wi = pni , K. Pearson demostró que cuando n es grande y la hipótesis H es
verdadera, la distribución de la medida de dispersión
k k
2
X n ni 2 X (ni − npi )2
D = − pi = (4)
p n
i=1 i i=1
npi
es muy parecida a una χ2k−1 . (Una demostración de este resultado puede consultarse en:
Cramer, H., (1970). Métodos matemáticos de estadı́stica, Aguilar, Madrid.)
Se propone la siguiente REGLA DE DECISIÓN : Rechazar la hipótesis H si la medida
de dispersión D2 definida en (4) supera el cuantil 1 − α de la distribución χ2k−1 . En otras
palabras, rechazar H si se observa que D2 > χ2k−1,1−α .
Con esta regla de decisión se garantiza que la probabilidad de equivocarse al rechazar
la hipótesis H cuando ella es verdadera es (aproximadamente) α.
Curva peligrosa. El test de bondad de ajuste χ2 funciona bien solamente si npi > 10
para todo i = 1, . . . , k. Si para algún i ocurriese que npi < 10 hay que redefinir la partición
A1 , . . . , Ak del espacio de la variable. Por ejemplo uniendo Ai con Ai+1 . En otras palabras,
si la muestra no es muy grande, la partición del espacio de la variable no puede ser muy
fina.
3
Ejemplo 1.4 (Moneda cargada). En una sucesión de n lanzamientos independientes de
una moneda se observaron n1 caras. ¿Estos datos son conciliables con la hipótesis de que
la moneda está cargada con probabilidad p de mostrar cara?
Los datos se pueden considerar como una muestra de n valores de una variable aleatoria,
que es igual a uno o a cero según salga cara o no. La hipótesis H consiste en afirmar que
ambas alternativas tienen las probabilidades fijadas p y 1 − p, respectivamente.
Por lo tanto, la medida de dispersión, D2 , entre las frecuencias observadas, (n1 y n−n1 )
y las frecuencias esperadas (np y n(1 − p)), tiene la siguiente expresión
(n1 − np)2 (n − n1 − n(1 − p))2
D2 = + .
np n(1 − p)
Observando que
(n1 − np)2 (n − n1 − n(1 − p))2 (n1 − np)2 (np − n1 )2
+ = +
np n(1 − p) np n(1 − p)
(1 − p)(n1 − np)2 + p(n1 − np)2
=
np(1 − p)
se obtiene que
!2
(n1 − np)2 n − np
D2 = = p 1
np(1 − p) np(1 − p)
Si la hipótesis H es verdadera, n1 ∼ B(n, p), y de acuerdo con el teorema central del lı́mite
la variable aleatoria
n − np
p 1
np(1 − p)
es asintóticamente normal N (0, 1). Por lo tanto, su cuadrado tiene, en el lı́mite, la dis-
tribución χ21 . En otras palabras, si n es grande D2 tiene una distribución aproximadamente
igual a χ21
Consideraremos que observar n1 caras en n lanzamientos puede conciliarse con la
hipótesis de que la moneda está cargada con probabilidad p de mostrar cara siempre y
cuando
D2 ≤ χ21,1−α ,
donde 100 α % es el porcentaje de veces que tomaremos la decisión erronea de rechazar esa
hipótesis cuando efectivamente la moneda tenı́a una carga de p para el lado de cara.
4
1.4. Test para el caso en que no se conocen algunos parámetros
Cuando algunos parámetros son desconocidos, se los estima mediante el método de
de máxima verosimilitud. Supongamos que hay r parámetros desconocidos. Los valores
de las estimaciones se enchufan en la distribución como si fuesen los verdaderos valores
parámetros y se aplica el test anteriormente descripto. En este caso, se perderá un grado
por por cada parámetro estimado. Si para construir D2 se recurrió a una partición de k
partes del espacio de la variable X su distribución será aproximadamente una χ2k−1−r .
2. Ejercicios Adicionales
1. Conseguir una moneda de 5 centavos. Lanzarla 100 veces y aplicar el test chi cuadrado
para saber si la moneda es honesta.
5
2. Considerar los primeros 1000 decimales del número π:
3.1415926535897932384626433832795028841971693993751058209749445923078164
0628620899862803482534211706798214808651328230664709384460955058223172
5359408128481117450284102701938521105559644622948954930381964428810975
6659334461284756482337867831652712019091456485669234603486104543266482
1339360726024914127372458700660631558817488152092096282925409171536436
7892590360011330530548820466521384146951941511609433057270365759591953
0921861173819326117931051185480744623799627495673518857527248912279381
8301194912983367336244065664308602139494639522473719070217986094370277
0539217176293176752384674818467669405132000568127145263560827785771342
7577896091736371787214684409012249534301465495853710507922796892589235
4201995611212902196086403441815981362977477130996051870721134999999837
2978049951059731732816096318595024459455346908302642522308253344685035
2619311881710100031378387528865875332083814206171776691473035982534904
2875546873115956286388235378759375195778185778053217122680661300192787
66111959092164201989...
Contar la cantidad de veces en que aparece cada dı́gito y aplicar el test chi-cuadrado para
ver si esas frecuencias son compatibles con la hipótesis H : pi = 1/10, i = 0, . . . , 9.
6
4. Conseguir una computadora que tenga instalado el programa Excel y usando ese pro-
grama simular una muestra aleatoria de volumen 100000 de una población normal N (0, 1).
Aplicar el test chi-cuadrado para verificar si la muestra obtenida es compatible con la
hipótesis de que proviene de una distribución normal N (0, 1).