Está en la página 1de 7

Pruebas no paramtricas

Prueba de bondad de ajuste chi cuadrada de Pearson


La prueba de bondad de ajuste consiste en determinar si una poblacin tiene una
distribucin terica o hipottica especfica a partir de los resultados de una muestra
aleatoria escogida de esa poblacin
La hiptesis nula en una prueba de bondad de ajuste consiste en afirmar que la
distribucin de frecuencias observadas concuerda con el modelo de probabilidad
esperado de las frecuencias en un conjunto de clases o categora

La distribucin de probabilidad terica o esperada puede referirse a la distribucin


uniforme, a la binomial, a la poisson, o ala normal, etc.
Supongamos que un experimento produce K eventos mutuamente excluyentes: E 1, E2,...,
E K (llamados tambin clases o categoras) y que la probabilidad de que ocurra el evento
Ei sea pi, donde:

Para cada i es, pi >0, y =1 = 1

Supongamos tambin que se repite n veces el experimento aleatorio y sean X i el nmero


de veces que ocurre el evento Ei .Cada Xi es una variable aleatoria cuyo valor xi es la
frecuencia observada en la i-esima clase. El conjunto de valores observados constituye la
muestra aleatoria de tamao n cuyos resultados se muestran en la siguiente tabla:
Categoras E1 E2 ... EK Total
Frecuencias observadas X1 X2 xk n

En 1900, Karl Pearson ha demostrado que cuando:


X
Zi =
, i=1,2,, k

Y cuando n tiende al infinito, la variable aleatoria:

( )
= =1 2 = =1


Se aproxima a una distribucin chi cuadrado con k-1 grados de libertad.
Es conveniente simbolizar esta aproximacin por
( )2
= =1

En donde, Oi , es la frecuencia Xi y ei es la frecuencia esperada npi .


Se puede pues, utilizar la estadstica W como una medida de as discrepancia entre las
frecuencias observadas y esperadas. Si W = 0, las frecuencias observadas y esperadas
concuerdan exactamente, mientras que si W > 0, no coinciden exactamente. A mayores valores
de w, mayores son las discrepancias entre valores observados y esperados

La Prueba:
La hiptesis nula y alternativa de la prueba de bondad de ajuste son respectivamente:
Ho: La distribucin de frecuencias de la muestra concuerda con la distribucin terica
propuesta.
H1: La distribucin de la muestra no concuerda con la distribucin terica.
Con las frecuencias observadas y las frecuencias esperadas se calcula el estadstico de
prueba:
( )2
2
= =1

Dado el nivel de significancia alfa y para k-1 grados de libertad, en la tabla Chi.cuadrado
2
se halla el nmero = 1,1 que viene a ser el valor de prueba.
2
La regla de decisin para esta prueba es: Rechazar > , en caso contrario, se
aceptar o al menos no se rechazar Ho.

Una sola muestra: La prueba de kolmogorov-smirnov


El mtodo de kolmogorov - smirnov es un procedimiento no paramtrico que se utiliza
para comprobar la hiptesis nula de que la muestra procede de una poblacin en la que la
variable est distribuida segn la normal (tambin segn la uniforme o poisson).

la estadstica de la prueba se denota por D y se define por:

Donde ( ) ( ) son las probabilidades acumuladas esperadas y observadas


respectivamente, tal como se explica en el ejemplo que se presentara a continuacin.

en la tabla de kolmogorov - Smirnov, se encuentran algunos valores crticos de la


distribucin muestral de D para diversos valores de n y dados. se rechaza la hiptesis
nula que los datos provienen de una distribucin normal, si el valor D es mayor que el
valor critico correspondiente. No se rechaza la hiptesis nula en caso contrario
Ejemplo:
Determinar si es normal la poblacin de la que ha sido extrada la muestra aleatoria
simple:

17,15,8,13,9,12,10,14,11,16

utilice el nivel de significacin =0,01.

Solucin:
Lenguaje R

Ejemplo 1
#El peso que deben contener ciertas bolsas de detergente es de 750 g,
#con una tolerancia de 5 g. Se desea verificar si es razonable suponer
#que la distribucin del peso es normal. Para ello, se toma una muestra
#aleatoria de 25 productos, se pesan y se obtienen los datos dados en el vector Peso:

Peso <- c(750.0, 749.3, 752.5, 748.9, 749.9, 748.6, 750.2, 748.4, 747.8, 749.3, 749.6,
749.0, 747.7, 748.3, 750.5, 750.6, 750.0, 750.4, 752.0, 750.2, 751.4, 750.9, 752.4, 751.7,
750.6)
#El primer paso para determinar la distribucin de los pesos es realizar
#un anlisis exploratorio de stos. Dado que la variable de inters es
#continua se pueden determinar medidas de resumen y
#realizar grficos descriptivos como histogramas, y densidades.
#As mismo, se puede realizar el grafico de cuantiles tericos vs cuantiles muestrales
#para una distribucin normal.

par(mfrow=c(1,3))
hist(Peso, xlab="Peso", ylab="Frecuencia", las=1, main="")
plot(density(Peso), xlab="Peso", ylab="Densidad", las=1, main="")
qqnorm(Peso, xlab="Cuantiles tericos", ylab="Cuantiles muestrales", las=1,main="")
qqline(Peso)

#Los tres grficos muestran que el comportamiento de los Pesos es simtrico y podran
seguir una distribucin normal.
#El segundo paso es estimar los parmetros de la distribucin hiptetica a partir de la
funcin fitdistr del paquete MASS.
#En este caso la distribucin hiptetica es la normal. Esta funcin permite estimar
parmetros de las siguientes distribuciones: "beta", "cauchy", "chi-squared",
"exponential", "f", "gamma", "geometric", "log-normal", "lognormal", "logistic",
"negative binomial", "normal", "Poisson", "t" y "weibull".
#La funcin fitdistr tiene dos argumentos bsicos, el primero es el nombre de los datos
y el segundo es el nombre de la distribucin hiptetica.

require(MASS)
ajuste <- fitdistr(Peso,"normal")
ajuste
## mean sd
## 750.0080000 1.3233050
## ( 0.2646610) ( 0.1871436)

#El resultado de la funcin es la estimacin de los parmetros de la distribucin


hiptetica y su respectiva desviacin estndar (valor entre parentesis).
#En este caso el peso promedio (media estimada) es de 750.008 y la desviacin
estndar del peso (desviacin estndar estimada) es de 1.323305.
#El tercer paso es usar una prueba de bondad de ajuste para probar si los pesos siguen
o no una distribucin normal. La primera prueba que se usar ser la prueba de
Kolmogorov-Smirnov.
#Esta prueba se obtiene a partir de la funcin ks.test, la cual tiene tres argumentos
bsicos: el nombre de la variable, el nombre de la distribucin hiptetica antecedida por
la letra p y los parmetros estimados.

Ks<- ks.test(Peso, "pnorm", mean =ajuste$estimate[1], sd= ajuste$estimate[2])

## Warning in ks.test(Peso, "pnorm", mean = ajuste$estimate[1], sd = ajuste


## $estimate[2]): ties should not be present for the Kolmogorov-Smirnov test

Ks
#La segunda prueba que se usar ser la prueba de Anderson Darling. La funcin
asociada a
#esta prueba es ad.test del paquete goftest y tiene los mismos argumentos de la
prueba ks.
require(goftest)
## Warning: package 'goftest' was built under R version 3.2.3
Ad<- ad.test(Peso, "pnorm", mean =ajuste$estimate[1], sd= ajuste$estimate[2])
Ad

#De acuerdo al valor-p de la prueba de Kolmogorov-Smirnov (0.9911409) y de la


prueba de Anderson Darling (0.9912932) se puede concluir con un nivel de significancia
de 0.05 que los pesos siguen una distribucin normal, puesto que son mayores a un
nivel de significancia de 0.05. Cabe anotar que se usaron estas dos pruebas porque el
peso de los detergentes es una variable continua. Si la variable de inetrs fuera discreta
deberiamos usar la prueba Chi-cuadrado y no las dos anteriores.
#La siguiente grfica muestra la funcin de distribucin acumulada empirica de los
pesos y la terica de la distribucin normal y se observa que las dos siguen el mismo
patron, lo cual corrobora la conclusin anterior.

xe <- seq(min(Peso), max(Peso), by=0.0001)


plot(xe, pnorm(xe, mean=ajuste$estimate[1], sd=ajuste$estimate[2]), type="l",
col="red", xlab="x", ylab="pnorm(x, mean, sd)")
plot(ecdf(Peso), add=TRUE)

También podría gustarte