Inferencia Estadística

Probabilidad e Inferencia estadstica
Inferencia estadstica
PROBABILIDAD E INFERENCIA ESTADSTICA INFERENCIA ESTADSTICA
Ajuste de distribuciones
El ajuste de distribuciones consiste en encontrar una funcin matemtica que represente en una
muy buena forma una variable aleatoria.
Usualmente nos encontramos con el problema de tener algunas observaciones de tipo
cuantitativo y queremos probar si estas observaciones son una muestra de una poblacin
desconocida con funcin de probabilidad x, 0 , donde 0 es un vector de parmetros que se
debe estimar con los datos disponibles.
Para realiar un ajuste de distribuciones se pueden considerar los siguientes pasos!
". Escoger una familia de distribucin #ipot$tica.
%. Estimar parmetros.
&. Evaluar la calidad del ajuste.
'. (ealiar pruebas de bondad de ajuste.
". Escoger una familia de distribucin #ipot$tica
Para seleccionar una familia de distribuciones #ipot$tica se puede realiar un anlisis e)ploratorio
de datos* el cual consiste en obtener estadsticas descriptivas* +media* desviacin estndar* sesgo*
,urtosis* etc- y usar algunos grficos descriptivos +#istogramas* densidades* funcin de
distribucin acumulada emprica-. Estas medidas y grficos nos dan una idea de la funcin de
densidad de probabilidad.
.os #istogramas nos pueden dar una idea del sesgo* comportamiento de las colas* presencia de
comportamientos multi modales* y outliers. .os #istogramas se pueden comparar con las formas
tpicas asociadas con distribuciones analticas estndar.
En (!
x.norm<-rnorm(n=200,m=10,sd=2)
par(mfrow=c(2,2))
hist(x.norm,main="Histograma de datos observados")
plot(density(x.norm),main="Densidad estimada de los datos")
plot(ecdf(x.norm),main=" Funcin de distribucin acumulada empirica")
Un grfico cuantil cuantil es un grfico de dispersin que compara la distribucin ajusta y la
distribucin emprica en t$rminos de valores dimensionales de la variable. Este grfico es una
t$cnica grafica para determinar si un conjunto de datos proviene de una poblacin conocida. En
este grfico el eje y representa los cuantiles empricos y el eje ) representa los cuantiles tericos.
En (!
z.norm<-(x.norm-mean(x.norm))/sd(x.norm) ## datos estandarizados
qqnorm(z.norm) ## dibujando el QQplot
abline(0,1) ## dibujando una lnea de referencia de 45-degree
/e dibuja una lnea de referencia adicional de '0 grados. /i los datos empricos provienen de la
poblacin con la distribucin escogida* los puntos deben caer apro)imadamente a lo largo de
esta lnea. Entre ms se alejen los datos de la lnea de referencia #ay mayor evidencia para
concluir que los datos provienen de una poblacin con diferente distribucin.
En (!
## Muestreando de una distribucin Weibull con prametros de
## forma 2.1 y escala 1.1.
x.wei <-rweibull(n=200,shape=2.1,scale=1.1)
## cuantiles tericos de una poblacin weibull con parametros de forma 2 y
## escala 1
x.teo<-rweibull(n=200,shape=2, scale=1)
## Grfico QQ-plot
qqplot(x.teo,x.wei,main="QQ-plot Distribucin Weibull")
## Adiciona una lnea de referencia de 45 grados.
abline(0,1)
%. Estimacin de parmetros
1espu$s de escoger un modelo que pueda representar matemticamente los datos se tiene que
estimar los parmetros de tal modelo. E)isten varios m$todos de estimacin! m$todo analgico*
m$todo de los momentos y m$todo de m)ima verosimilitud.
El m$todo analgico consiste en estimar los parmetros del modelo aplicando la misma funcin a
los datos empricos* es decir* estimando la media desconocida de una poblacin por medio de la
media muestral.
El m$todo de los momentos es una t$cnica para construir estimadores de parmetros que estn
basados en la igualacin de los momentos muestrales a los poblacionales.
El m$todo de m)ima verosimilitud es usado ampliamente en inferencia estadstica para estimar
parmetros.
En (!
require(MASS)
## Ajusta una distribucin gama
x.gam<-rgamma(200,rate=0.5,shape=3.5)
fitdistr(x.gam,"gamma")
## Ajusta una distribucin gama
fitdistr(x.wei,densfun=dweibull,start=list(scale=1,shape=2))
## Ajusta una distribucin normal
fitdistr(x.norm,"normal")
'. (ealiar pruebas de bondad de ajuste
.as pruebas de bondad de ajuste indican si es raonable o no asumir que una muestra aleatoria
proviene de una distribucin especifica. .as #iptesis en el procedimiento de prueba son!
E
0
:.os datos muestrales provienen de una distribucin establecida.
E
1
:.os datos muestrales no provienen de una distribucin establecida.
.as pruebas ms utiliadas son!
.a prueba 2#i32uadrado +distribuciones discretas y continuas-.
Prueba de 4olmogorov3/mirnov +distribuciones continuas-.
Prueba de Anderson 1arling +distribuciones continuas-.
Prueba 2#i 52uadrado!
Esta prueba se pueden pensar como una comparacin formal de un #istograma con la densidad
ajustada y requiere un tama6o de muestra suficientemente grande para que la apro)imacin 2#i3
2uadrado sea vlida.
En la prueba 2#i32uadrado se definen las #iptesis!
E
0
:.os datos siguen una distribucin especifica.
E
1
:.os datos no siguen una distribucin especifica.
Para obtener el estadstico de prueba se dividen los datos en k celdas y se obtiene
_
2
=
(0
i
E
i
)
2
E
i
k
i=1
donde 0
i
es la frecuencia observada para la celda i y E
i
es la frecuencia esperada para la celda i.
.a frecuencia esperada se calcula por medio de la funcin de distribucin acumulada. Este
estadstico se distribuye como una variable aleatoria _
2
con k p 1 grados de libertad * donde
p es el n7mero de parmetros estimados por medio de los datos.
.a #iptesis nula se acepta si _
2
< _
o,kp1
2
o si el 8alor3p asociado es mayor que el nivel de
significancia establecido.
Prueba de 4olmogorov3/mirnov!
Esta prueba se usa para decidir si una muestra proviene de una poblacin con una distribucin
especifica. /e base en la comparacin entre la funcin de distribucin emprica y la funcin
terica.
Esta prueba es ms potente que la prueba 2#i32uadrado cuando el tama6o de muestra no es
demasiado grande. Para tama6os muestrales grandes las dos pruebas tienen la misma potencia.
.a limitacin ms grande de esta prueba es que la distribucin debe ser completamente
especificada* es decir los parmetros de forma* localiacin y escala no se pueden estimar a
partir de los datos. 1ebido a esta limitacin se prefiere la prueba de Anderson 1arling* la cual
esta limitada para algunas distribuciones.
En (!
## Para datos de conteo
require(vcd)
gf<-goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main= "datos e conteo vs distribucin Poisson")
## para una muestra de una distribucin weibull
ks.test(x.wei,"pweibull", shape=2,scale=1)
x<-seq(0,2,0.1)
plot(x,pweibull(x,scale=1,shape=2),type="l",col="red", main="ECDF and
Weibull CDF")
plot(ecdf(x.wei),add=TRUE)
Pruebas de normalidad!
.a prueba de /#apiro 9il, es una de las pruebas de normalidad ms potentes* especialmente
para muestras peque6as.
En R:
shapiro.test(x.norm)
.a prueba de :arque 5;era es usada para probar normalidad especialmente en el rea de
economa.
En R:
library(tseries) ## package tseries loading
jarque.bera.test(x.norm)
<tras pruebas! /#apiro3=rancia* Anderson31arling* 2ramer38on >ises* .illiefors* 2#i3cuadrad de
Pearson* entre otras
require(nortest)
sf.test(x.norm)
ad.test(x.norm)
cvm.test(x.norm)
lillie.test(x.norm)
pearson.test(x.norm)
# Desarrolla una prueba t para una muestra y dos muestras que
provienen de una distribucin normal.
t.test(x, y = NULL, alternative = c("two.sided", "less",
"greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level =
0.95, ...)
# Desarrolla una prueba F para comparar las varianzas de dos
# muestras que provienen de distribuciones normales.
var.test(x, y, ratio = 1, alternative = c("two.sided", "less",
"greater"), conf.level = 0.95, ...)
# Desarrolla una prueba para la una proporcin.
binom.test(x, n, p = 0.5, alternative = c("two.sided", "less",
"greater"), conf.level = 0.95)
# Desarrolla una prueba para la igualdad de proporciones.
prop.test(x, n, p = NULL, alternative = c("two.sided", "less",
"greater"), conf.level = 0.95, correct = TRUE)
Inferencia estadstica

Inferencia Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Inferencia Estadística

Cargado por

Copyright:

Formatos disponibles

Probabilidad e Inferencia estadstica

También podría gustarte