Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cap2 y 3 PDF
Cap2 y 3 PDF
DISTRIBUCIONES EN EL
MUESTREO
2.1. INTRODUCCION
Los metodos estadsticos permiten confrontar modelos matematicos o probabilsticos con los
datos empricos obtenidos sobre una muestra aleatoria:
Ejemplo 2.1.1 Se saca una muestra al azar de 500 ampolletas ILUMINA del mismo tipo
en un proceso de produccion y se considera sus tiempos de vida. Si el proceso de fabricacion
no ha cambiado, las uctuaciones entre las ampolletas observadas pueden considerarse como
aleatorias y ademas que todas las observaciones provienen de una misma variable aleatoria X
de distribucion desconocida abstracta llamada distribucion de poblacion F (x) = IP (X
x) del tiempo de vida de este tipo de ampolleta.
Ejemplo 2.1.2 El ministerio de la salud quiere conocer la talla promedio de las mujeres
chilenas mayores de 15 anos. En este caso la poblacion no es abstracta ya que se podra medir
la talla de todas las chilenas mayores de 15 anos y entonces determinar la distribucion de
poblacion y, por lo tanto, calcular la talla media de la poblacion. Sin embargo es muy difcil
de realizar en la practica aun si la poblacion es nita, dado que es muy grande. La funcion
de distribucion de poblacion se considera entonces como continua y incluso abstracta con
una expresion teorica (una distribucion normal en general) y se usa una muestra al azar, por
ejemplo de 1000 chilenas mayores de 15 anos y se mide sus tallas.
Ejemplo 2.1.3 La compana Dulce compro una maquina para llenar sus bolsas de azucar de
1 kg. La maquina no puede ser perfecta y el peso vara de una bolsa a otra. Si se acepta una
variacion en el peso de las bolsas, esta debera ser pequena y la media del peso debera ser
30 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
igual a 1 kg. Un buen modelo estadstico para el peso es una distribucion Normal de media
nula y varianza pequena (el modelo Normal se obtiene de la teora de los errores parrafo ??)
.
Ejemplo 2.1.4 Un candidato a una eleccion presidencial quiere planear su campana elec-
toral a partir de un sondeo de opiniones sobre una muestra de votantes. Los resultados
del sondeo le permitiran inferir el resultado de la eleccion? Se puede construir un modelo
de Bernoulli cuyo parametro es la probabilidad que un elector vote por el candidato. El
candidato saber si esta probabilidad sera mayor que 50 %.
Ejemplo 2.1.5 Una maquina produce diariamente un lote de piezas. Un criterio basado
sobre normas de calidad vigentes permite clasicar cada pieza fabricada como defectuosa o
no defectuosa. El cliente aceptara el lote si la proporcion de piezas defectuosas contenidas
en el lote no sobrepasa el 2 %. El fabricante tiene que controlar entonces la proporcion
de piezas defectuosas contenidas en cada lote que fabrica. Pero si la cantidad de piezas
N de cada lote es muy grande, no podra examinar cada una para determinar el valor de
. Como el ejemplo anterior se puede construir un modelo de Bernoulli cuyo parametro
aqu es la probabilidad que una pieza este defectuosa. El cliente quera saber entonces si esta
probabilidad sera mayor que el 2 %.
Los metodos estadsticos dependen del tipo de variables consideradas. Es entonces interesante
poder transformar una variable de un tipo a otro. Por ejemplo, la edad se puede transformar
en una variable nominal o ordinal considerando como conjunto Q un conjunto de clases de
edad. Segun la precision requerida de la variable edad y los metodos utilizados se usara la
edad como variable cuantitativa o ordinal.
La funcion de distribucion empca Fn (x) tiene las propiedades de una funcion de distribucion:
Fn : IR [0, 1].
El muestreo es equiprobable: si n es el tamano de la muestra, pi = n1 para todo elemento
de la muestra. Luego Fn (x) es la probabilidad de encontrar una observacion xi menor
que x en la muestra.
32 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
0.9
0.8
0.7
0.6
F(x)
0.5
0.4
0.3
0.2
0.1
15 10 5 0 5 10 15 20 25 30 35
x
Ademas para x jo, Fn (x) es una variable aleatoria y nFn (x) es una v.a. igual a la suma de
variables de Bernoulli independientes de mismo parametro F (x). En efecto, si denamos
1 si Xi x
Yi =
0 si Xi > x
Las variables Yi son variables aleatorias deBernoulli de parametro igual a la probabilidad que
n
Xi x es decir F (x). Luego nFn (x) = i=1 Yi sigue una distribucion binomial: nFn (x)
B(n, F (x)).
Teorema 2.3.2 Para todo x, Fn (x) converge casi-seguramente hacia el valor teorico F (x)
c.s.
(se denota Fn (x) F (x)).
Demostracion Como nFn (x) B(n, F (x)), se concluye de la ley fuerte de los grandes
numeros que:
IP (lm Fn (x) = F (x)) = 1
n
Se espera entonces que la funcion de distribucion empca Fn (x) no sea tan diferente de la
funcion de distribucion de la poblacion cuando n es sucientemente grande. Se tiene dos
otros resultados que lo conrman (no se demuestran estos teoremas).
+
lm IP ( nDn < y) = (1)k exp(2k 2 y 2 )
n
k=
c.s.
Como la distribucion nfn (qj ) B(n, pj ), fn (qj ) pj (qj Q).
Se observara que las r v.a. binomiales nfn (qj ) no son independientes entre si: j nfn (qj ) = n.
Veremos mas adelante que estas r variables binomiales forman un vector aleatorio llamado
vector multinomial.
34 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
Definicion 2.4.1 Las funciones de los valores muestrales son variables aleatorias llamadas
estadsticos1 y las distribuciones de los estadsticos se llaman distribuciones en el muestreo.
Supongamos que x1 , x2 , ..., xn son los valores muestrales i.i.d obtenidos de una poblacion de
Bernoulli de parametro p.
Consideremos, en primer lugar, el caso de una poblacion innita o una poblacion nita con
reemplazo. Por ejemplo, xi = 1 si se saca cara y xi = 0 si se saca sello en el lanzamiento
i de n lanzamientos independientes de una moneda. El parametro p es la probabilidad de
sacar cara, que vale 12 en el caso de una moneda equilibrada. O bien en un proceso de
control de calidad, xi = 1 si la pieza fabricada i es defectuosa y xi = 0 en el caso contrario.
La probabilidad p es la probabilidad de que una pieza sea defectuosa en este proceso y 1 p
es la probabilidad que no sea defectuosa.
n xi
Se dene la proporcion muestral o emprica como fn = i=1 n la proporcion de caras
(o piezas defectuosas) encontradas entre las n observadas. Veamos que nfn sigue una dis-
tribucion B(n, p):
k n
P (fn = ) = P (nfn = k) = pk (1 p)nk (k = 0, 1, ..., n)
n k
lm IP (|fn p| < ) = 1
n
c.s.
La convergencia casi segura: fn p, es decir
IP ( lm fn = p) = 1
n
ley
Ademas se tiene la convergencia en ley hacia una normal: fn N (p, p(1 p)/n).
36 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
En el caso de una poblacion nita de tamano N con un muestreo sin reemplazo se obtiene
una distribucion hipergeometrica:
Np N (1 p)
k nk
IP (nfn = k) =
N
n
N n
Se obtiene en este caso un error estandar: (fn p) = p(1p)
n N 1
v
la suma Sn = n1 vj crece con n pero los cocientes Snj tienden hacia cero cuando n
crece (condicion de Lindeberg)
Entonces si Zn = n1 Xj , la distribucion de la v.a. n = Zn E(Z
Zn
n)
, cuando n aumenta, tiende
hacia una forma independiente de las distribuciones de las Xj que es la distribucion N (0, 1).
De aqu el rol privilegiado de la distribucion normal en estadstica. Se observara que la
propiedad no es cierta si no se cumple la condicion de Lindberg. Muchas distribuciones
empricas son representables por una distribucion normal, pero no es siempre el caso. En
particular en hidrologa , el caudal de los ros, que es la suma de varios ros mas pequenos,
no se tiene la independencia entre las componentes que intervienen y se obtiene distribuciones
claramente asimetricas.
Propiedades:
38 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
Calculo de V ar(Sn2 )
V ar(Sn2 ) = n1
n3
((n 1)4 (n 3) 4 )
en que 4 = E((X )4 ) es el momento teorico de orden 4 de la v.a. X.
Se deja este calculo como ejercicio.
4 4
V ar(Sn2 ) n
0.
m.c.
Sn2 2 (E((Sn2 2 )2 ) 0).
1
U (t) = ( )r/2
1 2t
1 ur/21
f (u) = r/2 exp(u/2) u > 0
2 (r/2)
Teorema 2.4.5 Si los valores muestrales x1 , ...xn son i.i.d. de la N (, 2 ), entonces la v.a.
nSn2 / 2 sigue una distribucion 2n1
Teorema 2.4.6 Sean x1 , x2 , ..., xn v.a. i.i.d., entonces xn y Sn2 son independientes si y solo
si los valores xi provienen de una distribucion normal.
La demostracion que no es facil se deduce del teorema 2.4.5 y del corolario 2.4.4.
Denamos a continuacion la distribucion t de Student,2 que tiene muchas aplicaciones en
inferencia estadstica como la distribucion 2 .
Xn
V =
Sn2 /(n 1)
sigue una distribucion t de Student con n 1 grados de libertad.
muestra 1: {2, 5, 3, 1}
muestra 2: {8, 5, ,2 7}
muestra 3: {1, 5, 9, 4}
Entonces X(1) toma los valores 1, 2 y 1 y X(2) toma los valores 2, 5 y 4, etc.
Nos interesamos frecuentemente a X(1) = min{X1 , ..., Xn } y X(n) = max{X1 , ..., Xn }. Estos
valores cambian con la muestra.
En el curso de probabilidades y procesos estocasticos se estudiaron las distribuciones de estos
estadsticos de orden en funcion de la distribucion de poblacion F (x) de X. En particular,
recordamos estos resultados.
El rango W = X(n) X(1) o (X(1) , X(2) ) son otros estadsticos interesantes a estudiar. Para
mas detalles pueden consultar H. David[4].
IP (X < x ) IP (X x )
Se llaman quintiles a los valores xk/5 para k = 1, ..., 5, deciles a los valores xk/10 para
k = 1, ..., 10. Estos valores son generalmente utilizados para estudiar la asimetra de una
distribucion.
Captulo 3
ESTIMACION PUNTUAL
util para estimar la media de la poblacion. Pero la duracion de vida media es insuciente
para caracterizar completamente la distribucion de la variable duracion. Algunas ampolletas
duraran mas y otras menos, pero: Cuanto mas o cuanto menos?
En el ejemplo anterior un cierto conocimiento del problema puede sugerir que una distribu-
cion Gamma de funcion de densidad:
1 x
f (x) = x e si t > 0
()
xi B() (0 1)
En cada uno de los casos anteriores se dene un modelo estadstico que se toma como
base para la inferencia estadstica.
En el caso del problema de estimacion, el modelo es una familia de funciones de distribucion y
se estiman entonces los parametros desconocidos del modelo. En el caso del test de hipotesis,
se plantean dos o mas modelos estadsticos alternativos y se busca cual es el mas adecuado
de acuerdo con los datos observados.
Por ejemplos:
N (, 1) = IR
N (, ) = IR]0, +[
Exp() =]0, +[
B(p) = [0, 1]
P oisson( =]0, +[
U nif orme([1 , 2 ]) = IR IR (sujeto a 1 < 2 )
caso contrario. Sean x1 , x2 , ..., xn los valores obtenidos sobre la muestra aleatoria. El modelo
estadstico es entonces el siguiente:
xi Bernoulli() (0 1)
xi N (, 2 ) ( IR), ( 2 IR+ )
| | es nulo en promedio.
Los momentos empricos de una v.a. real son estimadores consistentes de los momentos
teoricos correspondientes. Mas aun la convergencia es casi-segura y la distribucion asintotica
de estos estimadores es normal.
n
Definicion 3.3.3 Se dice que el estimador es asintoticamente insesgado cuando E()
.
1
Se puede construir un estimador insesgado a partir de Sn2 : 2 = n1 (xi Xn )2 . Observemos
que = ( n1 ) , es decir que el estimador insesgado tiene mayor varianza que Sn2 .
2 n 2 2 2
En resumen, un estimador puede ser insesgado pero con una varianza elevada y entonces
poco preciso. Otro estimador puede tener un sesgo y una varianza pequenos, lo que produce
un error cuadratico medio pequeno (ver gura 3.2 donde el centro del blanco representa el
parametro a estimar y los otros puntos son diferentes estimaciones obtenidos de un esti-
mador).
Otra manera de ilustrar el problema entre sesgo y precision esta dada en las guras 3.3
cuando se supone que el estimador se distribuye como una distribucion normal. Cuando la
distribucion del estimador esta centrada en el parametro buscado, el estimador es insesgado;
cuando la distribucion esta poco dispersa, el estimador es preciso.
En la gura izquierda, ambos estimadores son insesgados, entonces se preere el estimador
representado por la lnea continua. En la gura derecha, se preere el estimador representado
por la lnea continua tambien: aun si es sesgado, es mejor que el otro que es insesgado:
globalmente sus valores son mas cercanos al valor a estimar.
3.3. PROPIEDADES DE LOS ESTIMADORES 49
2
estimador insesgado
1.8 estimador sesgado
1.6
1.4
1.2
E.C.M.
0.8
0.6
0.4
0.2
0
0 10 20 30 40 50 60 70 80
n
0.45 0.45
0.4 0.4
0.35 0.35
0.3 0.3
Valor a
estimar
0.25 Valor a 0.25
estimar
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
2 1 0 1 2 3 4 2 1 0 1 2 3 4
Definicion 3.3.8 Se llama cantidad de informacion de Fisher dada por X sobre el parametro
a la cantidad
ln(f ) 2
I() = E[( )]
Teorema 3.3.9
ln(f )
I() = V ar( )
Demostracion
Sea S el dominio de X y
f la funcion de densidad de la variable X, entonces
f (x)dx = 0, . Ademas ln
f
como f (x)dx = 1, , se tiene
f
= f
, luego
S S
E( ln
f
) = 0, y I() = V ar( ln
f
).
El teorema siguiente nos da otra expresion para I() que a menudo es mas facil de calcular.
2 ln f
I() = E[( )]
2
si esta cantidad existe.
2 2 f f (f )2
Demostracion Si ln2f existe , como E( ln ) = 0 y ln2f = f 2 ln f
f
f
= ( 2 ).
f
2 ln f 2 ln f
Luego 2 = f (x)dx I(), y se deduce que I() = E[( 2 )].
S
Definicion 3.3.11 Se llama cantidad de informacion de Fisher dada por una muestra aleato-
ria x1 , x2 , ..., xn sobre el parametro a la cantidad
ln(L ) 2
In () = E[( )]
In () = nI()
Si x1 , x2 , ..., xn son los valores muestrales obtenidos de una variable X de funcion de densidad
o funcion de probabilidad f (x), se tiene la desigualdad de CRAMER-RAO:
)
Demostracion Como E( ln(L
) = 0,
ln(L )
Cov(T, )= tL dx = E(T ) = h ())
De la desigualdad de Schwarz, se obtiene
ln(L ) 2 ln(L )
(Cov(T, )) V ar(T )V ar( )
Es decir
(h ())2 V ar(T )In ()
2(1 + b( )2
E[(T ) ]
In ()
52 CAPITULO 3. ESTIMACION PUNTUAL
Definicion 3.3.15 Un estadstico T (x1 , ..., xn ), funcion de los valores muestrales y con val-
or en , se dice suficiente para si la distribucion conjunta de los valores muestrales
condicionalmente a T (x1 , ..., xn ) no depende de .
1 1 2 n2
fn (x1 , ..., xn ; ) = exp( x i )exp( + nXn )
(2)n/2 2 2
2
El termino exp( 12 x2i ) no depende de y el termino exp( n2 + nXn ) depende de y
Xn .
nXn = xi es un estadstico suciente y toda funcion biyectiva de Xn lo es tambien, en
particular Xn .
Un ultimo resultado importante, que permite construir estimadores insesgados mejores es.
(T ) = E(b(X)|T )
No es facil encontrar buenos estimadores insesgado, de varianza minimal; de hecho estas dos
propiedades pueden ser antagonicas en el sentido que al buscar eliminar el sesgo se aumenta
la varianza. Por otro lado la busqueda de estimadores insesgados de mnima varianza esta
relacionada con la existencia de estadsticos sucientes.
A continuacion daremos los metodos usuales de estimacion puntual.
1 r c.s.
mr = Xi r (IP ( lm mr = r ) = 1)
n n
Luego una metodo de estimacion consiste en hacer coincidir el momento r de orden r del
modelo estadstico con el momento emprico mr obtenido de la muestra.
Ejemplos:
La ventaja del metodo es que es intuitivo y, en general, basta calcular el primer y segun-
do momento. Pero tiene que existir estos momentos y no ofrece tanta garanta de buenas
propiedades como el estimador de maxima verosimilitud.
Es consistente.
Es asintoticamente normal;
No es necesariamente insesgado, pero es generalmente asintoticamente insesgado;
Es funcion de un estadstico suciente, cuando existe uno;
Entre todos los estimadores asintoticamente normales, tiene la varianza asintotica-
mente mas pequena (es eciente).
Tiene la propiedad de invarianza.
xi Bernoulli() (0 1)
n
f (x) = xi (1 )1xi
i=1
n
Logf (x) = [xi Log + (1 xi )Log(1 )]
i=1
dLogf (x) xi n xi
= =0
d 1
Luego el estimador
de maxima verosimilitud de es la proporcion de piezas defectuosas
observada xi /n.
= xi /n ( [0, 1]) es un estimador del parametro insesgado, consistente y suciente.
Sean x1 , x2 , ..., xn las tallas obtenidas sobre la muestra de mujeres chilenas mayores de 15
anos en el ejemplo 2.1.2.
Se supone que xi N (, 2 ) con y 2 desconocidos.
1 n 1
f (x) = ( ) 2 exp{ (xi )2 }
2 2 2 2
Logf (x) es maximo cuando es igual a la media muestral xn y 2 es igual a la varianza
muestral Sn2 .
El estimador (xn , Sn2 ) es suciente para (, 2 ). El estimador xn de la media poblacional es
insesgado, consistente y de mnima varianza. El estimador Sn2 de la varianza de la poblacion
es asintoticamente insesgado y consistente.
3.6. EJERCICIOS
1. Sea Xi , i = 1, ..., n una muestra aleatoria simple de una v.a. X de funcion de distribucion
Gamma(, ). Estime = E(X) por el metodo de maxima verosimilitud. Muestre que el
estimador resultante es insesgado, convergente en media cuadratica y consistente.
2. Sea una m.a.s. x1 , ...xn de una v.a. X de funcion de densidad f (x) = x1 I1[0,1] . Encuentre
el estimador de maxima verosimilitud de y pruebe que es consistente y asintoticamente
insesgado.
3. Sean dos preguntas complementarias: A=vota por Pedro y A=no vota por Pedro.
Se obtiene una muestra aleatoria simple de n personas que contestan a la pregunta A o A;
lo unico que se sabe es que cada persona ha contestado A con probabilidad conocida y A
con probabilidad (1 ). Se denen:
p: la probabilidad que una persona contesta SI a la pregunta (A o A)
: la proporcion desconocida de votos para Pedro en la poblacion.
a) De la proporcion en funcion de p y .
b) De el estimador de maxima verosimilitud de p y deduzca un estimador para . Calcule
la esperanza y la varianza de .
c) Estudie las propiedades de ; estudie en particular la varianza cuando = 0,5.
4. Se considera la distribucion discreta: IP (X = x) = ax x /h(), con x = 0, 1, 2, ..., en donde
h es diferenciable y ax puede ser nulo para algunos x.
Sea {x1 , x2 , ..., xn } una m.a.s. de esta distribucion.
a) De las expresiones de h() y h ().
b) De el estimador de maxima verosimilitud de en funcion de h y h .
c) Muestre que el estimador de maxima verosimilitud es el mismo que el del metodo de los
58 CAPITULO 3. ESTIMACION PUNTUAL
momentos.
d) Aplique lo anterior para los casos siguientes:
i) X Binomial(N, p) (N conocido)
ii) X P oisson().
5. Sean Ti , i = 1, ..., I estimadores del parametro tales que : E(Ti ) = + bi , bi R
Se dene un nuevo estimador T de como T = Ii=1 i Ti
a) De una condicion sobre los i para que T sea insesgado.
b) Suponga que bi = 0 i (estimadores insesgados). Plantee el problema de encontrar los
coecientes i para que la varianza de T sea mnima.
c) Suponiendo que los Ti son no correlacionados , resuelva el problema planteado.
d) Sean Xij , i = 1 . . . M, j = 1 . . . ni M m.a.s. independientes entre si, de variables aleatorias
X i con distribuciones
normales de varianza comun 2 .
Sea s2i = ni11 j=1
ni
(Xij Xi )2 , el estimador insesgado de la varianza calculado en la muestra
i.
Demuestre que S 2 = M 1n M M 2
i=1 (ni 1)si es el estimador lineal insesgado de varianza
i=1 i
mnima para 2 .