Documentos de Académico
Documentos de Profesional
Documentos de Cultura
200
p( x) = (0,03) x (0,97) 200 − x .
x
Resulta Pr[X1 +X2 +. . . + X200 ≤ 3 ] = 0,1472.
π (1 − π ) 0,03 ⋅ 0,97
b) Usando el TLC, X ∼ a N (π ; ⋅ ) = N (0,03; ) = N (0,03 ; (0,0121) 2 )
n 200
podemos obtener la probabilidad aproximada:
Pr[X1 +X2 +. . . + X200 ≤ 3 ] = Pr[ X ≤ 3/200 = 0,015) ≈ φ ( ( 0,015 –0,03) / 0,0121 ) = φ ( ( – 1,24) =
0,1075.
Con la corrección por continuidad, resulta una aproximación mejor:
Pr[ X ≤ (3 + 0,5)/200 = 0,0157) ≈ φ ( ( 0,0175 –0,03) / 0,0121 ) = φ ( ( – 1,03) = 0,151.
Ejemplo 2
Se selecciona una muestra aleatoria de 16 observaciones de una distribución normal con
media µ y desviación estándar 12 y que se selecciona independientemente otra muestra
aleatoria de 25 observaciones de una distribución normal con la misma media y
1
desviación estándar 20. Sean X y Y las medias muestrales de las dos muestras.
Calcula Pr[ X - Y < 5].
Solución
Dado que se trata de muestras aleatoria, X1, X2, . . . , X16, son iid N(µ , 122 ) y Y1, Y2, . . . , Y25, son iid
N(µ , 202 ). Por lo tanto, X ∼ N(µ , 122/16) y Y ∼ N(µ , 202/25). Como las muestras son
independientes, entonces, las variables anteriores son también independientes y por lo tanto se tiene,
Pr[( -5 –0)/5 < ( X - Y - 0)/5< (5 –0)/5) ] = Pr[ -1 < Z < 1 ] = φ (1,0) - φ (-1,0) = 0,68.
Ejemplo 3
Se va a seleccionar una muestra aleatoria de tamaño n de una distribución normal con
media µ y varianza σ2 = 9. Determina el valor de “n” para el cual Pr[ X -µ < 1] ≥
0,95.
Solución
X ∼ N(µ , 3 /n). Entonces:
2
Pr[ X -µ < 1] = Pr[-1 < X -µ < 1] = Pr[-1/(3/ n ) < ( X -µ)/(3/ n ) < 1/(3/ n
)] = φ ( n /3 ) - φ (- n /3 ) = 2φ ( n /3 ) –1 ≥ 0,95. Así, n /3 ≥ 1,96, n ≥ 35.
Ejemplo 4
Un sondeo pregunta a una muestra aleatoria simple con reemplazo de 1.100 adultos
varones, “¿juegas fútbol?” Supón que el 12% de todos los adultos varones de
Santiago juegan fútbol.
Solución
a) P = proporción en la muestra de varones que juegan fútbol. E(P) = π =0,12; Error estándar de P =
ee(P) = Raiz(π (1-π )/1100) = Raiz(0,12 (1- 0,12 )/1100) = 0,010.
b) Por el TLC, para n = 1100, P tiene una distribución aproximadamente normal con media 0,12 y
varianza (0,010) 2.
2
e) Se busca n tal que ee(P) = Raiz(0,12 (1-0,12 )/n) = 0,010/2 = 0,005. Despejando se obtiene, n =
4.224 varones adultos.
Ejemplo 5
Una compañía de TV por cable que da servicio a 1.200.000 hogares, aplica una encuesta a
una muestra aleatoria simple de 100 hogares. El número medio de horas que los hogares
de la muestra utilizan el servicio resultó 3,8 horas diarias con una desviación estándar de
2,11.
La compañía cree que el número medio de horas al día que utilizan el servicio los
1.200.000 hogares es 4,5 y la desviación estándar 2,00. Suponiendo que la compañía
tiene razón, se pide:
c) Calcula la probabilidad de que el promedio de horas del servicio utilizada por los
hogares, en una muestra aleatoria simple 100 hogares, resulte menor que 4,0 horas.
Solución
a)
Parámetros: µ = número medio de horas al día que los 1.200.000 hogares utilizan el servicio de
TV Cable.
σ2 = desviación estándar del n° de horas al día que los 1.200.000 hogares utilizan el
servicio de TV
Estimadores: Y = número medio de horas al día que los hogares de la muestra utilizan el servicio
de TV Cable
S2 = desviación estándar del n° de horas al día que los hogares de la muestra utilizan el
servicio de TV.
Lo anterior significa que para una muestra grande como la de este ejemplo n = 100 > 30, la
estimación 3,8 estará próxima a µ .
a σ2
b) Por el TLC la distribución asintótica de Y es, Y ~ N (µ , ) = N (4,5; 0,04) dado que n =
n
100 > 30, µ = 4,5; σ2 = (2,00)2 = 4,00.
3
Aquí un gráfico puede valer más que mil palabras:
c) Se pide Pr( Y < 4,0) usando la distribución de Y , se tiene que, Pr( Y < 4,0) ≈ φ ( (4,0 – 4,5)/0,2
) = φ (-2,5) = 0,0062.
Ejemplo 6
Un indicador de la salud financiera de una empresa es el cuociente, A/P, entre su activo y
pasivo. Se planea seleccionar muestras aleatorias independientes X 1 ,..., X n1 , Y1 ,..., Yn 2 de
n1 empresas quebradas y n2 empresas sin problemas respectivamente.
c) Se observaron los A/P correspondientes en los balances del año anterior en dos
muestras del mismo tamaño n1 = n2 = 10 y se obtuvieron los siguientes resultados:
Obtenga una estimación de ∆ y del error estándar del estimador. Un experto afirma
que el hecho que ∆ˆ > 0, no significa, necesariamente, que en la población, el
promedio de las empresas sin problemas sea mayor que el promedio de las
quebradas. Explique la afirmación anterior.
Solución
a) Estimador insesgado de ∆ = µ1 - µ2, ∆ˆ = Xbarra - Ybarra.
El estimador es insegado porque tanto Xbarra como Ybarra son estimadores insesgados de µ1 y µ2
respectivamnete, entonces: E( ∆ˆ ) = E(Xbarra) - E(Ybarra) = µ1 - µ2 = ∆.
∑ E ( X i − X ) 2 + ∑ j =1 E (Y j − Y ) 2
n1 n2
i =1
b) E (σˆ 2
)=
n1 + n 2
( n1 − 1)σ 2 + (n 2 − 2)σ 2 ( n1 + n 2 − 2) 2
E (σˆ 2 ) = = σ ≠ σ 2 así, σˆ 2 es sesgado.
n1 + n 2 n1 + n 2
Claramente, para que sea insesgado, el denominador de σˆ 2 debe cambiarse por n1 + n2 –2, así un
nuevo estimador insesgado de la varianza es:
4
∑ ( X i − X ) 2 + ∑ j =1 (Y j − Y ) 2
n1 n2
i =1 ( n1 − 1) S12 + ( n 2 − 1) S 22
σˆ 2
P = =
n1 + n 2 − 2 n1 + n 2 − 2
9 ⋅ 0,356 + 9 ⋅ 0,311
De b), σˆ P = = 0,3335
2
10 + 10 − 2
La estimación 0,24 es el resultado de un estimador que tiene una fluctuación aleatoria, de modo que
∆ˆ >0 puede ser fruto del azar. Los posibles resultados de ∆ˆ están centrados en ∆ pero están
dispersos a la izquierda y derecha. Es decir, por ejemplo, puede ocurrir que en las poblaciones, ∆=
µ1 - µ2 =- 0,05 < 0, pero si repetimos el muestreo, podríamos obtener una estimación como, ∆ ˆ >
0 en más de 40% de los casos (1-φ ( (0 –(-0,05))/0,26 ) = 1-0,58 =0,42).
Ejemplo 7
Considere una muestra de tamaño n y las distribuciones de tres estimadores de un
parámetro θ :
c θ2
θˆ1 ~ N(θ + , (1 − c)) , 0<c<1
n n
ˆ θ2
θ 2 ~ N(θ , )
n
θˆ3 ~ N(θ ; 0,01θ 2 )
SOLUCION
a)
c
El primer estimador es sesgado pues su media es θ+ ≠θ .
n
θ 2
c 2
Su error cuadrático medio es Var[θˆ1 ] + [E[θˆ1 ] - θ ] 2 = (1 − c ) + → 0 , si n →∞. Así es
n n
consistente.
5
El tercer estimador es insesgado pero no consistente, su media es θ, pero su varianza 0,01θ 2 → 0,01θ 2
≠ 0, si n →∞.
θ2 c2 θ 2
(1 − c) + <
n n n
equivalentemente: c 2 − θ 2c < 0
Para solucionar la inecuación anterior en “c”, recordemos que la parábola x2 + bx toma valores negativos
entre sus “ceros” es decir, 0 y –b, así los valores de “c” que satisfacen la inecuación anterior, deben
cumplir 0 < c < θ 2 y 0 <c <1.
c) Notar que ambos estimadores son insesgados, así, basta comparar sus varianzas θ 2 /n y 0,01θ2
respectivamente, que coinciden con los errores cuadráticos medios correspondientes. Claramente, el
segundo es peor que el tercero si n < 100, igual si n = 100 y mejor si n>100.
d) Depende. Si n < 100 prefiero el tercero. Si n =100 el segundo o tercero da lo mismo. Si n >100
prefiero el segundo. Si n > 100 y sabemos que c < θ 2, conviene el primero. Si n ≤ 100 y c < θ2, con
la información del enunciado no se puede saber si el 1 es mejor que el 3, entonces, es preferible el
estimador en 3, que al menos se sabe insesgado.
Ejemplo 8
Sea, Y1 , Y2 , ...., Yn una m.a.s.(n) de Y con media µ ≠ 0, varianza σ2 y suponga que el
coeficiente de variación es conocido c = σ/µ. Se propone el siguiente estimador de µ:
SOLUCION
a)
E[ µˆ ] = wE[Y ] = wµ ≠ µ
σ2
ECM [ µˆ ] = Var[ µˆ ] + [ E[ µˆ ] − µ ] 2 = w 2 + ( w − 1) 2 µ 2
n
b)
d σ2
ECM [ µˆ ] = 2w + 2( w − 1) µ 2 = 0
dw n
6
w = µ2/(µ2 +σ2/n) = n/(n+c2)
n2 σ2 c2 2 2 σ2
ECM [ µˆ ] = ( +( ) µ =
(n + c 2 ) 2 n n + c2 n + c2
c)
Se debe elegir el estimador que tenga en menor error cuadratico medio, en este caso se tiene que:
σ2 σ2
ECM [ µˆ ] = < = Var[Y ] = ECM [Y ]
n + c2 n
Así, dado el coeficiente de variación poblacional conocido es preferible el estimador propuesto, a pesar
que es sesgado y el promedio es insesgado.
Dos moralejas importantes del ejercicio anterior son: 1) un estimador sesgado puede ser
preferible a otro insesgado y 2) el conocimiento de información adicional (exógena a la
muestra) acerca de la población (en este caso el coeficiente de variación “c”) es clave para
mejorar un método de estimación.
Ejemplo 9
Considere dos muestras aleatorias independientes de tamaños: n = 31 y m=61, X 1 ,..., X 31
; Y1 ,...,Y61 de la variables independientes X ~ N( µ1 , σ 2 ) ; Y ~ N( µ 2 , σ 2 )
respectivamente.
A partir de cada muestra se proponen los siguientes estimadores de la varianza σ 2 :
∑ ∑
31 61
(X i − X )2 (Yi − Y ) 2
S 2
X = i =1 ; S 2
Y = i =1
30 60
nS X + mS Y
2 2
a) Demuestre que el estimador S =
2
es mejor que los anteriores.
n+m
b) Considere el siguiente estimador de la varianza: S p = α ⋅ S X + β ⋅ S Y . Encuentre las
2 2 2
SOLUCION
a)
De clases (propiedad 1.3.2 y ejemplo 3.1.2), se sabe que ambos estimadores S 2X y S2Y son estimadores
insesgados de σ2.
nES X2 + mES Y2 nσ 2 + mσ 2
ES = 2
= =σ 2
n+m n+m
De clases (propiedad 1.3.2 o el ejemplo 3.1.2), se sabe que en el caso normal, Var[S 2X] = 2σ4/(31-1) =
2σ4 0,033 y Var[S2Y] = 2σ4/(61-1) = 2σ4 0,017.
7
n 2VarS X2 + m 2VarS Y2
Además, VarS =
2
= 2σ4 0,011
( n + m) 2
Así el estimador anterior tiene menor varianza y por lo tanto es mejor que los dos anteriores.
b)
Para el estimador S2p sea insesgado con respecto σ2, los ponderadores deben sumar 1, α+β= 1, es decir,
β= 1-α y la varianza queda:
Ejemplo 10
Un Alcalde de una de las comunas de Santiago, piensa repostular al cargo en las próximas
elecciones municipales. El Alcalde quiere saber cuál es la proporción de los electores de
la comuna que tienen la intención de votar por él, si se presenta como candidato. En una
muestra aleatoria simple de 1000 personas inscritas en los registros electorales de la
comuna el 49% votaría por el actual Alcalde.
El Alcalde cree que el cincuenta y uno por ciento de las intenciones de voto de toda la
comuna le favorecen. Suponiendo que el alcalde tiene razón:
8
Parámetro π = Proporción de todos los inscritos en los registros de la comuna que votarías por el
Alcalde.
Estimador P = Proporción que votaría por el Alcalde en una muestra aleatoria simple de n inscritos en
los registros de la comuna.
b)
P es un estimador insesgado de π y consistente, Var[P] = π(1-π)/n → 0. Lo anterior significa, que si la
muestra es grande probablemente la estimación resultará cerca del verdadero valor del parámetro.
c)
La distribución anterior, indica como se distribuyen los valores de P en infinitas hipotéticas muestras de
tamaño n=1000 de la población. Así, la distribución anterior determina probabilidades de que P se ubique
en un determinado subintervalo de [ 0 , 1].
Distribución de P
0,49 0,51
d)
e)
f)
1) La estimación 49% es el resultado de un estimador que tiene una fluctuación aleatoria, de modo que p
< 0,50 puede ser fruto del azar. Los resultados de P están centrados en π = 0,51 pero están dispersos a
la izquierda y derecha.
2) Efectivamente, si el alcalde esta equivocado y su votación es por ejemplo 0,48 < 0,51, entonces, la
distribución estará centrada a la izquierda de 0,51 y entonces será más probable valores inferiores al 50%
que superiores..
Distribución de P
Ejemplo 11
Supóngase que el número de barcos X diarios que llega a un puerto tiene una distribución
Poisson de parámetro λ.
9
En lugar de anotar el Nº de barcos que llegó en cada uno de 30 días, solamente se anotó el
número de días en que llegaron barcos. Si en 25 de los 30 días llegaron al menos un
barco, entonces:
SOLUCION
a) Estimador de π, P = Proporción de días en que llega al menos un barco en una muestra aleatoria de n
días.
Estimador de λ, λ^ = -Ln(1-P)
El método anterior, donde para estimar una función de un parámetro g(θ) “enchufamos
dentro” de la función un estimador conocido T de θ, es decir, g(T) es muy utilizada en
estadística ( en ingles de llama “Plug in”). Algunas propiedades que puede tener T
como estimador del parámetro no son transmitidas a g(T) como estimador de g(θ).
Ejemplo 12
Sea Y1 , Y2 ,..., Yn una m.a.s. de una variable Y con media µ y varianza σ2. Analice el
insesgamiento del siguiente estimador de la varianza:
n +1
Solución
Para que el estimador sea insesgado debe tenerse que:
E[σˆ 2 ] = σ 2
10
Asi se obtiene: E[ Y2 ] = σ2 + µ2
Así se tiene que el estimador propuesto es insesgado con respecto a la varianza de la población.
Ejemplo 13
Sea, Y1 , Y2 , ...., Yn una m.a.s.(n) de Y con distribución Bernoulli de parámetro desconocido 0<π<1.
Considera los siguientes estimadores de π:
1
πˆ1 = Y ; πˆ 2 = (Y1 + Yn )
2
Solución
a)
1 1
Eπˆ 2 = ( EY1 + EYn ) = ( µ + µ ) = µ
2 2
1 1
Var[πˆ 2 ] = (VarY1 + VarYn ) = (σ 2 + σ 2 ) = σ 2 / 2
4 4
πˆ 2 no es consistente porque su varianza no tiende a 0 cuando, n crece.
b)
π (1 − π )
Varπˆ1 =
n
Es fácil constatar que el máximo de la varianza se produce en π = 0,5.
c)
σ2 = Var[Y].= π(1-π)
∑ ∑ ∑
n n 2 n
i =1
(Yi − Y ) 2 i =1
Yi − n[Y ] 2 i =1
Yi − n[Y ] 2 nY − n[Y ] 2 n
S 2
= = = = = Y (1 − Y )
n −1 n −1 n −1 n −1 n −1
d)
Y (1 − Y ) nY (1 − Y )
Vˆarπˆ1 = ; Vˆarπˆ 2 =
n −1 2(n − 1)
e)
Para n =2, si existiera un estimador insesgado T de π3, debería cumplir que: E[T] = π3
11
Ahora, E[T ] = ∑T ( y , y
y1 , y 2
1 2 ) p ( y1 , y 2 )
Así reemplazando:
Se aprecia que E{T] es un polinomio en π de grado 2, así es imposible obtener un polinomio de grado
3, como π3.
Ejemplo 14
Considera dos poblaciones Y1 e Y2 con la misma µ y varianza distintas σ21 y σ22
respectivamente. De cada población, independientemente, se tienen muestra aleatorias de
tamaños n1 e n2 respectivamente.
Y1 +Y 2
T=
2
Muestra que T es insesgado y determina su varianza.
b) Supón que los recursos permiten encuestar a 100 personas. Es decir, n1 + n2 =100.
¿Qué tamaños de muestra se deben obtener de la población 1 ( n1 ) y de la población 2
(n2 ) para tener T de varianza mínima? Suponga σ21 = 25 y σ22 = 64 y determine el
valor de la varianza mínima.
Solución
a)
EY 1 + EY 2 µ + µ
ET = = =µ
2 2
VarY 1 + VarY 2 σ 12 σ 22
VarT = = +
4 4n1 4n2
b)
Dado que n1 + n2 =100 se tiene que n1 =100- n2. Reemplazando en la varianza, se tiene:
σ 12 σ 22
VarT = +
4n1 4(100 − n1 )
Derivando e igualando a cero para encontrar el n1 donde la varianza alcanza su máximo:
σ 12 σ 22
− 2 + = 0 implica n1= 100 σ1 /(σ1+σ2 ) y n2 = 100 σ2 /(σ1+σ2 ) (*)
4n1 4(100 − n1 ) 2
12
n1 = 38 y n2 = 62.
Ejemplo 16
Considera la población Y = Remuneración mensual de un trabajador extraído al azar de
un universo de trabajadores de cierta industria. Suponga que la población anterior tiene
media µ y varianza σ2.
a)
T es insesgado, ET = EY1 = µ.
b)
Y1 + Y2 + .... + Y10
El estimador Y= es insesgado y
10
σ2
ECM [Y ] = VarY =
10
σ2
Así, ECM [Y ] = < σ = Var[T ] = ECM [T ] , de modo que el promedio muestral con n=10 es
10
mejor que con n=1.
c)
Sea T ‘ el estimador que propone al alumno, entonces,
_
ECM[T ‘] = Var[T ‘ ] + [ ET ‘ - µ]2 = σ2/2n + σ2/4n = 3σ2/4n < σ2/n = Var[Y]
13
A pesar que T ‘ es sesgado tiene un ECM menor que el promedio y también es consistente (ECM =
3σ2/4n → 0), entonces, es recomendable usar T’.
14