Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema 1. Inferencia Estadística para Una Población PDF
Tema 1. Inferencia Estadística para Una Población PDF
Contenidos
I Inferencia estadı́stica
I Estimadores puntuales
I Estimación de la media y la varianza de una población
I Estimación de la media de la población mediante intervalos de
confianza
I Intervalos de confianza para la media de una población normal con
varianza conocida
I Intervalos de confianza para la media en muestras grandes
I Intervalos de confianza para la proporción en una población
I Intervalos de confianza para la media de una población normal con
varianza desconocida
I Estimación de la varianza de la población mediante intervalos de
confianza
I Intervalos de confianza para la varianza de una población normal
Tema 1. Inferencia estadı́stica para una población
Objetivos de aprendizaje
Al final de este tema debieras ser capaz de:
I Estimar parámetros de la población desconocidos a partir de datos
muestrales
I Construir intervalos de confianza para los parámetros de la población
desconocidos a partir de datos muestrales:
I En el caso de una distribución normal: intervalos de confianza para la
media y la varianza de la población
I En muestras grandes: intervalos de confianza para la media de la
población y la proporción
I Interpretar el significado de un intervalo de confianza
I Entender el efecto del tamaño muestral, el nivel de confianza, etc
sobre la longitud del intervalo de confianza
I Calcular un tamaño muestral necesario para controlar la longitud de
un intervalo de confianza
Tema 1. Inferencia estadı́stica para una población
Referencias
I Newbold, P. “Estadı́stica para Administración y Economı́a”
I Capı́tulos 7 y 8 (8.1-8.6)
I Ross, S. “Introducción a la Estadı́stica”
I Capı́tulo 8
Inferencia Estadı́stica: palabras clave (i)
X ∼ F ⇒ X1 , X2 , . . . , Xn ∼ F
Muestra ⇒ x1 , x2 , . . . , xn
Muestra observada
⇓ ⇓ ⇓
µX = E[X ]
Valor esperado de X
⇐ Estimador de µX (variable aleatoria)
X̄
Media muestral
⇐ Estimación de µX (un número)
x̄
Media muestral
Estimadores puntuales: introducción
Sesgo[θ̂X ] = E[θ̂X ] − θX
Var[θ̂X ,1 ]
Eficiencia relativa(θ̂X ,1 , θ̂X ,2 ) =
Var[θ̂X ,2 ]
Nota:
I En algunos casos se emplea la definición inversa.
I En todo caso, un estimador con menor varianza es más eficiente.
Estimadores puntuales: propiedades (iii)
I Un criterio más general para seleccionar estimadores (incluyendo
estimadores insesgados y sesgados) es el error cuadrático medio,
definido como
Nota:
I El error cuadrático medio de un estimador insesgado es igual a su
varianza.
I Un estimador con menor ECM es mejor.
I El estimador insesgado de mı́nima varianza tiene la menor
varianza/ECM entre todos los estimadores.
I Como encontrar una buena definición para un estimador T ?
I En algunos casos se conoce un estimador óptimo: estimador
insesgado de mı́nima varianza
I Si no es ası́, existen distintos métodos de construcción de
estimadores que proporcionan resultados razonables, por ejemplo:
I Estimación máximo verosı́mil
I Método de momentos
Estimación puntual: ejemplo
Ejemplo: 7.1 (Newbold) Las ratios precio-beneficio para una muestra
aleatoria de diez acciones negociadas en la bolsa de NY en un dı́a
concreto fueron
10 16 5 10 12 8 4 6 5 4
80
x̄ = =8
10
782 − 10(8)2
sx2 = = 15,78
10 − 1
1+1+0+1+1+0+0+0+0+0
p̂x =
10
= 0,4
Estimación puntual: ejemplo
2
Ejemplo: Sea µ̂X = n(n+1) (X1 + 2X2 + . . . + nXn ) un estimador de la media de
la población basado en una MAS X n . Compare este estimador con la media
muestral, X̄ .
σ2
Sabemos que X̄ es un estimador insesgado de µX , con varianza nX .
µ̂X también es insesgado: Y su varianza/ECM es:
" # " #
2 2
E[µ̂X ] = E (X1 + 2X2 + . . . + nXn ) V[µ̂X ] = V (X1 + 2X2 + . . . + nXn )
n(n + 1) n(n + 1)
!2
2 2
= (E[X1 ] + 2E[X2 ] + . . . + nE[Xn ]) 2 2
=indep. (V[X1 ] + 2 V[X2 ] + . . . + n V[Xn ])
n(n + 1) n(n + 1)
2 n(n+1)(2n+1)/6
=id (µX + 2µX + . . . + nµX )
n(n + 1) 4
z }| {
2 2 2 2
=id σX (1 + 2 + . . . + n )
n(n+1)/2 n2 (n + 1)2
2µX z }| {
= (1 + 2 + . . . + n) = µX 2(2n + 1) 2
n(n + 1) = σX
3n(n + 1)
⇒ Sesgo[µ̂X ] = 0
2 2(2n + 1) 2
ECM[µ̂X ] = V[µ̂X ] + 0 = σX
3n(n + 1)
σX2 /n 3(n + 1)
Eficiencia relativa(X̄ , µ̂X ) = 2(2n+1) 2
=
σ 2(2n + 1)
3n(n+1) X
Puede verse que para n ≥ 2 este cociente es menor que 1, y por tanto X̄ es un
estimador más eficiente para µX .
De estimaciones puntuales a estimación por intervalos de
confianza
P (θ ∈ (T1 (X n ), T2 (X n )) = 1 − α
(T1 (x n ), T2 (x n ))
X̄ − µX
√ ∼ N(0, 1)
σ/ n
√
Nota: la desviación tı́pica de X̄ , σX / n, (o de cualquier otro
estadı́stico) se conoce como su error estándar
Intervalo de confianza para la media de la población,
población normal con varianza conocida
Si Z ∼ N(0, 1) entonces
E[Z ] = 0, V[Z ] = 1
●
z1−α2 = − zα2
●
zα2
Z
−zα/2 z }| {
z }| { X̄ − µX
4. Se tiene que P(z1−α/2 < √ < zα/2 ) = 1 − α
σX / n
Intervalo de confianza para la media de la población,
población normal con varianza conocida
5. Resolvemos la doble desigualdad para µX :
X̄ −µX
−zα/2 < √
σX / n
< zα/2
σX σX
−zα/2 √ < X̄ − µX < zα/2 √
n n
σX σX
−zα/2 √ − X̄ < −µX < −X̄ + zα/2 √
n n
σX σX
zα/2 √ + X̄ > µX > X̄ − zα/2 √
n n
para obtener el estimador por intervalos de confianza
T1 (X n ) T2 (X n )
z }| { z }| {
σX σX
(X̄ − zα/2 √ , X̄ + zα/2 √ )
n n
' MAS: n = 25
Muestra: x̄ = 198
n = 25
1 − α = 0,95
zα/2
⇒
=
x̄ = 198
α/2 = 0,025
z0,025 = 1,96
„
12
«
IC0,95 (µX ) = 198 ∓ 1,96 √
25
= (198 ∓ 4,7)
Area= = (193,3, 202,7)
0.025
Interpretación: Podemos tener una
●
confianza del 95 % de que µX
está en (193,3, 202,7)
z0.025 = 1.96
Interpretación frecuentista del IC: nivel de confianza
En este ejemplo simulado se han generado 150 muestras de tamaño n = 50, de
una distribución X ∼ N(µX = −5, σX2 = 12 ) y se construyeron 150 IC1−α (µX )
con α = 0,1 y otros 150 intervalos con α = 0,01.
µX está en aprox. 150(0,9) = 135 interv. µX está en aprox. 150(0,99) = 148,5 interv.
(pero no en 150(0,1) = 15) (pero no en 150(0,01) = 1,5)
(1 − α) = 0,9, n = 50 (1 − α) = 0,99, n = 50
150
150
| | | |
| |
| | | | | |
| | | |
|| | || |
| | | |
| | | |
| | | | | |
| | | | | |
| | | |
| | | |
|| | || |
| | | |
| |
| | | | | |
| | | | | |
| | | |
| || | ||
| || | ||
| | | |
| | | |
100
100
| | | | | |
| || | ||
|| ||
| |
| || | ||
| | | |
| | | |
| |
Indice
Indice
| |
| | | | | |
| | | |
| | | |
| | | | | |
| | | |
| | | |
| | | |
| || | ||
|| ||
| | | | | |
| | | |
| |
| | | | | |
| | | | | |
50
50
| |
|| | || |
| | | |
| | | |
| |
|| | || |
| |
| || | ||
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
|| ||
| | | |
| | | |
| | | |
| |
| | | | | |
| | | |
| | | |
| | | |
0
0
−6.0 −5.5 −5.0 −4.5 −4.0 −6.0 −5.5 −5.0 −4.5 −4.0
150
| | || |
|
| | | |
| |
| | | |
|| | || |
|
| |
| | | | |
| | | || |
| | | | | |
| | |
| | || |
| | ||
| | | |
| | ||
| | | || |
| | | | |
| | |
| |
| || | | |
| || | | |
| | ||
| | | | |
100
100
| | | | ||
| || ||
|| |
| || |
| || |
| | | |
| | | ||
| |
Indice
Indice
| |
| | | | | |
| | | |
| | | ||
| | | |
| | ||
| | || |
| | || |
| || ||
|| |||
| | | ||
| | | |
| |
| | | | |
|
| | | ||
|
50
50
| |
|| | | ||
| | | |
| | | | |
|
|| | | | |
| ||
| || | |
| | | | |
| |
| | | | |
| | | |
| | |
| | |||
| | |
| | || |
|| |
| | | ||
| | | |
| | || |
|
| | | |
||
| | | ||
| |
| | | | |
0
0
−6.0 −5.5 −5.0 −4.5 −4.0 −6.0 −5.5 −5.0 −4.5 −4.0
'
n
√
MAS: n =? n ≥ 2zα/2 σ
n ≥ 22 zα/2
2
σ2
longitud
z }| { n ≥ (22 )(2,5752 )(1,82 )
zα/2 σ
IC0,99 (µX ): 2 √ ≤ 2(0,5) = 1 = 85,93
n
Para satisfacer la petición del
encargado se necesitarı́a una
Area= muestra de tamaño al menos
0.005 igual a 86 observaciones.
z0.005 = 2.575
Intervalo de confianza para la media de la población en
muestras grandes
z1−α2 = − zα2
Z
●
zα2
−zα/2 z }| {
z }| { X̄ − µX
4. Imponemos la condición P(z1−α/2 < √ < zα/2 ) = 1 − α
σ̂X / n
Intervalo de confianza para la media de la población en
muestras grandes
X̄ − µX
−zα/2 < √ < zα/2
σ̂X / n
T1 (X n ) T2 (X n )
z }| { z }| {
σ̂X σ̂X
(X̄ − zα/2 √ , X̄ + zα/2 √ )
n n
'
1 − α = 0,9 ⇒ α/2 = 0,05
zα/2 = z0,05 = 1,645
MAS: n = 344 grande 0 1
s
0,241(1 − 0,241)
IC0,9 (pX ) = @0,241 ∓ 1,645 A
83 344
Muestra: p̂x = 344 = 0,241
= (0,241 ∓ 0,038)
= (0,203, 0,279)
z0.05 = 1.645
Intervalo de confianza para la media de la población:
población normal con varianza desconocida
X̄ − µX
√ ∼ tn−1
sX / n
Intervalo de confianza para la media de la población:
población normal con varianza desconocida
3. Si tn−1;1−α/2 y tn−1;α/2 son los cuantiles
superiores (1 − α/2) y (α/2) de una
distribución t de Student con n − 1 grados
de libertad (gl), tenemos
∼ tn−1 α α
z}|{ 1−α
P(tn−1;1−α/2 < T < tn−1;α/2 ) = 1 − α 2 2
Densidad t de Student
Recuerda: si T ∼ tn , E[T ] = 0, V[T ] = n
n−2
●
tn−1 ; α2
4. Imponemos la condición
T ∼ tn−1
−tn−1;α/2 z }| {
z }| { X̄ − µX
P(tn−1;1−α/2 < √ < tn−1;α/2 ) = 1 − α
sX / n
Intervalo de confianza para la media de la población:
población normal con varianza desconocida
T1 (X n ) T2 (X n )
z }| { z }| {
sX sX
(X̄ − tn−1;α/2 √ , X̄ + tn−1;α/2 √ )
n n
'
n=6 x̄ = 19,48
MAS: n = 6 pequeña 1 − α = 0,9 ⇒ α/2 = 0,05
116,9 tn−1;α/2 = t5;0,05 = 2,015
Muestra: x̄ = 6
= 19,4833 „ «
0,98
IC0,9 (µX ) = 19,48 ∓ 2,105 √
2282,41 − 6(19,4833)2 6
sx2 = = 0,96
6−1 = (19,48 ∓ 0,81)
= (18,67, 20,29)
Media muestral
Semilongitud IC
Datos
Distribuciones t de Student y χ2 (chi-cuadrado)
I Sabemos que T ∼ tn si T = √ Z2 , donde Z ∼ N(0, 1) y χ2n sigue una
χn /n
distribución chi-cuadrado con gl = n, y ambas son independientes.
I También, χ2n es la distribución de la suma de los cuadrados de n variables
aleatorias N(0, 1) independientes.
I Por ejemplo, la cuasi varianza muestral reescalada sigue una distribución
chi cuadrado con n − 1 grados de libertad.
Pn 2 n „ «2
(n − 1)sX2 i=1 (Xi − X̄ )
X Xi − X̄
= = ∼ χ2n−1
σX2 σX2 i=1
σ X
¿Por qué n − 1 y no n?
Densidades de t y N(0, 1)
Densidades de χ2
0.4
0.15
gl=20
0.3
N(0,1) gl=15
gl=10 gl=10
0.10
gl=5 gl=5
0.2
gl=3
0.05
0.1
0.00
0.0
−4 −2 0 2 4 0 10 20 30 40
Intervalo de confianza para la varianza de la población,
población normal
(n − 1)sX2
∼ χ2n−1
σX2
Intervalo de confianza para la varianza de la población,
población normal
2 2
Densidad chi-cuadrado ● ●
χ2n−1
z }| {
(n − 1)sX2
4. Imponemos la condición P(χ2n−1;1−α/2 < < χ2n−1;α/2 ) = 1 − α
σ2
Intervalo de confianza para la varianza de la población,
población normal
5. Resolvemos la doble desigualdad para σX2 :
(n−1)sX2
χ2n−1;1−α/2 < σX2
< χ2n−1;α/2
1 σX2 1
> (n−1)sX2
>
χ2n−1;1−α/2 χ2n−1;α/2
(n − 1)sX2 (n − 1)sX2
> σX2 >
χ2n−1;1−α/2 χ2n−1;α/2
'
1 − α = 0,9 ⇒ α/2 = 0,05
MAS: n = 15 χ2n−1;1−α/2 = χ214;0,95 = 6,57
χ2n−1;α/2 = χ214;0,05 = 23,68
Muestra: sx = 0,8 „ «
14(0,64) 14(0,64)
IC0,9 (σX2 ) = ,
23,68 6,57
Area= Area=
= (0,378, 1,364) ⇒
p p
0.05 0.05 IC0,9 (σX ) = ( 0,378, 1,364)
● ● = (0,61, 1,17)
χ214 ; 0.95 χ214 ; 0.05 √
=6.57 =23.68
Para obtener IC(σX ) aplicamos a los
extremos de IC(σX2 )
Fórmulas para intervalos de confianza
„ «
X̄ −µX σ σ
Datos normales √ ∼ N(0, 1) µX ∈ x̄ − zα/2 √X , x̄ + zα/2 √X
Varianza conocida σX / n n n
„ –
X̄ −µX σ̂ σ̂
Media Datos no normales √ ∼approx. N(0, 1) µX ∈ x̄ − zα/2 √x , x̄ + zα/2 √x
Muestra grande σ̂X / n n n
r #
Datos Bernoulli p̂X −pX p̂x (1−p̂x )
∼approx. N(0, 1) pX ∈ p̂x ∓ zα/2
n
q
Muestra grande p̂X (1−p̂X )/n
Datos normales
„ «
X̄ −µX s s
Varianza descono- √ ∼ tn−1 µX ∈ x̄ − tn−1,α/2 √x , x̄ + tn−1,α/2 √x
sX / n n n
cida 0 1
2
(n−1)sX (n−1)sx2 (n−1)sx2
Varianza Datos normales ∼ χ2
n−1
2
σX ∈ @ 2 , 2 A
σ2 χ χ
X n−1;α/2 n−1;1−α/2
0v 1
2
v
(n−1)sX u (n−1)sx2 (n−1)sx2
u u
∼ χ2 σX ∈ @t 2
u
Desv. tı́pica Datos normales n−1 ,t 2 A
σ2 χ χ
X n−1;α/2 n−1;1−α/2
Intervalos de confianza para la media de la población:
¿Qué usar cuándo?
.X ∼ normal
&X normal
.
σ conocida
&
σ desconocida
.
n pequeña
&
n grande
↓
basada en z
↓
basada en t
↓ ↓
métodos más basada en z
(exacta) (exacta) allá de Est II (aprox. TCL)