Está en la página 1de 77

Estadı́stica II

ESTG1037

PhD. Andrea Garcı́a Angulo 1

1 FCNM - ESPOL
Tabla de contenidos

1. Estimación
1.1. Introducción a la estimación estadı́stica
1.2. Propiedades de los estimadores puntuales: insesgadez,
eficiencia y consistencia
1.3. Procedimientos de estimación por punto: método de los
momentos y máxima verosimilitud
1.4. Intervalos de confianza para una y dos muestras: media,
varianza y proporciones. Determinación del tamaño de la
muestra
Tabla de Contenidos

1. Estimación
1.1. Introducción a la estimación estadı́stica
1.2. Propiedades de los estimadores puntuales: insesgadez,
eficiencia y consistencia
1.3. Procedimientos de estimación por punto: método de los
momentos y máxima verosimilitud
1.4. Intervalos de confianza para una y dos muestras: media,
varianza y proporciones. Determinación del tamaño de la
muestra
Objetivo de esta unidad

▶ Estimar parámetros de la población mediante estadı́sticos que


tengan propiedades deseables.
- A través de estimadores puntuales,
- y de intervalos de confianza que dan un rango de valores
donde el parámetro poblacional se espera esté incluı́do.
Outline

1. Estimación
1.1. Introducción a la estimación estadı́stica
1.2. Propiedades de los estimadores puntuales: insesgadez,
eficiencia y consistencia
1.3. Procedimientos de estimación por punto: método de los
momentos y máxima verosimilitud
1.4. Intervalos de confianza para una y dos muestras: media,
varianza y proporciones. Determinación del tamaño de la
muestra
Estadı́stico Muestral

Definición

Una función T : Rn → Rp definida en términos de X1 , X2 , . . . , Xn


▶ T (x1 , x2 , . . . , xn ) ∈ Rp no depende de alguno de los
parámetros desconocidos de la población X

Si T estima un parámetro de la población se denomina Estimador


muestral o Estimador de Punto

T ∼ G , G es la Distribución Muestral
Estadı́stico Muestral

Media muestral

▶ Población {1, 2, 3, 4, 5}
▶ Muestras de tamaño n = 2

Muestra x Muestra x Muestra x Muestra x Muestra x


{1,1} 1 {2,1} 1.5 {3,1} 2 {4,1} 2.5 {5,1} 3
{1,2} 1.5 {2,2} 2 {3,2} 2.5 {4,2} 3 {5,2} 3.5
{1,3} 2 {2,3} 2.5 {3,3} 3 {4,3} 3.5 {5,3} 4
{1,4} 2.5 {2,4} 3 {3,4} 3.5 {4,4} 4 {5,4} 4.5
{1,5} 3 {2,5} 3.5 {3,5} 4 {4,5} 4.5 {5,5} 5

25 posibles muestras
Estadı́stico Muestral

Media muestral



0.04; x̄ = 1, 5

0.08; x̄ = 1.5, 4.5



gx̄ (x̄) = 0.12; x̄ = 2, 4

0.16; x̄ = 2.5, 3.5





0.20; x̄ = 3

µx̄ = 3 Var(x̄) = 1
Estadı́stico Muestral

Ejemplos: estimadores de punto en poblaciones infinitas

Estadı́stico Suma
▶ X1 , X2 , . . . , Xn son i.i.d. con media µ y varianza σ 2
▶ Sn : Rn → R : Sn (X1 , X2 , . . . , Xn ) = X1 + X2 + . . . + Xn
▶ Estima el total T = X1 + X2 + . . . + XN de la población

Estadı́stico de Orden
▶ Mı́nimo
▶ Máximo
▶ Mediana (u otro cuantil).
Outline

1. Estimación
1.1. Introducción a la estimación estadı́stica
1.2. Propiedades de los estimadores puntuales: insesgadez,
eficiencia y consistencia
1.3. Procedimientos de estimación por punto: método de los
momentos y máxima verosimilitud
1.4. Intervalos de confianza para una y dos muestras: media,
varianza y proporciones. Determinación del tamaño de la
muestra
Propiedades de los Estimadores

▶ Insesgadez
▶ Eficiencia
▶ Consistencia
Insesgadez
Insesgadez

Sugamos que θ es un parámetro desconocido de la población. Un


estimador θ̂ es insesgado si y solo si

E (θ̂) = θ

El sesgo de un estimador es B(θ̂) = E [θ̂] − θ


Insesgadez

Ejemplos
▶ La media muestral x̄ es un estimador insesgado de la media
poblacional µ → E (x̄) = µ
1 Pn
▶ S 2 = n−1 2
i=1 (Xi − X̄ ) es un estimador insesgado de la
varianza poblacional σ 2
▶ Sn2 = n1 ni=1 (Xi − X̄ )2 . es insesgado?
P
n−1 2
- E [Sn2 ] = n σ .
2
- B(Sn2 ) = n−1 2
n σ − σ 2 = − σn .
Error cuadrático medio (ECM)

Medida de precisión de un estimador θ̂.

ECM(θ̂) = E [(θ̂ − θ)2 ]

Objectivo: Minimizar el ECM.

ECM(θ̂) = E [θ̂2 − 2θ̂θ + θ2 ]


= E [θ̂2 ] − 2θE [θ̂] + θ2
= Var(θ̂) + E [θ̂]2 − 2θE [θ̂] + θ2
= Var(θ̂) + (E [θ̂] − θ)2
= Var(θ̂) + B(θ̂)2
Eficiencia
Eficiencia

¿Cuál es la mı́nima varianza que podemos obtener?


Cota de Rao y Crámer
Sea θ̂ un estimador insesgado:
1
Var(θ̂) ≥  2 

nE ∂θ log f (x, θ)

Eficiencia:

CRB
eff(θ̂) =
Var(θ̂)
θ̂1 es más eficiente que θ̂2 si Var(θ̂1 ) < Var(θ̂2 ).
Consistencia

Tn (x1 , x2 , . . . , xn ) es un estimador consistente para θ si:

lim P(|Tn − θ| ≥ ϵ) = 0 ∀ϵ > 0


n→∞
Outline

1. Estimación
1.1. Introducción a la estimación estadı́stica
1.2. Propiedades de los estimadores puntuales: insesgadez,
eficiencia y consistencia
1.3. Procedimientos de estimación por punto: método de los
momentos y máxima verosimilitud
1.4. Intervalos de confianza para una y dos muestras: media,
varianza y proporciones. Determinación del tamaño de la
muestra
Métodos de estimación

▶ Método de los momentos (MOM)

▶ Método de máxima verosimilitud (MLE)


Método de los momentos (MOM)

Momentos no centrados

mk = E [X k ]
(P
x k P(X = x), si X es discreta;
mk = R x∈S k
x∈S x fX (x) dx, si X es continua

Ejemplo: primer momento no centrado

m1 = E [X ] = µ
Método de los momentos (MOM)

Momentos centrados en la media

µk = E [(X − E [X ])k ]

Ejemplo: primer y segundo momento no centrado

µ1 = 0

µ2 = σ 2
Método de los momentos (MOM)

k-ésimo momento poblacional

mk = E [X k ]

k-ésimo momento muestral X1 , . . . , Xn iid


n
X
m̂k = (1/n) Xik
i=1

Los momentos poblacionales son funciones de los parámetros


desconocidos θ1 , . . . , θp .
Método de los momentos (MOM)

Los estimadores θ̂1 , . . . , θ̂p se obtienen igualando los p momentos


muestrales con los p momentos poblacionales y resolviendo para
θ1 , . . . , θ p .
Método de los momentos (MOM)

Ejemplo: X1 , . . . , Xn es una muestra aleatoria (iid) de tiempos de


espera n autos para ser revisados en la ATM. X ∼ exp(λ).
(
λ exp{−λx}, x ≥ 0;
fX (x, λ) =
0, de lo contrario
Método de los momentos (MOM)

Ejemplo: estimar λ
m1 = m̂1
Z ∞ n
X
x λ exp{−λx} dx = (1/n) Xi
0 i=1
1
= x̄
λ
1
λ̂ =

1
Efectivamente µ = λ
Método de máxima verosimilutud

Para una muestra aleatoria observada x1 , . . . , xn , donde X tiene


una función de densidad o probabilidad fX (x; θ), la función de
verosimilitud de θ es
n
Y
L(θ) = fθ (xi ; θ)
i=1

Su logaritmo natutal:

n
X
ℓ(θ) = fθ (xi ; θ)
i=1
Método de máxima verosimilutud
Ejemplo: X1 , . . . , Xn es una muestra aleatoria (iid) de tiempos de
espera n autos para ser revisados en la ATM. X ∼ exp(λ).
(
λ exp{−λx}, x ≥ 0;
fX (x, λ) =
0, de lo contrario

La funcion conjunta de densidad de la muestra


n
Y
fX (X , λ) = fX (Xi , λ)
i=1

La funcion de verosimilitud de λ

n
Y
fλ (λ; x) = fλ (λ; xi )
i=1
Método de máxima verosimilutud (MLE)

El estimador de máxima verosimilitud θ̂ se obtiene como


n
X
θ̂ = arg max ℓ(θ) = arg max fθ (xi ; θ)
θ θ
i=1
Método de máxima verosimilutud (MLE)

Ejemplo: estimar λ
n
X
ℓ(λ) = (log(λ) − λxi )
i=1
n
∂ℓ(λ) 1 X
=n − xi = 0
∂λ λ
i=1
n
1 X
= (1/n) xi = x̄
λ
i=1
1
λ̂ =

Ejemplo
La empresa H para una mejor planificación financiera quiere
estimar el valor promedio de las cuentas por cobrar anuales por
cliente. Para ello toma una muestra aleatoria de 30 cuentas

127.8 203.01 83.58


166 117.93 144.32
▶ Parámetro desconocido de
31.75 244.81 222.42
interés: µ
83.45 44.67 156.44
132.12 243 265.16 ▶ Estimador muestral
197.07 187.15 180.16 x̄ = $149.88
213.1 172.39 129.4 ▶ E [x̄] = µ
77.18 200.16 107.12 ▶ ¿Qué tan cerca está
138.99 56.88 97.56 x̄ = $149.88 de µ?
91.76 149.97 231.16
Outline

1. Estimación
1.1. Introducción a la estimación estadı́stica
1.2. Propiedades de los estimadores puntuales: insesgadez,
eficiencia y consistencia
1.3. Procedimientos de estimación por punto: método de los
momentos y máxima verosimilitud
1.4. Intervalos de confianza para una y dos muestras: media,
varianza y proporciones. Determinación del tamaño de la
muestra
Ejemplo
Supongamos que la junta financiera de la empresa H nos pide
presentar dos escenarios, uno positivo (que el promedio de cuentas
por cobrar del cliente sea bajo) y otro negativo (sea alto).
▶ Necesitamos calcular el error de estimación de x̄
▶ Los intervalos de confianza incluyen la información del
estimador y su margen de error.

θ̂ ± error de estimación
Resumen intervalos de confianza
Una muestra X
Para n Supuesto Intervalo
σ2 conocido >30 x̄ ± zα/2 √σn
µ σ2 desconocido >30 x̄ ± zα/2 √sn
σ2 conocido ≤30 X ∼ N(µ, σ 2 ) x̄ ± zα/2 √σn
σ2 desconocido ≤30 X ∼ N(µ, σ 2 ) x̄ ± tα/2,n−1 √sn
s2 2
σ2 X ∼ N(µ, σ 2 ) (n − 1) χ2 ≤ σ 2 ≤ (n − 1) χ2 s
α/2,n−1 q 1−α/2,n−1

>500 p̂ ± zα/2 p̂(1−


n
p̂)

p
r
≤500 ω p̂ + (1 − ω)0.5 ± zα/2 ωp̂(1−p̂)+(1−ω)0.5(1−0.5)
n+z 2
,
α/2
n
ω= 2
n+zα/2
q
p̂x (1−p̂x )+2p̂x p̂y +p̂y (1−p̂y )
py − px dos proporciones dependientes (p̂y − p̂x ) ± zα/2 n
Dos muestras independientes X, Y
nym Supuesto Intervalo
q
µ1 − µ2 varianzas iguales, conocida >30 d ± zα/2 σ m1 + n1
q
varianzas iguales, desconocida >30 d ± zα/2 s m1 + n1
X ∼ N(µ1 , σ12 )
q
varianzas iguales, conocida ≤30 d ± zα/2 σ m1 + n1
Y ∼ N(µ2 , σ22 )
X ∼ N(µ1 , σ12 )
q
varianzas iguales, desconocida ≤30 d ± tα/2,m+n−2 s m1 + 1
Y ∼ N(µ2 , σ22 ) n

∼ N(µ1 , σ12 )
q
X σ12 σ2
varianzas desiguales, conocida d ± zα/2 n + m2
Y ∼ N(µ2 , σ22 ) q
d ± tα/2,v s m1 + n1
X ∼ N(µ1 , σ12 ) s2
varianzas desiguales, desconocida s2
Y ∼ N(µ2 , σ22 ) ( nx + my )2
v= (sx2 /n)2 (s 2 /m)2
n−1
+ ym−1
σ22 X ∼ N(µ1 , σ12 ) sy2 1 σy 2 sy2
≤ ≤ F
sx2 α/2,n−1,m−1
σ12 Y ∼ N(µ2 , σ22 ) sx2 Fα/2,m−1,n−1 σx2
q
p̂x (1−p̂x ) p̂y (1−p̂y )
py − px (p̂y − p̂x ) ± zα/2 n + m
Dos muestras dependientes X, Y
nym  Supuesto
  2  Intervalo
µ1 σ1 σ12
µ1 − µ2 varianzas y covarianza conocidas X,Y ∼ N , 2
σd
d¯ ± zα/2 √ n
; σd2 = σ12 − 2σ12 + σ22
  µ2   σ212 σ2  
µ1 σ1 σ12
varianzas desconocidas X,Y ∼ N , d¯ ± tα/2,n−1 √sdn
µ2 σ12 σ22
Teorema del Lı́mite Central

▶ Muestra aleatoria: X1 , . . . , Xn son iid.


▶ E [Xi ] = µ
▶ VAR[Xi ] = σ 2 es conocida.
Cuando n → ∞
√ X̄ − µ D
n −
→ Z ∼ N(0, 1)
σ
Teorema del Lı́mite Central
σ 2 desconocido

▶ Estimador de la varianza S 2
2 P
▶ Para algunas distribuciones Sσ2 −
→1
D P
▶ Teorema de Slutsky: Si Xn −
→ X y Yn −
→ c, entonces
D
Xn /Yn −
→ X /c
r
√ X̄ − µ S 2 √ X̄ − µ D
n / = n −
→ Z /1 = Z ∼ N(0, 1)
σ σ2 S
Una muestra
Intervalos de confianza para µ cuando n es grande

Z ∼ N(0, 1) → P(−zα/2 ≤ Z ≤ zα/2 ) = 1 − α


Intervalos de confianza para µ cuando n es grande

σ 2 conocido

√ X̄ − µ
P(−zα/2 ≤ n ≤ zα/2 ) ≈ 1 − α
σ
Para una realización en una muestra observada:
σ σ
x̄ − zα/2 √ ≤ µ ≤ x̄ + zα/2 √
n n
Intervalos de confianza para µ cuando n es grande

σ 2 desconocido

√ X̄ − µ
P(−zα/2 ≤ n ≤ zα/2 ) ≈ 1 − α
S
Para una realización en una muestra observada:
s s
x̄ − zα/2 √ ≤ µ ≤ x̄ + zα/2 √
n n
Intervalos de confianza para µ cuando X ∼ N(µ, σ 2 )

▶ Muestra aleatoria: X1 , . . . , Xn son iid.


▶ Xi ∼ N(µ, σ 2 )
▶ X̄ y S 2 son independientes
Con cualquier n (pequeño o grande)

√ X̄ − µ
n = Z ∼ N(0, 1)
σ

S2
(n − 1) ∼ χ2n−1
σ2
Intervalos de confianza para µ cuando X ∼ N(µ, σ 2 )

√ X̄ − µ
n ∼ tn−1
S
Para una realización en una muestra observada:
s s
x̄ − tn−1,α/2 √ ≤ µ ≤ x̄ + tn−1,α/2 √
n n
Intervalos de confianza para µ cuando X ∼ N(µ, σ 2 )
Intervalos de confianza para µ

¿Cómo se obtienen zα/2 y tn−1,α/2


▶ Definir el nivel de confianza 1 − α (opciones comunes
α = 0.05 o α = 0.01)
▶ Encontrar el cuantil de la distribucion normal o t student para
el que la probabilidad sea 1 − α/2 (si se usa la probabilidad
acumulada desde −∞ hasta zα/2 o tn−1,α/2 ) o α/2 (si se usa
la probabilidad acumulada desde zα/2 o tn−1,α/2 hasta ∞)
▶ Tablas de distribución
▶ Software estadı́stico: R
Ejemplo
Supongamos que la junta financiera de la empresa H nos pide
presentar dos escenarios, uno positivo (que el promedio de cuentas
por cobrar del cliente sea bajo) y otro negativo (sea alto).
Respuesta:
▶ Asumimos que las cuentas por cobrar están normalmente
distribuidas
▶ x̄ = 149.88 y s = 63.145
▶ Con un 99% de nivel de confianza estimamos que el promedio
de cuentas por cobrar está entre $118.10 y $181.66
s √
x̄±tn−1,α/2 √ = 149.88±2.756(63.145/ 30) = [118.11, 181.66]
n
Determinación del tamaño de la muestra

Ejemplo
Supongamos que la junta financiera nos indica que basados en
estudios previos se estimó que la varianza es σ 2 = 4000. Y quieren
estar muy seguros del monto esperado de cuentas por cobrar
porque necesitan incluirlo en el presupuesto anual. La compañı́a
puede aceptar un error de estimación máximo de 5. Usted con sus
conocimientos estadı́sticos sabe que para hacer un estimador más
preciso necesita incrementar el número de observaciones en su
muestra.
Pregunta
▶ ¿Cuántas observaciones necesita para que con 99% de
confianza el error máximo de su estimación sea 5 ?
Determinación del tamaño de la muestra

▶ Error: E = X̄ − µ
▶ Con probabilidad 1 − α:
σ
|E | ≤ zα/2 √ = emax
n
▶ Despejando
2 σ2
zα/2
n= 2
emax
Determinación del tamaño de la muestra

Ejemplo
σ 2 = 4000.
Respuesta
▶ ¿Cuántas observaciones necesita para que con 99% de
confianza el error máximo de su estimación sea 5 ?
2.5762 (4000)
n= = 1061.724 → 1062
25
Intervalos de confianza para σ 2 cuando X ∼ N(µ, σ 2 )

n≥2

S2
(n − 1) ∼ χ2n−1
σ2
Intervalo de (1 − α)% de confianza

s2 s2
(n − 1) ≤ σ 2 ≤ (n − 1)
χ2α/2,n−1 χ21−α/2,n−1
Intervalos de confianza para σ 2 cuando X ∼ N(µ, σ 2 )
Ejemplo: empresa H
Supongamos que las cuentas por cobrar siguen una distribución
normal.

n = 30, s 2 = 3987.388

Intervalo de 95% de confianza

s2 s2
(n − 1) ≤ σ 2 ≤ (n − 1)
χ2α/2,n−1 χ21−α/2,n−1

▶ α?
▶ χ2α/2,n−1 ?
▶ χ21−α/2,n−1 ?
▶ (ll, ul) ?
Intervalos de confianza para proporciones

▶ Cuando trabajamos con variables cualitativas (nominales u


ordinales) no es posible calcular la media ni la desviación
estándar sino solo considerar la proporción de casos que hay
en una categorı́a que elegimos.
▶ Por ejemplo al final del año clasificamos a los clientes de la
empresa H como deudores (saldo positivo en las cuentas por
cobrar de la empresa) o no deudores (saldo cero en las
cuentas por cobrar de la empresa). p es la proporción de
clientes adeudando al final del año.
Intervalos de confianza para proporciones

Proporción p:
▶ Xi ∼ Bernoulli(p)
▶ E [Xi ] = p y Var[Xi ] = p(p − 1)
▶ Estimador p̂ = x̄
▶ Cuando n es grande el intervalo de confianza serı́a
r
p(1 − p)
p̂ ± zα/2
n
▶ Sin embargo este intervalo no tiene solución dado que p es
desconocido.
Intervalos de confianza para proporciones

Dos soluciones:
▶ Intervalo de Wald (n suficientemente grande)
r
p̂(1 − p̂)
p̂ ± zα/2
n
▶ Intervalo de confianza de Score (más robusto cuando n es
pequeño)
s
ω p̂(1 − p̂) + (1 − ω)0.5(1 − 0.5)
ω p̂ + (1 − ω)0.5 ± zα/2 2
,
n + zα/2

n
donde ω = 2
n+zα/2
Intervalos de confianza para proporciones

▶ Tomamos una muestra aleatoria de clientes de tamaño 500.


▶ El estimado en la muestra de clientes deudores es p̂ = x̄ = 0.8.
▶ ¿Cuál serı́a un intervalo de 99% de confianza para la
proporción de clientes deudores de la población de clientes?
▶ α?
▶ zα/2 ?
▶ Wald o Score ?
▶ (ll, ul) ?
Dos muestras independientes
Intervalos para diferencia de medias

Dos muestras independientes


▶ X = {X1 , . . . Xn } iid N(µx , σ 2 )
▶ Y = {Y1 , . . . Ym } iid N(µy , σ 2 )
▶ X y Y son independientes
▶ Parámetro de interés: Diferencia de medias δ = µx − µy .
▶ Estimador de d = x̄ − ȳ .
▶ Estimador insesgado de σ 2 :

(n − 1)sx2 + (m − 1)sy2
s2 =
m+n−2
Intervalos para diferencia de medias

Intervalo de confianza para δ:


r
1 1
d ± tα/2,m+n−2 s +
m n

▶ Intervalo de confianza contiene 0 entonces es razonable que


las medias sean iguales.
Intervalos para diferencia de medias

Si n → ∞ y m → ∞ para cualquier X = {X1 , . . . Xn } iid y


Y = {Y1 , . . . Yn } iid independientes entre sı́:
r
1 1
d ± tα/2,m+n−2 s +
m n
(Apliclando TLC)
Intervalos para diferencia de medias
Ejemplo Construya un intervalo de confianza del 94% para la
diferencia real entre las duraciones de dos marcas de focos. Si una
muestra de 100 focos tomada al azar de la primera marca dio una
duración media de 418 horas (sd 26 horas), y una muestra de 120
focos de otra marca dieron una duración media de 402 horas (sd
22 horas). Las varianzas poblacionales son desconocidas pero se
cree que son iguales.
(n − 1)sx2 + (m − 1)sy2
s2 =
m+n−2
r
1 1
d ± tα/2,m+n−2 s +
m n

▶ d? s? α? tα/2,m+n−2 ? (ll, ul)?


▶ ¿Se podrı́a concluir que hay diferencia real entre las dos
marcas de focos?
Intervalos para diferencia de medias

Dos muestras independientes Varianzas iguales: Homocedasticidad


▶ Supuesto razonable pero se puede comprobar
▶ Sino son iguales se puede usar la aproximación de Welch y
Satterthwaite
Intervalos para diferencia de medias

Dos muestras independientes Varianzas no iguales:


Heterocedasticidad Aproximación de Welch y Satterthwaite
r
1 1
d ± tα/2,v s +
m n
2 sy2 2
( snx + m)
v= (sy2 /m)2
(sx2 /n)2
n−1 + m−1

▶ No es un test exacto, solo aproximación. Si las varianzas


poblaciones son iguales o aproximadamente iguales es mejor
usar el intervalo con tα/2,m+n−2 .
Intervalos para la razón de varianzas

Dos muestras independientes con varianzas distintas


▶ X = {X1 , . . . Xn } iid N(µx , σx2 )
▶ Y = {Y1 , . . . Ym } iid N(µy , σy2 )
σy2
▶ Interés: Razón de varianzas σx2
▶ Estadı́stico F
sy2 /σy2
F = ∼ Fm−1,n−1
sx2 /σx2
▶ Intervalo de confianza para la razón de medias:

sy2 1 σy2 sy2 1


2
≤ 2
≤ 2
sx Fα/2,m−1,n−1 σx sx F1−α/2,m−1,n−1
Intervalos para la razón de varianzas

Dos muestras independientes con varianzas distintas Es equivalente


a
sy2 1 σy2 sy2
≤ ≤ F
sx2 Fα/2,m−1,n−1 σx2 sx2 α/2,n−1,m−1

▶ Intervalo de confianza contiene 1 entonces es razonable que


las varianzas sean iguales.
Intervalos para la razón de varianzas

Ejemplo Son las varianzas poblaciones de la duración de las dos


marcas de focos en verdad iguales? Marca 1: n=100 y sd=26
horas. Marca 2: m=120 y sd=22 horas.
sy2 1 σy2 sy2 1
≤ ≤
sx2 Fα/2,m−1,n−1 σx2 sx2 F1−α/2,m−1,n−1

▶ α = 0.06
▶ Fα/2,m−1,n−1 ? , F1−α/2,m−1,n−1 ?, (ll, ul)?
▶ ¿Se podrı́a concluir que las varianzas poblacionales son
iguales?
Intervalos para diferencia de proporciones

Dos muestras independientes


▶ X = {X1 , . . . Xn } iid Bernoulli(px )
▶ Y = {Y1 , . . . Ym } iid Bernoulli(py )
▶ X ∼ Binomial(n, px ) y Y ∼ Binomial(m, py )
▶ p̂x = X /n y p̂y = Y /m
▶ Intervalo de confianza para diferencia de proporciones py − px
r
p̂x (1 − p̂x ) p̂y (1 − p̂y )
(p̂y − p̂x ) ± zα/2 +
n m
Intervalos para diferencia de proporciones

Dos muestras independientes


▶ El Ministerio de Salud desea lanzar una campaña de medicinas
contra la hipertensión. Para elaborar su estrategia de
marketing desea saber si la prevalencia de hipertensión en las
zonas rurales es la misma que en las zonas urbanas.
▶ Para ello toma dos muestras aleatoria, una de 200 individuos
en la zona urbana (de los cuales 65 tienen hipertensión) y otra
de 180 individuos de la zona rural de los cuales (42 tienen
hipertensión).
Intervalos para diferencia de proporciones
Dos muestras independientes
▶ Para ello toma dos muestras aleatoria, una de 500 individuos
en la zona urbana (de los cuales 265 tienen hipertensión) y
otra de 480 individuos de la zona rural de los cuales (142
tienen hipertensión).
▶ ¿Cuáles serı́an los estimaciones puntuales de las prevalencias
de hipertensión en las dos zonas?
▶ p̂y ? p̂x ?
▶ Proporcione un intervalo de 95% de confianza para la
diferencia de prevalencias.
r
p̂x (1 − p̂x ) p̂y (1 − p̂y )
(p̂y − p̂x ) ± zα/2 +
n m
▶ zα/2 ? (ll, ul)?
▶ ¿Son las prevalencias distintas?
Intervalos para diferencia de proporciones

Caso Especial: Una muestra de tamaño n


▶ Muestro multinomial:
▶ px es la probabilidad del evento X
▶ py es la probabilidad del evento Y
▶ 1 − px − py es la probabilidad de que no se de ni el evento X
ni el evento Y
▶ (X , Y ) tienen una distribución multinomial con parámetros
(n, px , py )
▶ X y Y no son independientes (tienen covarianza negativa)
▶ Intervalo de confianza para diferencia de proporciones py − px :
r
p̂x (1 − p̂x ) + 2p̂x p̂y + p̂y (1 − p̂y )
(p̂y − p̂x ) ± zα/2
n
Caso especial en proporciones no independientes: Una muestra de
tamaño n
Intervalos para diferencia de proporciones

Caso Especial: Una muestra de tamaño n


▶ En el ejemplo anterior también se desea saber cual es la
diferencia real entre la proporcion de hipertensos no medicados
e hipertensos medicados (con respecto a toda la población) en
la zona urbana. Suponga que de los 265 hipertensos, 150 son
medicados. Construya un intervalo de 99% de confianza.
r
p̂x (1 − p̂x ) + 2p̂x p̂y + p̂y (1 − p̂y )
(p̂y − p̂x ) ± zα/2
n
▶ p̂y ?, p̂x ?
▶ zα/2 ? (ll, ul)?
Dos muestras dependientes
Intervalos para diferencia de medias (2): Dos muestras
pareadas (no independientes)

▶ (X1 , Y1 ), . . . , (Xn , Yn ) iid de una normal bivariante


   2 
µx σx σxy
N ,
µy σxy σy2

▶ X y Y no son independientes. Tienen covarianza σxy .


▶ Estamos interesados en la diferencia δ = µx − µy .
Intervalos para diferencia de medias (2): Dos muestras
pareadas (no independientes)

▶ di = yi − xi , i = 1, . . . , n.
▶ d1 , . . . , dn iid N(δ, σd2 ), σd2 = σx2 − 2σxy + σy2 .
▶ d¯ = ni=1 di /n
P

▶ sd2 = n−1 1 Pn ¯2
i=1 (di − d)
▶ Intervalo de confianza para δ
sd
d¯ ± tα/2,n−1 √
n
Intervalos para diferencia de medias (2): Dos muestras
pareadas (no independientes)

▶ En el ejemplo suponga que se hizo una prueba de la campaña


de medicación en una muestra de los hipertensos de la zona
urbana que no están medicados (en total 15). A ellos se les
midió la presión arterial, luego se les recetó 15 dı́as del
medicamento de prueba y después de los 15 dı́as se les volvió a
medir la presión arterial. Las mediciones fueron las siguientes:

Individuo 1 2 3 4 5 6 7
A 190 192 168 145 176 140 202
D 170 150 155 122 167 156 160
Individuo 8 9 10 11 12 13 14
A 160 165 175 184 178 142 200
D 176 145 125 120 140 122 165
Intervalos para diferencia de medias (2): Dos muestras
pareadas (no independientes)

▶ Construya un intervalo del 95% de confianza para δ.


sd
d¯ ± tα/2,n−1 √
n
¯
▶ d?, sd ? n?
▶ tα/2,n−1 ? (ll, ul)?
Resumen intervalos de confianza
Una muestra X
Para n Supuesto Intervalo
σ2 conocido >30 x̄ ± zα/2 √σn
µ σ2 desconocido >30 x̄ ± zα/2 √sn
σ2 conocido ≤30 X ∼ N(µ, σ 2 ) x̄ ± zα/2 √σn
σ2 desconocido ≤30 X ∼ N(µ, σ 2 ) x̄ ± tα/2,n−1 √sn
s2 2
σ2 X ∼ N(µ, σ 2 ) (n − 1) χ2 ≤ σ 2 ≤ (n − 1) χ2 s
α/2,n−1 q 1−α/2,n−1

>500 p̂ ± zα/2 p̂(1−


n
p̂)

p
r
≤500 ω p̂ + (1 − ω)0.5 ± zα/2 ωp̂(1−p̂)+(1−ω)0.5(1−0.5)
n+z 2
,
α/2
n
ω= 2
n+zα/2
q
p̂x (1−p̂x )+2p̂x p̂y +p̂y (1−p̂y )
py − px dos proporciones dependientes (p̂y − p̂x ) ± zα/2 n
Dos muestras independientes X, Y
nym Supuesto Intervalo
q
µ1 − µ2 varianzas iguales, conocida >30 d ± zα/2 σ m1 + n1
q
varianzas iguales, desconocida >30 d ± zα/2 s m1 + n1
X ∼ N(µ1 , σ12 )
q
varianzas iguales, conocida ≤30 d ± zα/2 σ m1 + n1
Y ∼ N(µ2 , σ22 )
X ∼ N(µ1 , σ12 )
q
varianzas iguales, desconocida ≤30 d ± tα/2,m+n−2 s m1 + 1
Y ∼ N(µ2 , σ22 ) n

∼ N(µ1 , σ12 )
q
X σ12 σ2
varianzas desiguales, conocida d ± zα/2 n + m2
Y ∼ N(µ2 , σ22 ) q
d ± tα/2,v s m1 + n1
X ∼ N(µ1 , σ12 ) s2
varianzas desiguales, desconocida s2
Y ∼ N(µ2 , σ22 ) ( nx + my )2
v= (sx2 /n)2 (s 2 /m)2
n−1
+ ym−1
σ22 X ∼ N(µ1 , σ12 ) sy2 1 σy 2 sy2
≤ ≤ F
sx2 α/2,n−1,m−1
σ12 Y ∼ N(µ2 , σ22 ) sx2 Fα/2,m−1,n−1 σx2
q
p̂x (1−p̂x ) p̂y (1−p̂y )
py − px (p̂y − p̂x ) ± zα/2 n + m
Dos muestras dependientes X, Y
nym  Supuesto
  2  Intervalo
µ1 σ1 σ12
µ1 − µ2 varianzas y covarianza conocidas X,Y ∼ N , 2
σd
d¯ ± zα/2 √ n
; σd2 = σ12 − 2σ12 + σ22
  µ2   σ212 σ2  
µ1 σ1 σ12
varianzas desconocidas X,Y ∼ N , d¯ ± tα/2,n−1 √sdn
µ2 σ12 σ22

También podría gustarte