Está en la página 1de 39

Temas 3 y 4

Estimación por Intervalos


de Confianza

1
Intervalos de confianza

Hasta el momento, sabemos obtener una estimación puntual de un


parámetro.
Dada una muestra hemos obtenido un valor único para estimar el
parámetro poblacional desconocido. Dicha estimación puntual está
sujeta a incertidumbre ya que la estimación va a depender de la
muestra aleatoria seleccionada.

El objetivo de los intervalos de confianza es disminuir la


incertidumbre de la estimación puntual proponiendo no sólo un
posible valor del parámetro, sino todo un rango de valores (intervalo
de confianza) donde pueda hallarse, sujeto a una alta probabilidad,
generalmente 90%, 95%, etc., el verdadero valor del parámetro.

2
Ejemplo. Sea X la variable aleatoria que indica la proporción de votos al partido
político A.

X es una v.a. de Bernoulli de parámetro p desconocido

x1 ,..., x n m.a.s Supongamos p = 0,3


El estimador por el método de los momentos es : p̂ = p
p = proporción muestral Es un estimador con buenas propiedade s
Estimación puntual p̂ = 0,30 (30%).

¿La verdadera proporción de votantes va a ser 0,3 con


exactitud?
¿No sería mejor dar un intervalo alrededor de 0,3
para estimar la verdadera proporción ?
Por ejemplo p ∈ (0'28, 0'32)
¿Cómo podemos medir la confianza de que el
verdadero valor de la proporción está en ese
intervalo? 3
Planteamiento del problema

¿Qué entendemos por un intervalo de confianza? El objetivo ahora es no


limitarnos a dar una estimación puntual sino obtener un intervalo que contenga
con una determinada probabilidad al verdadero valor del parámetro desconocido.

1-α = Confianza,
Valor Alto
Objetivo ⇒ Dada X1 ,..., X n m.a.s.
Ej. 95%, 90%
Hallar θ(X1 ,..., X n ) ≡ Mínimo y θ(X1 ,..., X n ) ≡ Máximo, v. a. tal que :
Prob(θ(X1 ,..., X n ) ≤ θ ≤ θ(X1 ,..., X n )) = Valor Alto = 1 - α

De forma simplificada, un intervalo de confianza para θ es:

IConfianza 1-α (θ ) = [θ , θ ]
Donde los extremos del intervalos se determinan a partir de los valores
muestrales, de tal forma que
Prob( θ ≤ θ ≤ θ ) = 1 - α
1-α Nivel de confianza (habitualmente 90%, 95%, 99%)
4
INTERPRETACIÓN DE UN INTERVALO DE CONFIANZA

IC1-α (θ ) = [θ(X1 ,..., X n ), θ(X1 ,..., X n ) ]


Prob (θ ≤ θ ≤ θ) = 1 − α

El intervalo de confianza, al depender de la muestra, tiene naturaleza aleatoria.


Por tanto, no debemos interpretar que el parámetro desconocido está en el
intervalo calculado con probabilidad 1-α, sino que el (1-α)100% de todos los
posibles intervalos que pudiéramos haber obtenido, a partir de todas las
muestras imaginables, contendrían el parámetro desconocido. Por tanto,
si (1-α)100% es un valor alto, por ejemplo α=0,05, 95%, permite inferir que lo
esperado es que esté en el que obtengamos a partir de nuestra muestra.

5
CONCEPTOS PARA TENER SIEMPRE EN CUENTA:

● Longitud del intervalo: Nos interesa que sea lo más pequeña posible, para así
tener mayor precisión.

Longitud ≡ θ (x1 , ..., x n ) − θ(x1 , ..., x n )


● Error o precisión: Se define como la mitad de la longitud del intervalo. Error =
Longitud /2. Si utilizamos como estimación puntual el punto medio del
intervalo, será la máxima desviación posible que puede darse con respecto al
valor de θ desconocido.

Intuitivamente es fácil de entender que no interesan intervalos con una longitud


(error) elevada. Por ejemplo, una afirmación del tipo “la renta media de los
andaluces se encuentra en el intervalo [0€, 1000.000€]” sería verdad con una
confianza del 100%, α=0, pero dicha información no serviría para nada por ser
obvia.
¿De qué depende intuitivamente la longitud, precisión del intervalo?

• Confianza. Exigir alta confianza Æ Mayor Longitud

• Tamaño muestral. Mayor tamaño muestral Æ Menor Longitud

OBSERVACIÓN: habrá que conseguir una relación adecuada entre longitud


deseada –precisión-, tamaño muestral40–coste- y confianza –fiabilidad-. 6
INTERVALOS DE CONFIANZA PARA
POBLACIONES NORMALES

7
Sea X ~ N(μ, σ)

●Intervalo de confianza para la esperanza de X, parámetro μ.

Caso 1: Supongamos que conocemos el valor de la varianza σ2.

x estimador puntual de μ
σ (x - μ )
x se distribuye N( μ , ) Pivote = n se distribuye N(0, 1)
n σ

Pivote ~ N(0, 1)
0,4

0,3

0,2

(x - μ )
0,1
α/2 (1-α) α/2 Prob(− z1−α / 2 ≤ n ≤ z1−α / 2 ) = 1 - α
0 σ
-5 5
-Z1-α/2 Z1-α/2 Por Construcción → Despejamos μ
8
Despejamos el valor de μ.

(x - μ )
Prob ( − z 1 − α / 2 ≤ n ≤ z1−α / 2 ) = 1 - α
σ

σ σ
Prob ( − z 1 − α / 2 ≤ ( x - μ ) ≤ z1−α / 2 ) = 1-α
n n

σ σ Error
Prob ( − z 1 − α / 2 − x ≤ - μ ≤ z1−α / 2 - x) = 1-α
n n

σ σ
Prob ( z 1 − α / 2 + x ≥ μ ≥ − z1−α / 2 + x) = 1- α
n n

σ σ σ
IC1-α (μ ) = [x - z1-α/2 , x + z1-α/2 ] ≡ x ± z1-α/2
n n n
9
Caso 2: Supongamos que no conocemos el valor de la varianza σ2.

x estimador puntual de μ
Sabíamos que
σ
x se distribuye N( μ , ) (x - μ )
n Pivote = n se distribuye N(0, 1)
σ
σ desconocid o
2

Como no conocemos σ lo sustituimos


por su estimador SC
(x - μ )
Pivote = n
SC
¿Qué distribución sigue ?

(x - μ )
Pivote = n ~ t n -1
SC
10
Distribución t de Student con n grados de libertad tn

Características Æ E(X) = 0 –independiente de n- y VAR(X) = n/(n-2)


–decreciente en n, mayor grado de libertad menor dispersión-. (n>2)

n= grados de libertad, parámetro. Permite acomodarse a la situación que modeliza

t de Student Distribución
0,4 Grad. de libe
Rango es positivo y
1
2
negativo…
0,3
Es una distribución
densidad

3
4
0,2 10 simétrica…
0,1

0
-9 -6 -3 0 3 6 9
x

Propiedad Convergencia: cuando n→+∞, la distribución t-Student tiende a


la distribución N(0, 1). Dicha convergencia se alcanza “bastante rápido” así
que aunque los grados de libertad sean pocos, la distribución N(0, 1) será casi
siempre una buena aproximación de la t-student.
11
Pivote ~ t-Student (n-1) g. l.
0,4

(x - μ )
Pivote = n ~ t n -1 0,3

SC 0,2

0,1
α/2 (1-α) α/2

0
-6 -tn-1,1-α/2 tn-1,1-α/2 6

(x - μ )
Prob(−t n−1,1−α / 2 ≤ n ≤ tn−1,1−α / 2 ) = 1 - α
SC
Análogamente → Despejamos μ

Error

SC SC SC
IC1-α ( μ ) = [x - t n -1, 1-α/2 , x + t n -1, 1-α/2 ] ≡ x ± t n -1, 1-α/2
n n n
12
Un fabricante de componentes electrónicos afirma que sus condensadores
tienen un tiempo medio de duración de 500 horas. Para verificar si dicho
tiempo medio se mantiene, decide examinar 25 condensadores elegidos
aleatoriamente obteniendo que el tiempo medio de duración de la muestra es
de 518 horas, con cuasidesviación típica muestral de 40 horas. Construir un
intervalo de confianza del 90% y obtener, a partir de él, las conclusiones
pertinentes acerca de ña duración media de los condensadores. Se asume que
el tiempo de duración de los condensadores se distribuye normalmente.

Situación: población normal, desviación poblacional desconocida, intervalo de


confianza para la media Æ Datos Muestrales: media y cuasidesviación.

Sc 1 − α = 0,9 → α = 0,1 → α/2 = 0,05


IC 1-α ( μ ) ≡ x ± t n −1 ,1 − α / 2
n t 25−1;1−0,05 = 1,71. − CDF inverso −

¡Atención! Con el
40
IC 1-α ( μ ) ≡ 518 ± 1, 71 → [ 504 '30 , 531'68 ] software se calcula
25 automáticamente.

Solución: existe “confianza” (90%) para afirmar que el valor medio de los
condensadores fabricados es superior a 500h. Duran algo más de lo que pensaba…
13
●Intervalo de confianza para la varianza de X, parámetro σ2.

Observación: el intervalo que proponemos es independiente de que


conozcamos o no la media μ.
2
nS
Pivote que vamos a utilizar:
σ2
¿Qué distribución sigue? Una distribución CHI cuadrado

nS 2
σ 2 χ 2
n −1

Equivalentemente podríamos considerar:

(n − 1) Sc 2
σ 2 χ 2
n −1
14
Distribución Chi-Cuadrado χ 2

X~X2v Familia paramétrica con un solo parámetro –v grados de


libertad-. La familia Chi-Cuadrado tiene su origen en elevar una
distribución N(0,1) al cuadrado y sumar varias transformaciones
similares de forma independiente. Los grados de libertad indican las
veces que sumo.

Z1 ~ N(0,1) → Z12 ~ χ12


Z1 y Z2 ~ N(0,1), independientes → Z12 + Z22 ~ χ22
M
Z1,..., ZV ~ N(0,1), independientes → Z12 + L+ ZV2 ~ χV2

15
Características Æ E(X)=v, Var(X)=2v
Æ mayor g. l. mayor media y mayor dispersión.

v= grados de libertad, parámetro. Se acomoda a la situación que modeliza

Chi-Cuadrado Distribución
0,2 Grad. de liberta El rango es positivo
0,16
4
6 pues proviene de
una transformación
densidad

8
0,12 10

0,08
15
cuadrática. ¡Ojo! No
0,04 es simétrica…
0
0 10 20 30 40 50
[ 0 , +∞ )
x

Propiedad Aditiva: “La suma de dos variables chi-cuadrado


independientes es otra chi-cuadrado donde se suman los grados de
libertad” Propiedad totalmente intuitiva a partir de la definición…

Observación: nos aparecerá de forma natural cada vez que veamos sumas
de variables transformadas al cuadrado…
16
●Intervalo de confianza para la varianza de X, parámetro σ2.

Pivote ~ Chi-Cuadrado (n-1) g. l.


0,1

0,08
nS 2
0,06
Pivote = se distribuye χ n2−1
0,04 α/2
(1-α) α/2 σ2
0,02

0 ¡Ojo! Las colas no son simétricas


0 χ2 Χ2n-1,1-α/2 40
n-1,α/2

⎛ 2 nS2 ⎞ ⎛ ⎞
Prob ⎜⎜ χ n −1,α ≤ 2 ≤ χ n −1,1−α ⎟⎟ = 1 − α
2
2
⎜ nS nS2 ⎟
σ Prob ⎜ 2 ≥σ ≥ 2
2
⎟ = 1− α
⎝ 2 2
⎠ ⎜ χn −1,α χn−1,1−α ⎟
⎝ 2 2 ⎠
Despejamos σ 2
Límite sup. Límite inf.

Equivalentemente:
nS2 nS2 (n - 1)Sc 2 (n - 1)Sc 2
IC1-α (σ ) = [ 2
, ] IC1-α (σ ) = [ 2
2
, 2 ]
χ 2
n −1,1−α
χ 2
n −1,α
χ n −1,1−α χ n −117

2 2 2 2
Intervalos de confianza para dos poblaciones normales
independientes

Generalmente en la realidad estamos interesados en realizar comparaciones


entre distintas variables aleatorias. Por ejemplo, encontrar un intervalo para la
‹ Comparación de dos poblaciones
diferencia de las rentas medias entre andaluces y gallegos, o para el peso medio
que se pierde cuando se realiza una dieta alimenticia, etc. En este curso nos
centraremos en la comparación de dos poblaciones cuando éstas son normales e
independientes.

Población 1 Población 2

X ~ N(µ1, σ1) Y ~ N(µ2, σ2)

µ1Æ Valor Medio Población 1 µ2Æ Valor Medio Población 2

σ1Æ Desviación Población 1 σ2Æ Desviación Población 2

Estudiaremos dos intervalos de confianza:


1.- Intervalo de confianza para la diferencia de dos medias:
comparar µ1 y µ2
2.- Intervalo de confianza para la diferencia de dos varianzas:
comparar σ1 y σ 2 18
Comparación de dos parámetros
1.- Transformamos el problema en el estudio de un único parámetro

Comparar medias: θ = 0 Æ µ1 = µ2
θ > 0 Æ µ1 > µ2
Parámetro resta θ = µ1 - µ2 θ < 0 Æ µ1 < µ2

Comparar desviaciones: θ = 1 Æ σ22 = σ12


θ > 1 Æ σ22 > σ12
Parámetro cociente θ = σ22 / σ12 θ< 1 Æ σ22 < σ12

OBS: OBS:
Tomo la resta intencionadamente, Tomo el cociente intencionadamente,
la resta de normales es también El cociente de chi-cuadrados es una
normal. Æ Hallar Pivote Å distribución conocida:
F de Snedecor. Æ Hallar Pivote Å 19
Intervalos de confianza para dos poblaciones normales
independientes: notación.

Población 1 Población 2

X ~ N(µ1, σ1) Y ~ N(µ2, σ2)

X1,…, Xn m. a. s. Y1,…,Ym m. a. s.

Tamaño muestral n. Tamaño muestral m.


x estimación puntual de μ1. y estimación puntual de μ2 .
σ1 σ2
x → N ( μ1 , ) y → N ( μ2 , )
n m
S12 estimación sesgada de σ 12 S22 estimación sesgada de σ 22
SC21 estimación insesgada de σ 12 SC2 2 estimación insesgada de σ 22
nS12 (n − 1) SC21 mS22 (m − 1) SC2 2
= →χ 2
n −1 = → χ m2 −1
σ 2
1 σ 2
1 σ 2
2 σ 2
2

20
Intervalo de confianza para la resta de valores esperados,
parámetro θ=μ1-μ2.

Caso 1: Supongamos que conocemos el valor de ambas varianzas


poblacionales σ12 y σ22 .

x - y estimador de μ 1 − μ 2
(x - y) - ( μ1 − μ 2 )
Pivote = → N(0, 1)
σ 12 σ 22 σ 2
σ 2
x - y → N( μ 1 − μ 2 , + ) 1
+ 2
n m n m

Pivote ~ N(0, 1)

( x − y ) − ( μ1 − μ 2 )
0,4

0,3 Prob(− z1−α / 2 ≤ ≤ z1−α / 2 ) = 1 - α


σ 2
σ 2
0,2 1
+ 2

0,1
n m
α/2 (1-α) α/2
0
Por Construcción → Despejamos θ = μ1 − μ 2
-5 5
-Z1-α/2 Z1-α/2

21
Despejamos el valor de θ=μ1-μ2.

( x − y ) − ( μ1 − μ 2 )
Prob( − z1−α / 2 ≤ ≤ z1−α / 2 ) = 1 − α
σ 2
σ 2
1
+ 2
n m
σ 12 σ 22 σ 12 σ 22
Prob( − z1−α / 2 + ≤ ( x − y ) − ( μ1 − μ 2 ) ≤ z1−α / 2 + )
n m n m
σ 12 σ 22 σ 12 σ 22
Prob( −( x − y ) − z1−α / 2 + ≤ −( μ1 − μ 2 ) ≤ −( x − y ) + z1−α / 2 + )
n m n m
σ 12 σ 22 σ 12 σ 22
Prob(( x − y ) + z1−α / 2 + ≥ ( μ1 − μ 2 ) ≥ ( x − y ) − z1−α / 2 + )
n m n m
Error

σ12 σ22 σ12 σ22 σ12 σ22


IC1-α (μ1 − μ2) =[(x − y) − z1−α / 2 + ,(x − y) + z1−α / 2 + ] ≡ (x − y) ± z1−α / 2 +
n m n m n m
22
Caso 2: Desconocemos el valor de ambas varianzas poblacionales σ12 y σ22

Caso 2.1: Desconocemos los valores pero sabemos que son iguales σ12 = σ22 = σ2

Si sustituimos σ2 por una ponderación de las


x - y estimador de μ1 − μ 2
cuasivarianzas muestrales como una estimación de σ2
σ2 σ2
x - y → N(μ1 − μ 2 , + ) (x - y) - ( μ1 − μ 2 )
n m Pivote = → tn+m−2
σ 12 = σ 22 = σ 2 desconocido 1 1 (n − 1) S + (m − 1) S
2 2
+ c1 c2
n m n+m−2
Pivote t-Student (n+m-2) g. l.
0,4

0,3
(x - y) - (μ1 − μ2 )
0,2 Prob(−tn+m−2,1−α / 2 ≤ ≤ tn+m−2,1−α / 2 ) = 1- α
1 1 (n −1)S + (m −1)S
2 2
0,1 + c1 c2
α/2 (1-α) α/2 n m n+ m−2
0
Despejamosθ = μ1 − μ2
-6 -tn+m-2,1-α/2 tn+m-2,1-α/26

23
1 1 1 1
IC 1-α ( μ1 − μ 2 ) = [( x - y) − t n + m − 2 ,1−α / 2 SˆCONJ + , (x - y) + t n + m − 2 ,1−α / 2 SˆCONJ + ]
n m n m

Error

1 1
IC1-α ( μ1 − μ 2 ) ≡ (x - y) ± t n + m − 2 ,1−α / 2 SˆCONJ +
n m

donde

( n − 1) S c21 + ( m − 1) S c22 nS 12 + mS 22
SˆCONJ = =
n+m−2 n+m−2

24
Caso 2.2: Desconocemos los valores y además son distintas σ12 ≠ σ22

x - y estimador de μ1 − μ 2 (x - y) - ( μ1 − μ 2 )
Pivote = → tn + m−2− g
σ 2
σ 2
S S 2 2
x - y → N(μ1 − μ 2 , 1
+ 2
) + C1 C2
n m n m
σ 12 ≠ σ 22 y desconocidos Fórmula de Welch, g corrige los g. l.

Pivote t-Student (n+m-2-g) g. l.


0,4 (x - y) - ( μ1 − μ2 )
Prob(−tn+ m−2− g ,1−α / 2 ≤ ≤ tn+ m−2− g ,1−α / 2 ) = 1 - α
0,3 2 2
S S
C1
+ C2
0,2
n m
0,1
α/2 (1-α) α/2 Despejamos θ = μ1 − μ2
0
-6 6
-tn+m-2-g,1-α/2 tn+m-2-g,1-α/2

S C2 1 S C2 2 Error
IC 1-α ( μ 1 − μ 2 ) ≡ ( x - y ) ± t n + m − 2 − g ,1 − α / 2 +
n m
⎛ (( m − 1) T1 − ( n − 1) T 2 ) 2 ⎞ S C2 1 S C2 2
g = Redondear ⎜⎜ 2 2
⎟⎟ , T1 = y T2 = .
⎝ ( m − 1 ) T1 + ( n − 1 ) T 2 ⎠ n m 25
Dos universidades siguen métodos distintos a la hora de
matricular a sus alumnos. Se desea comparar el tiempo medio que
tardan los alumnos en completar los trámites de la matrícula. Cada
universidad anotó dichos tiempos en 100 alumnos seleccionados al
azar, obteniéndose los siguientes resultados:

x = 50,2 S X = 4,8 y = 52,9 SY = 5,4

Si se supone que el muestreo se llevó a cabo entre dos


poblaciones distribuidas normalmente, con la misma varianza e
independientes, obtener el intervalo de confianza al 90% para la
diferencia entre las medias de tiempos de inscripción para las dos
universidades. A la vista de los resultados ¿podríamos pensar que
existe una diferencia real entre los tiempos medios en ambas
universidades?

26
Solución:
Partimos de dos variables normales e independientes con varianzas iguales y desconocidas:
X1 = tiempo dedicado a la matriculación en la universidad A.
X2 = tiempo dedicado a la matriculación en la universidad B.
En ambas universidades hemos muestreado con el mismo tamaño Æ n = m = 100

Nivel de confianza 90% Æ 1- α= 0,9 Æ α=0,1 Æ α/2= 0,05 Æ t198, 1-α/2= 1,65

RECORDAR: ante SˆCONJ = (100·(4,8)2 + 100·(5,4)2 ) /(100 + 100 − 2) = 5,13


desviaciones
desconocidas pero Por tanto el intervalo es Æ
iguales se utiliza:
1 1
IC1−α (μ1 − μ2 ) = x − y ± tn+m−2,1−α / 2 SˆCONJ +
n m IC90% ( μ1 - μ 2 ) = 50,2 − 52,9 ± 1,65·5,13 1/100 + 1/100
¡Atención! Con el
software se calcula
Sol 1: Æ IC90% (μ1-μ2) = ( -3,89, -1,50) automáticamente.

Observamos que todos los valores posibles de la resta de parámetros son


negativos, luego inferimos que la primera media toma valores significativamente
más pequeños, existiendo diferencia entre ambos tiempos medios. En este caso la
primera universidad tendría un valor medio menor con lo cual sería más rápida.27
Intervalo de confianza para el cociente de las varianzas,
parámetro θ=σ22/ σ12.

No haremos ninguna suposición sobre el conocimiento que tengamos de los


valores esperados.

σ 22 SC21
Pivote que vamos a utilizar:
σ 12 SC2 2
¿Qué distribución sigue? Una distribución F de Snedecor

σ 22 SC21
σ 12 SC2 2
Fn −1, m −1

28
Distribución F-Snedecor

X ~ FV1 V2

Familia parametrica con dos parámetros -v1 y v2 grados de libertad-. La


familia F-Snedecor tiene su origen en observar el cociente entre dos variables
independientes, donde el numerador se distribuye a partir de una distribución
chi-cuadrado con v1 grados de libertad y el denominador a partir de otra chi-
cuadrado con v2 grados de libertad, ambas ponderadas por sus grados de
libertad.

2
X ~ χ 2
⎫ χ v1
v1
⎪ v1
⎬ ⇒ Fv 1 , v 2 = 2
2
Y ~ χ v2
⎪ χ v2
Independ. ⎭ v2

29
Características:
v2
E(X)= - Decreciente en v2 y constante en v1-.
v2 − 2

2v 22 (v 1 + v 2 − 2) Rango es positivo [ 0 , + ∞ )
Var(X) = ¡Ojo! Es una distribución
v 1 (v 2 − 2) 2 (v 2 − 4) asimétrica

Distribución F-Snedecor Distribución F-Snedecor


1 Numerador g.l. 0,8 Numerador g.l.
10,5 5,5
0,8 10,20 10,5
0,6
densidad

densidad
10,40 30,5
0,6 80,5
0,4
0,4
0,2
0,2

0 0
0 1 2 3 4 5 0 1 2 3 4 5
x x

1
Observación : = Fv 2 , v1 − Fácil de ver - .
Fv1 , v 2
30
Intervalo de confianza para el cociente de las varianzas,
parámetro θ=σ22/ σ12.

Pivote F-Snedecor (n-1, m-1) g. l.


0,8
¡Ojo! No
0,6 son
σ 22 SC21
Pivote = 2 2 → Fn −1, m −1
simétricos.
0,4

0,2
α/2 (1-α) α/2
σ 1 SC 2
0
0 5
Fn-1,m-1, α/2 Fn-1,m-1,1-α/2

σ 22 SC21
Prob(Fn −1,m −1,α / 2 ≤ 2 2 ≤ Fn −1,m −1,1−α / 2 ) = 1 - α
σ 1 SC 2
2 2
S S
IC1-α (σ22/σ12 ) = [Fn−1,m−1,α / 2 C22 , Fn−1,m−1,1−α / 2 C22 ]
Despejamos θ = σ 22 / σ 12 SC1 SC1

2 2
S S
IC1-α (σ12/σ22 ) = [Fm−1,n−1,α / 2 C21 , Fm−1,n−1,1−α / 2 C21 ]
SC2 SC2
31
Intervalo de confianza para la proporción de éxitos p

Estimamos p mediante la proporción de éxitos en la muestra p

⎛ p (1 − p ) ⎞
Utilizaremos propiedades asintóticas de p p ⎯⎯ ⎜
n →∞
⎯→ N⎜ p, ⎟
n ⎟
⎝ ⎠

En consecuencia: (p - p) →∞
n ⎯n⎯
⎯→ N(0, 1)
p(1 - p)
Siguiendo el procedimiento habitual de construcción de un I. de confianza:
Pivote ~ N(0, 1) ( p - p)
0,4 Prob (-z 1 -α /2 ≤ n ≤ z 1 -α /2 ) = 1 − α
0,3 p(1 - p)
0,2

p(1 - p)
0,1
IC 1 -α ( p ) ≡ p ± z 1 -α /2
0
-5
α/2 (1-α) α/2 5 n

p(1 - p)
Como no conocemos p lo estimamos IC1-α ( p) ≡ p ± z1-α/2
a través de la proporción muestral n
Intervalo aproximado válido para n 32
suficientemente grande
Intervalos de confianza para dos poblaciones Bernoulli

Generalmente estamos interesados en comparar dos proporciones, por ejemplo, la


diferencia entre la proporción de votantes a dos partidos políticos.

Población 1 Población 2

X ~ Be(p1) Y ~ Be(p2)

X1,…, Xn m. a. s. Y1,…,Ym m. a. s.

Tamaño muestral n. Tamaño muestral m.


p1 estimación puntual de p1. p2 estimación puntual de p2 .
⎛ p1 (1 − p1 ) ⎞ ⎛ p 2 (1 − p 2 ) ⎞
p1 ⎯⎯ ⎜
n →∞
⎯→ N⎜ p1 , ⎟ m →∞

p 2 ⎯⎯⎯→ N⎜ p2 , ⎟
n ⎟ n ⎟
⎝ ⎠ ⎝ ⎠

Supongamos poblaciones independientes. Por los mismos motivos mostrados en el


caso de dos poblaciones normales la comparación de ambas proporciones se
realiza a través del parámetro resta, θ=p1-p2
33
Intervalo de confianza para la resta de proporciones de dos
poblaciones Bernouilli, parámetro θ=p1-p2.

Consideremos muestras suficientemente grandes

p 1 - p 2 estimador de p 1 − p 2 (p1 - p 2 ) - (p1 − p 2 )


Pivote = → N(0, 1)
p 1 (1 − p 1 ) p 2 (1 − p 2 ) p1 (1 − p1 ) p 2 (1 − p 2 )
p 1 - p 2 → N(p 1 − p 2 , + ) +
n m n m

Pivote ~ N(0, 1) (p1 - p2 ) - (p1 − p 2 )


Prob(− z1−α / 2 ≤ ≤ z1−α / 2 ) = 1 - α
0,4
p1 (1 − p1 ) p 2 (1 − p 2 )
0,3
+
n m
0,2
Despejamos p1 − p 2
0,1
α/2 (1-α) α/2
0
p1(1−p1) p2(1−p2)
-5
-Z1-α/2 Z1-α/2
5
IC1-α ( p1 − p2) ≡ (p1 − p2) ± z1−α / 2 +
n m

Como no conocemos las proporciones


p1(1− p1) p2(1− p2)
poblacionales, las estimamos por las
correspondientes proporciones
IC1-α ( p1 − p2 ) ≡ (p1 − p2) ± z1−α / 2 +
muestrales
n m
Intervalo aproximado válido para n y m
34
suficientemente grandes
Determinación del tamaño muestral
Cuando calculamos un intervalo de confianza para un parámetro determinado
necesitaremos frecuentemente fijar un nivel de precisión deseado. Por ejemplo, si
pretendemos estimar la proporción de votantes a un partido político la precisión del
intervalo de confianza que obtengamos influye notablemente en las previsiones que
podamos hacer:
X ~ Be(p), p = “Probabilidad de Votar al Partido A”.
X1,…, Xn m. a. s. “La muestra consiste en individuos que afirman que votan a A o no
votan a A”
Posible Solución 1: IC (p) = [20%, 40%]
Posible Solución 2: IC (p) = [28%, 32%]
Si nos fijamos en ambos intervalos, -tomando como referencia de estimación el
punto medio-, estimamos que el 30% de los individuos votarán a A. Sin embargo,
en el primer intervalo existe una imprecisión del 10% y en el segundo sólo del 2%.
Por tanto, la estimación realizada con el primer intervalo daría lugar a una mayor
incertidumbre, podría existir la posibilidad de un alejamiento excesivo de nuestra
previsión: “un 10% menos de los votos en el peor de los casos”. Sin embargo, si
dispusiésemos del segundo intervalo la incertidumbre disminuye en el sentido de
que sólo esperamos, otra vez en el peor de los casos, un 2% menos de votos.

¿Cómo mejorar la Precisión?


35
Determinación del tamaño muestral para asegurar una
determinada precisión de un intervalo de confianza

¿Cuál es la precisión que deseamos? El parámetro de interés lleva asociado un


intervalo de confianza. Antes de realizar la muestra es conveniente que nos
preguntemos por la precisión que deseamos. ¿Necesitamos un intervalo preciso,
poca longitud? ¿No nos importa asumir una alta imprecisión? Estas preguntas
dependerán del contexto del problema. Por ejemplo, si alguien pretende estimar
la desviación del error de un calibrador industrial, obviamente necesitará una alta
precisión.
. ¿De qué depende la precisión en todos los intervalos que hemos estudiado? De la
confianza, del tamaño muestral y, en varias ocasiones, de la dispersión de los
valores muestrales.

σ IC1-α ( p ) ≡ p ± z1-α/2
p (1 - p )
IC1-α ( μ ) ≡ x ± z1-α/2
n n

IC1-α ( μ ) ≡ x ± t n -1, 1-α/2


SC S C2 1 S C2 2
n
IC1-α ( μ1 − μ 2 ) ≡ (x - y) ± t n + m − 2 − g ,1−α / 2 +
n m

36
¿Cómo mejoramos la precisión?

3.1 Primero fijamos un nivel de confianza deseado (habitualmente 90% o


95%). Una vez fijada la confianza nuestra precisión dependerá sólo del tamaño
muestral o del tamaño y la variación de la muestra.

3.2 ¿Qué hacemos si la precisión depende de la variación de la muestra? Este


es un gran problema pues aún no disponemos de la muestra. Dos soluciones:
3.2.1 Calcular una pequeña muestra piloto para averiguar el dato.
3.2.2 Buscar una cota máxima para el valor de la dispersión independiente
de la muestra.
3.3 Una vez realizado el paso anterior -cuando hayamos conseguido expresar la
precisión sólo en función del tamaño muestral- calcularemos “n” para que la
precisión sea la deseada a priori.

En la práctica real, el tamaño muestral necesario para obtener una


precisión deseada está directamente relacionado con el coste
económico del estudio. A veces no es posible obtener estimaciones
más precisas por falta de presupuesto. En cualquier estimación
debemos exigir siempre que nos informen del nivel de confianza y de
la precisión.
37
Ejemplo. Sea X ~ N(μ, 200gr.) asociada al peso de los recién nacidos -sólo
desconocemos el valor de la media poblacional, μ-. ¿Tamaño muestral necesario
para tener una precisión de 20gr. en la estimación de μ?

Nivel de Confianza = 95% σ z 0,975 = 1,96 − CDF inverso −


IC1-α ( μ ) ≡ x ± z1-α/2
Precisión Deseada = 20 n 200
α = 0,05 → 1 - α / 2 = 0,975 1,96· = 20
n
200
z 0,975 = 20 n = 19 ,6 → n = (19 ,6) 2 ≈ 386
n

Ejemplo. Sea X ~ Be(p) asociada a la intención de voto hacia el partido A. ¿Tamaño


muestral necesario para tener una precisión de 1% de votos en la estimación de p?

Nivel de Confianza = 90% p (1 - p ) z 0,95 = 1,64


IC1-α ( p ) ≡ p ± z1-α/2
n 1/ 4
Precisión Deseada = 1% 1,64· ≤ 0,01 .
(0,01) α = 0,1 → 1 - α / 2 = 0,95 n
p (1 - p ) n ≥ 82 → n ≥ 6724 → n = 6724
z 0,95 = 0,01
n

Solución 1: Si conocemos una estimación de p a través de una muestra piloto podemos utilizarla.
Solución 2: Observamos que es fácil acotar la varianza
p(1 - p) = p - p 2 0 ≤ p ≤ 1 - Parábola -
Valor máximo p = 1/2 → p - p 2 ≤38
1/ 4
La Junta de Andalucía está interesada en conocer la proporción de personas sin
recursos económicos en Andalucía. Para tal fin se diseña una encuesta donde se
averiguaba si el individuo poseía o carecía de ingresos.
a)¿Cuál debe ser el tamaño de la muestra para que, con un nivel de confianza del
95%, el error de la estimación no supere el 5%?
Una vez determinado el tamaño muestral y realizada la encuesta, se obtuvo que el
10% de los andaluces encuestados no disponían de recursos económicos.
b) En ese caso, ¿cuál es el intervalo de confianza al 95% para la proporción de
individuos sin recursos? Observando el intervalo calculado, ¿podría afirmarse que la
proporción de población sin recursos es inferior al 13,5%?

a) Nuestro problema de interés es estudiar la proporción de personas sin recursos. Sin realizar
la encuesta debemos fijar calcular el tamaño muestral necesario para obtener la precisión
deseada. p (1 − p )
1 − α = 0,95 → 0 , 05 = 1, 96
n
p(1− p) α = 0,05 → α / 2 = 0,025 Utilizo la cota p (1 − p ) ≤ 1 / 4
IC1-α ( p) ≡ p ± Z1−α / 2 z0,975 = 1,96
n 1/2
0,05 = 1,96 → Despejar n.
Precisión = 0,05 n
n = 385
b) Ya tenemos la estimación puntual de la proporción Æ Intervalo de confianza:

0,10·0,90
IC 95% (p) ≡ 0,10 ± 1,96 → [0,07 , 0,13] → [7%, 13 %]
385
Por lo tanto, sí podemos afirmar que la proporción de población sin recursos es inferior al
13,5% ya que todos los valores del intervalo son inferiores a esta cifra.

Obsérvese que el error en el intervalo obtenido


40 es del 3%, inferior al 5%, ¿por 39
qué?

También podría gustarte