Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capitulo5 ESTIMACION POR INTERVALO ES DE CONFIANZA PDF
Capitulo5 ESTIMACION POR INTERVALO ES DE CONFIANZA PDF
Ctedra: Estadstica
Captulo 5
INTERVALOS
DE
CONFIANZA
PARA
MEDIAS
CONSIDERANDO
DOSPOBLACIONES
5.4.1 Introduccin
5.4.2 Intervalos de confianza para la diferencia de medias de dos poblaciones normales
independientes
I. Intervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas conocidas
II. Intervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas desconocidas pero supuestas iguales
III. Intervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas desconocidas pero que no pueden suponerse iguales
IV. Determinacin del tamao muestral
5.4.3 Intervalos de confianza para la diferencia de medias con datos apareados
Pgina 1 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
)]
Observar que los extremos del intervalo (1) son estadsticos, es decir funcin de las variables
aleatorias que componen la muestra y en consecuencia ellos mismos son variables aleatorias.
5.1.3 Interpretacin de un intervalo de confianza
Veamos la interpretacin concreta de (1).
Para una realizacin de la muestra, digamos (x1, x2,, xn) obtendremos un intervalo numrico:
el (1-) 100% de los mismos contendran el valor del verdadero parmetro, mientras que los
restantes 100 %, no.
Supongamos que se desea calcular un intervalo de confianza para la media poblacional con
coeficiente de confianza 0,95 = 1-.
Cmo se interpretan los lmites de confianza?
esperamos que por lo menos 95 de cada 100 intervalos que se calculan con otras
tantas muestras contengan el valor desconocido
ATENCIN! Notar que en ningn momento decimos que est dentro del
intervalo, sino que es el intervalo el que contiene a .
Pgina 2 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
Fig.1.
Pgina 3 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
Establecer el pivote.
Fijado un nivel de confianza 1-, determinar constantes a y b tales que:
tales que:
]
para cualquier del espacio paramtrico. Con lo cual,
[ (X X ,, Xn ); (X , X ,, Xn )]
-1
2
5.2.2 Ejemplo
Sea (X1, X2,, Xn) una muestra aleatoria simple de una variable aleatoria X con distribucin
terica N (, 2) tal que la varianza 2 es conocida. Veamos como se obtiene un intervalo de
confianza para .
Solucin
a)
X es estimador puntual de
X -
) Z =
n
n
1).
c) Tomamos como pivote: P=P(X1, X2,, Xn;) = Z su distribucin es N (0,1).
d) Fijamos un nivel de confianza 1- y seleccionamos dos puntos, por ejemplo los
puntos simtricos -z/2 y z/2 tales que
1 = P[ z /2
Z z /2 ] = P z /2
z /2 =
= P X z /2
X + z /2
n
n
X z /2 n , X + z /2 n = X z / 2 n
Pgina 4 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
L = 2z /2
Normalmente se suele tomar como uno de los valores: 0,1; 0,05 0,01.
5.3 Intervalos de confianza para la media de una poblacin
Construiremos aqu intervalos de confianza para una media poblacional , segn sea
conocida o desconocida.
5.3.1 Estimacin para la media de una poblacin normal con conocida
En el ejemplo anterior se vio que en este caso el intervalo es de la forma:
X - z /2
X + z /2
n
n
I. Error en la estimacin
Pgina 5 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
X - z / 2.
X + z / 2.
ERROR
Teniendo en cuenta lo dicho podemos enunciar el siguiente teorema,
Teorema Si X es un estimador de , entonces se puede tener una confianza del
(1-) 100% de que el error no exceder una cantidad especfica E = z / 2
(1)
L = 2z / 2
n=
4z 2 / 2
L2
Tambin podemos despejar n de (1), de manera que nos quede expresada en funcin del error,
as,
n=
z 2 / 2 . 2
E2
Pgina 6 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
III. Ejemplos
Ejemplo 1
Como consecuencia de la falta de gas registrada en la ciudad de La Plata, en los meses de
invierno, la Empresa Camuzzi - Gas Pampeana decide hacer un estudio para determinar la
cantidad gastada en este combustible para calefaccin casera en un ao en particular.
Con tal motivo se selecciona una muestra de n = 64 hogares de la ciudad. La media muestral del
gasto en gas para calefaccin result de $83,6. Se sabe por experiencia que la desviacin
estndar de la poblacin es $17,8.
a)
Halle un intervalo de confianza del 95% para el gasto promedio anual en este tipo de
combustible en las viviendas de la ciudad de La Plata.
b)
Calcule un intervalo de confianza del 99% para ese gasto promedio anual.
c)
Qu conclusiones puede sacar de a) y b)?
Solucin
a)
La estimacin puntual de es X = 83,6 .
El valor de z, a la derecha del cual se tiene un rea de
0,05
= 0,025 y por lo tanto de 0,975 a la
2
izquierda es,
z 0, 025 = 1,96
De aqu que el intervalo de confianza del 95% es:
79,24 87,95
b)
Para hallar el intervalo de confianza del 99%, se encuentra el valor de z, a la derecha del
0,01
= 0,005 y por lo tanto, de 0,995 a la izquierda.
2
Usando la tabla de la N (0, 1) resulta: z 0,005 = 2,575 y el intervalo de confianza del
99% es:
83,6 - 2,575.
17,8
64
83,6 + 2,575.
17,8
64
o simplemente,
77,8 89,33
c)
Se observa que:
la longitud del intervalo del 95% de confianza es: L1 = 8,71
la longitud del intervalo del 99% de confianza es: L2 = 11,53
El nivel de confianza establece en alguna medida la longitud del correspondiente intervalo de
confianza. Aumentando el nivel de confianza (mayor certeza), aumenta la longitud (menor
precisin).
Podemos decir que el intervalo con 95% de confianza, que tiene menor longitud estima a
con mayor precisin.
Ejemplo 2 Se quiere estimar la facturacin mensual promedio por luz elctrica en el mes de
julio en casas de familia de la ciudad de La Plata. Se sabe que la desviacin estndar es de $20.
Se quiere estimar la facturacin promedio de julio con aproximacin 5$ del promedio real,
con 99% de confianza. Qu tamao de muestra se necesita?
Solucin
= 20
Pgina 7 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
n=
[2,575.(20)]2
25
n = 107
P =T =
X -
S
n
X -
P( - t /2
t / 2 ) = 1 -
S
P(T t / 2 ) =
Pgina 8 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
S
S
X + t / 2
) = 1-
n
n
P( X - t /2
S
S
]
[ X - t /2
; X + t /2
n
n
X = 10 y S = 0,283
Usando la tabla de la distribucin t, encontramos:
10 - 2,447.
0,283
7
Operando,
10 + 2,447.
0,283
7
9,74 10,26
X z / 2.
S
n
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
n = 16,
X = 503,76
y =5
sustituyendo estos valores en la expresin del intervalo para la media de una poblacin normal,
con conocida, obtenemos:
1- z/2 Intervalo
0,90 1,64 [501,7; 505,8]
0,95 1,96 [501,3; 506,2]
0,99 2,58 [500,5; 506,9]
b) El tamao muestral necesario para que la longitud del intervalo (L) sea menor o igual a
la unidad, con un nivel = 0,05, es:
n
Es decir, n 385.
4 z2 / 2 . 2 4.(1,96 )2 .5 2
=
= 384,16
1
L2
Ejemplo 2 Si, para los datos del ejemplo anterior, fuese desconocida:
a) Obtener los intervalos de confianza al 90, 95 y 99% para la media del peso de las bolsas
(Suponer que la poblacin es normal)
b) Determinar el tamao muestral, n, necesario para que la longitud del intervalo, con =
0,05, sea menor o igual a una unidad.
Solucin
a) Dado que es desconocida, reemplazando su valor por S = 6,2022 y utilizndola
distribucin t con 15 grados de libertad en vez de la distribucin normal estndar, se
obtienen los nuevos intervalos presentados en la siguiente tabla:
Intervalo
1- t/2
0,90 1,753 [501,03; 506,47]
0,95 2,131 [500,45; 507,05]
0,99 2,947 [499,18; 508,32]
b) El tamao muestral resultante en este caso, tomando como estimacin de el valor
calculado con la muestra dada y reemplazando t15,/2 por z/2, es:
, X + z /2
]
[ X - z /2 .
n
n
con 2 desconocida
S
S
[ X - t n-1,/2
, X + t n -1,/2
]
n
n
S
S
con 2 desconocida y n 30
[X - z /2
, X + z /2
]
n
n
Pgina 10 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
5.4.1 Introduccin
Todo proceso de experimentacin o de observacin de un fenmeno aleatorio est sujeto a la
existencia de errores experimentales que suelen complicar notablemente la induccin de la
realidad. Cuando decimos error experimental englobamos la aportacin a los resultados
observados de todos aquellos efectos (importantes o no) que escapan al objetivo inicial de
nuestro estudio.
Cuando este error no es controlado por el experimentador y se manifiesta con gran
variabilidad en las diferentes unidades muestrales, la primera consecuencia suele ser que los
aspectos relevantes y de inters se diluyen, pues aparecen ocultas tras esa fuerte dispersin de
los resultados. Otras veces, incluso, la presencia del error experimental puede generar
interpretaciones contrarias a la real.
Por tanto, un primer paso para evitar conclusiones errneas es tratar de eliminar al mximo el
error experimental. La forma de realizar esto es disear el muestreo, controlando en la mayor
medida posible todos esos factores que engrosan el error experimental.
Un buen diseo y tcnicas elementales de inferencia pueden ser una combinacin mucho ms
eficiente que un muestreo mal planificado y un refinado y potente proceso de inferencia.
Supongamos que se pretende comparar el tiempo medio diario que los adolescentes dedican a
chatear con el que invierten en la lectura; para ellos definimos las dos variables aleatorias
siguientes:
X: tiempo diario dedicado a chatear
Y: tiempo diario dedicado a la lectura
Podemos construir un intervalo de confianza para la diferencia de medias poblacionales, X Y.
Las dos muestras aleatorias necesarias pueden obtenerse mediante los procedimientos
siguientes:
a) Seleccionar adolescentes al azar, de forma independiente hasta formar dos grupos de
tamao de igual o distinto tamao, y evaluar X en un grupo e Y en el otro.
b) Seleccionar al azar un nico grupo con n jvenes y evaluar conjuntamente X e Y en el
mismo grupo.
El muestreo propuesto en a) proporciona dos muestras independientes, ya que los resultados
obtenidos en una no condicionan los resultados de la otra.
En el muestreo propuesto en b) las dos muestras proceden de unidades experimentales
exactamente iguales; las observaciones se recogen a pares por cada unidad muestral y se habla
entonces de muestras apareadas. Observar que en este caso las muestras son claramente
dependientes ya que esperamos que observaciones bajas de X se apareen con observaciones
altas de Y y viceversa.
5.4.2 Intervalos de confianza para la diferencia de medias de dos poblaciones normales
independientes
Sean (X1, X2,, Xn) y (Y1, Y2,, Ym) muestras aleatorias simples independientes.
(X1, X2,, Xn) es muestra aleatoria de una v.a.X, que supondremos N[X, (X)2].
(Y1, Y2,, Ym) es muestra aleatoria de una v.a. Y, que supondremos N[Y, (Y)2].
Con ellas queremos construir intervalos de confianza para la diferencia de medias, X - Y.
I. Intervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas conocidas.
Bajo los supuestos de independencia de las muestras y normalidad de X e Y,
Pgina 11 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
X N ( X , X )
n
Y N ( Y , Y )
m
2X 2Y
X - Y N( X - Y ,
+
)
n
m
P=
( X - Y ) - ( X - Y )
2X 2Y
+
n
m
P[- z /2 P z / 2 ] = 1 -
Reemplazando P, se obtiene,
( X - Y ) - ( X - Y )
P( - z /2
z / 2 ) = 1 -
2X 2Y
+
n
m
Operando se llega a que un intervalo con (1-) 100% de confianza para X - Y es:
2X 2Y
2X 2Y
X - Y - z /2 .
+
X - Y X - Y + z /2 .
+
n
m
n
m
con z/2 punto crtico de la distribucin normal estndar.
Si 2X = 2Y = 2 escribimos el intervalo anterior como sigue:
X - Y - z /2 ..
1 1
1 1
+ X - Y X - Y + z /2 ..
+
n m
n m
Ejemplo Se llevan a cabo pruebas de resistencia a la tensin sobre dos diferentes clases de
largueros de aluminio utilizados en la fabricacin de alas de aeroplanos comerciales. De la
experiencia pasada con el proceso de fabricacin de largueros y del procedimiento de prueba, se
supone que las desviaciones estndar de las resistencias a la tensin son conocidas. Los datos
obtenidos se presentan en la siguiente tabla:
Clase del
larguero
1
Tamao de la
muestra
n1 = 10
n2 = 12
x1 = 87,6
x 2 = 74,5
Desviacin
estndar
1=1
2=1,5
Si 1 y 2 indican los verdaderos promedios de las resistencias a la tensin para las dos clases
de largueros, hallar un intervalo del 90% de confianza para la diferencia de las medias 1 - 2.
Pgina 12 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
Solucin
Lmite inferior del intervalo:
12 22
1 (1,5) 2
x1 - x 2 - z /2 .
+
= 87,6 - 74,5 - 1,645.
+
=
n1 n 2
10
12
= 13,1 - 0,88 = 12,22 kg/mm 2
Lmite superior del intervalo:
12 22
1 (1,5) 2
x1 - x 2 + z /2 .
+
= 87,6 - 74,5 + 1,645.
+
=
n1 n 2
10
12
= 13,1 + 0,88 = 13,98 kg/mm 2
Luego el intervalo del 90% de confianza para la diferencia en la resistencia a la tensin
promedio es:
12,22 1 - 2 13,98
Observar que:
a) El intervalo de confianza hallado no incluye al cero, entonces la resistencia
promedio del aluminio de clase 1(1) es mayor que la del aluminio de clase 2(2).
b) Puede afirmarse que se tiene una confianza del 90% de que la resistencia
promedio a la tensin del aluminio de clase 1 es mayor que la del aluminio de clase
2 en una cantidad que oscila entre 12,22 y 13,98 kg/mm2.
II. Intervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas desconocidas pero supuestas iguales
Recordemos que si 2X y 2Y son conocidas y 2X = 2Y = 2 el pivote usado para hallar un
intervalo de confianza de X-Y es:
Z=
( X - Y) - ( X - Y )
1 1
.
+
n m
(n - 1).S2X
2
(m - 1).S2Y
2
V=
(n - 1).S2X + (m - 1).S2Y
2
Pgina 13 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
Puede mostrarse que las expresiones para Z y V son independientes y tambin que siendo Z v.a.
N(0,1) y V con distribucin Chi-cuadrado con grados de libertad, la v.a.
T=
Z
V
S 2p
(n - 1).S2X + (m - 1).S2Y
=
n +m-2
T=
( X - Y) - ( X - Y )
1 1
Sp .
+
n m
P[-t /2 T t / 2 ] = 1 -
(1)
donde t/2 es el valor t con n+m-2 grados de libertad, por arriba del cual encontramos un rea de
/2. Sustituyendo T en (1):
(X - Y) - ( X - Y )
P[-t /2
t / 2 ] = 1 -
1 1
Sp .
+
n m
Operando adecuadamente se obtiene el intervalo de (1-) 100%,
1
1
( x - y) - t /2 .s p 1n + m
X - Y ( x - y) + t /2 .s p 1n + m
Naturalmente, la construccin de este intervalo requiere suponer que las varianzas son iguales,
aunque desconocidas. Para ello habr que realizar previamente un test de hiptesis
(procedimiento que se ver en un captulo posterior) para determinar si dicha suposicin es
razonable.
Ejemplo Un artculo publicado dio a conocer los resultados de un anlisis del peso de calcio en
cemento estndar y en cemento contaminado con plomo.
Los niveles bajos de calcio indican que el mecanismo de hidratacin del cemento queda
bloqueado y esto permite que el agua ataque varias partes de una estructura de cemento. Al
tomar diez muestras de cemento estndar, se encontr que el peso promedio de calcio es de 90
con una desviacin estndar de 5; los resultados obtenidos con 15 muestras de cemento
contaminado con plomo fueron de 87 en promedio con una desviacin estndar de 4.
Pgina 14 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
Supngase que el porcentaje de peso de calcio est distribuido de manera normal y que las dos
poblaciones normales tienen la misma desviacin estndar.
a) Encuentre un intervalo de confianza del 95% para la diferencia entre medias de los dos
tipos de cemento.
b) Es posible afirmar que la presencia que la presencia del plomo afecte este aspecto del
mecanismo de hidratacin, a partir de a)? Justifique la respuesta.
Solucin
a) El estimador combinado de la desviacin estndar es:
Sp =
.
W=
( X - Y) - ( X - Y )
S2X S 2Y
+
n
m
S X2 S Y2
S X2 SY2
[ X - Y - z /2 .
+
; X - Y + z /2 .
+
]
n
m
n
m
Si los tamaos muestrales son pequeos puede mostrarse que el estadstico pivote W
sigue una distribucin t de Student con = n + m 2 - grados de libertad, siendo un
nmero que cumple con, (0 mx. n 1, m-1) y es el entero ms prximo a,
Pgina 15 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
S2X
S2
- (n - 1). Y ]2
n
m
=
2
S
S2
(m - 1).[ X ]2 + (n - 1).[ Y ]2
m
n
[(m - 1).
S X2 S Y2
S X2 S Y2
[ X - Y - t ,/2 .
+
; X - Y + t ,/2 .
+
n
m
n
m
Ejemplo En un estudio realizado sobre el tipo de sedimentos hallados en dos lugares de
perforacin distintos, se han anotado los siguientes datos acerca del porcentaje en volumen de
arcilla presente en las muestras de sondeo:
X:
31 18 17 16 37 16 32 13 14 49 25 19 13 32 27
Y:
15 17 13 25 22 20 24 12 23 15 20 18
siendo X = % de arcilla en el lugar A e Y = % de arcilla en el lugar B
Calcular un intervalo del 95% de confianza para la diferencia de los valores medios de X e Y.
Solucin
A partir de los datos muestrales se obtiene:
n = 15
X = 23,933
S X = 10,559
m = 12
Y = 18,667
SY = 4,355
Supuesto que X e Y son variables aleatorias normales con varianzas desconocidas y distintas,
necesitamos determinar el nmero de grados de libertad de la t de Student, para poder obtener el
intervalo pedido.
Con los datos anteriores, = 9,378; entonces,
=n +m -2 9 = 16
S X2 S Y2
S X2 S Y2
[ X - Y - t ,/2 .
+
; X - Y + t ,/2 .
+
]
n
m
n
m
el intervalo del 95% de confianza para X - Y es [-1,099; 11,631].
IV. Determinacin del tamao muestral
Suponiendo que elegimos muestras del mismo tamao en ambas poblaciones (n = m), cul es
el tamao muestral necesario para que la longitud del intervalo para la diferencia de medias, con
un nivel de confianza prefijado (1-), sea igual a una cantidad predeterminada?
a) Si las varianzas poblacionales son conocidas, despejando n en la longitud del intervalo,
L = 2.z / 2 .
X2 + Y2
se obtiene,
n
4.z2 / 2 ( X2 + Y2 )
n=
L2
b) Si las varianzas son desconocidas pero pueden suponerse iguales, dada una estimacin
2
Pgina 16 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
2
, el tamao muestral es
n
n=
8.z 2 / 2 .S2p
L2
S 2X + S 2Y
de n que se obtiene al despejar en la longitud del intervalo, L = 2.z / 2 .
n
es,
n=
4.z 2 / 2 (S 2X + S 2Y )
L2
[ D - t n -1,/2 .
SD
n
; D + t n -1,/2 .
SD
n
Pgina 17 de 18
UNLP-Facultad de Ingeniera
Ctedra: Estadstica
los negocios que componen la cadena. Los resultados obtenidos estn dados en la siguiente
tabla,
Antes
12 10 15 8 19 14 12 21 16 11 8 15
Despus 11 11 17 9 21 13 16 25 20 18 10 17
a) Con un error del 5% hallar un intervalo de confianza para la diferencia de medias de
unidades vendidas durante un mes antes y un despus. Indicar las hiptesis realizadas.
b) Se puede considerar efectiva la campaa publicitaria?
Solucin
a) Se trata de muestras apareadas, los valores que toma la v.a.D son: 1, -1,
-2, -1, -2, 1, -4, -4, -4, -7, -2, -2. Se supone normalidad en la diferencia.
Se obtiene:
D=
1 n
27
D k = - = -2,25
n k =1
12
S 2D = 4,6875
t n -1; /2 = t11; 0,025 = 2,20
Se obtiene el intervalo: (-2,25 2,20.
4,6875
) = (-3,686; - 0,814)
12 - 1
X 2Y
[X - Y z /2
+
]
n
m
Con X = Y desconocidas
[X - Y t n + m - 2; /2 .S p
Con X Y desconocidas y n, m 30
[X - Y z /2
Con X Y desconocidas y n 30 m 30
[X - Y t ; /2
Con datos apareados
S2X S 2Y
+
]
n
m
S 2X S 2Y
+
]
n
m
S
[ D t n -1, /2 . D ]
n
Pgina 18 de 18
1 1
+ ]
n m