Está en la página 1de 18

UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema




Pgina 1 de 18


Captulo 5





ESTIMACIN POR INTERVALOS DE CONFIANZA
PARA MEDIAS POBLACIONALES EN UNA Y DOS
POBLACIONES


5.1 CONCEPTOS GENERALES
5.1.1 Introduccin
5.1.2 Definicin de intervalo de confianza
5.1.3 Interpretacin de un intervalo de confianza

5.2 CONSTRUCCIN DE UN INTERVALO DE CONFIANZA PARA UN PARMETRO u
MEDIANTE EL MTODO DEL PIVOTE O CANTIDAD PIVOTAL
5.2.1 Mtodo
5.2.2 Ejemplo
5.2.3 Cuestiones que surgen al construir un intervalo de confianza

5.3 INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA POBLACIN
5.3.1 Estimacin para la media de una poblacin normal con o conocida
I. Error en la estimacin
II. Determinacin del tamao muestral
III. Ejemplos
5.3.2 Estimacin para la media de una poblacin normal con o desconocida
I. Clculo del intervalo
II. Observaciones importantes
III. Ejemplos

5.4 INTERVALOS DE CONFIANZA PARA MEDIAS CONSIDERANDO
DOSPOBLACIONES
5.4.1 Introduccin
5.4.2 Intervalos de confianza para la diferencia de medias de dos poblaciones normales
independientes
I. Intervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas conocidas
II. Intervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas desconocidas pero supuestas iguales
III. Intervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas desconocidas pero que no pueden suponerse iguales
IV. Determinacin del tamao muestral
5.4.3 Intervalos de confianza para la diferencia de medias con datos apareados




UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 2 de 18
5.1 Conceptos generales

5.1.1 I ntroduccin
Mediante los procedimientos usados en el captulo 4 es posible construir un buen estimador
puntual de un parmetro , que verifique, incluso, todas las propiedades exigidas al respecto.
Sin embargo, en muchos casos, una estimacin puntual no es suficiente, en el sentido de que dar
un nmero como estimacin de un parmetro no nos indica el error que cometemos en la
estimacin; esto es consecuencia de la aleatoriedad del muestreo.
En este captulo estudiaremos el problema de obtener una estimacin de un parmetro mediante
cierto intervalo numrico.

5.1.2 Definicin de intervalo de confianza
Dada una muestra aleatoria simple (X
1
, X
2
,, X
n
) de una variable aleatoria X se llama intervalo
de confianza para un parmetro , con nivel o coeficiente de confianza 1-o, 0<o <1, a un
intervalo aleatorio (dado que sus extremos dependen de las muestras elegidas):
( ) ( ) [ ]
n 2 1 2 n 2 1 1
X ,..., X , X

; X ,..., X , X

(1)
tal que para cada u perteneciente al espacio paramtrico :
( ) ( ) [ ]
- 1 =
n
X ,...,
2
X ,
1
X


n
X ,...,
2
X ,
1
X

P
2

1
(2)
Observar que los extremos del intervalo (1) son estadsticos, es decir funcin de las variables
aleatorias que componen la muestra y en consecuencia ellos mismos son variables aleatorias.

5.1.3 I nterpretacin de un intervalo de confianza
Veamos la interpretacin concreta de (1).
Para una realizacin de la muestra, digamos (x
1
, x
2
,, x
n
) obtendremos un intervalo numrico:
( ) ( ) [ ]
n 2 1 2 n 2 1 1
x ,..., x , x

; x ,..., x , x


que llamaremos tambin haciendo abuso del lenguaje: intervalo de confianza.
Observar que en este caso no tiene sentido hablar de probabilidad, dado que seleccionada una
muestra (X
1
, X
2
,, X
n
) la probabilidad de que el parmetro est incluido en el intervalo (1) es
1 0, dependiendo de que el parmetro est o no est entre los dos nmeros en que se
convierten
( ) ( )
n 2 1 2 n 2 1 1
X ,..., X , X

y X ,..., X , X

al particularizarlos para una muestra


concreta (X
1
, X
2
,, X
n
).

Sin embargo diremos que tenemos una confianza del (1-) 100% en el sentido de que si
tomsemos infinitas muestras y con cada una de ellas construysemos el intervalo numrico
correspondiente
( ) ( ) [ ]
n 2 1 2 n 2 1 1
x ,..., x , x

; x ,..., x , x


el (1-o) 100% de los mismos contendran el valor del verdadero parmetro, mientras que los
restantes 100 o%, no.

Supongamos que se desea calcular un intervalo de confianza para la media poblacional con
coeficiente de confianza 0,95 =1-o.
Cmo se interpretan los lmites de confianza?
esperamos que por lo menos 95 de cada 100 intervalos que se calculan con otras
tantas muestras contengan el valor desconocido

ATENCIN! Notar que en ningn momento decimos que est dentro del
intervalo, sino que es el intervalo el que contiene a .

UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 3 de 18
Para interpretar geomtricamente el significado de intervalo de confianza, supongamos que
queremos estimar la media poblacional de una distribucin X ~ N (, 1). Extraemos 20
muestras de tamao 4 de la distribucin N (, 1) y hallamos los 20 intervalos de confianza
correspondientes, con un nivel de confianza del 95%.
En la Fig.1 se representa en el eje horizontal el nmero de muestra y en el vertical el intervalo
de confianza asociado.
Adems una lnea horizontal representa el valor de que se pretende estimar (en este caso =2,
desconocido, se le dio un valor determinado solo por razones didcticas).
La gran mayora de los intervalos contienen el valor correcto de , pero hay un intervalo el
correspondiente a la muestra nmero 13, que no lo contiene. La muestra con que se construy
este intervalo forma parte del 5% de las muestras malas, es decir las que proporcionan
intervalos equivocados.


Fig.1.

En la prctica solamente se selecciona una muestra y en consecuencia se calcula un nico
intervalo de confianza, la conclusin ser:
el intervalo contiene al parmetro con una confianza del 0,95


5.2 Construccin de un intervalo de confianza para un parmetro mediante el Mtodo
del Pivote o Cantidad Pivotal

5.2.1 Mtodo
Sea (X
1
, X
2
,, X
n
) una muestra aleatoria simple de una variable aleatoria X, cuya funcin de
distribucin depende de un parmetro desconocido , a la cual indicaremos f(x; ).
Los intervalos de confianza para se construyen en base a un estadstico:

P=P(X
1
, X
2
,, X
n
; )

que llamaremos pivote y debe tener las siguientes caractersticas:
a) Como se ve, P depende de la muestra aleatoria y del parmetro desconocido ; siendo
la nica cantidad desconocida.
b) La distribucin de probabilidad de P es conocida y no depende de .

Para aplicar el mtodo del pivote debemos seguir los siguientes pasos:
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 4 de 18
Establecer el pivote.
Fijado un nivel de confianza 1-o, determinar constantes a y b tales que:
( ) | | - 1 b Xn; , , X , X P a P
2 1
= .
Si es posible despejar u en la expresin anterior, obtendremos dos variables aleatorias:
( ) ( ) Xn , , X , X

y Xn , , X , X

2 1
-1
2 2 1
-1
1
. .
tales que:
( ) ( ) | | - 1 Xn , , X , X

Xn , , X , X

P
2 1
-1
2 2 1
-1
1
= . .
para cualquier u del espacio paramtrico. Con lo cual,
( ) ( ) | | Xn , , X , X

; Xn , , X X

2 1
-1
2 2 1
1
1
. .
es un intervalo de confianza para u, con nivel de confianza
1-o.

5.2.2 Ejemplo
Sea (X
1
, X
2
,, X
n
) una muestra aleatoria simple de una variable aleatoria X con distribucin
terica N (, o
2
) tal que la varianza o
2
es conocida. Veamos como se obtiene un intervalo de
confianza para .
Solucin
a) de puntual estimador es X
b) Sabemos que X tiene distribucin
n

- X
Z )
n
, N( = |
.
|

\
|
tiene distribucin N(0,
1).
c) Tomamos como pivote: P=P(X
1
, X
2
,, X
n
;) =Z su distribucin es N (0,1).
d) Fijamos un nivel de confianza 1-o y seleccionamos dos puntos, por ejemplo los
puntos simtricos -z
o/2
y z
o/2
tales que
| |
(

+ s s =
=
(
(
(

s = s s =
n

z X
n

z X P
z
n

X
z P z Z z P 1
/2 /2
/2 /2 /2 /2


as el intervalo de confianza correspondiente viene dado por:
n
z X

2 / /2 /2
n

z X ,
n

z X =
(

+
siendo z
o/2
tal que |(z
o/2
) =1-(o/2).
Grficamente:
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 5 de 18


5.2.3 Cuestiones que surgen al construir un intervalo de confianza
Al construir un intervalo de confianza surgen algunas cuestiones que mencionaremos.
a) Cmo elegir el estadstico pivote?
Recordemos que P debe ser una funcin de la muestra y del parmetro a estimar, cuya
distribucin muestral es independiente del parmetro.
Como pudo verse en el ejemplo anterior, el pivote surge de un modo bastante natural. En los
casos en que esto no ocurra se aplican otros mtodos para construir los intervalos de
confianza que no sern estudiados en este curso.

b) Cmo determinar las constantes a y b?
En el ejemplo anterior se consider: a =-z
o/2
y b =z
o/2
. Se podran haber elegido otras
constantes de manera que la probabilidad de que P est comprendido entre ellas sea 1-o.
Nos interesar elegir a y b de forma tal que el intervalo de confianza sea de longitud
mnima, de esta forma ser mayor la precisin. (Puede probarse que en el ejemplo anterior
la eleccin efectuada cumple este requisito).

c) Cmo elegir ?
o se elegir segn la confianza deseada, teniendo en cuenta que en general, a menor o, el
intervalo ser ms largo. Del ejemplo anterior se deduce que una forma de aumentar la
precisin, fijando un nivel de confianza, es aumentar el tamao muestral n. La relacin
que existe en ese caso, entre la longitud del intervalo (L), o, n y o es:
n

2z = L
/2

Normalmente se suele tomar como o uno de los valores: 0,1; 0,05 0,01.


5.3 I ntervalos de confianza para la media de una poblacin
Construiremos aqu intervalos de confianza para una media poblacional , segn o sea
conocida o desconocida.


5.3.1 Estimacin para la media de una poblacin normal con conocida
En el ejemplo anterior se vio que en este caso el intervalo es de la forma:
z X z -
/2 /2
n n
X


+
I . Error en la estimacin
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 6 de 18
El intervalo de confianza de (1-o) 100% proporciona una precisin de la exactitud de la
estimacin puntual. Si es realmente el valor central del intervalo, entonces X estima a sin
error.
La mayor parte de las veces, sin embargo, X no ser exactamente igual a y la estimacin
puntual no es exacta.
El tamao de este error ser: X - y se puede tener una confianza del (1-o) 100% de que esta
diferencia no exceder el valor
n

. z
2 /
. Esto se puede ver con facilidad si se dibuja el
diagrama de un intervalo de confianza hipottico como el de la figura siguiente:

n

.
2 /
z - X X
n

. z + X
2 /




ERROR

Teniendo en cuenta lo dicho podemos enunciar el siguiente teorema,

Teorema Si X es un estimador de , entonces se puede tener una confianza del
(1-o) 100% de que el error no exceder una cantidad especfica
n

z = E
2 /
(1)

I I . Determinacin del tamao muestral
Una cuestin interesante a la que nos referimos implcitamente al tratar la eleccin de o, es
cul debe ser el tamao muestral necesario para que, fijado un nivel de confianza, se alcance
una precisin (o longitud) deseada en el intervalo?
La longitud del intervalo es:
n

z 2 = L
2 /

Despejando n de la ecuacin anterior se obtiene:
2
2
2 /
L
z 4
= n
Tambin podemos despejar n de (1), de manera que nos quede expresada en funcin del error,
as,
2
2 2
2 /
E
. z
= n
Debemos hacer aqu dos observaciones, a saber,
a) Si para n se obtiene un valor fraccionario, se redondea al nmero entero
siguiente.
b) En sentido estricto podemos determinar n, solo si se conoce la varianza
poblacional o
2
, de la cual se est seleccionando la muestra. Si nos falta esta
informacin se puede tomar una muestra preliminar de tamao n > 30 para
obtener una estimacin de o. En este caso al usar S como aproximacin de o, se
puede determinar aproximadamente cuantas observaciones se necesitan para el
grado deseado de exactitud.

UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 7 de 18
I I I . Ejemplos
Ejemplo 1
Como consecuencia de la falta de gas registrada en la ciudad de La Plata, en los meses de
invierno, la Empresa Camuzzi - Gas Pampeana decide hacer un estudio para determinar la
cantidad gastada en este combustible para calefaccin casera en un ao en particular.
Con tal motivo se selecciona una muestra de n =64 hogares de la ciudad. La media muestral del
gasto en gas para calefaccin result de $83,6. Se sabe por experiencia que la desviacin
estndar de la poblacin es $17,8.
a) Halle un intervalo de confianza del 95% para el gasto promedio anual en este tipo de
combustible en las viviendas de la ciudad de La Plata.
b) Calcule un intervalo de confianza del 99% para ese gasto promedio anual.
c) Qu conclusiones puede sacar de a) y b)?
Solucin
a) La estimacin puntual de es 6 , 83 = X .
El valor de z, a la derecha del cual se tiene un rea de 025 , 0 =
2
05 , 0
y por lo tanto de 0,975 a la
izquierda es,
96 , 1 = z
025 , 0

De aqu que el intervalo de confianza del 95% es:

79,24 87,95


b) Para hallar el intervalo de confianza del 99%, se encuentra el valor de z, a la derecha del
cual existe un rea de 005 , 0 =
2
01 , 0
y por lo tanto, de 0,995 a la izquierda.
Usando la tabla de la N (0, 1) resulta: 575 , 2 = z
005 , 0
y el intervalo de confianza del
99% es:
64
17,8
2,575. + 6 , 83
64
17,8
2,575. - 6 , 83
o simplemente,
77,8 89,33

c) Se observa que:
la longitud del intervalo del 95% de confianza es: L1 =8,71
la longitud del intervalo del 99% de confianza es: L2 =11,53
El nivel de confianza establece en alguna medida la longitud del correspondiente intervalo de
confianza. Aumentando el nivel de confianza (mayor certeza), aumenta la longitud (menor
precisin).
Podemos decir que el intervalo con 95% de confianza, que tiene menor longitud estima a
con mayor precisin.

Ejemplo 2 Se quiere estimar la facturacin mensual promedio por luz elctrica en el mes de
julio en casas de familia de la ciudad de La Plata. Se sabe que la desviacin estndar es de $20.
Se quiere estimar la facturacin promedio de julio con aproximacin 5$ del promedio real,
con 99% de confianza. Qu tamao de muestra se necesita?
Solucin
o =20

UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 8 de 18
( ) | |
107 n
25
20 . 575 , 2
2
= = n

5.3.2 Estimacin para la media de una poblacin normal con desconocida

I . Clculo del intervalo
Supongamos que disponemos de:
Una muestra aleatoria de tamao n, (X
1
,, X
n
) extrada de una poblacin normal N (,
o
2
) con o desconocida.
Un estimador puntual

del parmetro , que en este caso es la media muestral X .


El estadstico pivote que usaremos en este caso, que ser:
n
X
T P
S
-
= =
donde S es la desviacin estndar muestral.
Recordaremos que T tiene distribucin t de Student con v =n-1 grados de libertad.
El nivel de confianza (1-o) establecido a priori por el experimentador (los usuales son
0,95; 0,90; 0,99).

Dada la distribucin del estadstico y el nivel de confianza, se tiene la siguiente igualdad
probabilstica:


- 1 )
n
S
-
t - (
2 / /2
= s
|
|
|
.
|

\
|
s t
X
P
donde
2 /
t es el valor caracterstico de la variable T de Student verificando que
( )
2

= t T P
2 /


La expresin anterior es equivalente a:
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 9 de 18


- 1 ) t - (
2 / /2
= + s s
n
S
t X
n
S
X P
que hace referencia a que con una probabilidad (1-o) el intervalo:
] t X ; t - [
/2 /2
n
S
n
S
X

+
(


contendr el valor medio .

Ejemplo El contenido de 7 recipientes similares de vino es: 9,8; 10,2; 10,4; 9,8; 10,3; 10,2 y
9,6 litros. Encontrar un intervalo de confianza del 95% para la media de todos los recipientes,
suponiendo una distribucin aproximadamente normal.
Solucin
Para los datos que se dan:
0,283 S y 10 = = X
Usando la tabla de la distribucin t, encontramos:
libertad de grados 6 = con 447 , 2 = t
025 , 0

Por tanto el intervalo de confianza para ser:
7
283 , 0
. 447 , 2 10
7
0,283
2,447. - 10 + s s
Operando,
26 , 10 74 , 9 s s

I I . Observaciones importantes
a) Para estimar la media de la poblacin , se distingui entre dos casos:
conocida
desconocida
Para conocida se us el Teorema Central del Lmite (Distribucin Normal)
Para desconocida se utiliz la distribucin muestral de la v.a. T, basndose en la
premisa de que la muestra se tom de una distribucin normal.

b) Se recomienda:
cuando no se puede suponer normalidad con desconocida y
n 30, reemplazar a por S y usar el intervalo de confianza
n
S
. z X
2 /
dado que para una muestra grande (n 30) S se
acercar mucho al verdadero valor de la desviacin estndar ,
entonces sigue siendo aplicable el Teorema Central del Lmite.

I I I . Ejemplos
Ejemplo 1 Los siguientes datos son los pesos en gramos de 16 bolsas de cierto material
plstico que se seleccionan en un depsito con el propsito de verificar el peso promedio: 506,
508,499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509, 496.
a) Si el peso de cada bolsa es una v.a. normal con desviacin tpica de 5 gramos,
obtener los intervalos de confianza al 90, 95 y 99% para la media del peso de las
bolsas.
b) Determinar el tamao muestral, n, necesario para que la longitud del intervalo, con o
=0,05, sea menor o igual a una unidad.
Solucin
Sea la v.a. X =peso en gramos, X tiene distribucin N(, 5
2
).
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 10 de 18
a) Teniendo en cuenta que:
5 = y 503,76 = X , 16 = n
sustituyendo estos valores en la expresin del intervalo para la media de una poblacin normal,
con o conocida, obtenemos:
1- z
/2
I ntervalo
0,90 1,64 [501,7; 505,8]
0,95 1,96 [501,3; 506,2]
0,99 2,58 [500,5; 506,9]
b) El tamao muestral necesario para que la longitud del intervalo (L) sea menor o igual a
la unidad, con un nivel o =0,05, es:
( )
16 , 384
1
5 . 96 , 1 . 4 . 4
2 2
2
2 2
2 /
= = >
L
z
n


Es decir, n 385.

Ejemplo 2 Si, para los datos del ejemplo anterior, o fuese desconocida:
a) Obtener los intervalos de confianza al 90, 95 y 99% para la media del peso de las bolsas
(Suponer que la poblacin es normal)
b) Determinar el tamao muestral, n, necesario para que la longitud del intervalo, con o =
0,05, sea menor o igual a una unidad.
Solucin
a) Dado que o es desconocida, reemplazando su valor por S =6,2022 y utilizndola
distribucin t con 15 grados de libertad en vez de la distribucin normal estndar, se
obtienen los nuevos intervalos presentados en la siguiente tabla:
1- t
/2
I ntervalo
0,90 1,753 [501,03; 506,47]
0,95 2,131 [500,45; 507,05]
0,99 2,947 [499,18; 508,32]

b) El tamao muestral resultante en este caso, tomando como estimacin de o el valor
calculado con la muestra dada y reemplazando t
15,o/2
por z
o/2
, es:
( ) ( )
103 , 591 =
1
2022 , 6 . 96 , 1 . 4
=
L
S . z . 4
n
2 2
2
2 2
2 /

Por tanto, n 592.
Observar que en este caso se necesita un tamao muestral bastante mayor que el
obtenido en el ejemplo 1.

I V. Resumen
Se resumen en un cuadro los intervalos de confianza para una muestra, de la media de una
poblacin normal.
I ntervalos para la media
con
2
conocida
(

+ ] z X , . z - [
/2 /2
n n
X



con
2
desconocida
] t X , t - [
/2 1, - n /2 1, - n
n
S
n
S
X

+
con
2
desconocida y n 30
]
n
S
z + X ,
n
S
z - X [
/2 /2

5.4 I ntervalos de confianza para medias considerando dos poblaciones
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 11 de 18
5.4.1 I ntroduccin
Todo proceso de experimentacin o de observacin de un fenmeno aleatorio est sujeto a la
existencia de errores experimentales que suelen complicar notablemente la induccin de la
realidad. Cuando decimos error experimental englobamos la aportacin a los resultados
observados de todos aquellos efectos (importantes o no) que escapan al objetivo inicial de
nuestro estudio.

Cuando este error no es controlado por el experimentador y se manifiesta con gran
variabilidad en las diferentes unidades muestrales, la primera consecuencia suele ser que los
aspectos relevantes y de inters se diluyen, pues aparecen ocultas tras esa fuerte dispersin de
los resultados. Otras veces, incluso, la presencia del error experimental puede generar
interpretaciones contrarias a la real.
Por tanto, un primer paso para evitar conclusiones errneas es tratar de eliminar al mximo el
error experimental. La forma de realizar esto es disear el muestreo, controlando en la mayor
medida posible todos esos factores que engrosan el error experimental.
Un buen diseo y tcnicas elementales de inferencia pueden ser una combinacin mucho ms
eficiente que un muestreo mal planificado y un refinado y potente proceso de inferencia.

Supongamos que se pretende comparar el tiempo medio diario que los adolescentes dedican a
chatear con el que invierten en la lectura; para ellos definimos las dos variables aleatorias
siguientes:
X: tiempo diario dedicado a chatear
Y: tiempo diario dedicado a la lectura
Podemos construir un intervalo de confianza para la diferencia de medias poblacionales,
X
-

Y
.
Las dos muestras aleatorias necesarias pueden obtenerse mediante los procedimientos
siguientes:
a) Seleccionar adolescentes al azar, de forma independiente hasta formar dos grupos de
tamao de igual o distinto tamao, y evaluar X en un grupo e Y en el otro.
b) Seleccionar al azar un nico grupo con n jvenes y evaluar conjuntamente X e Y en el
mismo grupo.

El muestreo propuesto en a) proporciona dos muestras independientes, ya que los resultados
obtenidos en una no condicionan los resultados de la otra.
En el muestreo propuesto en b) las dos muestras proceden de unidades experimentales
exactamente iguales; las observaciones se recogen a pares por cada unidad muestral y se habla
entonces de muestras apareadas. Observar que en este caso las muestras son claramente
dependientes ya que esperamos que observaciones bajas de X se apareen con observaciones
altas de Y y viceversa.

5.4.2 I ntervalos de confianza para la diferencia de medias de dos poblaciones normales
independientes
Sean (X
1
, X
2
,, X
n
) y (Y
1
, Y
2
,, Y
m
) muestras aleatorias simples independientes.
(X
1
, X
2
,, X
n
) es muestra aleatoria de una v.a.X, que supondremos N[
X
, (o
X
)
2
].
(Y
1
, Y
2
,, Y
m
) es muestra aleatoria de una v.a. Y, que supondremos N[
Y
, (o
Y
)
2
].

Con ellas queremos construir intervalos de confianza para la diferencia de medias,
X
-
Y
.

I . I ntervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas conocidas.
Bajo los supuestos de independencia de las muestras y normalidad de X e Y,

UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 12 de 18
)
m

+
n

, - N( Y - X
)
m

, ( N Y
)
n

, ( N X
2
Y
2
X
Y X
Y
Y
X
X

Por tanto, el estadstico:

m

+
n

) - ( - ) Y - X (
= P
2
Y
2
X
Y X

tiene distribucin N(0, 1) y puede ser usado como estadstico pivote.
Podemos escribir la siguiente proposicin probabilstica:
[ ]
- 1 = z P z - P
2 / /2

Reemplazando P, se obtiene,
- 1 = ) z
m

+
n

) - ( - ) Y - X (
z - ( P
2 /
2
Y
2
X
Y X
/2


Operando se llega a que un intervalo con (1-o) 100% de confianza para
X
-
Y
es:

m

+
n

. z + Y - X -
m

+
n

. z - Y - X
2
Y
2
X
/2 Y X
2
Y
2
X
/2


con z
o/2
punto crtico de la distribucin normal estndar.

Si
2 2
Y
2
X
= = escribimos el intervalo anterior como sigue:

m
1
+
n
1
. . z + Y - X -
m
1
+
n
1
. . z - Y - X
/2 Y X /2


Ejemplo Se llevan a cabo pruebas de resistencia a la tensin sobre dos diferentes clases de
largueros de aluminio utilizados en la fabricacin de alas de aeroplanos comerciales. De la
experiencia pasada con el proceso de fabricacin de largueros y del procedimiento de prueba, se
supone que las desviaciones estndar de las resistencias a la tensin son conocidas. Los datos
obtenidos se presentan en la siguiente tabla:

Clase del
larguero
Tamao de la
muestra
Media muestral de la resistencia
a la tensin
Desviacin
estndar
1 n
1
=10
6 , 87 = x
1

o
1
=1
2 n
2
=12
5 , 74 = x
2

o
2
=1,5

Si
1
y
2
indican los verdaderos promedios de las resistencias a la tensin para las dos clases
de largueros, hallar un intervalo del 90% de confianza para la diferencia de las medias
1
-
2
.
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 13 de 18
Solucin
Lmite inferior del intervalo:

2
2
2
2
2
1
2
1
/2 2 1
kg/mm 12,22 = 0,88 - 1 , 13 =
=
12
) 5 , 1 (
+
10
1
1,645. - 74,5 - 6 , 87 =
n

+
n

. z - x - x


Lmite superior del intervalo:

2
2
2
2
2
1
2
1
/2 2 1
kg/mm 13,98 = 0,88 + 1 , 13 =
=
12
) 5 , 1 (
+
10
1
1,645. + 74,5 - 6 , 87 =
n

+
n

. z + x - x


Luego el intervalo del 90% de confianza para la diferencia en la resistencia a la tensin
promedio es:
98 , 13 - 22 , 12
2 1


Observar que:
a) El intervalo de confianza hallado no incluye al cero, entonces la resistencia
promedio del aluminio de clase 1(
1
) es mayor que la del aluminio de clase 2(
2
).
b) Puede afirmarse que se tiene una confianza del 90% de que la resistencia
promedio a la tensin del aluminio de clase 1 es mayor que la del aluminio de clase
2 en una cantidad que oscila entre 12,22 y 13,98 kg/mm
2
.


I I . I ntervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas desconocidas pero supuestas iguales
Recordemos que si
2
Y
2
X
y son conocidas y
2 2
Y
2
X
= = el pivote usado para hallar un
intervalo de confianza de
X
-
Y
es:

m
1
+
n
1
.
) - ( - ) Y - X (
= Z
Y X

Z tiene distribucin N (0, 1).
Sabemos que
2
X
S y
2
Y
S estiman a
2
X
y
2
Y
respectivamente.
Tambin sabemos que las dos variables aleatorias,
2
2
Y
2
2
X

1).S - (m
y

1).S - n (

tienen distribucin ChiCuadrado con (n-1) y (m-1) grados de libertad respectivamente.
Adems son variables aleatorias independientes puesto que las muestras aleatorias se
seleccionaron de forma independiente. Por tanto su suma:
2
2
Y
2
X

1).S - m ( + 1).S - n (
= V
tiene distribucin Chi-Cuadrado con v =(n-1)+(m-1) =n +m 2 grados de libertad.
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 14 de 18
Puede mostrarse que las expresiones para Z y V son independientes y tambin que siendo Z v.a.
N(0,1) y V con distribucin Chi-cuadrado con v grados de libertad, la v.a.

V
Z
= T
tiene distribucin t de Student con v grados de libertad.
Puesto que
2
Y
2
X
S y S son estimadores de la varianza comn o
2
, puede obtenerse un estimador
combinado de o
2
mejor que
2
Y
2
X
S y S por separado. Este estimador, que indicaremos
2
p
S , es
un estimador insesgado y ms eficiente que
2
Y
2
X
S y S .
2 - m + n
1).S - (m + 1).S - n (
= S
2
Y
2
X 2
p

Al sustituir
2
p
S en el estadstico T se obtiene,

m
1
+
n
1
. S
) - ( - ) Y - X (
= T
p
Y X

Usaremos a T como pivote.
Tendremos,
- 1 = ] t T -t [ P
2 / /2
(1)

donde t
o/2
es el valor t con n+m-2 grados de libertad, por arriba del cual encontramos un rea de
o/2. Sustituyendo T en (1):

- 1 = ] t
m
1
+
n
1
. S
) - ( - ) Y - X (
-t [ P
2 /
p
Y X
/2


Operando adecuadamente se obtiene el intervalo de (1-o) 100%,

m
1
n
1
p /2 Y X
m
1
n
1
p /2
+ s . t + ) y - x ( - + s . t - ) y - x (

Naturalmente, la construccin de este intervalo requiere suponer que las varianzas son iguales,
aunque desconocidas. Para ello habr que realizar previamente un test de hiptesis
(procedimiento que se ver en un captulo posterior) para determinar si dicha suposicin es
razonable.

Ejemplo Un artculo publicado dio a conocer los resultados de un anlisis del peso de calcio en
cemento estndar y en cemento contaminado con plomo.
Los niveles bajos de calcio indican que el mecanismo de hidratacin del cemento queda
bloqueado y esto permite que el agua ataque varias partes de una estructura de cemento. Al
tomar diez muestras de cemento estndar, se encontr que el peso promedio de calcio es de 90
con una desviacin estndar de 5; los resultados obtenidos con 15 muestras de cemento
contaminado con plomo fueron de 87 en promedio con una desviacin estndar de 4.
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 15 de 18
Supngase que el porcentaje de peso de calcio est distribuido de manera normal y que las dos
poblaciones normales tienen la misma desviacin estndar.
a) Encuentre un intervalo de confianza del 95% para la diferencia entre medias de los dos
tipos de cemento.
b) Es posible afirmar que la presencia que la presencia del plomo afecte este aspecto del
mecanismo de hidratacin, a partir de a)? J ustifique la respuesta.
Solucin
a) El estimador combinado de la desviacin estndar es:
41 , 4 = S 52 , 19 =
2 - 15 + 10
1) - 15 .( 4 + 1) - 10 .( 5
=
2 - m + n
S ). 1 - m ( + S ). 1 - n (
= S
p
2 2 2
Y
2
X
p


. Al hacer las cuentas correspondientes se obtiene el intervalo:
-0,72
X
-
Y
6,72

b) Observar que el intervalo de confianza del 95% incluye al cero, entonces para este nivel
de confianza no puede concluirse la existencia de una diferencia entre las medias.
Podemos decir lo mismo expresando que no hay evidencia de que la contaminacin del
cemento por plomo tenga efecto sobre el peso promedio del calcio, por tanto con un
nivel de confianza del 95% no podemos afirmar que la presencia del plomo afecte este
aspecto del mecanismo de hidratacin.




I I I . I ntervalo de confianza para la diferencia de medias de dos poblaciones normales
independientes, con varianzas desconocidas y que no pueden suponerse iguales
Si las varianzas no pueden suponerse iguales, no podremos usar el pivote del caso anterior,
puesto que emplea a S
p
como estimador de la varianza comn de ambas poblaciones. El
estadstico pivote que usaremos en este caso es:

m
S
+
n
S
) - ( - ) Y - X (
= W
2
Y
2
X
Y X

Si los tamaos muestrales son grandes (n > 30 y m > 30), W tiene distribucin
aproximadamente N(0, 1) y el intervalo (1-o)100% de confianza para
X
-
Y
, es
] . z Y - ; . z - Y - [
2 2
/2
2 2
/2
m
S
n
S
X
m
S
n
S
X
Y X Y X
+ + +



Si los tamaos muestrales son pequeos puede mostrarse que el estadstico pivote W
sigue una distribucin t de Student con v =n +m 2 - o grados de libertad, siendo o un
nmero que cumple con, (0 s o s mx. n 1, m-1`) y es el entero ms prximo a,
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 16 de 18
2
2
Y 2
2
X
2
2
Y
2
X
]
m
S
1).[ - ( ]
n
S
1).[ - (
]
m
S
1). - (n -
n
S
1). - [(
n m
m
+
(

= +
Por tanto un intervalo del (1-o) 100%, para
X
-
Y
, es,

m
S
n
S
X
m
S
n
S
X
Y X Y X
2 2
/2 ,
2 2
/2 ,
. t Y - ; . t - Y - [ + + +



Ejemplo En un estudio realizado sobre el tipo de sedimentos hallados en dos lugares de
perforacin distintos, se han anotado los siguientes datos acerca del porcentaje en volumen de
arcilla presente en las muestras de sondeo:
X: 31 18 17 16 37 16 32 13 14 49 25 19 13 32 27
Y: 15 17 13 25 22 20 24 12 23 15 20 18
siendo X =% de arcilla en el lugar A e Y =% de arcilla en el lugar B
Calcular un intervalo del 95% de confianza para la diferencia de los valores medios de X e Y.
Solucin
A partir de los datos muestrales se obtiene:
355 , 4 = S 18,667 = Y 12 = m
559 , 10 = S 23,933 = X 15 = n
Y
X

Supuesto que X e Y son variables aleatorias normales con varianzas desconocidas y distintas,
necesitamos determinar el nmero de grados de libertad de la t de Student, para poder obtener el
intervalo pedido.
Con los datos anteriores, =9,378; entonces,
=n +m -2 9 =16
1199 , 2
0,025 ; 16 2 / ,
= = t t


Sustituyendo los valores calculados en el intervalo,

] . t Y - ; . t - Y - [
2 2
/2 ,
2 2
/2 ,
m
S
n
S
X
m
S
n
S
X
Y X Y X
+ + +


el intervalo del 95% de confianza para
X
-
Y
es [-1,099; 11,631].

I V. Determinacin del tamao muestral
Suponiendo que elegimos muestras del mismo tamao en ambas poblaciones (n = m), cul es
el tamao muestral necesario para que la longitud del intervalo para la diferencia de medias, con
un nivel de confianza prefijado (1-o), sea igual a una cantidad predeterminada?
a) Si las varianzas poblacionales son conocidas, despejando n en la longitud del intervalo,
n
z L
Y X
2 2
2 /
. . 2

+
= se obtiene,

2
2 2 2
2 /
) ( . 4
L
z
n
Y X

+
=

b) Si las varianzas son desconocidas pero pueden suponerse iguales, dada una estimacin
preliminar de la varianza comn
2
p
S y supuesto que n es suficientemente grande para
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 17 de 18
aproximar la distribucin t por la normal estndar, despejando n de la longitud del
intervalo,
n
2
. S . z . 2 = L
p 2 /
, el tamao muestral es

2
2
p
2
2 /
L
S . z . 8
= n

c) Si las varianzas son desconocidas y no pueden suponerse iguales, supuesto que n es
suficientemente grande para aproximar la distribucin t por la normal estndar, el valor
de n que se obtiene al despejar en la longitud del intervalo,
n
S + S
. z . 2 = L
2
Y
2
X
2 /

es,
2
2
Y
2
X
2
2 /
L
) S + S ( z . 4
= n
donde
2
Y
2
X
S y S son estimaciones preliminares de las varianzas poblacionales.


5.4.3 I ntervalos de confianza para la diferencia de medias con datos apareados
En la seccin 5.4.1 tratamos el problema de las muestras independientes y las apareadas,
haciendo la observacin que la principal caracterstica del muestreo apareado es que ambas
muestras son dependientes.
Esta dependencia hace que los estadsticos pivote usados en el caso de independencia no se
deben emplear cuando el muestreo se haya hecho de forma apareada, puesto que los intervalos
de confianza hallados pueden resultar demasiado grandes o excesivamente pequeos.
El motivo de esta posible distorsin es que si las variables X e Y son dependientes la

) Y , X 2Cov( - ) Y Var( ) ( ) Y - ( + = X Var X Var

con lo que, si consideramos las variables independientes y nos olvidamos del trmino de la
covarianza, el denominador de los estadsticos pivote puede ser equivocadamente grande o
pequeo, segn como sea la covarianza entre X e Y.

Para evitar este problema consideramos la nueva variable aleatoria D =X Y y estimamos
directamente Var (X-Y).
Supuesto que D es normal con media
Y X D
- = y varianza
2
D
es equivalente construir
un intervalo de confianza para
X -

Y
que construirlo para
D
.

De esta manera dada las diferencias D
i
=X
i
Y
i
, obtenidas a partir de las muestras apareadas y
utilizando el procedimiento ya descripto para la construccin de intervalos de confianza para la
media de una poblacin normal, con varianza desconocida podemos hallar un intervalo del (1-
o) 100% de confianza para
D
=
X -

Y
. El intervalo obtenido ser,
] . t ; . t - [
/2 1, - n /2 1, - n
n
S
D
n
S
D
D D

+
Ejemplo Una cadena de negocios de electrodomsticos quiere estudiar la efectividad de una
nueva campaa televisiva sobre la venta de una cierta marca de heladeras. Para ello se recoge el
nmero de unidades vendidas durante un mes antes y un mes despus de la campaa, en 12 de
UNLP-Facultad de Ingeniera Ctedra: Estadstica

Carreras: Ing. Electrnica y Electricista Mag. Lic. Alicia Ledema


Pgina 18 de 18
los negocios que componen la cadena. Los resultados obtenidos estn dados en la siguiente
tabla,
Antes 12 10 15 8 19 14 12 21 16 11 8 15
Despus 11 11 17 9 21 13 16 25 20 18 10 17

a) Con un error del 5% hallar un intervalo de confianza para la diferencia de medias de
unidades vendidas durante un mes antes y un despus. Indicar las hiptesis realizadas.
b) Se puede considerar efectiva la campaa publicitaria?
Solucin
a) Se trata de muestras apareadas, los valores que toma la v.a.D son: 1, -1,
-2, -1, -2, 1, -4, -4, -4, -7, -2, -2. Se supone normalidad en la diferencia.
Se obtiene:
-2,25 =
12
27
- = D
n
1
= D
n
1 = k
k


6875 , 4 = S
2
D


20 , 2 = t = t
0,025 11; /2 1; - n


Se obtiene el intervalo: 0,814) - -3,686; ( = )
1 - 12
4,6875
2,20. -2,25 (

b) Existen diferencias significativas, puesto que el intervalo no contiene al cero.


RESUMEN: I NTERVALOS DE CONFI ANZA PARA DOS MUESTRAS

Intervalos para la diferencia de medias (
X
-
Y
)
Con
X
y
Y
conocidas
]
m

+
n

z Y - X [
2
Y
2
X
/2

Con
X
=
Y
desconocidas
]
m
1
+
n
1
S . t Y - X [
p /2 2; - m + n

Con
X

Y
desconocidas y n, m 30
]
m
S
+
n
S
z Y - X [
2
Y
2
X
/2

Con
X

Y
desconocidas y n 30 m 30
]
m
S
+
n
S
t Y - X [
2
Y
2
X
/2 ;

Con datos apareados
]
n
S
. t D [
D
/2 1, - n