Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTERVALOS DE CONFIANZA
INTRODUCCIÓN
Para indicar el estudio de este tema es necesario recordar algunos aspectos de las
funciones:
Ejemplo, El valor de t con n=14 grados de libertad que tienen un área de 0.025 a la
izquierda, y por tanto, un área de 0.975 a la izquierda, es
t0.975= - t0.025=-2.145
1
d. Si S2 es la variable aleatoria de tamaño n tomada de una población normal que
tiene la varianza 2, entonces, el estadístico
(n 1)s 2
X
2
2
tiene distribución 2 con n-1 grado de libertad
Intervalos de confianza para la media (caso general): Este se trata del caso con
verdadero interés práctico. Por ejemplo sirve para estimar intervalos que contenga la
media del colesterol en sangre en una población, la altura, el peso, etc, cuando
disponemos de una muestra de la variable.
2
La utilidad consiste en decidir cuál deberá ser el tamaño necesario de una muestra
para obtener intervalos de confianza para una media, con precisión y significación
dadas de antemano. Para que esto sea posible es necesario poseer cierta información
previa, que se obtiene a partir de las denominadas muestras piloto. Los problemas
asociados a este caso son
Este caso que planteamos es más a nivel teórico que práctico: difícilmente vamos a
poder conocer con exactitud s mientras que m es desconocido. Sin embargo nos
aproxima del modo más simple a la estimación confidencial de medias. Para
estimar m, el estadístico que mejor nos va a ayudar es X , del que conocemos
su ley de distribución, que es el parámetro desconocido,
2
X N ,
n
3
colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales
el resto de la masa de probabilidad, .
Intervalo para la media (caso general). Como hemos mencionado, los casos
anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una
población quizás podamos conocer si se distribuye normalmente, pero el valor
exacto de los parámetros y no son conocidos. De ahí nuestro interés en
buscar intervalos de confianza para ellos. El problema que tenemos en este caso
es más complicado que el anterior, pues no es tan sencillo eliminar los dos
parámetros a la vez. Para ello nos vamos a ayudar de lo siguiente:
X
Z ~N(0,1)
n
y que además estas dos últimas distribuciones son independientes. A partir de estas
relaciones podemos construir una distribución t-Student con n-1 grados de libertad.
4
X
Y también sabemos que, Tn 1 ŝ t n 1
n
Dado el nivel de significación 1-a buscamos en una tabla de t-Student t n-1 el percentil
100(1-/2) tn-1,1-/2, el cual deja por encima de si la cantidad /2 de la masa de
probabilidad. Luego la distribución t-Student tiene las mismas propiedades de
simetría que la normal tipificada.
Al igual que en el caso del cálculo del intervalo de confianza para cuando es
conocido, podemos en el caso desconocido, utilizar la función de verosimilitud para
representarlo geométricamente.
ŝ ŝ
x / 2 x t 1 / 2, n 1 y x / 2 x t 1 / 2 ,n 1
n n
5
Si queremos estimar un intervalo de confianza para , es conveniente utilizar el
estadístico T y tomar como intervalo de confianza,
x
T t n 1 T t 1 / 2,n 1
ŝ / n
es decir,
6
7
INTERVALO DE CONFIANZA PARA LA VARIANZA
Consideremos dos cuantiles de esta distribución que nos dejen una probabilidad 1-
en la zona central de la distribución:
P 2n 1 2 / 2,n 1 / 2
y P 2n 1 12 / 2,n 1 / 2
P 2
/ 2 , n 1
2n 1 12 / 2,n 1 1
8
z12 / 2 2
N ŝ
d2
Donde f/2,n1,n2 es un valor f con n1-1 y n2-1 grados de libertad con un área de /2 a la
derecha, y f/2,n2,n1 es un valor similar con n2-1 y n1-1 grados de libertad
Consideremos el caso en que tenemos dos poblaciones de modo que el carácter que
estudiamos en ambas (X1 y X2) son variable aleatoria distribuidas según leyes
gaussianas
X1 N(1 , 12 ) X 2 N( 2 , 22 )
Podemos plantearnos a partir de las muestras el saber qué diferencias existen entre las
medias de ambas poblaciones, o por ejemplo estudiar las relaciones existentes entre
sus dispersiones respectivas. A ello vamos a dedicar los siguientes puntos.
9
Por razones análogas a las expuestas en el caso de una población, se tiene que
(n 1 1)ŝ12 (n 2 1)ŝ 22
n1 1
2
n 1 1
2
n 2 1
2
2n 2 1
2
2
n1 n 2 2 n1 1 n 2 1 n1 n 2 2
2 2 2 2
n1 n 2 2
( x 1 x 2 ) (1 2 )
Tn1 n 2 2 t 1 / 2,n1 n 2 2 t 1 / 2,n1 n 2 2
1 1
ŝ
n1 n 2
1 1
1 2 ( x 1 x 2 ) t 1 / 2,n1 n 2 2 ŝ
n1 n 2
10
1 1
1 2 ( x 1 x 2 ) t 1 / 2, n1 n 2 2 ŝ
n1 n 2
Ejemplo, Queremos estudiar la influencia que puede tener el tabaco con el peso de
los niños al nacer. Para ello se consideran dos grupos de mujeres embarazadas
(unas que fuman un paquete al día y otras que no) y se obtienen los siguientes
datos sobre el peso X, de sus hijos, así: Madres fumadoras: cantidad 35, media
3.6 Kg, desviación 0.5 Kg; Madres no fumadoras: cantidad 27, media 3.2 Kg,
desviación 0.8 Kg
En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones
normales de medias desconocidas, y con varianzas que si bien son desconocidas,
podemos suponer que son las mismas. Calcular en cuanto influye el que la madre sea
fumadora en el peso de su hijo.
ŝ
n1 n 2
donde
(n 1 1)ŝ12 (n 2 1)ŝ 22 34 * 0.5 2 26 * 0.8 2
ŝ 0.6473
n1 n 2 2 60
11
con lo cual se puede decir que un intervalo de confianza para el peso esperado en que
supera un hijo de madre no fumadora al de otro de madre fumadora está comprendido
con un nivel de confianza del 95% entre los 0,068 Kg y los 0,731 Kg.
12
Ejemplo. Se quiere estimar el resultado de un referéndum mediante un sondeo. Para
ello se realiza un muestreo aleatorio simple con n=100 personas y se obtienen
35% que votarán a favor y 65% que votarán en contra (suponemos que no hay
indecisos para simplificar el problema a una variable dicotómica). Con un
nivel de significación del 5%, calcule un intervalo de confianza para el
verdadero resultado de las elecciones.
En la práctica el error que se comete no es muy grande si tomamos algo más simple
como
p̂ p
Z N(0,1)
p̂q̂ / n
En un ejemplo previo con una muestra de 100 individuos se realizó una estimación
confidencial, con un 95% de confianza, del porcentaje de votantes a una
cuestión en un referéndum, obteniéndose un margen de error de 9,3 puntos. Si
pretendemos reducir el error al punto y queremos aumentar el nivel de
confianza hasta el 97% (=3%) hemos de tomar una muestra lógicamente de
mayor tamaño, N. La técnica para aproximar dicha cantidad consiste en
observar que el error cometido en una estimación es de la forma:
13
error z 1 / 2 p̂q̂ / n
Si en un principio no tenemos una idea sobre que valores puede tomar p, debemos
considerar el peor caso posible, que es en el que se ha de estimar el tamaño muestral
1 z12 / 2
cuando p=q=1/2. Así: N cuando no hay estimación de p
4 error 2
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas
estudiamos una variable aleatoria dicotómica (Bernoulli) de parámetros
respectivos p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y
X1 X11 , X12 ,.., X1n1 X 2 X 21 , X 22 ,..., X 2n 2
n2:
n1 n1
Entonces, X1 X1i B(n 1 , p1 ) y X1 X 2 i B( n 2 , p 2 )
i 1 i 1
Por el mismo razonamiento que en el caso de una población llegamos a que una
aproximación para un intervalo de confianza al nivel 1- para la diferencia de
proporciones de dos poblaciones es:
p̂ q̂ p̂ q̂
p1 p 2 (p̂1 p̂ 2 ) z1 / 2 1 1 2 2
n1 n2
14
Estas variables son la pendiente b, el intercepto a con el eje y (x=0), el valor de la
recta representado en y, el valor medio de la muestra y el coeficiente de regresión r.
El desarrollo de las investigaciones de intervalos siguen la misma metodología
analizada en este capítulo.
2 2
n
1 n n
1 n
s xx x xi 2
i s yy y yi
2
i
i 1 n i1 i 1 n i 1
n
1 n n s xy
s xy xy x i yi r
i 1 n i 1 i 1 sxs y
Teorema. El intervalo de confianza para del (1-)% para este parámetro en al línea
de regresión Y/x=+x, es
1 1
b̂ t / 2, n 2 s b̂ t / 2,n 2 s
s xx s xx
Teorema. El intervalo de confianza para del (1-)% para este parámetro en al línea
de regresión Y/x=+x, es
n n
x 2
i x 2
i
â t / 2, n 2 s i 1
â t / 2,n 2 s i 1
ns xx ns xx
15