Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Distribuciones muestrales.
Estimación
todos con la misma probabilidad. Calculemos su media o valor esperado y su varianza, parámetros
que la caracterizan
Valor esperado:
n
X
E(X) = µ = xi p(xi )
i=1
1 1 1 1 2+4+6+8
E(X) = µ = 2 +4 +6 +8 = =5
4 4 4 4 4
Varianza:
n
X
V (X) = σ 2 = (xi − µ)2 p(xi )
i=1
2 2 1 2 1 2 1 2 1
V (X) = σ = (2 − 5) + (4 − 5) + (6 − 5) + (8 − 5)
4 4 4 4
Por lo tanto
98
Figura 4.1: Distribución de probabilidad de X
Note que todas las barras tienen la misma altura. Esta distribución de probabilidad recibe el
nombre de distribución de probabilidad uniforme.
Suponga ahora que a partir de los valores de la variable X se seleccionan muestras aleatorias con
reposición de tamaño n = 2.
Para ello se pueden escribir los números 2, 4, 6 y 8 en cuatro papelitos, ponerlas en una bolsa e ir
seleccionado dos papelitos por vez registrando los números obtenidos.
Una muestra puede estar formada por los números 2 y 2, otra muestra formada por 2 y 4, etc.
¾Cuántas muestras diferentes de tamaño n = 2 se pueden seleccionar procediendo de esta manera?
Puede demostrarse que es posible seleccionar 16 muestras distintas de tamaño 2 si la muestra se
toma con reposición de una población de N = 4 observaciones.
En la Tabla (4.1) se muestran las 16 posibles muestras. Designamos con X1 el resultado de la
primera extracción y con X2 el resultado de la segunda extracción.
Muestra X1 X2 Media muestral X̄
1 2 2 2
2 2 4 3
3 2 6 4
4 2 8 5
5 4 2 3
6 4 4 4
7 4 6 5
8 4 8 6
9 6 2 4
10 6 4 5
11 6 6 6
12 6 8 7
13 8 2 5
14 8 4 6
15 8 6 7
16 8 8 8
Note que X1 y X2 puede considerarse, y de hecho son, variables aleatorias pues sus valores están
precedidos por un procedimiento en el interviene el azar. Podemos denirías de la siguiente manera:
X1 = Resultado de la primera selección
99
A partir de cada una de las muestras de tamaño 2 podemos calcular un valor de la media x̄
obteniéndose de esta manera todos los valores posibles de la variable aleatoria media muestral que
para muestras de tamaño 2 se dene de la siguiente manera:
X1 + X2
X̄ =
2
X̄ = 2, 3, 4, 5, 6, 7, 8
En la última columna de la Tabla (4.1) se registran los valores de la variable aleatoria media
muestral X̄ calculadas a partir de muestras de tamaño 2.
La Figura (4.2) es una representación gráca ideal del experimento aleatorio que se realiza para
obtener los valores de X̄ .
Como puede apreciarse a partir de la información aportada por la Tabla (4.1), de las 16 muestras
posibles una tiene media igual a 2, dos tiene media igual a 3, tres tienen media igual 4, cuatro
tienen media igual 5, tres tienen media igual a 6, dos tienen media igual a 7 y una solamente
tiene media igual a 8.
Con esta nueva información podemos construir la Tabla (4.2) en la que se muestran todos los
valores de X̄ y sus respectivas probabilidades.
Es decir, hemos denido mediante una tabla, la distribución de probabilidad de la variable aleatoria
media muestral, calculada para maestras de tamaño n = 2, tomadas con reposición de X = 2, 4, 6, 8.
100
Figura 4.3: Distribución de probabilidad de la media muestral
Puede verse que aunque la distribución de probabilidad de la variable X es uniforme (todos los
valores de la variable tienen la misma probabilidad), la distribución de probabilidad de X̄ tiene
forma de campana. Más adelante analizaremos estas propiedades con más detalles.
Construir la distribución de probabilidad de la media muestral por medio de la enumeración de
todas las muestras posibles es un procedimiento poco efectivo y en algunos casos imposible.
Aún cuando el tamaño de la población no sea muy grande, tomar todas las muestras de tamaño n
puede resultar un trabajo extremadamente arduo y en algunos casos imposibles por cuestiones de
tiempo y costos.
En las secciones que siguen presentamos los conceptos que permiten estudiar las propiedades de la
distribución de probabilidad de la variable aleatoria media muestral sin necesidad de tomar efectiva
muestras de tamaño n de una población.
n
X
µx̄ = x̄i p(x̄i )
i=1
1 2 3 4 3 2 1
µx̄ = 2 +3 +4 +5 +6 +7 +8 =5
16 16 16 16 16 16 16
101
Por denición n
X
σx̄2 = (x̄i − µx̄ )p(x̄i )
i=1
Por lo tanto
1 2 3 1
σx̄2 = (2 − 5) 2
+ (3 − 5) 2
+ (4 − 5) 2
+ · · · + (8 − 5) 2
= 2, 5
16 16 16 16
X̄ − µ
Z= √
σ/ n
tiene distribución Normal Estándar.
Ejemplo 4.1. Se sabe que el tiempo que tardan los técnicos de una fábrica en ensamblar cierto
producto es una variable aleatoria que tiene distribución Normal con media µ = 10 minutos y
varianza σ 2 = 9 minutos al cuadrado. ¾Cuál es la probabilidad de que una muestra aleatoria de 16
técnicos arroje un tiempo promedio de ensamble mayor o igual a 11 minutos?
102
Solución
Los datos para este problema son los siguientes.
Variable:
X = Tiempo de ensamble del producto
11 − 10
Z= = 1, 33
3/4
Entonces
Pr(X̄ ≥ 11) = 1 − Pr(Z < 1, 33) = 1 − 0, 9082 = 0, 0918
Hemos visto que si de una población con distribución Normal y varianza σ 2 se seleccionan muestras
aleatorias de tamaño n la variable aleatoria
X̄ − µ
Z= √
σ/ n
tiene distribución Normal Estándar.
Ahora bien, este resultado es aproximadamente cierto aún si la población de la cual se toman las
muestras no tiene distribución Normal pero los tamaños de las muestras son lo sucientemente
grandes.
Esta propiedad se resume en uno de los teoremas más importante de la Estadística, el Teorema del
Límite Central al que enunciamos sin demostración.
Sin tener en cuenta la distribución de probabilidad de la población , la distribución de probabilidad
de la variable aleatoria media muestral X̄ denida a partir muestras aleatorias con reposición de
tamaño n seleccionadas de una población con media µ y varianza σ 2 se aproximará a la
distribución Normal con media µ y varianza σ 2 /n si las muestras son sucientemente grandes
Por lo tanto, la variable aleatoria
X̄ − µ
Z= √
σ/ n
tendrá distribución aproximadamente Normal Estándar siempre que las muestras sean lo sucien-
temente grandes.
¾A partir de qué valor de n la muestra puede considerase sucientemente grande para poder aplicar
el Teorema de Límite Central ?
Todo depende de lo alejada de la normalidad que esté la población. Pero, en la mayoría de las
aplicaciones prácticas se considera n ≥ 30 lo sucientemente grande en las aplicaciones prácticas
del teorema.
En la Figura (4.4) se muestra el fundamento del Teorema del Límite Central.
Hemos supuesto hasta aquí que en todos los casos las varianza de la población, σ 2 era conocida.
Lo cierto es que la varianza poblacional es un parámetro que en general no se conoce y debe ser
estimado.
¾Que efecto tiene sobre la variable Z = σ/ √ sustituir el desvió estándar poblacional σ por la
X̄−µ
n
desviación estándar muestral S ?
103
Figura 4.4: Fundamento del Teorema del Límite Central
Existe una generalización del Teorema del Límite Central que arma que la variable aleatoria
X̄ − µ
Z= √
S/ n
Ahora bien, si el muestreo se realiza sin reposición de una población nita, ¾se cumplirán las
mismas relaciones?
Para responder a esta pregunta consideremos nuevamente la variable aleatoria X = 2, 4, 6, 8. Como
ya sabemos, µ = 5 y σ 2 = 5.
Todas las muestras posibles de tamaño n = 2 que se pueden seleccionar sin reposición de la
población X se muestran en la Tabla (4.3).
104
Muestra X1 X2 Media muestral
1 2 4 3
2 2 6 4
3 2 8 5
4 4 2 3
5 4 6 5
6 4 8 6
7 6 2 4
8 6 4 5
9 6 8 7
10 8 2 5
11 8 4 6
12 8 6 7
A partir de la Tabla (4.3) se puede construir la Tabla (4.4) en la que se muestra la distribución
de probabilidad de la variable aleatoria media muestral para muestras sin reposición de tamaño
n = 2.
Teniendo presente la información de la Tabla (4.4) podemos calcular la media o valor esperado de
X̄ .
Si valor es
1 1 2 1 1
µx̄ = 3 +4 +5 +6 +7 =5
6 6 6 6 6
Puede verse que aún cuando las muestras se seleccionen sin reposición de la población, la media
de el valor medio de la media muestral sigue siendo igual a la media de la población.
Veamos cuál es la relación existe entre la varianza de la población y la varianza la media muestral.
Aplicando la denición de la varianza de una variable aleatoria se tiene
1 1 2 1 1 5
σx̄2 2
= (3 − 5) + (4 − 5)2
+ (5 − 5)2
+ (6 − 5) 2
+ (7 − 5) 2
=
6 6 6 6 6 3
No es tan evidente la relación existente entre la varianza de la población y la varianza de la media
muestral.
Sin embargo si las muestras se seleccionan sin reposición a partir de una población nita de de
tamaño N , la varianza de la media muestral X̄ es
σ2
N −n
σx̄2 =
n N −1
105
r
σ N −n
σx̄ = √
n N −1
Para los datos del ejemplo que estamos analizando, como se conoce la varianza de la población,
tendremos
σ2
N −n 5 4−2 5 2 5
σx̄2 = = = =
n N −1 2 4−1 2 3 3
Resumimos esta estas conclusiones en el siguiente resultado.
Supongamos que de una población nita de tamaño N y media µ se seleccionan muestras
aleatorias sin reposición de tamaño n. Entonces,
la variable aleatoria media muestral X̄ tiene
una media igual a µ y varianza igual a σn N donde σ 2 es la varianza de la población
2
−n
N −1
El factor NN −1 es el coeciente de corrección para poblaciones nitas. En los problemas prácticos
−n
X̄ − µ
Z= q
√σ N −n
n N −1
Solución
Variable
106
Se pide calcular Pr(25 ≤ X̄ ≤ 27).
Hay que estandarizar los valores x̄1 = 25 y x̄2 = 27.
Si x1 = 25 entonces:
25 − 25, 75
z1 = = −1, 48
0, 507
Si x2 = 27 entonces:
27 − 25, 75
z2 = = 2, 46
0, 057
Por lo tanto
Pr(25 ≤ X̄ ≤ 27) = Pr(X̄ ≤ 27) − Pr(X̄ ≤ 25) = Pr(Z ≤ 2.46) − Pr(Z ≤ −1, 48)
Finalmente:
Pr(Z ≤ 2, 46) − Pr(Z ≤ −1, 48) = 0, 9932 − 0, 0694 = 0, 9238
C(LIC ≤ µ ≤ LSC) = 1 − α
En esta expresión, LIC recibe el nombre de límite inferior de conanza mientras que LSC recibe
el nombre de límite superior de conanza.
Además, 1 − α es un número real comprendido en el intervalo (0, 1). Cuanto más cercano a 1 sea el
valor de 1 − α es más probable que el valor desconocido del parámetro µ esté comprendido entre
los límites superior e inferior del intervalo de conanza.
En lo que sigue veremos como se construyen intervalos de conanza para estimar la media µ de
una población en tres situaciones diferentes:
107
1. Cuando la muestra que se selecciona de una población Normal con varianza conocida
3. Cuando la muestra se selecciona de una población sin distribución Normal con varianza
desconocida
En una situación real es poco probable que se conozca la varianza de una población si no se conoce
el valor de su media. Recuerde que la varianza poblacional se calcula de la siguiente manera:
Pn
i=1 (xi − µ)2
σ2 =
N
Es decir, para calcular la varianza σ 2 se debe conocer en primer lugar el valor de la media pobla-
cional µ.
Sin embargo, supondremos por el momento que se conoce σ 2 con el n de facilitar nuestro análisis.
Más adelante estudiaremos situaciones más reales en los cuales no se conoce la varianza poblacional.
Por lo tanto, partimos de la hipótesis de que la población cuya media queremos estimar tiene
distribución Normal con varianza σ 2 conocida.
Es decir, la densidad de probabilidad de la población es la siguiente:
1 (x−µ)2
f (x) = √ e− 2σ 2
2πσ 2
X̄ − µ
Z= √
σ/ n
108
Figura 4.5: Valores de −z y z de la variable aleatoria Z
Teniendo en cuenta la información aportada por la Figura (4.5) podemos escribir e interpretar el
siguiente enunciado probabilístico:
X̄ − µ
Pr −z ≤ √ ≤z =1−α (4.1)
σ/ n
De manera equivalente:
σ σ
Pr X̄ − z √ ≤ µ ≤ X̄ + z √ =1−α (4.2)
n n
109
Consideremos la siguiente armación de probabilidad para un evento A generado por un experi-
mento aleatorio.
Pr(A) = 0, 95
contendrá el valor de la media poblacional desconocida. Por lo tanto, solo un 5 % de los intervalos
no contendrán el valor de µ.
El intervalo expresado por la Fórmula (4.3) recibe el nombre de intervalo aleatorio de conanza.
En una situación práctica no se selecciona un gran número de muestras aleatorias para estimar µ.
Se selecciona unicamente una y con ella se calcula un solo valor de X̄ . Llamemos a este valor x̄0 .
Reemplazando esta cantidad en la Fórmula (4.2) obtendremos
σ σ
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.4)
n n
donde la letra C indica que el intervalo es un intervalo de conanza. Es decir, se trata de una
armación de conanza y no un enunciado de probabilidad.
¾Por qué este cambio? Cuando se realizan los cálculos pertinentes resulta que LIC = x̄0 − z √σn y
LSC = x̄0 +z √σn en general son números reales. Recuerde que solo podemos calcular probabilidades
para variables aleatorias y las cantidades LIC , LSC y µ no lo son.
El término 1 − α recibe el nombre de coeciente de conanza e indica el grado de conanza de que
el intervalo calculado contenga la media poblacional desconocida µ.
El coeciente de conanza expresado en porcentaje recibe el nombre de nivel de conanza.
El grado de conanza de que el intervalo denido por la Fórmula (4.4) contenga a la media po-
blacional desconocida depende del valor de 1 − α. Cuanto más cercano a uno sea su valor más
conados estaremos.
Puede verse que, en términos generales, un intervalo de conanza del tipo establecido por la
Fórmula (4.4) consta de tres cantidades: x̄0 , z y √σn . Analicemos cada uno de estos términos:
x̄0 es el valor del estimador media muestral calculado a partir de una muestra
√ aleatoria de tamaño
n seleccionada de la población, z se llama factor da conabilidad y σ/ n es la desviación estándar
o error estándar del estimador.
Podemos expresar un intervalo de conanza para la media de una población de la siguiente manera:
110
Ejemplo 4.3. Una muestra de 36 estudiantes del último año de la carrera de contador dio como
resultado un promedio en sus calicaciones de x̄ = 6, 9 puntos. Si bien es cierto este puntaje
puede cambiar de muestra en muestra, se sabe que la desviación estándar poblacional se mantiene
más o menos constante en el valor σ = 0, 3 puntos. Estime la calicación promedio de todos los
estudiantes de la carrera de contador:
1. Puntualmente
Solución
Los datos para este ejemplo son los siguientes:
Primer punto
Según los datos del ejemplo con la muestra de n = 36 estudiantes se obtuvo x̄0 = 6, 9 puntos. Este
valor se puede tomar como una estimación puntual de la media poblacional a partir de la muestra
de 36 estudiantes de la carrera de contador.
Segundo punto
X̄ − µ
Z= √
σ/ n
Finalmente:
C(6, 8 ≤ µ ≤ 6, 99) = 0, 95
Conclusión: No se sabe cuál es valor del puntaje promedio poblacional µ pero se estima que puede
ser algún valor comprendido entre 6,8 y 6,99 puntos con una conanza del 95 %.
111
Tercer punto
Como ahora 1 − α = 0, 99, entonces z = ±2, 58 . Por lo tanto, el intervalo de conanza es el
siguiente
0, 3 0, 3
C 6, 9 − 2, 58 √ ≤ µ ≤ 6, 9 + 2, 58 √ = 0, 95
36 36
Finalmente
C(6, 77 ≤ µ ≤ 7, 03) = 0, 99
Cuarto punto
Analicemos en profundidad los resultados obtenidos.
Para 1 − α = 0, 95 la amplitud del intervalo de conanza es LSC − LIC = 6, 99 − 6, 8 = 0, 19
puntos.
Para 1 − α = 0, 99 la amplitud del intervalo de conanza es LSC − LIC = 7, 03 − 6, 77 = 0, 26
puntos.
Por lo tanto, al aumentar la conanza en la estimación aumenta la amplitud del intervalo de
conanza obtenido y como consecuencia de ello disminuye la precisión de la estimación.
X̄ − µ
T = √ (4.7)
S/ n
112
cuando las muestras se seleccionan de una población distribuida normalmente con varianza σ 2
desconocida. Note que en la Fórmula (4.7) se ha reemplazado la desviación estándar poblacional
σ por la desviación estándar muestral S .
Esta nueva distribución de probabilidad que se conoce con el nombre de distribución t de Student
o simplemente con el nombre de distribución t sirve, entre otras cosas, para estimar la media
de una población por medio de un intervalo de conanza en poblaciones normales con varianza
desconocida.
Antes de construir intervalos de conanza para µ utilizando la distribución t de Student vamos
denirla y estudiar sus principales propiedades.
Partimos de la siguiente denición:
Denición 4.1. Se dice que una variable aleatoria T tiene distribución t de Student si su función
de densidad es n+1 −
Γ n+1
t2
2
f (t) = q n 1+
nπΓ n2 n
∞
donde Γ es la función gamma denida de la siguiente manera: Γ(z) = 0
t(z−1) e−t dt.
f (t) > 0
E(T ) = 0 y V (T ) = n
n−2
El gráco de f (t) es simétrico y con forma de campana y centrado en 0 tal como se muestra
en la Figura (4.6)
+∞
−∞
f (t)dt = 1
113
Figura 4.7: Distribuciones t para distintos grados de libertad
A medida que los grados de libertad aumentan los valores de probabilidad de distribución t
tienden a los valores de probabilidad de la distribución Normal Estándar. Es decir:
además:
Hemos dicho que los valores de probabilidad distribución t se aproxima a los de la distribución
Normal Estándar a media que aumentan sus grados de libertad.
Para grandes grados de libertad los valores de las probabilidades son casi iguales. Se puede vericar
esta propiedad observando que los valores de probabilidad de la distribución t en las últimas las
de la tabla son casi iguales a los valores de probabilidad de la distribución Normal Estándar.
Por último, observemos que, aunque la distribución t se basa en la hipótesis de que la muestra se
selecciona de una población distribuida normalmente, se pueden tolerar algunos distanciamientos
de esta suposición.
En otras palabras, podemos utilizar la distribución t aunque la población de las cuales se seleccionen
las muestras no esté distribuida normalmente, con la condición de que el alejamiento respecto de
la normalidad no sea demasiado grande.
Como la distribución t tiende a la distribución Normal Estándar a mediada que aumentan los grados
de libertad (o el tamaño de la muestra) , muchos investigadores preeren utilizar la distribución
114
Normal Estándar y no la la distribución t cuando el tamaño de la muestra es sucientemente
grande.
Pare nalizar esta sección damos idea aproximada del concepto de grados de libertad.
Supongamos que se quiera estimar la varianza poblacional σ 2 por medio de la varianza muestral
S 2 . Como sabemos, la expresión que dene la varianza muestral es la siguiente:
Pn
2 − X̄)2
i=1 (Xi
S =
n−1
donde X̄ es la variable aleatoria media muestral que, como sabemos, estima a la media poblacional
µ.
Para calcular la varianza muestral, en primer lugar se debe estimar la media poblacional µ por
medio de la media muestral X̄ .
Podemos denir, sin mucha rigurosidad, como grados de libertad al número que resulta de realizar
la diferencia entre el tamaño de la muestra y el número de parámetros que hay que estimar para
calcular la varianza muestral.
Como para calcular S 2 primero hay que estimar un solo parámetro (µ), los grados de libertad de
S 2 son k = n − 1.
Los estadísticos han demostrado que dividiendo ni=1 (Xi − X̄)2 por sus grados de libertad (n − 1)
P
se obtiene un estimador insesgado de la varianza poblacional σ 2 .
Estamos por n en condiciones de estudiar como se construyen intervalos de conanza para estimar
la media de una población que tiene distribución normal de probabilidad y de la cual nos se conoce
su varianza.
El razonamiento que se sigue es el siguiente. Hemos estudiado que si de una población distribui-
da normalmente con varianza desconocida se toman muestra aleatorias de tamaño n, la variable
aleatoria T = S/ √ tiene distribución t con n − 1 grados de libertad.
X̄−µ
n
Podemos entonces plantear e interpretar el siguiente enunciado de probabilidad:
X̄ − µ
Pr −t ≤ √ ≤t =1−α
S/ n
115
S S
Pr X̄ − t √ ≤ µ ≤ X̄ + t √ =1−α
n n
Si en la fórmula precedente se remplaza X̄ por x̄0 y S por s0 ambas cantidades calculadas a partir
de la muestra de tamaño n se obtiene:
s0 s0
C x̄0 − t √ ≤ µ ≤ x̄0 + t √ =1−α (4.8)
n n
La Fórmula (4.8) se utiliza para estimar, por medio de un intervalo de conanza, la media µ de
una población Normal con varianza desconocida.
En forma abreviada, la expresión anterior se pude escribir de la siguiente manera:
s0
x̄0 ± t √
n
Si se considera el signo menos se obtiene el límite inferior de conanza LIC = x̄0 − t √s0n . Si se
considera en signo más se obtiene el límite superior de conanza LSC = x̄0 + t √s0n .
Hemos distinguido los casos de varianza poblacional conocida y desconocida para encontrar las
fórmulas que nos permiten estimar µ por medio de un intervalo de conanza.
Además, la distribución de probabilidad de la población y el tamaño de la muestra juegan un papel
importante en la construcción de los intervalos de conanza.
Debe recordarse que si la varianza poblacional σ 2 se conoce, se obtiene los mismos resultados al
estimar µ por medio de un intervalo de conanza tanto si la población tiene distribución Normal
o si se dan las condiciones para aplicar el Teorema del Límite Central.
En esta caso utilizaríamos la siguiente fórmula para estimar µ mediante un intervalo de conanza:
σ σ
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α
n n
116
1. Estime tiempo promedio poblacional µ requerido por todos los operarios de la empresa para
familiarizarse con el uso de la máquina a partir de un intervalo de 95 % de conanza
2. El instructor considera que el verdadero tiempo promedio requerido por todos los operarios
de la empresa que recibirían instrucción acerca del funcionamiento de la máquina está por
encima de los 5 minutos. ¾Qué puede decirse de esta armación a partir de los resultados
del punto anterior
3,4 2,8 4,4 2,5 3,3 4,0 4,8 2,9 5,6 5,2 3,7 3,0 3,6 2,8 4,8
Tabla 4.5: Datos para el Ejemplo (4.4)
Solución
Primer punto
Media de la muestra:
3, 4 + 2, 8 + · · · + 4, 8
x̄0 = = 3, 79
15
Por lo tanto, se estima que en promedio, los operarios tardarán 3, 79 en familiarizarse con el
funcionamiento de la máquina.
Varianza de la muestra:
(3, 4 − 3, 79)2 + (2, 8 − 3, 79)2 + ... + (4, 8 − 3, 79)2
s20 = = 0, 9409
15 − 1
√
Luego: s0 = 0, 9409 = 0, 97.
Los valores de t para 14 grados de libertad y para 1 − α = 0, 95 son ±2, 1448.
El intervalo de conanza para µ es el siguiente
0, 94 0, 94
C 3, 79 − 2, 1448 √ ≤ µ ≤ 3, 79 + 2, 1448 √ = 0, 95
15 15
O bien:
C(3, 25 ≤ µ ≤ 4, 32) = 0, 95
Segundo punto
De acuerdo con el intervalo de conanza hallado no parece correcta la armación del instructor
puesto que el promedio 5 minutos está por encima del extremos superior de conanza. Es decir,
parece ser que el tiempo promedio requerido por los operarios de la empresa en aprender a utilizar
la máquina es menor.
117
Para poblaciones normales con varianza poblacional conocida, o si se dan las condiciones para
aplicar el Teorema del Límite Central:
r r !
σ N −n σ N −n
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.10)
n N −1 n N −1
De forma abreviada: r
σ N −n
x̄0 ± z √ (4.11)
n N −1
O bien
r
s0 N −n
x̄0 ± t √ (4.13)
n N −1
Por último, si la población estudiada no tiene distribución Normal y no se conoce su varianza pero
la muestra es grande, una estimación de la media µ por medio de un intervalo de (1 − α)100 % de
conanza se puede realizar utilizando la siguiente expresión:
r r !
s0 N −n s0 N −n
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.14)
n N −1 n N −1
O bien
r
s0 N −n
x̄0 ± z √ (4.15)
n N −1
Estas dos últimas expresiones se puede justicar por aplicación del Teorema del Límite Central y
por el hecho adicional de que para muestras grandes, la varianza muestral S 2 resulta ser una buena
estimación e la varianza poblacional σ 2 .
Es decir, para muestras grandes (n ≥ 30) la variable aleatoria
X̄ − µ
Z= q (4.16)
s0
√ N −n
n N −1
Solución
Variable:
118
Datos: N = 5.500, n = 250, x̄0 = 65 y s0 = 15. No se tiene información acerca de la distribución
de la población pero como n ≥ 30 se puede aplicar el Teorema del Límite Central y aproximar σ
por medio del valor de s.
Por lo tanto, utilizaremos la expresión:
r
s0 N −n
x̄0 ± z √
n N −1
para estimar µ.
Reemplazando valores:
r
15 5.500 − 250
62 ± 1, 96 √
250 5.500 − 1
Efectuando las operaciones indicadas obtenemos:
C(63 ≤ µ ≤ 67) = 0, 95
En consecuencia, se estima que el puntaje promedio que obtendrían los 5.500 empleado sería algún
valor comprendido entre 63 y 67 puntos con una conanza de 95 %.
X
P̄ = (4.17)
n
donde X es el número de éxitos en la muestra de tamaño n.
¾Cuáles son las propiedades probabilísticas de la variable aleatoria proporción muestral? Las resu-
mimos en el siguiente teorema que enunciamos sin demostración.
119
Teorema 4.1. La distribución muestral de P̄ o proporción muestral, calculada a partir de muestras
aleatorias simple de tamaño n tomadas de una población en la que la proporción de éxitos es p,
tiene distribución aproximadamente Normal si np y n(1 − p) = nq son mayores que 5. Además
N −n
E(P̄ ) = µp̄ = p y σp̄ = n
2 pq
N −1 donde N es el tamaño de la población. Puede omitirse el
coeciente de corrección para poblaciones nitas si N ≥ 20n o si n/N ≤ 0, 05.
Si se cumplen las condiciones del teorema anterior, también puede demostrarse que la variable
aleatoria
P̄ − p
Z=r (4.18)
pq N −n
n N −1
pq 0, 60 × 0, 40
σp̄2 = = = 0, 0016
n 150
√
Luego σp̄ = 0, 0016 = 0, 04
Se deben estandarizar los valores p̄1 = 0, 5 y p̄2 = 0, 7.
Por lo tanto, para p̄1 = 0, 5
0, 5 − 0.6
z1 = = −2, 5
0, 04
Para p̄2 = 0, 7
0, 7 − 0, 6
z2 = = 2, 5
0, 04
Finalmente
120
Por lo tanto, la variable aleatoria
P̄ − p
Z=p
pq/n
Si N ≥ 20n el valor del coeciente de corrección para poblaciones nitas tomará un valor cercano
a uno y puede no se tenido en cuenta.
Ejemplo 4.7. Una cadena de supermercados cuenta con 10.000 poseedores de una tarjeta de
créditos emitida por la empresa a quienes se les factura los gastos de cada mes. El administrador
de dicha tarjeta quiere estimar la proporción de clientes poseedores de la tarjeta que asistirían
a los supermercados de la cadena si estuvieran abierto los días domingos. Para ello toma una
maestra aleatoria sin reposición de 100 poseedores de la tarjeta y encuentra que 60 indicaron que
comprarían los días domingos. El administrador quiere obtener una estimación puntual y por medio
de un intervalo de 99 % de conanza de la proporción de los poseedores de la tarjeta que asistirían
a los locales de la cadena si estuvieran abiertos los días domingos.
Solución
Datos: N = 10.000, muestra n = 100 sin reposición, número de éxitos en la muestra x = 60.
121
Por lo tanto, p̄ = 60
100= 0, 60, en consecuencia q̄ = 0, 40. Además, como np̄ = 100(0, 60) = 60 y
nq̄ = 100(0, 40) = 40, entonces P̄ tiene distribución aproximadamente Normal.
Como 10.000
100
=0,01 podría omitirse el coeciente de corrección para poblaciones nitas. No obstante
los consideraremos en nuestros cálculos.
Además
r r
0, 60 × 0, 40 10.000 − 100
sp̄ = = 0, 0486
100 10.000 − 1
Como 1 − α = 0, 99 entonces z1 = −2, 58 y z2 = 2, 58.
Por lo tanto
Por lo tanto, la proporción de poseedores de la tarjeta de crédito que estarían dispuestos a acudir
a alguna sucursal de la cadena del supermercado los días domingos es algún valor entre 47,4 y 72,5
por ciento con una conanza del 95 por ciento.
122
2
Aparecen entonces dos nuevos conceptos, una nueva variable aleatoria, χ2 = (n−1)S
σ2 y una nueva
distribución de probabilidad, la distribución de probabilidad Chi cuadrado.
Comenzamos caracterizando este nuevo modelo de distribución de probabilidad. Posteriormente
estudiaremos como se lo puede utilizar para realizar inferencias acerca de la varianza de una
población.
Denición 4.2. Se dice que una variable aleatoria continua X tiene distribución Chi cuadrado
con k grados de libertad si su función de densidad es
1
f (x) = x(k/2−1) e(−x/2) (4.22)
2(k/2) Γ(k/2)
con x > 0
Si una variable aleatoria X tiene distribución Chi cuadrado entonces x ≥ 0, es decir, solo
puede tomar valores reales no negativos.
Si una variable aleatoria X tiene distribución Chi cuadrado, entonces f (x) ≥ 0.
El gráco de de una variable aleatoria que tenga distribución Chi cuadrado es sesgado a
derecha tal como se muestra en la Figura (4.9)
Si una variable aleatoria X tiene distribución Chi cuadrado con k grados de libertad, entonces
E(X) = k y V (X) = 2k
Para facilitar el cálculo de probabilidades de variables aleatorias que tienen distribución Chi cua-
drado se cuenta con tablas que permiten hallar las áreas asociadas a intervalos limitados por valores
de la variable. Una de esas tablas es la que acompaña este material.
123
Figura 4.10: Distribuciones Chi cuadrado para distintos grados de libertad
En la columna que aparece más a la izquierda de la tabla se registran los grados de libertad de
la variable y los encabezamientos de las columnas indican la proporción del área que queda a la
izquierda del valor de la variable que se registra en el cuerpo de la tabla.
Supongamos que se quiera saber, para una variable aleatoria que tiene distribución Chi cuadrado
con 10 grados de libertad, qué valor de la variable deja a su izquierda 0,95 del área bajo la curva.
Para ello localizamos 10 en la columna de los grados de libertad y también la columna encabezada
con el símbolo χ20,95 .
El valor en la intersección de la la rotulada con el número 10 y la columna con χ20,95 es el valor
de la variable que buscamos que, como vemos es el número 18,307.
Por lo tanto, x = 18, 307 es el valor de la variable que tiene distribución Chi cuadrado con 10
grados de libertad y que acumula el 95 % de probabilidad.
Como el área total bajo la curva es igual a 1, sabemos que el 5 % del área queda a la derecha de
x = 18, 307.
En la Figura (4.11) se muestran estas áreas.
124
En consecuencia, para realizar una estimación puntual de la varianza σ 2 de una población se puede
proceder de la siguiente manera:
Pn 2
i=1 (xi −x̄0 )
3. Calcular s20 = n−1
Para estimar puntualmente la varianza de una población no es necesario hacer suposiciones acerca
de la distribución de probabilidad poblacional. La única exigencia es que la muestra sea aleatoria.
Como en cualquier estimación puntual de de un parámetro, existen en general muchas estimaciones
posibles (una por cada muestra) y solo un parámetro que estimar.
Es decir, al estimar puntualmente σ 2 tendremos el mismo problema de incertidumbre que tuvimos
con las estimaciones de la media µ y la proporción p de una población.
Podemos controlar esta incertidumbre estimando la varianza poblacional σ 2 por medio de un
intervalo de conanza aprovechando las propiedades probabilísticas de la variable aleatoria χ2 =
(n−1)S 2
σ2 .
Habíamos visto que si de una población distribuida normalmente con varianza σ 2 se toman muestras
aleatorias de tamaño n, la variable aleatoria χ2 tiene distribución Chi cuadrado con k = n − 1
grados de libertad.
Esta propiedad nos permite plantear e interpretar el siguiente enunciado probabilístico:
(n − 1)S 2
Pr χ21 ≤ ≤ χ 2
2 =1−α (4.23)
σ2
donde χ21 y χ22 son los valores de la variable χ2 que tiene distribución Chi cuadrado con k = n − 1
grados de libertad y que dejan entre si 1 − α por ciento del área total bajo la curva tal como se
muestra en la Figura (4.12).
χ21 χ22
1
Pr ≤ 2 ≤ =1−α
(n − 1)S 2 σ (n − 1)S 2
Por lo tanto
125
(n − 1)S 2 (n − 1)S 2
2
Pr ≥ σ ≥ =1−α
χ21 χ22
Esta última expresión puede reescribirse de la siguiente manera:
(n − 1)S 2 (n − 1)S 2
2
Pr ≤ σ ≤ =1−α
χ22 χ21
(n − 1)s20 (n − 1)s20
C 2
≤σ ≤ =1−α (4.24)
χ22 χ21
Observación 4.2. Un intervalo de (1 − α)100 % de conanza para la desviación estándar de la
población se obtiene calculando la raíz cuadrada de cada uno de los límites del intervalo de conanza
obtenido mediante la Fórmula (4.23).
So obtiene
"s s #
(n − 1)s20 (n − 1)s20
C ≤σ≤ =1−α (4.25)
χ22 χ21
Ejemplo 4.8. Un fabricante de baterías para automóviles asegura que su producto dura en prome-
dio de 2 años con una desviación estándar de 0,5 años. Con el n de investigar estas armaciones
se toma una muestra de 5 baterías y se registran los siguientes tiempos de duración en años:
1,5 2,5 2,9 3,2 4,0
Tabla 4.6: Datos para el Ejemplo 4.8
Solución
El fabricante arma que µ = 2 años y que σ 2 = 0, 25.
A partir de la información suministrada por la muestra obtenemos:
1, 5 + 2, 5 + 2, 9 + 3, 2 + 4, 0
x̄0 = = 2, 82
5
Por lo tanto
P5
− x̄0 )2
i=1 (xi (1, 5 − 2, 82)2 + (2, 5 − 2, 82)2 + · · · + (4, 0 − 2, 82)2
s20 = = = 0, 847
5−1 4
Como la muestra es de tamaño 5 debemos buscar los valores de χ21 y χ22 en la tabla de probabilidades
de la distribución Chi cuadrado considerando 4 grados de libertad.
Por lo tanto, χ21 acumula 2, 5 porciento del área total bajo la curva de la distribución, luego
χ21 = 0, 484. Además χ22 es el valor de la variable que acumula 0, 95 + 0, 025 = 0, 975 o el 97, 5
porciento del área bajo la curva, luego χ22 = 11, 143.
Finalmente, el intervalo de conanza para estimar σ 2 es el siguiente:
4(0, 847) 2 4(0, 847)
C ≤σ ≤ = 0, 95
11, 143 0, 484
126
o sea
C(0, 30 ≤ σ 2 ≤ 7, 0) = 0, 95
Como el límite inferior de conanza es mayor que 0, 25 podemos concluir que lo asegurado por el
fabricante no es correcto. Es más, parece ser que la varianza poblacional es mayor que la iniciada
por el fabricante.
127