Está en la página 1de 30

Capítulo 4

Distribuciones muestrales.

Estimación

4.1. Distribuciones muestrales


A partir de una misma población se pueden obtener muchas muestras distintas de un mismo
tamaño.
En el ejemplo que sigue veremos como se obtienen las propiedades de una nueva variable aleatoria,
la media muestral cuyos valores se encuentran a partir de distintas muestras aleatorias tomadas
de una misma población.
Se estudiará como calcular las probabilidades de cada uno de sus valores con lo que caracterizaremos
su distribución de probabilidad. Comenzamos el análisis con un ejemplo.
Suponga que una variable aleatoria discreta X puede tomar los siguientes valores
X = 2, 4, 6, 8

todos con la misma probabilidad. Calculemos su media o valor esperado y su varianza, parámetros
que la caracterizan
Valor esperado:
n
X
E(X) = µ = xi p(xi )
i=1
       
1 1 1 1 2+4+6+8
E(X) = µ = 2 +4 +6 +8 = =5
4 4 4 4 4
Varianza:
n
X
V (X) = σ 2 = (xi − µ)2 p(xi )
i=1
       
2 2 1 2 1 2 1 2 1
V (X) = σ = (2 − 5) + (4 − 5) + (6 − 5) + (8 − 5)
4 4 4 4
Por lo tanto

(2 − 5)2 + (4 − 5)2 + (6 − 5)2 + (8 − 5)2


σ2 = =5
4
En la Figura (4.1) se muestra la distribución de probabilidad de la variable aleatoria X mediante
un diagrama de barras.

98
Figura 4.1: Distribución de probabilidad de X

Note que todas las barras tienen la misma altura. Esta distribución de probabilidad recibe el
nombre de distribución de probabilidad uniforme.
Suponga ahora que a partir de los valores de la variable X se seleccionan muestras aleatorias con
reposición de tamaño n = 2.
Para ello se pueden escribir los números 2, 4, 6 y 8 en cuatro papelitos, ponerlas en una bolsa e ir
seleccionado dos papelitos por vez registrando los números obtenidos.
Una muestra puede estar formada por los números 2 y 2, otra muestra formada por 2 y 4, etc.
¾Cuántas muestras diferentes de tamaño n = 2 se pueden seleccionar procediendo de esta manera?
Puede demostrarse que es posible seleccionar 16 muestras distintas de tamaño 2 si la muestra se
toma con reposición de una población de N = 4 observaciones.
En la Tabla (4.1) se muestran las 16 posibles muestras. Designamos con X1 el resultado de la
primera extracción y con X2 el resultado de la segunda extracción.
Muestra X1 X2 Media muestral X̄
1 2 2 2
2 2 4 3
3 2 6 4
4 2 8 5
5 4 2 3
6 4 4 4
7 4 6 5
8 4 8 6
9 6 2 4
10 6 4 5
11 6 6 6
12 6 8 7
13 8 2 5
14 8 4 6
15 8 6 7
16 8 8 8

Tabla 4.1: Valores de la media muestral X̄ . Muestras de tamaño 2

Note que X1 y X2 puede considerarse, y de hecho son, variables aleatorias pues sus valores están
precedidos por un procedimiento en el interviene el azar. Podemos denirías de la siguiente manera:
X1 = Resultado de la primera selección

X2 = Resultado de la segunda selección

99
A partir de cada una de las muestras de tamaño 2 podemos calcular un valor de la media x̄
obteniéndose de esta manera todos los valores posibles de la variable aleatoria media muestral que
para muestras de tamaño 2 se dene de la siguiente manera:

X1 + X2
X̄ =
2

Los valores de X̄ son los siguientes:

X̄ = 2, 3, 4, 5, 6, 7, 8

En la última columna de la Tabla (4.1) se registran los valores de la variable aleatoria media
muestral X̄ calculadas a partir de muestras de tamaño 2.
La Figura (4.2) es una representación gráca ideal del experimento aleatorio que se realiza para
obtener los valores de X̄ .

Figura 4.2: Determinación de los valores de la media muestral X̄

Como puede apreciarse a partir de la información aportada por la Tabla (4.1), de las 16 muestras
posibles una tiene media igual a 2, dos tiene media igual a 3, tres tienen media igual 4, cuatro
tienen media igual 5, tres tienen media igual a 6, dos tienen media igual a 7 y una solamente
tiene media igual a 8.
Con esta nueva información podemos construir la Tabla (4.2) en la que se muestran todos los
valores de X̄ y sus respectivas probabilidades.
Es decir, hemos denido mediante una tabla, la distribución de probabilidad de la variable aleatoria
media muestral, calculada para maestras de tamaño n = 2, tomadas con reposición de X = 2, 4, 6, 8.

X̄ Frecuencia absoluta fi Probabilidad Pr(X̄)


2 1 1/16
3 2 2/16
4 3 3/16
5 4 4/16
6 3 3/16
7 2 2/16
8 1 1/16

Tabla 4.2: Distribución de probabilidad de X̄

La forma funcional de la distribución de probabilidad de la variable aleatoria X̄ denida por medio


de un diagrama de barras se muestra en la Figura (4.3).

100
Figura 4.3: Distribución de probabilidad de la media muestral

Puede verse que aunque la distribución de probabilidad de la variable X es uniforme (todos los
valores de la variable tienen la misma probabilidad), la distribución de probabilidad de X̄ tiene
forma de campana. Más adelante analizaremos estas propiedades con más detalles.
Construir la distribución de probabilidad de la media muestral por medio de la enumeración de
todas las muestras posibles es un procedimiento poco efectivo y en algunos casos imposible.
Aún cuando el tamaño de la población no sea muy grande, tomar todas las muestras de tamaño n
puede resultar un trabajo extremadamente arduo y en algunos casos imposibles por cuestiones de
tiempo y costos.
En las secciones que siguen presentamos los conceptos que permiten estudiar las propiedades de la
distribución de probabilidad de la variable aleatoria media muestral sin necesidad de tomar efectiva
muestras de tamaño n de una población.

4.2. Distribución de probabilidad de la media muestral X̄


En esta sección se analizarán más en detalle las propriedades del estadístico media muestral X̄ ,
uno de los más utilizados en los procesos inferenciales.
Comenzamos caracterizando su media o valor esperado. A partir de la información de la Tabla
(4.2) se puede calcular la media o valor esperado de la variable media muestral de la siguiente
manera:

n
X
µx̄ = x̄i p(x̄i )
i=1

             
1 2 3 4 3 2 1
µx̄ = 2 +3 +4 +5 +6 +7 +8 =5
16 16 16 16 16 16 16

Por lo tanto: µx̄ = 5.


Habíamos visto al principio del capítulo que µ = 5. En realidad este resultado no es una casualidad,
ocurre siempre, independiente del número valores de la variable y del tamaño de la muestra.
¾Cuál es la relación, si es que existe, entre la varianza de la población y la varianza de la media
muestral?
Habíamos visto al inicio del capítulo que para la variable aleatoria X = 2, 4, 6, 8 su varianza era
igual a 5, es decir, σ 2 = 5.
Vamos a calcular la varianza de la variable media media muestral. Para eso nos basamos en la
información de la Tabla (4.2).

101
Por denición n
X
σx̄2 = (x̄i − µx̄ )p(x̄i )
i=1

Por lo tanto
       
1 2 3 1
σx̄2 = (2 − 5) 2
+ (3 − 5) 2
+ (4 − 5) 2
+ · · · + (8 − 5) 2
= 2, 5
16 16 16 16

Resulta evidente que σ 2 ̸= σx̄2 .


Sin embargo, como puede vericarse realizando los cálculos correspondientes, σx̄2 = 5/2 = 2, 5
donde 5 es la varianza de X y n el tamaño de la muestra. Es decir, σx̄2 = σ 2 /n.
Los resultados obtenidos son coincidencias. Constituyen un ejemplo de los siguientes hechos gene-
rales.
Cuando se seleccionan muestras con reposición de una población nita, la media de la
distribución muestral de X̄ es igual a la media de la población, es decir µx̄ = µ y la varianza de
X̄ es igual a la varianza de la población dividida por el tamaño de la muestra, o sea σx̄2 = σ/n

La raíz cuadrada de σx̄2 , o sea, σx̄ = σ/ n se denomina error estándar de X̄.

Observación 4.1. La desviación estándar de la media muestral σx̄ = σ/ n nos da una idea de la
dispersión de los valores de la variable media muestral X̄ respecto de su media la que es igual a la
media de la población.
Como puede verse, la desviación estándar de la media muestral es directamente proporcional a σ
e inversamente proporcional a la raíz cuadrada del tamaño de la muestra.
Por lo tanto, para un valor dado de σ se puede controlar el valor de σx̄ modicando el tamaño de
la muestra, aumentándola o disminuyéndola.
Por ejemplo, si n = 1 entonces σx̄ = σ, pero si n = 100 la desviación estándar de la media muestral
será la décima parte de la desviación estándar de la población.
En general, cuanto mayor de el tamaño de la muestra n es más probable que un valor de X̄ se
aproxime indenidamente a la media µ de la población.
Hemos visto de qué manera se pueden calcular la media y la varianza de la variable aleatoria media
muestral X̄ . Ahora vamos a investigar la forma funcional de la distribución de X̄ . Distinguiremos
dos casos:

Cuando las muestras se seleccionan de una población normalmente distribuida


Cuando las muestras se seleccionan de una de una población sin distribución Normal

El siguiente resultado se da en forma de teorema y se prueba en textos de Estadística Matemática.


Nosotros lo enunciamos sin demostración.
Si X̄ es la variable aleatoria media muestral denida a partir de muestras aleatorias de tamaño n
seleccionadas con reposición de una población distribuida normalmente con media µ y varianza
σ 2 , entonces X̄ tiene distribución Normal con media µ y varianza σ 2 /n
A partir de este resultado, y como una consecuencia del mismo, es posible demostrar que la variable
aleatoria

X̄ − µ
Z= √
σ/ n
tiene distribución Normal Estándar.
Ejemplo 4.1. Se sabe que el tiempo que tardan los técnicos de una fábrica en ensamblar cierto
producto es una variable aleatoria que tiene distribución Normal con media µ = 10 minutos y
varianza σ 2 = 9 minutos al cuadrado. ¾Cuál es la probabilidad de que una muestra aleatoria de 16
técnicos arroje un tiempo promedio de ensamble mayor o igual a 11 minutos?

102
Solución
Los datos para este problema son los siguientes.
Variable:
X = Tiempo de ensamble del producto

Además: X ∼ N (µ = 10; σ 2 = 9). Por lo tanto X̄ también


√ tendrá distribución Normal con media
o valor esperado µx̄ = 10 y error estándar σx̄ = σ/ n.
Se pide calcular Pr(X̄ ≥ 11).
Como los eventos Pr(X̄ ≥ 11) y Pr(X̄ < 11) son eventos complementarios entonces

Pr(X̄ ≥ 11) = 1 − Pr(X̄ < 11)

Para calcular esta probabilidad debemos estandarizar X̄ = 11.


Lo hacemos de la siguiente manera:

11 − 10
Z= = 1, 33
3/4
Entonces
Pr(X̄ ≥ 11) = 1 − Pr(Z < 1, 33) = 1 − 0, 9082 = 0, 0918

Hemos visto que si de una población con distribución Normal y varianza σ 2 se seleccionan muestras
aleatorias de tamaño n la variable aleatoria

X̄ − µ
Z= √
σ/ n
tiene distribución Normal Estándar.
Ahora bien, este resultado es aproximadamente cierto aún si la población de la cual se toman las
muestras no tiene distribución Normal pero los tamaños de las muestras son lo sucientemente
grandes.
Esta propiedad se resume en uno de los teoremas más importante de la Estadística, el Teorema del
Límite Central al que enunciamos sin demostración.
Sin tener en cuenta la distribución de probabilidad de la población , la distribución de probabilidad
de la variable aleatoria media muestral X̄ denida a partir muestras aleatorias con reposición de
tamaño n seleccionadas de una población con media µ y varianza σ 2 se aproximará a la
distribución Normal con media µ y varianza σ 2 /n si las muestras son sucientemente grandes
Por lo tanto, la variable aleatoria
X̄ − µ
Z= √
σ/ n
tendrá distribución aproximadamente Normal Estándar siempre que las muestras sean lo sucien-
temente grandes.
¾A partir de qué valor de n la muestra puede considerase sucientemente grande para poder aplicar
el Teorema de Límite Central ?
Todo depende de lo alejada de la normalidad que esté la población. Pero, en la mayoría de las
aplicaciones prácticas se considera n ≥ 30 lo sucientemente grande en las aplicaciones prácticas
del teorema.
En la Figura (4.4) se muestra el fundamento del Teorema del Límite Central.
Hemos supuesto hasta aquí que en todos los casos las varianza de la población, σ 2 era conocida.
Lo cierto es que la varianza poblacional es un parámetro que en general no se conoce y debe ser
estimado.
¾Que efecto tiene sobre la variable Z = σ/ √ sustituir el desvió estándar poblacional σ por la
X̄−µ
n
desviación estándar muestral S ?

103
Figura 4.4: Fundamento del Teorema del Límite Central

Existe una generalización del Teorema del Límite Central que arma que la variable aleatoria

X̄ − µ
Z= √
S/ n

donde S es la distribución estándar muestral tiene aproximadamente distribución Normal Estándar


siempre que las muestras sean lo sucientemente grandes. También aquí se mantiene el criterio
n ≥ 30.
Esta propiedad se justica por el hecho de que, para muestras grandes, el valor de la desviación
estándar muestral S es una buena aproximación al valor de la desviación estándar poblacional σ .

4.3. Muestras sin reposición de poblaciones nitas


En la sección anterior hemos caracterizado las principales propiedades de la variable aleatoria
media muestral denida a partir de muestras aleatorias de tamaño n seleccionadas con reposición
de una población nita.
En mayoría de los problemas prácticos, las muestras se seleccionan sin reposición de una población
nita pues no tiene sentido analizar una unidad observacional que ya fue seleccionada y analizada
anteriormente.
También hemos visto que cuando las muestras se seleccionan con reposición a partir de una pobla-
ción nita la variable aleatoria media muestral X̄ tiene una media igual a la media de la población,
es decir, µx̄ = µ y una varianza igual a la varianza de la población dividida por el tamaño de la
muestra, es decir σx̄2 = σn .
2

Ahora bien, si el muestreo se realiza sin reposición de una población nita, ¾se cumplirán las
mismas relaciones?
Para responder a esta pregunta consideremos nuevamente la variable aleatoria X = 2, 4, 6, 8. Como
ya sabemos, µ = 5 y σ 2 = 5.
Todas las muestras posibles de tamaño n = 2 que se pueden seleccionar sin reposición de la
población X se muestran en la Tabla (4.3).

104
Muestra X1 X2 Media muestral
1 2 4 3
2 2 6 4
3 2 8 5
4 4 2 3
5 4 6 5
6 4 8 6
7 6 2 4
8 6 4 5
9 6 8 7
10 8 2 5
11 8 4 6
12 8 6 7

Tabla 4.3: Muestras de tamaño n = 2 sin reposición

A partir de la Tabla (4.3) se puede construir la Tabla (4.4) en la que se muestra la distribución
de probabilidad de la variable aleatoria media muestral para muestras sin reposición de tamaño
n = 2.

Media muestral X̄ Frecuencia fi Pr(X̄)


3 2 2/12 = 1/6
4 2 2/16 = 1/6
5 4 4/12 = 2/6
6 2 2/12 = 1/6
7 2 2/12 = 2/6

Tabla 4.4: Distribución de la media muestral. Muestras sin reposición

Teniendo presente la información de la Tabla (4.4) podemos calcular la media o valor esperado de
X̄ .
Si valor es
         
1 1 2 1 1
µx̄ = 3 +4 +5 +6 +7 =5
6 6 6 6 6
Puede verse que aún cuando las muestras se seleccionen sin reposición de la población, la media
de el valor medio de la media muestral sigue siendo igual a la media de la población.
Veamos cuál es la relación existe entre la varianza de la población y la varianza la media muestral.
Aplicando la denición de la varianza de una variable aleatoria se tiene
         
1 1 2 1 1 5
σx̄2 2
= (3 − 5) + (4 − 5)2
+ (5 − 5)2
+ (6 − 5) 2
+ (7 − 5) 2
=
6 6 6 6 6 3
No es tan evidente la relación existente entre la varianza de la población y la varianza de la media
muestral.
Sin embargo si las muestras se seleccionan sin reposición a partir de una población nita de de
tamaño N , la varianza de la media muestral X̄ es

σ2
 
N −n
σx̄2 =
n N −1

siendo σ 2 la varianza de la población.


La desviación estándar de X̄ igual a la raíz cuadrada de la varianza, es decir

105
r
σ N −n
σx̄ = √
n N −1
Para los datos del ejemplo que estamos analizando, como se conoce la varianza de la población,
tendremos

σ2
      
N −n 5 4−2 5 2 5
σx̄2 = = = =
n N −1 2 4−1 2 3 3
Resumimos esta estas conclusiones en el siguiente resultado.
Supongamos que de una población nita de tamaño N y media µ se seleccionan muestras
aleatorias sin reposición de tamaño n. Entonces,
 la variable aleatoria media muestral X̄ tiene
una media igual a µ y varianza igual a σn N donde σ 2 es la varianza de la población
2
−n
N −1
 
El factor NN −1 es el coeciente de corrección para poblaciones nitas. En los problemas prácticos
−n

puede no tenerse en cuenta si N ≥ 20n o si n/N ≤ 0, 05 pues su valor tiende a uno.


¾Cuál es la forma funcional de la variable aleatoria media muestral cuando las muestras se selec-
cionan sin reposición de una población de tamaño N ?
Puede demostrarse que si la población de la cual se seleccionan las muestras tiene distribución
Normal, entonces la variable aleatoria media muestral X̄ también tiene distribución Normal.
Como una consecuencia de esta propiedad, la variable aleatoria

X̄ − µ
Z= q
√σ N −n
n N −1

tiene distribución Normal Estándar.


Este resultado es aproximadamente cierto aún si la población de la cual se toman las muestras no
tiene distribución Normal pero los tamaños de las muestras son lo sucientemente grandes. Esta
propiedad se puede justicar por la aplicación del Teorema del Límite Central.
Se mantiene el criterio n ≥ 30 para considerar una muestra lo sucientemente grande para aplicar
el teorema.
Ejemplo 4.2. Una empresa emplea 1.500 personas. Las sumas gastadas en servicios médicos por
sus empleados varían de año a año, pero el promedio de gastos, 25, 75 dólares se mantiene más o
menos constante, lo mismo que la desviación estándar de 5, 25 dólares. ¾Cuál es la probabilidad de
que una muestra aleatoria sin reposición de 100 empleados arroje una media comprendida entre 25
y 27 dólares?

Solución
Variable

X = Gastos anuales en servicios médicos por los empleados de la empresa

Además µ = 25, 75 y σ = 5, 25 dólares.


No hay información acerca de la distribución de probabilidad de la población paro como n = 100
podemos aplicar el Teorema del Límite Central .
Por lo tanto X̄ tendrá aproximadamente distribución Normal con una media o valor esperado
igual a 25, 75. Además, como la fracción de muestreo es aproximadamente igual a 0,067 se debe
considerar el coeciente de corrección para el cálculo de la varianza de X̄.
Luego:
5, 252
 
1.500 − 100
σx̄2 = = 0, 257
100 1.500 − 1
Por lo tanto: σx̄ = 0, 507 aproximadamente.

106
Se pide calcular Pr(25 ≤ X̄ ≤ 27).
Hay que estandarizar los valores x̄1 = 25 y x̄2 = 27.
Si x1 = 25 entonces:
25 − 25, 75
z1 = = −1, 48
0, 507
Si x2 = 27 entonces:
27 − 25, 75
z2 = = 2, 46
0, 057
Por lo tanto
Pr(25 ≤ X̄ ≤ 27) = Pr(X̄ ≤ 27) − Pr(X̄ ≤ 25) = Pr(Z ≤ 2.46) − Pr(Z ≤ −1, 48)

Finalmente:
Pr(Z ≤ 2, 46) − Pr(Z ≤ −1, 48) = 0, 9932 − 0, 0694 = 0, 9238

4.4. Estimación de la media de una población


Cuando el objetivo de la inferencia es la estimación de algún parámetro hay dos maneras de hacerlo:
mediante una estimación puntual o por medio de un intervalo de conanza.
Supongamos que se quiera estimar la media µ de una población. Si se opta por una estimación
puntual se debería proceder de la siguiente manera.
Se debe seleccionar una muestra aleatoria de la población. A partir de la muestra se calcula x̄0 . Su
valor se toma como una estimación de la media poblacional desconocida.
La única condición que debe cumplirse en una estimación puntual de la media de una población,
o de cualquier otro parámetro, es que la muestra sea aleatoria.
Existe un problema obvio relacionado con las estimaciones puntuales: aunque solo está implícito
un solo parámetro, el número posible de estimaciones generalmente es muy grande.
Cada una de las muestras aleatorias posibles que se puedan tomar de la población arrojará una
estimación deferente.
Sabemos por estudio de la distribución de probabilidad de la variable aleatoria media muestral X̄
que algunos de sus valores estarán cerca de µ mientras que otros valores estarán más alejados.
Sin embargo, una vez que se realiza la estimación no se sabe lo cerca que esta el valor de x̄0 del
valor de µ.
Puede considerarse como poco probable que la estimación lograda sea exactamente igual al valor
de µ, pero en un problema especíco no estaremos en condición de armar en cuanto nos hemos
equivocado.
Es decir, en las estimaciones puntuales existe un problema de incertidumbre que no se puede evitar.
Con el propósito de acotar (no de eliminar) la incertidumbre de las estimaciones puntuales se puede
estimar µ por medio de un intervalo de conanza.
En general, un intervalo de conanza para µ tiene la siguiente forma:

C(LIC ≤ µ ≤ LSC) = 1 − α
En esta expresión, LIC recibe el nombre de límite inferior de conanza mientras que LSC recibe
el nombre de límite superior de conanza.
Además, 1 − α es un número real comprendido en el intervalo (0, 1). Cuanto más cercano a 1 sea el
valor de 1 − α es más probable que el valor desconocido del parámetro µ esté comprendido entre
los límites superior e inferior del intervalo de conanza.
En lo que sigue veremos como se construyen intervalos de conanza para estimar la media µ de
una población en tres situaciones diferentes:

107
1. Cuando la muestra que se selecciona de una población Normal con varianza conocida

2. Cuando la muestra se selecciona de una población Normal con varianza desconocida

3. Cuando la muestra se selecciona de una población sin distribución Normal con varianza
desconocida

4.4.1. Estimación de la media de una población normal con varianza


conocida
En esta sección veremos como es posible construir un intervalo de conanza par estimar la media
µ de una población.
Vamos a suponer que:

La población de cual se selecciona la muestra está normalmente distribuida

La varianza poblacional σ 2 es conocida

En una situación real es poco probable que se conozca la varianza de una población si no se conoce
el valor de su media. Recuerde que la varianza poblacional se calcula de la siguiente manera:

Pn
i=1 (xi − µ)2
σ2 =
N

Es decir, para calcular la varianza σ 2 se debe conocer en primer lugar el valor de la media pobla-
cional µ.
Sin embargo, supondremos por el momento que se conoce σ 2 con el n de facilitar nuestro análisis.
Más adelante estudiaremos situaciones más reales en los cuales no se conoce la varianza poblacional.
Por lo tanto, partimos de la hipótesis de que la población cuya media queremos estimar tiene
distribución Normal con varianza σ 2 conocida.
Es decir, la densidad de probabilidad de la población es la siguiente:

1 (x−µ)2
f (x) = √ e− 2σ 2
2πσ 2

en la cual se desconoce el valor de la media µ.


Hemos visto al estudiar la distribución de probabilidad de la variable aleatoria media muestral que
si la población de la cual se seleccionan las muestras tiene distribución Normal, entonces la variable
aleatoria media muestral X̄ también tiene distribución Normal.
Una consecuencia directa de esta propiedad es que la variable aleatoria

X̄ − µ
Z= √
σ/ n

tiene distribución Normal Estándar.


Seleccionemos dos valores −z y z de la variable aleatoria Z de manera que equidisten de la media
0, de de forma tal que el área comprendida entre el gráco de f (z), el eje de los valores de la
variable Z y los segmentos verticales trazados por −z y z sea 1 − α. En la Figura (4.5) se muestra
el área en cuestión mediante la región rayada.

108
Figura 4.5: Valores de −z y z de la variable aleatoria Z

Teniendo en cuenta la información aportada por la Figura (4.5) podemos escribir e interpretar el
siguiente enunciado probabilístico:
 
X̄ − µ
Pr −z ≤ √ ≤z =1−α (4.1)
σ/ n

Los valores de −z y z quedan denidos por el valor de 1 − α.


Por ejemplo:

Si 1 − α = 0, 90 entonces z = ±1, 645 aproximadamente


Si 1 − α = 0, 95 entonces z = ±1, 960 aproximadamente
Si 1 − α = 0, 99 entonces z = ±2, 580 aproximadamente
etc.

Vamos a realzar algunas transformaciones en la Fórmula (4.1)


Quitando el denominador obtendremos
 
σ σ
Pr −z √ ≤ X̄ − µ ≤ z √ =1−α
n n

Restando miembro a miembro X̄ :


 
σ σ
Pr −X̄ − z √ ≤ −µ ≤ −X̄ + z √ =1−α
n n

Multiplicando todo el paréntesis por −1 obtenemos:


 
σ σ
Pr X̄ + z √ ≥ µ ≥ X̄ − z √ =1−α
n n

De manera equivalente:
 
σ σ
Pr X̄ − z √ ≤ µ ≤ X̄ + z √ =1−α (4.2)
n n

¾Como se puede interpretar el enunciado de probabilidad de la Fórmula (4.2) ? Una forma de


hacerlo es a partir de la denición de probabilidad como frecuencia relativa.

109
Consideremos la siguiente armación de probabilidad para un evento A generado por un experi-
mento aleatorio.
Pr(A) = 0, 95

¾Cómo puede interpretarse este enunciado de probabilidad?


A partir de la denición de probabilidad de un evento como frecuencia relativa, podemos armar
que si se repite un gran número de veces el experimento aleatorio que genera el evento A, apro-
ximadamente el 95 % de las veces obtendremos tal evento y solamente en el 5 % de las veces no
ocurrirá.
Entonces, el enunciado de probabilidad de la Fórmula (4.2) puede interpretarse de la siguiente
manera. Supongamos que 1 − α = 0, 95, diremos entonces que si se seleccionan un gran número de
muestras aleatorias de una población normal con varianza σ 2 conocida, aproximadamente el 95 %
de las veces el intervalo
 
σ σ
X̄ − 1, 96 √ ; X̄ + 1, 96 √ (4.3)
n n

contendrá el valor de la media poblacional desconocida. Por lo tanto, solo un 5 % de los intervalos
no contendrán el valor de µ.
El intervalo expresado por la Fórmula (4.3) recibe el nombre de intervalo aleatorio de conanza.
En una situación práctica no se selecciona un gran número de muestras aleatorias para estimar µ.
Se selecciona unicamente una y con ella se calcula un solo valor de X̄ . Llamemos a este valor x̄0 .
Reemplazando esta cantidad en la Fórmula (4.2) obtendremos
 
σ σ
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.4)
n n

donde la letra C indica que el intervalo es un intervalo de conanza. Es decir, se trata de una
armación de conanza y no un enunciado de probabilidad.
¾Por qué este cambio? Cuando se realizan los cálculos pertinentes resulta que LIC = x̄0 − z √σn y
LSC = x̄0 +z √σn en general son números reales. Recuerde que solo podemos calcular probabilidades
para variables aleatorias y las cantidades LIC , LSC y µ no lo son.
El término 1 − α recibe el nombre de coeciente de conanza e indica el grado de conanza de que
el intervalo calculado contenga la media poblacional desconocida µ.
El coeciente de conanza expresado en porcentaje recibe el nombre de nivel de conanza.
El grado de conanza de que el intervalo denido por la Fórmula (4.4) contenga a la media po-
blacional desconocida depende del valor de 1 − α. Cuanto más cercano a uno sea su valor más
conados estaremos.
Puede verse que, en términos generales, un intervalo de conanza del tipo establecido por la
Fórmula (4.4) consta de tres cantidades: x̄0 , z y √σn . Analicemos cada uno de estos términos:
x̄0 es el valor del estimador media muestral calculado a partir de una muestra
√ aleatoria de tamaño
n seleccionada de la población, z se llama factor da conabilidad y σ/ n es la desviación estándar
o error estándar del estimador.
Podemos expresar un intervalo de conanza para la media de una población de la siguiente manera:

Estimador ±(factor de conabilidad)(error estándar del estimador) (4.5)


La Fórmula (4.4) puede escribirse de manera reducida de la siguiente manera
σ
x̄0 ± z √ (4.6)
n
Cuando se considera el signo menos de esta última expresión se obtiene el valor del límite inferior
de conanza. Cuando se considera el signo más se obtiene el valor del límite superior de conanza.

110
Ejemplo 4.3. Una muestra de 36 estudiantes del último año de la carrera de contador dio como
resultado un promedio en sus calicaciones de x̄ = 6, 9 puntos. Si bien es cierto este puntaje
puede cambiar de muestra en muestra, se sabe que la desviación estándar poblacional se mantiene
más o menos constante en el valor σ = 0, 3 puntos. Estime la calicación promedio de todos los
estudiantes de la carrera de contador:

1. Puntualmente

2. Por medio de un intervalo de 95 % de conanza

3. Por medio de un intervalo de 99 % de conanza

4. Comente lo resultados obtenidos

Solución
Los datos para este ejemplo son los siguientes:

X = Calicaciones de los estudiantes del último año de la carreta de contador

Además: n = 36, x̄0 = 6, 9 y σ = 0, 3.

Primer punto

Según los datos del ejemplo con la muestra de n = 36 estudiantes se obtuvo x̄0 = 6, 9 puntos. Este
valor se puede tomar como una estimación puntual de la media poblacional a partir de la muestra
de 36 estudiantes de la carrera de contador.

Segundo punto

Si bien es cierto no se conoce la distribución probabilidad de la variable X , el tamaño de la muestra


es lo sucientemente grande como para aplicar el Teorema del Límite Central.
Por lo tanto, la variable aleatoria

X̄ − µ
Z= √
σ/ n

tiene aproximadamente distribución Normal Estándar.


Como 1 − α = 0, 95 entonces z = ±1, 96.
Luego:
 
0, 3 0, 3
C 6, 9 − 1, 96 √ ≤ µ ≤ 6, 9 + 1, 96 √ = 0, 95
36 36

Finalmente:

C(6, 8 ≤ µ ≤ 6, 99) = 0, 95

Conclusión: No se sabe cuál es valor del puntaje promedio poblacional µ pero se estima que puede
ser algún valor comprendido entre 6,8 y 6,99 puntos con una conanza del 95 %.

111
Tercer punto
Como ahora 1 − α = 0, 99, entonces z = ±2, 58 . Por lo tanto, el intervalo de conanza es el
siguiente
 
0, 3 0, 3
C 6, 9 − 2, 58 √ ≤ µ ≤ 6, 9 + 2, 58 √ = 0, 95
36 36
Finalmente

C(6, 77 ≤ µ ≤ 7, 03) = 0, 99

Se deja como actividad propuesta interpretar este intervalo de conanza.

Cuarto punto
Analicemos en profundidad los resultados obtenidos.
Para 1 − α = 0, 95 la amplitud del intervalo de conanza es LSC − LIC = 6, 99 − 6, 8 = 0, 19
puntos.
Para 1 − α = 0, 99 la amplitud del intervalo de conanza es LSC − LIC = 7, 03 − 6, 77 = 0, 26
puntos.
Por lo tanto, al aumentar la conanza en la estimación aumenta la amplitud del intervalo de
conanza obtenido y como consecuencia de ello disminuye la precisión de la estimación.

4.4.2. Estimación de la media de una población normal con varianza


desconocida
En la construcción de los intervalos de conanza para estimar la media de una población que ana-
lizamos en las secciones anteriores hemos supuesto que la varianza de la población σ 2 es conocida.
En realidad, el valor de la varianza poblacional por lo general también es desconocido y debe ser
estimado. Habitualmente la varianza poblacional σ 2 se estima por medio de la varianza muestral
S2.
Hemos visto también que cuando las muestras se toman de una población Normal con varianza
conocida, la variable aleatoria
X̄ − µ
Z= √
σ/ n

tiene distribución Normal Estándar.


Además, aún cuando las muestras se seleccionen de una población sin distribución Normal, hemos
estudiado que la variable aleatoria σ/ √ tendrá aproximadamente distribución Normal Estándar
X̄−µ
n
siempre y cuando las muestras sean lo sucientemente grandes (Teorema del Límite Central).
Pero como hemos dicho, en la mayoría de los problemas prácticos la varianza poblacional se des-
conoce.
Entonces, ¾es posible estimar la media de una población por medio de un intervalo de conanza
cuando no se conoce la varianza de la población?
La respuesta es armativa, siempre y cuando se tengan en cuanta algunas consideraciones que
describimos a continuación
En el año 1908 el estadístico W. S. Gosset, quien publicaba sus trabajos con el seudónimo de
Student describió la distribución de probabilidad de la variable aleatoria

X̄ − µ
T = √ (4.7)
S/ n

112
cuando las muestras se seleccionan de una población distribuida normalmente con varianza σ 2
desconocida. Note que en la Fórmula (4.7) se ha reemplazado la desviación estándar poblacional
σ por la desviación estándar muestral S .
Esta nueva distribución de probabilidad que se conoce con el nombre de distribución t de Student
o simplemente con el nombre de distribución t sirve, entre otras cosas, para estimar la media
de una población por medio de un intervalo de conanza en poblaciones normales con varianza
desconocida.
Antes de construir intervalos de conanza para µ utilizando la distribución t de Student vamos
denirla y estudiar sus principales propiedades.
Partimos de la siguiente denición:
Denición 4.1. Se dice que una variable aleatoria T tiene distribución t de Student si su función
de densidad es n+1 −
Γ n+1

t2
 2

f (t) = q n  1+
nπΓ n2 n

∞
donde Γ es la función gamma denida de la siguiente manera: Γ(z) = 0
t(z−1) e−t dt.

La dicultad matemática de la fórmula de denición de la distribución t no permite apreciar sus


características más importantes.
Afortunadamente no será necesario utilizar la densidad f (t) para realizar inferencias. Alcanza con
tener siempre presente las propiedades que listamos a continuación.
Supongamos que una variable aleatoria T tiene distribución t de Student, entonces

−∞ < t < ∞. Es decir, la variable T puede tomar cualquier número real

f (t) > 0

E(T ) = 0 y V (T ) = n
n−2

El gráco de f (t) es simétrico y con forma de campana y centrado en 0 tal como se muestra
en la Figura (4.6)

Figura 4.6: Distribución genérica de Student

 +∞
−∞
f (t)dt = 1

Hay una distribución t para cada grados de libertad k = n − 11


En la Figura (4.7) se muestran varias distribuciones t de Student para distintos grados de
libertad
1 Un poco más adelante explicamos en concepto de grados de libertad

113
Figura 4.7: Distribuciones t para distintos grados de libertad

A medida que los grados de libertad aumentan los valores de probabilidad de distribución t
tienden a los valores de probabilidad de la distribución Normal Estándar. Es decir:

lı́m f (t) = f (z)


k→∞

siendo f (z) la función de densidad de la distribución Normal Estándar.


Existen tablas que se pueden utilizar en la solución de problemas que requieran el uso de la
distribución t. Una de ellas es la tabla que acompaña este material.
En la columna que está más a la izquierda de la tabla se registran distintos valores de grados de
libertad. Los encabezamientos de las columnas indican la proporción del área total bajo la curva
que se encuentra a la izquierda del valor correspondiente de la variable registrado en el cuerpo de
la tabla.
Por ejemplo si estamos interesados en la distribución t con 10 grados de libertad, se puede apreciar
en la tabla que 0,975 , o el 97,5 % del área bajo la curva de la distribución se encuentra a la
izquierda de t = 2, 2281. Luego, la porción del área que se encuentra a la derecha de este valor es
igual a 1 − 0, 975 = 0, 025.
Utilizando el símbolo T10 para indicar que nos referiremos a una variable aleatoria con distribución
t de Student con 10 grados de libertad podemos expresar estas ideas escribiendo:

Pr(T10 ≤ 2, 2281) = 0, 975

además:

Pr(T10 ≥ 2, 2281) = 1 − Pr(T10 < 2, 2281) = 1 − 0, 975 = 0, 025

Hemos dicho que los valores de probabilidad distribución t se aproxima a los de la distribución
Normal Estándar a media que aumentan sus grados de libertad.
Para grandes grados de libertad los valores de las probabilidades son casi iguales. Se puede vericar
esta propiedad observando que los valores de probabilidad de la distribución t en las últimas las
de la tabla son casi iguales a los valores de probabilidad de la distribución Normal Estándar.
Por último, observemos que, aunque la distribución t se basa en la hipótesis de que la muestra se
selecciona de una población distribuida normalmente, se pueden tolerar algunos distanciamientos
de esta suposición.
En otras palabras, podemos utilizar la distribución t aunque la población de las cuales se seleccionen
las muestras no esté distribuida normalmente, con la condición de que el alejamiento respecto de
la normalidad no sea demasiado grande.
Como la distribución t tiende a la distribución Normal Estándar a mediada que aumentan los grados
de libertad (o el tamaño de la muestra) , muchos investigadores preeren utilizar la distribución

114
Normal Estándar y no la la distribución t cuando el tamaño de la muestra es sucientemente
grande.
Pare nalizar esta sección damos idea aproximada del concepto de grados de libertad.
Supongamos que se quiera estimar la varianza poblacional σ 2 por medio de la varianza muestral
S 2 . Como sabemos, la expresión que dene la varianza muestral es la siguiente:
Pn
2 − X̄)2
i=1 (Xi
S =
n−1
donde X̄ es la variable aleatoria media muestral que, como sabemos, estima a la media poblacional
µ.
Para calcular la varianza muestral, en primer lugar se debe estimar la media poblacional µ por
medio de la media muestral X̄ .
Podemos denir, sin mucha rigurosidad, como grados de libertad al número que resulta de realizar
la diferencia entre el tamaño de la muestra y el número de parámetros que hay que estimar para
calcular la varianza muestral.
Como para calcular S 2 primero hay que estimar un solo parámetro (µ), los grados de libertad de
S 2 son k = n − 1.
Los estadísticos han demostrado que dividiendo ni=1 (Xi − X̄)2 por sus grados de libertad (n − 1)
P
se obtiene un estimador insesgado de la varianza poblacional σ 2 .
Estamos por n en condiciones de estudiar como se construyen intervalos de conanza para estimar
la media de una población que tiene distribución normal de probabilidad y de la cual nos se conoce
su varianza.
El razonamiento que se sigue es el siguiente. Hemos estudiado que si de una población distribui-
da normalmente con varianza desconocida se toman muestra aleatorias de tamaño n, la variable
aleatoria T = S/ √ tiene distribución t con n − 1 grados de libertad.
X̄−µ
n
Podemos entonces plantear e interpretar el siguiente enunciado de probabilidad:
 
X̄ − µ
Pr −t ≤ √ ≤t =1−α
S/ n

Figura 4.8: Distribución de probabilidad de la variable T = X̄−µ



S/ n

donde −t y t se seleccionan simétricamente alrededor de la media de la variable T . Además, sus


valores quedan determinados por de 1 − α y por los grados de libertad correspondientes.
Luego de realizar algunas operaciones algebraicas dentro del paréntesis de la expresión anterior
podemos escribir

115
 
S S
Pr X̄ − t √ ≤ µ ≤ X̄ + t √ =1−α
n n

Si en la fórmula precedente se remplaza X̄ por x̄0 y S por s0 ambas cantidades calculadas a partir
de la muestra de tamaño n se obtiene:
 
s0 s0
C x̄0 − t √ ≤ µ ≤ x̄0 + t √ =1−α (4.8)
n n

La Fórmula (4.8) se utiliza para estimar, por medio de un intervalo de conanza, la media µ de
una población Normal con varianza desconocida.
En forma abreviada, la expresión anterior se pude escribir de la siguiente manera:
s0
x̄0 ± t √
n
Si se considera el signo menos se obtiene el límite inferior de conanza LIC = x̄0 − t √s0n . Si se
considera en signo más se obtiene el límite superior de conanza LSC = x̄0 + t √s0n .
Hemos distinguido los casos de varianza poblacional conocida y desconocida para encontrar las
fórmulas que nos permiten estimar µ por medio de un intervalo de conanza.
Además, la distribución de probabilidad de la población y el tamaño de la muestra juegan un papel
importante en la construcción de los intervalos de conanza.
Debe recordarse que si la varianza poblacional σ 2 se conoce, se obtiene los mismos resultados al
estimar µ por medio de un intervalo de conanza tanto si la población tiene distribución Normal
o si se dan las condiciones para aplicar el Teorema del Límite Central.
En esta caso utilizaríamos la siguiente fórmula para estimar µ mediante un intervalo de conanza:
 
σ σ
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α
n n

Para el caso de que la varianza poblacional σ 2 se desconozca se utiliza la distribución t de Student


asumiendo que la población de la cual se toma la muestra tiene distribución Normal de probabilidad.
En este caso utilizaríamos la expresión
 
s0 s0
C x̄0 − t √ ≤ µ ≤ x̄0 + t √ =1−α
n n

para realizar la estimación.


Además, los especialistas en Estadística recomiendan que cuando no se pueda sostener la hipótesis
de normalidad de la población y además se desconoce su varianza σ 2 , se puede reemplazar σ por
s0 y utilizar la fórmula
 
s0 s0
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.9)
n n

para estimar µ siempre que n ≥ 30.


La justicación de esta armación se basa en la suposición de que cuando n ≥ 30, el valor de s
tomará un valor muy próximo al de la desviación estándar poblacional σ . Además, para muestras
grandes, se mantienen las condiciones de aplicabilidad el Teorema del Límite Central.
Ejemplo 4.4. En la Tabla (4.5) se muestran los registros de las mediciones del tiempo en minutos
que tardaron 15 operarios para familiarizarse con el funcionamiento de una máquina recientemente
adquirida por la empresa. Suponga que la variable tiempo transcurrido en familiarizarse con el uso
de la máquina tiene distribución Normal.

116
1. Estime tiempo promedio poblacional µ requerido por todos los operarios de la empresa para
familiarizarse con el uso de la máquina a partir de un intervalo de 95 % de conanza
2. El instructor considera que el verdadero tiempo promedio requerido por todos los operarios
de la empresa que recibirían instrucción acerca del funcionamiento de la máquina está por
encima de los 5 minutos. ¾Qué puede decirse de esta armación a partir de los resultados
del punto anterior

3,4 2,8 4,4 2,5 3,3 4,0 4,8 2,9 5,6 5,2 3,7 3,0 3,6 2,8 4,8
Tabla 4.5: Datos para el Ejemplo (4.4)

Solución

Primer punto
Media de la muestra:
3, 4 + 2, 8 + · · · + 4, 8
x̄0 = = 3, 79
15
Por lo tanto, se estima que en promedio, los operarios tardarán 3, 79 en familiarizarse con el
funcionamiento de la máquina.
Varianza de la muestra:
(3, 4 − 3, 79)2 + (2, 8 − 3, 79)2 + ... + (4, 8 − 3, 79)2
s20 = = 0, 9409
15 − 1

Luego: s0 = 0, 9409 = 0, 97.
Los valores de t para 14 grados de libertad y para 1 − α = 0, 95 son ±2, 1448.
El intervalo de conanza para µ es el siguiente
 
0, 94 0, 94
C 3, 79 − 2, 1448 √ ≤ µ ≤ 3, 79 + 2, 1448 √ = 0, 95
15 15
O bien:

C(3, 25 ≤ µ ≤ 4, 32) = 0, 95

Segundo punto
De acuerdo con el intervalo de conanza hallado no parece correcta la armación del instructor
puesto que el promedio 5 minutos está por encima del extremos superior de conanza. Es decir,
parece ser que el tiempo promedio requerido por los operarios de la empresa en aprender a utilizar
la máquina es menor.

4.4.3. Población nita. Muestras sin reposición


Los resultados anteriores son correctos si la muestra se selecciona de una población innita o cuando
siendo nita, la muestra se toma con reposición.
Cuando la población es nita y el muestreo se realiza sin reposición habrá que agregar el factor de
corrección para poblaciones nitas en la expresión de la desviación estándar de la variable aleatoria
media muestra X̄.
En aquellos casos en los cuales se seleccionan muestras sin reposición de una población nita de
tamaño N se obtienen las siguientes expresiones para estimar la media poblacional por medio de
un intervalo de conanza:

117
Para poblaciones normales con varianza poblacional conocida, o si se dan las condiciones para
aplicar el Teorema del Límite Central:
r r !
σ N −n σ N −n
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.10)
n N −1 n N −1

De forma abreviada: r
σ N −n
x̄0 ± z √ (4.11)
n N −1

Si la muestra se toma de una población Normal con varianza desconocida


r r !
s0 N −n s0 N −n
C x̄0 − t √ ≤ µ ≤ x̄0 + t √ =1−α (4.12)
n N −1 n N −1

O bien
r
s0 N −n
x̄0 ± t √ (4.13)
n N −1

Por último, si la población estudiada no tiene distribución Normal y no se conoce su varianza pero
la muestra es grande, una estimación de la media µ por medio de un intervalo de (1 − α)100 % de
conanza se puede realizar utilizando la siguiente expresión:
r r !
s0 N −n s0 N −n
C x̄0 − z √ ≤ µ ≤ x̄0 + z √ =1−α (4.14)
n N −1 n N −1

O bien
r
s0 N −n
x̄0 ± z √ (4.15)
n N −1

Estas dos últimas expresiones se puede justicar por aplicación del Teorema del Límite Central y
por el hecho adicional de que para muestras grandes, la varianza muestral S 2 resulta ser una buena
estimación e la varianza poblacional σ 2 .
Es decir, para muestras grandes (n ≥ 30) la variable aleatoria

X̄ − µ
Z= q (4.16)
s0
√ N −n
n N −1

tiene aproximadamente distribución normal estándar.


Ejemplo 4.5. El jefe de personal de una empresa quiere estimar el puntaje promedio que ob-
tendrían en una prueba de aptitud los 5.500 empleados de la compañía. Para ello selecciona una
muestra aleatoria de 250 empleados y a partir de esta muestra obtiene un puntaje medio de 65
puntos y una desviación estándar de 15 puntos. Estimar el puntaje medio poblacional mediante un
intervalo de 95 % de conanza.

Solución
Variable:

X = Puntaje obtenido en la prueba de aptitud por los empleados de la compañía

118
Datos: N = 5.500, n = 250, x̄0 = 65 y s0 = 15. No se tiene información acerca de la distribución
de la población pero como n ≥ 30 se puede aplicar el Teorema del Límite Central y aproximar σ
por medio del valor de s.
Por lo tanto, utilizaremos la expresión:
r
s0 N −n
x̄0 ± z √
n N −1

para estimar µ.
Reemplazando valores:
r
15 5.500 − 250
62 ± 1, 96 √
250 5.500 − 1
Efectuando las operaciones indicadas obtenemos:

C(63 ≤ µ ≤ 67) = 0, 95
En consecuencia, se estima que el puntaje promedio que obtendrían los 5.500 empleado sería algún
valor comprendido entre 63 y 67 puntos con una conanza de 95 %.

4.5. Estimación de la proporción de una población


En la práctica, puede ser necesario realizar inferencias acerca de la proporción de éxitos en una
población.
Un investigador de mercados puede estar interesado en estimar la proporción de personas de una
ciudad que preere cierta marca de yerba mate.
Un candidato político a la intendencia de una ciudad puede estar interesado en estimar la propor-
ción de ciudadanos que van a votar por su fórmula en las próximas elecciones municipales.
Como todo parámetro poblacional, la proporción de éxitos en una población se puede estimar
puntualmente o por medio de un intervalo de conanza.
Para estimar p puntualmente se puede proceder de la siguiente manera:
1. Se selecciona una muestra aleatoria de tamaño n de la población
2. Se cuenta el número de éxitos x en la muestra
3. Se calcula la proporción p̄ = x
n

4. Se toma el valor de p̄ como estimación de la proporción poblacional


Así se procedió en el Capítulo 1 de este material cuando se denió y se utilizó la proporción
muestral p̄.
Una estimación puntual de la proporción adolece de los mismos problemas de incertidumbre que
una estimación puntual de la media µ de una población.
Es posible acotar esta incertidumbre estimando p por medio de un intervalo de conanza.
Para estimar la proporción p de éxitos en una población por medio de un intervalo de conanza
debemos denir y caracterizar las propiedades del estadístico P̄ o proporción muestral que se dene
de la siguiente manera:

X
P̄ = (4.17)
n
donde X es el número de éxitos en la muestra de tamaño n.
¾Cuáles son las propiedades probabilísticas de la variable aleatoria proporción muestral? Las resu-
mimos en el siguiente teorema que enunciamos sin demostración.

119
Teorema 4.1. La distribución muestral de P̄ o proporción muestral, calculada a partir de muestras
aleatorias simple de tamaño n tomadas de una población en la que la proporción de éxitos es p,
tiene distribución aproximadamente Normal si np y n(1 − p) = nq son mayores que 5. Además
  N −n 
E(P̄ ) = µp̄ = p y σp̄ = n
2 pq
N −1 donde N es el tamaño de la población. Puede omitirse el
coeciente de corrección para poblaciones nitas si N ≥ 20n o si n/N ≤ 0, 05.
Si se cumplen las condiciones del teorema anterior, también puede demostrarse que la variable
aleatoria
P̄ − p
Z=r   (4.18)
pq N −n

n N −1

tiene aproximadamente distribución Normal Estándar.


Ejemplo 4.6. Se sabe que el 60 % de las amas de casa de la cuidad asisten regularmente a un
supermercado radicado en la misma. Se toma una muestra aleatoria de 150 amas de casa de la
ciudad. ¾Cuál es la probabilidad de que la proporción muestral que se pueda calcular con esta
muestra esté entre 0, 5 y 0, 7? Asuma que N ≥ 20n.
Solución
Datos: p = 0, 60 y q = (1 − 0, 60) = 0, 40, n = 150. Además N ≥ 20n
Hay que calcular Pr(0, 5 ≤ P̄ ≤ 0, 7)
Como np = 150(0, 60) = 90 y n(q) = 150(0, 40) = 60, entonces P̄ tiene distribución aproximada-
mente Normal.

pq 0, 60 × 0, 40
σp̄2 = = = 0, 0016
n 150

Luego σp̄ = 0, 0016 = 0, 04
Se deben estandarizar los valores p̄1 = 0, 5 y p̄2 = 0, 7.
Por lo tanto, para p̄1 = 0, 5

0, 5 − 0.6
z1 = = −2, 5
0, 04
Para p̄2 = 0, 7

0, 7 − 0, 6
z2 = = 2, 5
0, 04
Finalmente

Pr(0, 5 ≤ P̄ ≤ 0, 7) = Pr(P̄ ≤ 0, 7) − Pr(P̄ ≤ 0, 5)

Pr(0, 5 ≤ P̄ ≤ 0, 7) = Pr(Z ≤ 2, 5) − Pr(Z ≤ −2, 5)

Pr(0, 5 ≤ P̄ ≤ 0, 7) = 0, 9939 − 0, 0062 = 0, 9877

4.5.1. Intervalos de conanza para estimar p


Como se dijo, para estimar la proporción de éxitos de una población por medio de un intervalo de
conanza se deben tener en cuenta las propiedades de la variable aleatoria proporción muestral P̄
enunciadas en el Teorema (4.1)
Hemos visto que si np y nq son productos mayores que 5, la variable aleatoria P̄ tiene distribución
aproximadamente Normal.

120
Por lo tanto, la variable aleatoria

P̄ − p
Z=p
pq/n

tiene distribución Normal Estándar.


A partir de estas conclusiones se puede escribir e interpretar el siguiente enunciado probabilístico:
!
P̄ − p
Pr −z ≤ p ≤z =1−α
pq/n

Luego de algunas transformaciones algebraicas en la expresión entre paréntesis se llega a la siguiente


expresión de conanza:
 r r 
pq pq
C p̄ − z ≤ p ≤ p̄ + z =1−α (4.19)
n n

Como en realidad no se conocen p y q σp̄ = pq n también es desconocido. Por lo tanto, la desviación


p

estándar de la proporción muestral, σp̄ , también debe ser estimada.


Reemplazando p y q por sus estimaciones p̄ y q̄ calculadas con la muestra de tamaño n, la desviación
estándar estimada de la variable aleatoria proporción muestral P̄ es la siguiente:
r
p̄q̄
sp̄ =
n

Por lo tanto, utilizaremos la fórmula


r r !
p̄q̄ p̄q̄
C p̄ − z ≤ p ≤ p̄ + z =1−α (4.20)
n n

para estimar p por medio de un intervalo de conanza.


Cuando la muestra se selecciona sin reposición de una población nita de tamaño N , debe conside-
rarse el coeciente de corrección para poblaciones nitas en la expresión de la desviación estándar
estimada de P̄ .
En este caso, la expresión para estimar la proporción poblacional p por medio de un intervalo de
conanza es la siguiente:
" r r r r #
p̄q̄ N −n p̄q̄ N −n
C p̄ − z ≤ p ≤ p̄ + z =1−α (4.21)
n N −1 n N −1

Si N ≥ 20n el valor del coeciente de corrección para poblaciones nitas tomará un valor cercano
a uno y puede no se tenido en cuenta.
Ejemplo 4.7. Una cadena de supermercados cuenta con 10.000 poseedores de una tarjeta de
créditos emitida por la empresa a quienes se les factura los gastos de cada mes. El administrador
de dicha tarjeta quiere estimar la proporción de clientes poseedores de la tarjeta que asistirían
a los supermercados de la cadena si estuvieran abierto los días domingos. Para ello toma una
maestra aleatoria sin reposición de 100 poseedores de la tarjeta y encuentra que 60 indicaron que
comprarían los días domingos. El administrador quiere obtener una estimación puntual y por medio
de un intervalo de 99 % de conanza de la proporción de los poseedores de la tarjeta que asistirían
a los locales de la cadena si estuvieran abiertos los días domingos.

Solución
Datos: N = 10.000, muestra n = 100 sin reposición, número de éxitos en la muestra x = 60.

121
Por lo tanto, p̄ = 60
100= 0, 60, en consecuencia q̄ = 0, 40. Además, como np̄ = 100(0, 60) = 60 y
nq̄ = 100(0, 40) = 40, entonces P̄ tiene distribución aproximadamente Normal.
Como 10.000
100
=0,01 podría omitirse el coeciente de corrección para poblaciones nitas. No obstante
los consideraremos en nuestros cálculos.
Además
r r
0, 60 × 0, 40 10.000 − 100
sp̄ = = 0, 0486
100 10.000 − 1
Como 1 − α = 0, 99 entonces z1 = −2, 58 y z2 = 2, 58.
Por lo tanto

C [0, 60 − (2, 58)(0, 0486) ≤ p ≤ 0, 60(2, 58)(0, 0486)] = 0, 99

Finalmente, la estimación de p por medio de un intervalo de 99 % de conanza se explicita mediante


la siguiente expresión:

C(0, 474 ≤ p ≤ 0, 725) = 0, 99

Por lo tanto, la proporción de poseedores de la tarjeta de crédito que estarían dispuestos a acudir
a alguna sucursal de la cadena del supermercado los días domingos es algún valor entre 47,4 y 72,5
por ciento con una conanza del 95 por ciento.

4.6. Estimación de la varianza poblacional


Cuando denimos las medidas descriptivas numéricas en el Capitulo 1 de este material habíamos
dicho que un conjunto de observaciones no quedaba completamente descrito si a las medidas de
posición o de localización no se las completaba con alguna medida de dispersión.
Existen muchas medidas descriptivas numéricas de dispersión pero tal vez una de las más utilizada
sea la varianza σ 2 poblacional.
Resulta que la varianza poblacional σ 2 también es un parámetro en general desconocido y que de
ser necesario, deberá ser estimado. Es lo que haremos en la siguiente sección.

4.6.1. Distribución Chi cuadrado y la distribución de (n−1)S 2


σ2

Hemos estudiado las distribuciones de probabilidad de la media muestral X̄ y de la proporción


muestral P̄ como fundamento para la construcción de intervalos de conanza con el n de estimar
la media µ y de la proporción p de una población.
Se podría pensar que para realizar inferencias acerca de la varianza σ 2 de una población se de-
bería
Pn
estudiar la distribución de probabilidad de la variable aleatoria varianza muestral S 2 =
2
i=1 (Xi −X̄i )
n−1 .
En realidad, la distribución de probabilidad de varianza muestral S 2 no tiene mayor interés para
la Estadística aplicada.
Sin embargo, si las muestras se toman de una población con distribución Normal, la distribución
de probabilidad de una variable aleatoria relacionada con S 2 es de enorme importancia.
En el siguiente resultado que damos sin demostración se explica las propiedades de esta nueva
variable aleatoria.
Pn 2
Teorema 4.2. Si S 2 = i=1n−1 (Xi −X̄)
es la varianza de una muestra aleatoria de tamaño n selec-
cionada de una población distribuida normalmente con varianza σ 2 , entonces la variable aleatoria
2
χ2 = (n−1)S
σ2 tiene distribución Chi cuadrado con k = n − 1 grados de libertad.

122
2
Aparecen entonces dos nuevos conceptos, una nueva variable aleatoria, χ2 = (n−1)S
σ2 y una nueva
distribución de probabilidad, la distribución de probabilidad Chi cuadrado.
Comenzamos caracterizando este nuevo modelo de distribución de probabilidad. Posteriormente
estudiaremos como se lo puede utilizar para realizar inferencias acerca de la varianza de una
población.
Denición 4.2. Se dice que una variable aleatoria continua X tiene distribución Chi cuadrado
con k grados de libertad si su función de densidad es
1
f (x) = x(k/2−1) e(−x/2) (4.22)
2(k/2) Γ(k/2)

con x > 0

La complejidad matemática de f (x) no permite apreciar las características del modelo.


Afortunadamente, en los problemas prácticos no utilizaremos la densidad f (x) pero sí algunas de
sus propiedades.
Las propiedades más importantes de la distribución Chi cuadrado son las siguientes:

Si una variable aleatoria X tiene distribución Chi cuadrado entonces x ≥ 0, es decir, solo
puede tomar valores reales no negativos.
Si una variable aleatoria X tiene distribución Chi cuadrado, entonces f (x) ≥ 0.
El gráco de de una variable aleatoria que tenga distribución Chi cuadrado es sesgado a
derecha tal como se muestra en la Figura (4.9)

Figura 4.9: Distribución Chi cuadrado con k grados de libertad

El área bajo la curva y el eje de los valores de la variable es igual a uno.


Hay una distribución Chi cuadrado para cada grado de libertad de k de la variable. En la
Figura (4.10) se muestran distribuciones Chi cuadrado para distintos grados de libertad

Si una variable aleatoria X tiene distribución Chi cuadrado con k grados de libertad, entonces
E(X) = k y V (X) = 2k

Para facilitar el cálculo de probabilidades de variables aleatorias que tienen distribución Chi cua-
drado se cuenta con tablas que permiten hallar las áreas asociadas a intervalos limitados por valores
de la variable. Una de esas tablas es la que acompaña este material.

123
Figura 4.10: Distribuciones Chi cuadrado para distintos grados de libertad

En la columna que aparece más a la izquierda de la tabla se registran los grados de libertad de
la variable y los encabezamientos de las columnas indican la proporción del área que queda a la
izquierda del valor de la variable que se registra en el cuerpo de la tabla.
Supongamos que se quiera saber, para una variable aleatoria que tiene distribución Chi cuadrado
con 10 grados de libertad, qué valor de la variable deja a su izquierda 0,95 del área bajo la curva.
Para ello localizamos 10 en la columna de los grados de libertad y también la columna encabezada
con el símbolo χ20,95 .
El valor en la intersección de la la rotulada con el número 10 y la columna con χ20,95 es el valor
de la variable que buscamos que, como vemos es el número 18,307.
Por lo tanto, x = 18, 307 es el valor de la variable que tiene distribución Chi cuadrado con 10
grados de libertad y que acumula el 95 % de probabilidad.
Como el área total bajo la curva es igual a 1, sabemos que el 5 % del área queda a la derecha de
x = 18, 307.
En la Figura (4.11) se muestran estas áreas.

Figura 4.11: Probabilidades y áreas. Distribución Chi cuadrado

4.6.2. Estimación de la varianza poblacional


Si se toma una muestra aleatoria de Ptamaño n de una población con varianza σ 2 desconocida y
n
(Xi −X̄)2
se calcula la varianza muestral S 2 = i=1n−1 este valor puede tomarse como una estimación
puntual de la varianza poblacional desconocida.

124
En consecuencia, para realizar una estimación puntual de la varianza σ 2 de una población se puede
proceder de la siguiente manera:

1. Seleccionar una muestra aleatoria de tamaño n de la población


Pn
2. Calcular x̄0 = i=1
n
xi

Pn 2
i=1 (xi −x̄0 )
3. Calcular s20 = n−1

4. El valor se s20 se toma como la estimación de la varianza poblacional

Para estimar puntualmente la varianza de una población no es necesario hacer suposiciones acerca
de la distribución de probabilidad poblacional. La única exigencia es que la muestra sea aleatoria.
Como en cualquier estimación puntual de de un parámetro, existen en general muchas estimaciones
posibles (una por cada muestra) y solo un parámetro que estimar.
Es decir, al estimar puntualmente σ 2 tendremos el mismo problema de incertidumbre que tuvimos
con las estimaciones de la media µ y la proporción p de una población.
Podemos controlar esta incertidumbre estimando la varianza poblacional σ 2 por medio de un
intervalo de conanza aprovechando las propiedades probabilísticas de la variable aleatoria χ2 =
(n−1)S 2
σ2 .
Habíamos visto que si de una población distribuida normalmente con varianza σ 2 se toman muestras
aleatorias de tamaño n, la variable aleatoria χ2 tiene distribución Chi cuadrado con k = n − 1
grados de libertad.
Esta propiedad nos permite plantear e interpretar el siguiente enunciado probabilístico:

(n − 1)S 2
 
Pr χ21 ≤ ≤ χ 2
2 =1−α (4.23)
σ2

donde χ21 y χ22 son los valores de la variable χ2 que tiene distribución Chi cuadrado con k = n − 1
grados de libertad y que dejan entre si 1 − α por ciento del área total bajo la curva tal como se
muestra en la Figura (4.12).

Figura 4.12: Intervalos de conanza para la varianza poblacional

Al dividir cada término de la desigualdad en la Fórmula (4.23) por (n − 1)S 2 se obtiene

χ21 χ22
 
1
Pr ≤ 2 ≤ =1−α
(n − 1)S 2 σ (n − 1)S 2

Por lo tanto

125
(n − 1)S 2 (n − 1)S 2
 
2
Pr ≥ σ ≥ =1−α
χ21 χ22
Esta última expresión puede reescribirse de la siguiente manera:

(n − 1)S 2 (n − 1)S 2
 
2
Pr ≤ σ ≤ =1−α
χ22 χ21

Si se selecciona una muestra aleatoria de tamaño n de la población, se calcula s20 y se lo reemplaza


en la expresión anterior, se obtiene la Fórmula (4.23) que puede utilizarse para estimar la varianza
de la población mediante un intervalo de (1 − α)100 % de conanza.

(n − 1)s20 (n − 1)s20
 
C 2
≤σ ≤ =1−α (4.24)
χ22 χ21
Observación 4.2. Un intervalo de (1 − α)100 % de conanza para la desviación estándar de la
población se obtiene calculando la raíz cuadrada de cada uno de los límites del intervalo de conanza
obtenido mediante la Fórmula (4.23).
So obtiene
"s s #
(n − 1)s20 (n − 1)s20
C ≤σ≤ =1−α (4.25)
χ22 χ21

Ejemplo 4.8. Un fabricante de baterías para automóviles asegura que su producto dura en prome-
dio de 2 años con una desviación estándar de 0,5 años. Con el n de investigar estas armaciones
se toma una muestra de 5 baterías y se registran los siguientes tiempos de duración en años:
1,5 2,5 2,9 3,2 4,0
Tabla 4.6: Datos para el Ejemplo 4.8

Estime la varianza poblacional σ 2 mediante un intervalo de 95 % de conanza e indique si es válida


la armación del fabricante en lo que respecta a la variabilidad en los tiempos de duración. Suponga
que la variable X = Tiempo de duración de las baterías tiene distribución Normal.

Solución
El fabricante arma que µ = 2 años y que σ 2 = 0, 25.
A partir de la información suministrada por la muestra obtenemos:

1, 5 + 2, 5 + 2, 9 + 3, 2 + 4, 0
x̄0 = = 2, 82
5
Por lo tanto
P5
− x̄0 )2
i=1 (xi (1, 5 − 2, 82)2 + (2, 5 − 2, 82)2 + · · · + (4, 0 − 2, 82)2
s20 = = = 0, 847
5−1 4
Como la muestra es de tamaño 5 debemos buscar los valores de χ21 y χ22 en la tabla de probabilidades
de la distribución Chi cuadrado considerando 4 grados de libertad.
Por lo tanto, χ21 acumula 2, 5 porciento del área total bajo la curva de la distribución, luego
χ21 = 0, 484. Además χ22 es el valor de la variable que acumula 0, 95 + 0, 025 = 0, 975 o el 97, 5
porciento del área bajo la curva, luego χ22 = 11, 143.
Finalmente, el intervalo de conanza para estimar σ 2 es el siguiente:
 
4(0, 847) 2 4(0, 847)
C ≤σ ≤ = 0, 95
11, 143 0, 484

126
o sea

C(0, 30 ≤ σ 2 ≤ 7, 0) = 0, 95

Como el límite inferior de conanza es mayor que 0, 25 podemos concluir que lo asegurado por el
fabricante no es correcto. Es más, parece ser que la varianza poblacional es mayor que la iniciada
por el fabricante.

127

También podría gustarte