Está en la página 1de 40

Tema 2

Estadística Aplicada
2. Estimaciones de Intervalos de Confianza
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Índice Pág.

2.1. Introducción 3

2.2. Métodos de muestreo probabilístico 3

2.3. Distribución de muestreo de medias 10

2.4. Teorema de Límite Central 14

2.5. Estimaciones puntuales e Intervalos de confianza


20

2.6. Intervalo de confianza de una media poblacional


21

2.7. Intervalo de confianza para una proporción 28

2.8. Factor de corrección para población finita 30

2.9. Elección de un tamaño adecuado de una muestra


33

Recursos complementarios 38

Bibliografía 39

Estimaciones de Intervalos de Confianza 2


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

2.1. Introducción

El objetivo de la inferencia estadística es determinar algo cerca de una


población con base en una muestra. La población es el grupo completo de
individuos u objetos en estudio, y la muestra es una parte o subgrupo de esa
población.

Una muestra es un medio utilizado para inferir algo acerca de una población
mediante la selección de una parte de la misma. Se analizarán métodos para
escoger una muestra de una población. Después se elaborará una distribución
de las medias muestrales para comprender la forma en que tales valores
medios tienden a agruparse alrededor de la media poblacional y por qué esta
distribución se aproxima a la del tipo normal.

Se establecerán los intervalos de confianza, que definen una gama de valores


dentro de la cual ocurrirá, probablemente, el valor de la población. Se definen
fórmulas que determinan el número de observaciones necesarias para
diferentes situaciones de muestreo.

El muestreo es la única forma de determinar algo acerca de la población.


Algunas de las principales razones por las que éste es necesario son:

1. La naturaleza destructiva de ciertas pruebas.


2. La imposibilidad física de revisar todos los integrantes de la población.
3. El costo de estudiar a todos los integrantes de una población
frecuentemente es prohibitivo.
4. Lo adecuado de los resultados de la muestra.
5. En ocasiones se necesitaría mucho tiempo para entrevistar a toda la
población.

2.2. Métodos de muestreo probabilístico

(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 263).

Estimaciones de Intervalos de Confianza 3


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Existen dos tipos de muestras: la muestra: la muestra probabilística y la


muestra no probabilística.

Muestra probabilística: Muestra que se selecciona de modo que cada


integrante de la población en estudio tenga una probabilidad conocida (no igual
a cero) de ser incluido en la muestra.

Si se realiza un muestreo de probabilidad, cada integrante de la población tiene


la posibilidad de ser seleccionado. Al utilizar métodos no probabilísticos, no
todos los integrantes tienen probabilidad de ser incluidos en la muestra. En
estos casos, los resultados pueden estar sesgados, lo que significa que tales
resultados de la muestra pueden no ser representativos de la población.

No hay un método que sea el “mejor” para seleccionar una muestra


probabilística de una población de interés. Los métodos de muestreo
probabilístico tienen un objetivo similar: permitir que el azar determine los
integrantes que se incluirán en la muestra.

MUESTREO ALEATORIO SIMPLE

El tipo de muestreo más utilizado es el denominado muestreo aleatorio


simple.

Muestreo aleatorio simple (MAS): Muestra seleccionada de manera que cada


integrante de la población tenga la misma probabilidad de quedar incluido.

Para ilustrar el muestreo aleatorio simple y la selección, suponga que una


población consta de 845 empleados de una empresa. Se seleccionará una
muestra de 52 a partir de esta población. Una forma de asegurar que todos los
trabajadores en la población tengan la misma oportunidad de ser elegidos, es
escribir primero el nombre de cada uno en una papeleta y depositar en una
urna todos los papeles. Después que se han mezclado bien, se realiza la
primera selección sacando una papeleta de la urna sin mirarla. Este proceso se
repite hasta que eligen 52, el tamaño de la muestra requerido.

Un método adecuado de seleccionar una muestra aleatoria es emplear el


número de identificación de cada empleado y una tabla de números
aleatorios. Como su nombre lo indica, estos números han sido generados por

Estimaciones de Intervalos de Confianza 4


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

un proceso aleatorio (por ejemplo, por una computadora). Para cada dígito de
un número, la probabilidad de 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 es la misma. Así, la
probabilidad de que el empleado con número 011 sea elegido, es la misma que
la del empleado 722, o que la del 383. Por lo tanto, quedan eliminados así los
sesgos en el proceso de selección.

A continuación, se muestra una parte de una tabla de números aleatorios. Para


utilizar esta tabla a fin de seleccionar una muestra de los empleados, primero
debe elegirse un punto de inicio en la tabla. Cualquier punto de comienzo
servirá. Supóngase que la hora es 3h04. Podría uno ver la tercera columna, y
después bajar al cuarto conjunto de números. El resultado es 03759. Como
sólo hay 845 empleados, se utilizará los primeros tres dígitos de un número
aleatorio de cinco cifras. De modo que 037 es el número del primer empleado
que será elemento de la muestra. A fin de continuar seleccionando, se puede ir
en cualquier dirección. Supóngase que se decide ir hacia la derecha. Los
primeros tres dígitos del número a la derecha de 13759 son 447, que es el
número del empleado que se escogerá como segundo elemento de la muestra.
El tercer número de tres dígitos también a la derecha es 961. No se puede usar
el 961 porque solamente hay 845 empleados. Se continúa en la misma
dirección y se selecciona al empleado 784 después al 189 y así
sucesivamente. Otra forma de seleccionar el punto de inicio es cerrando los
ojos y fijando con un lápiz un número de tabla.

5 0 5 2 5 5 7 4 5 4 2 8 4 5 5 6 8 2 2 6 3 4 6 5 6 3 8 8 8 4 3 9 0 1 8
7 2 5 0 7 5 3 3 8 0 5 3 8 2 7 4 2 4 8 6 5 4 4 6 5 7 1 8 1 9 9 1 1 9 9
3 4 9 8 6 7 4 2 9 7 0 0 1 4 4 3 8 6 7 6 8 9 9 6 7 9 8 8 6 9 3 9 7 4 4

6 8 8 5 1 2 7 3 0 5 0 3 7 5 9 4 4 7 2 3 9 6 1 0 8 7 8 4 8 9 1 8 9 1 0
0 6 7 3 8 6 2 8 7 9 0 3 9 1 0 1 7 3 5 0 4 9 1 6 9 0 3 8 5 0 1 8 9 1 0
1 1 4 4 8 1 0 7 3 4 0 5 8 3 7 0 5 8 3 7 1 0 4 2 0 1 6 7 1 2 9 4 4 9 6

Punto de Segundo Tercer


comienzo empleado empleado

MUESTREO ALEATORIO SISTEMÁTICO

El procedimiento de muestreo aleatorio simple puede ser difícil de utilizar en


algunos casos de investigación. Por ejemplo, suponga que la población de

Estimaciones de Intervalos de Confianza 5


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

interés consta de 2000 facturas colocadas en gavetas de archivo. Para obtener


una muestra aleatoria, simple, primero se necesitaría numerar dichos
elementos del 0000 al 1999. Usando una tabla de números aleatorios, una
muestra de -por ejemplo- 100 números, se tendría que seleccionar. Habría que
localizar en las gavetas una factura que correspondiera a cada uno de estos
100 números. Esto sería una tarea larga. En su lugar puede seleccionarse una
muestra aleatoria sistemática, seleccionando simplemente un elemento de
cada 20 de los que se encuentran en el archivo. La primera factura se elegiría
utilizando un proceso al azar o fortuito, por ejemplo, una tabla de números
aleatorios. Si se selecciona el elemento número 10 como el punto de inicio, la
muestra constaría de las facturas números 10, 30, 50, 70, etc. Ya que en el
primer elemento se eligen al azar todas las facturas tienen la misma
probabilidad de ser seleccionadas para la muestra. Así que se tiene una
muestra probabilística.

Muestra aleatoria sistemática: Los integrantes o elementos de la población


se ordenan en alguna forma -por ejemplo, alfabéticamente- en un archivo
según la fecha en que se reciben, o por algún otro método. Se seleccionan al
azar un punto de partida, y después se elige para la muestra cada k-ésimo
elemento de la población.

Sin embargo, no deben utilizarse una muestra sistemática si hay un patrón


predeterminado en la población.

MUESTREO ALEATORIO ESTRATIFICADO

Otro tipo de muestreo probabilístico es el muestreo aleatorio estratificado.

Muestreo aleatorio estratificado: Una población se divide en subgrupos


denominados estratos, y se selecciona una muestra de cada uno.

Después de que la población se ha dividido en estratos, puede seleccionarse


una muestra proporcional o bien no proporcional. Como el nombre lo dice, un
procedimiento de muestreo proporcional requiere que el número de elementos
en cada estrato tenga la misma proporción que se encuentra en la población.
Por ejemplo, el problema puede ser estudiar los gastos de publicidad de las
352 compañías más grandes del país. Suponga que el objetivo del análisis es
determinar si las empresas que pagan altos dividendos (una medida de
rentabilidad) gastan más de cada dólar de ventas en propaganda, que lo que

Estimaciones de Intervalos de Confianza 6


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

destinan a eso las compañías con bajos dividendos o en déficit. Considere que
las 352 empresas se dividieron en cinco estratos. (Ver la Tabla siguiente). Si se
han de seleccionar 50 empresas para un estudio intensivo, entonces se
estudiaría una organización con un nivel de rentabilidad de 30% o mayor, se
seleccionarían aleatoriamente cinco empresas en el estrato 20-30%, y así
sucesivamente.

Ganancia Porcentaje del


Estrato Número de empresas Número muestreado
(dividendos) total

1 30% y más 8 2 1*
2 20 a 30% 35 10 5*
3 10 a 20% 189 54 27
4 0 a 10% 115 33 16
5 Déficit 5 1 1
Total 352 100 50

*2 de 50 = 1; 10% de 50 = 5; etc.
Tabla: Número seleccionado para una muestra aleatoria estratificada proporcional

En una muestra estratificada no proporcional, la cantidad de elementos


estudiada en cada estrato es desproporcionada respecto de su número en la
población. Luego se ponderan los resultados de la muestra de acuerdo con la
proporción del estrato respectivo a la población total. Por ejemplo, si se utilizara
el muestro no proporcional en el caso anterior, se deberían ponderar los
resultados del estrato 1 por 2/100, los del estrato 2 por 10/100, los del estrato 3
por 54/100, etc. Sin considerar si se usa un procedimiento de muestreo
proporcional o no proporcional, cada elemento o persona de la población tiene
probabilidad de ser seleccionado para la muestra.

El muestreo estratificado tiene la ventaja, en algunos casos, de reflejar con


mayor precisión las características de la población, que el muestreo aleatorio
simple o el aleatorio sistemático. Observe en la Tabla anterior que el 2% de las
empresas pagan dividendos de 30% o más (estrato 1), y 1% tiene déficit
(estrato 5). Si se tomara una muestra aleatoria simple de 50, no habría
posibilidad de seleccionar al azar alguna compañía de los estratos 1 o bien 5.
Sin embargo, una muestra aleatoria estratificada aseguraría que al menos una
empresa en el estrato 1 y una en el estrato 5, estuvieran representadas en la
muestra.

Estimaciones de Intervalos de Confianza 7


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

MUESTREO POR CONGLOMERACIÓN

Otro tipo de muestreo es el muestreo por conglomerados. Se emplea


adecuadamente para reducir el costo de muestrear una población dispersa en
un área geográfica grande. Suponga que se desea efectuar un reconocimiento
para determinar los puntos de vista de industriales respecto a las políticas
gubernamentales referentes a protección ambiental. Si se seleccionara una
muestra aleatoria de industriales y personalmente se hablara, ello tomaría
mucho tiempo y sería sumamente costoso. En vez de eso podría emplearse el
muestreo por conglomeración subdividiendo una región extensa en áreas
menores. Con frecuencia se denomina a estas unidades primarias. Suponga
que se divide la región en 12 unidades primarias, después seleccionan al azar
cuatro áreas menores: la 2, 7, 4, y 12 y se concentran los esfuerzos en éstas.
Se podría tomar una muestra aleatoria de los industriales de cada unidad, y
entrevistarlos. (Observe que lo anterior es una combinación del muestreo por
conglomeración y el muestreo aleatorio simple.)

9
2
6
10
3

7
5
4
1
8 11

El análisis de los métodos de muestreo indicados, no incluye todos los


procedimientos para tal acción de los que dispone un investigador. Si se realiza
un proyecto de investigación importante sobre mercadotecnia, finanzas,
contabilidad u otras áreas, será necesario que se consulten libros que hayan
sido escritos exclusivamente con relación a la teoría del muestreo y el diseño
de muestras.

Estimaciones de Intervalos de Confianza 8


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

“Error” de muestreo

En el análisis anterior se subrayó la importancia de seleccionar una muestra de


manera que cada elemento o individuo de la población tenga una probabilidad
real de ser escogido. Para lograr esto, podría elegirse un muestreo aleatorio
simple, uno sistemático, uno estratificado, uno por conglomeración, o bien una
combinación de estos métodos.

Sin embargo, es poco probable que una media muestral sea idéntica a la media
poblacional. De igual forma, la desviación estándar u otra medida calculada a
partir de la muestra, probablemente no sería exactamente igual al valor
correspondiente de la población. Por tanto, podemos esperar que haya alguna
diferencia entre un valor estadístico de muestra, como la media muestral o la
desviación estándar respectiva, y el correspondiente parámetro de población.
La diferencia entre un valor estadístico de muestra y un parámetro de población
se denomina error de muestreo.

Error de muestreo: Diferencia entre un valor estadístico de muestra y su


parámetro de población correspondiente.

Suponga que una población de cinco empleados del área de producción tiene
índices de eficiencia de 97, 103, 96, 99 y 105. Considere además que se
selecciona una muestra de dos índices (97 y 105) de la población para calcular
el índice medio de la misma, tal media sería 101, obtenida de (97+105)/2. Se
selecciona otra muestra de dos: 103 y 96, con una media muestral de 99.5. La
media de todos los índices (la de la población) es igual a 100, obtenida por:
(97+103+96+99+105)/5 = 500/5 = 100.

El error de muestreo para la primera muestra es de 1.0, determinado por 𝑋 - µ


= 101 – 100. La segunda muestra tiene un error de muestreo de –0.5. Cada
diferencia, 1.0 y –0.5, es el error que habría al evaluar la media poblacional con
base en la media muestral, y estos errores de muestreo se deben al azar. La
cantidad de estos errores de muestreo se deben al azar. La cantidad de estos
errores será diferente de una muestra a la siguiente.

Ahora que se ha descubierto la posibilidad de un error de muestreo cuando se


usan los resultados de la muestra para determinar un parámetro de población,
¿cómo se puede realizar un pronóstico exacto sobre el éxito posible de un
dentífrico recientemente elaborado o algún otro producto, únicamente con base

Estimaciones de Intervalos de Confianza 9


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

en resultados muestrales? ¿Cómo puede el departamento de control de calidad


de una industria de producción masiva enviar un cargamento de microchips
basado únicamente en una muestra de 10 chips? ¿Cómo pueden las empresas
de sondeos “Cedatos” o “Informe Confidencial” realizar una predicción acertada
respecto de una campaña electoral con base en una muestra de 2000 electores
registrados de una población votante de casi 17 millones? Para responder a
estas preguntas primero debe desarrollarse una distribución de muestreo de las
medias.

2.3. Distribución de muestreo de medias

(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 272).

En el ejemplo referente a las tasas de eficiencia de los empleados, se mostró


que las medias muestrales de un tamaño específico varían de una muestra a
otra. El índice de eficiencia medio de la primera muestra de dos empleados era
101, y la media de la segunda muestra fue 99.5. Probablemente, una tercera
muestra daría como resultado un valor medio diferente. La media de la
población fue 100. Si se organizan los valores medios de todas las muestras
posibles de tamaño 2 en una distribución probabilística, se obtendrá la
denominada distribución de muestreo de medias muestrales.

Distribución de muestreo de medias: Es una distribución probabilística que


consta de todas las medias muestrales posibles de un tamaño de muestra dado
de una población, y la probabilidad de ocurrencia asociada a cada media
muestral.

El siguiente ejemplo ilustra la elaboración de una distribución de muestreo de


medias de muestra.

Ejemplo:

La empresa American tiene siete empleados de producción (considerados


como la población). El salario por hora de cada trabajador se presenta en la
tabla siguiente.

Estimaciones de Intervalos de Confianza 10


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Empleado Salario (en dólares)


José 7
Samuel 7
Susana 8
Roberto 8
Jan 7
Aura 8
Ted 9
Tabla: Salarios (por hora) de los trabajadores de producción de la empresa American.

1. ¿Cuál es la media de la población?


2. ¿Cuál es la distribución de muestreo de medias para una muestra de
tamaño 2?
3. ¿Cuál es la media de la distribución de muestreo?
4. ¿Qué comentarios pueden formularse con respecto a la población y a la
distribución muestral?

Solución:

1. La media de la población es de $7.71 (dólares), obtenida por:

$7 + $7 + $8 + $8 + $7 + $8 + $9
µ=
7

2. Para determinar la distribución de muestreo de las medias muestrales, se


seleccionaron todas las muestras posibles de tamaño 2 sin reposición en la
población, y se calcularon sus medias. Hay 21 muestras posibles, obtenidas
mediante la fórmula respectiva:

𝑁! 7!
NCn = = = 21
𝑛! (𝑁−𝑛) 2! (7−2)!

donde, N=7 es el número de elementos en la población y n = 2 es la cantidad


de los mismos en la muestra.

Las 21 medias de todas las muestras posibles de tamaño 2 que pueden


tomarse a partir de la población, se indican en la Tabla siguiente:

Estimaciones de Intervalos de Confianza 11


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Muestra Empleados Salario (dólares por hora) Suma Media

1 José Samuel $7 $7 $14 $7,00


2 José Susana 7 8 15 7,50
3 José Roberto 7 8 15 7,50
4 José Jan 7 7 14 7,00
5 José Aura 7 8 15 7,50
6 José Ted 7 9 16 8,00
7 Samuel Susana 7 8 15 7,50
8 Samuel Roberto 7 8 15 7,50
9 Samuel Jan 7 7 14 7,00
10 Samuel Aura 7 8 15 7,50
11 Samuel Ted 7 9 16 8,00
12 Susana Roberto 8 8 16 8,00
13 Susana Jan 8 7 15 7,50
14 Susana Aura 8 8 16 8,00
15 Susana Ted 8 9 17 8,50
16 Roberto Jan 8 7 15 7,50
17 Roberto Aura 8 8 16 8,00
18 Roberto Ted 8 9 17 8,50
19 Jan Aura 7 8 15 7,50
20 Jan Ted 7 9 16 8,00
21 Aura Ted 8 9 17 8,50
Tabla: Medias muestrales de todas las muestras posibles de tamaño de dos empleados.

La distribución de la probabilidad es la distribución de muestreo de las medias y


se resume en la Tabla siguiente:

Media muestral Número de medias Probabilidad


$ 7,00 3 0,1429
$ 7,50 9 0,4285
$ 8,00 6 0,2857
$ 8,50 3 0,1429
21 1,0000

3. Se obtuvo la media de la distribución de muestreo de medias muestrales,


sumando las diferentes medias de muestra y dividiendo la suma entre el
número de muestras. La media de todas las medias generalmente se expresa
como µ𝑋̅ . El símbolo µ recuerda que es un valor poblacional, pues se han

Estimaciones de Intervalos de Confianza 12


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

considerado todas las muestras posibles. El subíndice 𝑋̅ . indica que es una


distribución de muestreo de medias.

𝑆𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠


µ𝑋̅ =
𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠

$7.00 + $7.50 + ⋯ + $8.50 $162


µ𝑋̅ = = = $7.71
21 21

Vea el diagrama:

µ
µ

Diagrama: Distribuciones de valores de población y medias muestrales.

4. Pueden hacerse los siguientes comentarios:

a. La media de las medias muestrales ($7.71) es igual a la media poblacional:


µ = µ𝑋̅ .

b. La dispersión en la distribución de las medias muestrales es menor que la


que corresponde a los valores de la población. Las medias muestrales
varían de $7.00 a $8.50, y los valores de la población van de $7.00 a $9.00.
De hecho, la desviación estándar de la distribución muestral de medias es
igual a tal desviación poblacional dividida entre la raíz cuadrada del tamaño
de la muestra. Por lo tanto, la fórmula para la desviación estándar de la
distribución de medias muestrales es σ/ √𝑛 Observe que, al aumentar el
tamaño de la muestra, la dispersión de muestreo de las medias muestrales
se vuelve menor.

c. La forma de la distribución de muestreo de las medias muestrales, y la


forma de la distribución de frecuencias de los valores de población, son

Estimaciones de Intervalos de Confianza 13


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

diferentes. La primera distribución tiende a ser acampanada y se aproxima


su aspecto al de la distribución probabilística normal.

En resumen, se tomaron todas las muestras aleatorias posibles de una


población y para cada una se calculó un valor estadístico muestral (la cantidad
media obtenida). Como cada muestra posible tiene una posibilidad de ser
selecciona, puede determinarse la probabilidad de que dicha cantidad tenga
valores como $7.27, $8.50, $6.50, y así sucesivamente. La distribución de las
cantidades medias obtenidas se denomina la distribución de muestreo de las
medias muestrales.

Aunque en la práctica se puede ver solo una muestra aleatoria en particular, en


teoría puede surgir cualquiera de las muestras. En consecuencia, se considera
el proceso de muestreo como uno repetido del valor estadístico a partir de su
distribución muestral. Esta distribución de muestreo se utiliza luego para medir
la probabilidad de un resultado específico.

2.4. Teorema de límite central

(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 276).

La aplicación del teorema de limite central a la distribución de muestreo de


los valores medios muestrales, permite el uso de la distribución probabilística
normal para crear intervalos de confianza de la media poblacional.

El teorema de límite central establece que, para muestras aleatorias grandes,


la forma de distribución de medias muestrales se acerca a la de la distribución
del tipo normal. La aproximación es más exacta para para muestras grandes
que para pequeñas. Esta es una de las conclusiones más útiles en Estadística.

Se puede razonar acerca de la distribución de las medias muestrales sin contar


con alguna información respecto de la forma de la distribución original de la
cual se toma la muestra. En otras palabras, el teorema de límite central es
cierto para todas las distribuciones.

Teorema de Límite Central: Si se seleccionan de cualquier población todas


las muestras de un tamaño determinado, la distribución de las medias

Estimaciones de Intervalos de Confianza 14


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

muestrales se acercará a una del tipo normal. Esta aproximación aumenta en el


caso de muestras grandes.

Si la población está distribuida normalmente, entonces, para cualquier tamaño


de muestra, la distribución de la media muestral también lo estará. Si la
distribución de la población es simétrica (pero no normal), se verá surgir la
forma normal del teorema de límite central, con muestras tan pequeñas como
10. Por otra parte, si se comienza con una distribución que es sesgada o tiene
extremos gruesos, es posible que se necesiten muestras de al menos 30 o
mayor, es suficiente para que se emplee el teorema de límite central.

El concepto de que la distribución de las medias muestrales de una población


que no es normal, converja a la normalidad en ciertos casos, se ilustra en los
tres diagramas siguientes:

Diagrama: Tiempo de servicio de los empleados de la empresa Spencer, Inc.

Estimaciones de Intervalos de Confianza 15


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Diagrama: Tiempo medio de servicio de 10 muestras de cinco empleados de la empresa Spencer, Inc.

Diagrama: Histograma de los tiempos medios de servicio de 30 muestras de empleados en la empresa Spencer, Inc.

El primer Diagrama representa una distribución probabilística discreta que tiene


sesgo positivo.
De esta población pueden seleccionarse muchas muestras de tamaño 5.
Supóngase que se seleccionan al azar 10 de tal tamaño 5, y se calcula la
media de cada una. Estos resultados se presentan en el segundo Diagrama.
Observe que la forma de la distribución de las medias muestrales cambió
respecto de la población original, aun cuando solo se seleccionaron 10
muestras aleatorias de tamaño 5, de una población que tiene sesgo positivo, y
se encontró que la distribución de las medias muestrales cambió respecto de la
forma original de la población. Al tomar mayor número de muestras, se hallará
que la distribución de las medias muestrales se aproximará a la del tipo normal.
El tercer Diagrama es un histograma que muestra los resultados de 30
aleatorias de 5 observaciones de la misma población. Observe la clara
tendencia hacia la distribución normal. Este es el objetivo del teorema de límite
central.

El siguiente ejemplo resaltará esta condición:

Ejemplo:

Estimaciones de Intervalos de Confianza 16


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Edu Spencer comenzó con su empresa comercial (de ruedas dentadas) hace
20 años. El negocio ha crecido a través del tiempo, y ahora emplea a 40
personas. Tal empresa, Spencer, Inc. se enfrenta a algunas decisiones
importantes con respecto al cuidado de la salud de sus empleados. Antes de
tomar una resolución final acerca del plan de cuidados de la salud que
adquirirá, Edu decide formar un comité de cinco representantes de los
trabajadores, para que analice cuidadosamente el tema, y haga una
recomendación con respecto a cuál plan se adapta mejor a las necesidades del
empleado.

Considera que los puntos de vista de los trabajadores más jóvenes con
respecto al cuidado de la salud pueden diferir de aquellos de los
correspondientes a empleados de mayor edad. Si Edu selecciona al azar este
comité, ¿qué puede esperar respecto al cuidado del número promedio de años
en la empresa de los integrantes del mismo? ¿Cómo se compara la forma de la
distribución de años de experiencia de todos los empleados con la de las
medias muestrales?

Los tiempos de servicio (redondeados al año más cercano) de los 40


trabajadores que actualmente están en la nómina de dicha empresa, son como
se indica a continuación:

11 4 18 2 1 2 0 2 2 4
3 4 1 2 2 3 3 19 8 3
7 1 0 2 7 0 4 5 1 14
16 8 9 1 1 2 5 10 2 3

Solución:

El primer Diagrama muestra la distribución de los años de experiencia para los


40 empleados actuales. Observe que la distribución de los tiempos de servicio
tiene sesgo positivo. Hay algunos empleados que han trabajado con Spencer,
Inc. por cierto tiempo. Específicamente, seis han estado con la compañía 10
años o más. Sin embargo, ya que el negocio ha crecido, el número de
empleados ha aumentado en los últimos años. De los 40 trabajadores, 18 han
estado en la empresa dos años o menos.

Considérense el primero de los problemas de Edu Spencer. Le gustaría formar


un comité de cinco empleados para que analice el tema de los cuidados de la

Estimaciones de Intervalos de Confianza 17


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

salud y señale qué tipo de plan de seguros es el adecuado para la mayoría de


los trabajadores. ¿Cómo debería seleccionar al comité? Si lo selecciona al
azar, ¿qué puede esperar en términos del tiempo medio de servicio de los
integrantes del grupo?

Para empezar, Edu escribe en papeletas el tiempo de servicio de cada uno de


los 40 empleados y las coloca dentro de una caja. Después revuelve todos los
pedazos de papel y selecciona al azar 5 de las papeletas. Los tiempos de
servicio para estos cinco laborantes son: 4, 1, 0, 14 y 9 años. Por lo tanto, el
tiempo medio de servicio para tales empleados es 5.60 años.

¿Cómo se compara este resultado con la media de la población? En ese


momento Edu no la conoce, pero el número de empleados en la población es
solo 40, por lo que decide calcular el tiempo medio de servicio para todos sus
trabajadores. Esto da 4.80 años, valor obtenido de sumar los tiempos de
servicio para todos los empleados y dividir el total entre 40.

Esto es μ = (11+4+18+…+2+3)/40 = 192/40 = 4.80.

La diferencia entre la media muestral, X̄, y la media poblacional se denomina


error de muestreo. En otras palabras, la diferencia de 0.80 años entre la
media de la población de 4.80, y la media muestral de 5.60, es el error de
muestreo. Esto se debe a la circunstancia. De modo que, si Edu seleccionó a
esos cinco empleados para formar el comité, el tiempo medio de servicio de
tales trabajadores se encontraría ligeramente por arriba del valor medio de la
población.

¿Qué pasaría si Edu devolviera las cinco papeletas a la caja y seleccionara


otra muestra? ¿Se esperaría que la media de esta segunda muestra fuera igual
a la de la muestra anterior?

Suponga que se elige otra muestra de cinco empleados, y se determina que


sus tiempos de servicio son 8, 3, 1, 1 y 14. La media de esta muestra es 5.40
años. El resultado de seleccionar 10 muestras de 5 empleados cada una se
presenta en el segundo Diagrama. Observe la diferencia en la forma de la
población y la distribución de esas medias muestrales. La población de los
tiempos de servicio para los empleados (segundo Diagrama) tiene sesgo
positivo, pero la distribución de las 10 medias muestrales no manifiesta el
mismo sesgo positivo. De hecho, tiene sesgo negativo.

Estimaciones de Intervalos de Confianza 18


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

La tabla siguiente indica el resultado de seleccionar 30 o más muestras de 5


empleados cada una, y calcular sus medias muestrales, las cuales después se
organizan en un histograma (tercer Diagrama). Compárese la forma de este
polígono de frecuencias, con la conformación de la población de empleados en
el primer Diagrama. Se deben observar dos aspectos importantes:

1. La forma de la distribución de las 30 medias muestrales es diferente a la de


la población. En el primer Diagrama, la distribución de todos los empleados
tiene sesgo positivo. Sin embargo, la distribución de las medias muestrales,
tercer Diagrama, se aproxima más a una del tipo normal. Esto ilustra el
teorema de límite central.

2. Existe menos dispersión en la distribución de medias muestrales que en la


distribución de la población. En esta, los tiempos de servicio variaron de 0 a
19 años. En aquella distribución, las medias muestrales variaron de 2.2
años a 9.2 años.

Número Media
Datos de la muestra Número de Datos de la muestra Media
de muestral
(tiempo de servicio) muestra (tiempo de servicio) muestral X̄
muestra X̄
1 4 1 0 14 9 5.6 16 2 2 10 11 0 5.0
2 8 3 1 1 14 5.4 17 4 2 3 8 1 3.6
3 2 4 2 4 2 2.8 18 0 0 4 3 5 2.4
4 11 1 5 2 3 4.4 19 1 4 2 3 1 2.2
5 2 1 7 3 3 3.2 20 2 7 0 2 3 2.8
6 11 2 10 1 4 5.6 21 5 16 2 4 11 7.6
7 4 3 11 2 9 5.8 22 9 3 0 2 8 4.4
8 8 3 14 2 2 5.8 23 5 1 2 10 0 3.6
9 1 7 8 2 2 4.0 24 2 1 2 0 8 2.6
10 14 1 2 10 2 5.8 25 19 4 3 3 1 6.0
11 8 2 8 5 0 6.6 26 0 4 9 11 8 6.4
12 3 1 4 2 7 3.4 27 4 9 4 3 2 4.4
13 0 4 3 3 1 2.2 28 2 5 2 7 2 3.6
14 11 4 9 2 8 6.8 29 18 8 1 11 8 9.2
15 7 1 2 5 1 3.2 30 14 16 0 2 3 7.0

Tabla: Muestras aleatorias y medias muestrales de 30 muestras de cinco empleados de la empresa Spencer, Inc.

Asimismo, se puede comparar el valor medio de las medias muestrales con


respecto a la media de la población. La media de las 30 muestras presentadas,

Estimaciones de Intervalos de Confianza 19


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

en la tabla anterior es 4.7133 años, valor obtenido por μX̄ =


(5.6+5.4+…+9.2+7.0)/30. Se utiliza es símbolo μX̄ para representar el valor de
las medias muestrales. El subíndice indica que la distribución es de medias de
muestras. Se lee ”miu sub X con barra”. Observe que el valor medio de las
medias muestrales, 4.7133 años, es muy parecido a la media de la población
de 4.80 años.

Por lo tanto, el teorema de limite central indica que, sin importar la forma de la
población, la distribución de las medias muestrales se aproximará a la
distribución normal. Cuánto más grandes sean las muestras, tanto mayor serán
la convergencia. La empresa Spencer, Inc. es una evidencia empírica del modo
cómo funciona el teorema del límite central.

El teorema de límite central (leer su definición) no menciona algo acerca de la


dispersión de la distribución de las medias muestrales o respecto de una
comparación entre el valor medio de las medias y el de la población. Sin
embargo, en el Ejemplo/Solución, se observó que había menos dispersión en la
distribución de las medias muestrales que en la de la población, al comparar la
amplitud de variación de población, y la amplitud de las medias muestrales.

Asimismo, se observó que el valor medio de todas las medias muestrales se


encontraba cerca de la media de la población. Se puede ver que, si la
dispersión en la población es σ, la dispersión en las medias muestrales es
𝜎/√𝑛 , en donde n representa el tamaño de la muestra.

Por esta relación, es posible observar que, al incrementar el tamaño de la


muestra, la dispersión de las medias muestrales disminuye. También se puede
probar que, el valor medio de todas las medias muestrales es igual a la media
poblacional.

2.5. Estimadores puntuales e intervalos de


confianza

(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 284).

Estimaciones de Intervalos de Confianza 20


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Los datos sobre el tiempo de servicio de los empleados de Spencer, Inc.,


presentado en el Ejemplo último, son una población porque se reportó el
tiempo de servicio para los 40 trabajadores de la compañía. En este caso se
puede calcular fácilmente la media de la población. Se tienen todos los datos y
la población no es demasiado grande. Sin embargo, en la mayoría de los casos
es necesario calcular la media poblacional. Generalmente se desconoce este
parámetro de la población. Al único número que se utiliza para evaluar un
parámetro de población, se le denomina estimación puntual.

Estimación Puntual: El valor, calculado a partir de la información de muestreo,


que se emplea para estimar el parámetro de población.

La media muestral, 𝑋̅, es una estimación puntual de la media poblacional, µ; p


es una estimación puntual de π y, asimismo, s es una estimación puntual de σ.

Suponga que una empresa desea calcular la edad promedio de compradores


de equipos estéreo. Se selecciona una muestra aleatoria de 50 compradores
recientes, se determina la edad de cada uno y se calcula la edad media de los
seleccionados. El valor medio de esta muestra es una estimación puntual de la
media poblacional.

Sin embargo, un valor estimado puntual representa solo una parte de la


historia. Al tiempo que se espera que la estimación puntual se acerque al
parámetro de la población, quisiéramos medir que tan cerca se encuentra. Un
intervalo de confianza cumple con este propósito.

Intervalo de Confianza: Una gama de valores obtenidos a partir de datos de


muestreo, de modo que el parámetro ocurre dentro de esa variedad a una
probabilidad específica. La probabilidad específica en cuestión se denomina el
nivel de confianza.

2.6. Intervalo de confianza de una media


poblacional

(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 285).

Estimaciones de Intervalos de Confianza 21


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Se calcula la media del ingreso anual para los trabajadores de construcción en


el área de Los Ángeles, como igual a $ 65000 (dólares). La variación de este
cálculo podría ser de $ 61000 a $ 69000. Al realizar una declaración de
probabilidad, se puede describir la confianza que se tiene en que el parámetro
de la población, se encuentre en el intervalo.

Por ejemplo, puede afirmarse que se está 90% seguro de que la media del
ingreso anual de los trabajadores de construcción en el área de Los Ángeles,
está entre $ 61000 y $ 69000.

La información desarrollada acerca de la forma de una distribución de muestreo


de medias muestrales, lo cual significa una distribución de muestreo de X ̅,
permite localizar un intervalo que tenga una probabilidad específica de incluir a
la media de la población, µ. Para muestras razonablemente mayores, se puede
utilizar el teorema de limite central y afirmar lo siguiente:

1. Un 95% de las medias muestrales seleccionadas de una población estará


dentro de 1.96 desviaciones estándares respecto de la media poblacional,
µ.

2. Un 99% de las medias muestrales se encontrará dentro de 2.58


desviaciones estándares respecto de la media de la población.

La desviación estándar mencionada aquí es la desviación estándar de la


distribución de muestreo de medias muestrales. Los intervalos calculados de
esta manera se denominan el intervalo de confianza de 95% y el intervalo de
confianza de 99%.

¿Cómo se obtienen los valores de 1.96 y 2.58?


El 95% y el 99% se refieren al porcentaje de tiempo que los intervalos
construidos similarmente incluirían el parámetro que se estima. Por ejemplo, el
de 95% se refiere al 95% central de las observaciones. Por lo tanto, el 5%
restante se divide por igual entre los dos extremos.

Observe el diagrama siguiente:

Estimaciones de Intervalos de Confianza 22


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

El teorema de límite central afirma que la distribución de muestreo de las


medias muestrales se aproxima a la normal. Por lo tanto, puede utilizarse una
tabla de probabilidades normales para determinar los valores z adecuados.

Localice 0.4750 en el cuerpo de la tabla, y después léanse los valores


correspondientes de columna e hilera. Así resulta 1.96. De modo que la
probabilidad de encontrar un valor z entre 0 y 1.96 es 0.4750.
Del mismo modo, la probabilidad de que esté en el intervalo entre -1.96 y 0, es
también de 0.4750. Cuando se combinan ambas, la probabilidad de
encontrarse en el intervalo -1.96 a 1.96, resulta ser 0.9500. El valor z que
corresponde a 0.99 se determina de forma similar.

¿Cómo se calcula el intervalo de confianza de 95%? Por ejemplo, suponga que


su investigación tiene que ver con el sueldo anual inicial para los graduados de
una escuela de economía. Se ha calculado la media muestral como igual a $
27000 (dólares) y la desviación estándar de las medias muestrales, como de $
200. El intervalo de confianza de 95% está entre $ 26608 y $ 27392, obtenido
por $ 27000 ± 1.96 ($ 200). Si se seleccionan 100 muestras del mismo tamaño
de la población de interés, y se determinan los correspondientes 100 intervalos

Estimaciones de Intervalos de Confianza 23


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

de confianza, se podría encontrar la media de la población en 95 de los 100


intervalos de confianza.

Error Estándar de la Media Muestral

La desviación estándar de la distribución de muestreo de medias muestrales se


dio como $ 200 (dólares). Esto se conoce como el error estándar de la media
muestral y se representa por el símbolo σX̅ , el cual se lee "sigma sub X con
barra". Frecuentemente se acorta el nombre a error estándar.

Error Estándar de la Media Muestral: Desviación estándar de la distribución


de muestreo de las medias muestrales.

El error estándar es una medida de la variabilidad de la distribución de


muestreo de la media muestral. Se calcula mediante:

ERROR ESTÁNDAR DE LA MEDIA, CUANDO SE CONOCE LA


DESVIACIÓN ESTÁNDAR DE LA POBLACIÓN:

σ
σx̅ =
√n

donde:
σ𝑥̅ es el error estándar de la media, también denominado desviación estándar
de la distribución de muestreo de la media.
σ es la desviación estándar de la población.
n es el tamaño de la muestra.

En la mayoría de los casos, se desconoce la desviación estándar de la


población. Por lo tanto, se reemplaza con la desviación estándar de la muestra,
esto es, se cambia 𝜎 por s. Después se escribe la fórmula como sigue:

ERROR ESTÁNDAR DE LA MEDIA CON BASE EN LA DESVIACIÓN


ESTÁNDAR DE LA MUESTRA:

s
sx̅ =
√n

Dos valores afectan el tamaño del error estándar. El primero es la desviación


estándar. Si ésta es grande, entonces el error estándar también lo será. Sin
Estimaciones de Intervalos de Confianza 24
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

embargo, el tamaño de la muestra también afecta al error estándar. Al


aumentar el tamaño de la muestra, el error estándar disminuye, indicando esto
que hay menor variabilidad en la distribución de las medias muestrales.

Cuando el tamaño de la muestra, n, es al menos igual a 30. generalmente se


acepta que el teorema de limite central asegurará una distribución normal de
las medias muestrales. Esta es una consideración importante. Si las medias
muestrales se distribuyen en forma normal, en los cálculos se puede utilizar la
distribución normal estándar, esto es, z.

Los intervalos de confianza de 95% y de 99% se calculan como sigue, cuando


n ≥ 30.

INTERVALO DE CONFIANZA DE 95% PARA UNA MEDIA:


s
𝑥̅ ± 1.96
√𝑛

INTERVALO DE CONFIANZA DE 99% PARA UNA MEDIA:


s
𝑥̅ ± 2.58
√𝑛

Como se describió antes, los valores de 1.96 y 2.58 se refieren a los valores z
correspondientes al 95% al 99% central de las observaciones,
respectivamente.

Otros niveles de confianza pueden ser empleados. Para estos casos el valor z
cambia correspondientemente. En general, un intervalo de confianza para la
media se calcula por:

INTERVALO DE CONFIANZA PARA UNA MEDIA:

s
𝑥̅ ± z
√𝑛

donde z es el nivel de confianza.

Entonces, para un intervalo de confianza de 92%, la fórmula es:


s
𝑥̅ ± 1.75
√𝑛

El valor de 1.75 proviene de una tabla normal. La tabla se basa en la mitad de

Estimaciones de Intervalos de Confianza 25


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

la distribución normal, de modo que 0.9200/2 = 0.4600. El número más próximo


en el cuerpo de la tabla es 0.4599, y el correspondiente valor z es 1.75.

Frecuentemente también se utiliza el nivel de confianza de 90%. En este caso,


se desea determinar el área entre 0 y z para que sea 0.4500, valor obtenido por
90/2. Para encontrar el valor z para este nivel de confianza, vaya hacia abajo
por la columna izquierda de la tabla normal, hasta llegar a 1.6, y después sobre
las columnas con encabezados 0.04 y 0.05. El área que corresponde a un valor
z de 1.64, es 0.4495, y para 1.65 se tiene que es 0.4505. Para ser precavidos
utilizamos 1.65. Otros valores de z, son:

Intervalo de confianza Número más próximo Valor z


80% 0,3997 1,28
94% 0,4699 1,88
96% 0,4798 2,05

Ejemplo:

En un experimento se trata de seleccionar una muestra aleatoria de 256


gerentes de nivel medio. Un elemento de interés es su ingreso anual. La media
muestral vale $ 45420 (dólares) y la desviación estándar en la muestra, es $
2050.

1. ¿Cuál es el ingreso medio estimado de todos los gerentes de nivel medio (la
población)? Es decir, ¿cuál es la estimación puntual?
2. ¿Cuál es el intervalo de confianza de 95% para la media de la población
(redondeando a los $10 más cercanos)?
3. ¿Cuáles son los límites de intervalo de confianza de 95%, para la media de
la población?
4. ¿Qué grado de confianza se está usando?
5. Interprete los resultados.

Solución:

1. La estimación puntual de la media de la población vale $ 45420.

2. El intervalo de confianza está entre $ 45170 y $ 45670, que se obtiene


mediante:

Estimaciones de Intervalos de Confianza 26


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

s $2050
x̅ ± 1.96 = $45420 ± 1.96
√n √256

= $ 45420 ± 251.125

= $ 45168.875 y $ 45671.125

Estos puntos extremos se redondean frecuentemente y, en este caso, se


registrarían como $45170 y $45670.

3. Los puntos extremos del intervalo de confianza se denominan límites de


confianza. En este ejemplo, tales límites son $ 45170 y $ 45670.

4. La medida de confianza que tiene una persona se denomina grado de


confianza o nivel de confianza. En este caso es 0.95.

5. Interpretación: Si hubiera tiempo para seleccionar muchas muestras de


tamaño 256 de la población de gerentes a nivel medio, y calcular las medias
muestrales y los intervalos de confianza, la media poblacional del ingreso anual
se encontraría aproximadamente en 95 de los 100 intervalos de confianza. De
ahí que un intervalo puede o no contener a la media poblacional.
Aproximadamente 5 de los 100 intervalos de confianza no incluyen a la media
poblacional del ingreso anual, µ. Esto se muestra en el diagrama siguiente.

Observe que el quinto intervalo de confianza no incluye la media poblacional.

Estimaciones de Intervalos de Confianza 27


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

𝜎
µ µ+1.96
√𝑛

Muestra 1 de tamaño 256. Incluye


la media poblacional.
1

Muestra 2 de tamaño 256. Incluye


2 la media poblacional.

Muestra 3 de tamaño 256. Incluye


3 la media poblacional.

Muestra 4 de tamaño 256. Incluye


4
la media poblacional.

Muestra 5 de tamaño 256. No


5
incluye la media poblacional.

6
Muestra 6 de tamaño 256. Incluye
la media poblacional.

2.7. Intervalo de confianza de una proporción

(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 291).

La teoría y el procedimiento para determinar un estimador puntual y un


estimador de intervalo para una proporción de población se asemejan mucho a
los descrito para la media.

Un estimador puntual de una proporción poblacional se obtiene dividiendo el

Estimaciones de Intervalos de Confianza 28


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

número de éxitos en la muestra, entre el número total muestreado. Suponga


que 100 de las 400 personas muestreadas afirmaron que prefieren un nuevo
refresco que probaron, en comparación con el que consumen regularmente. La
mejor estimación de la proporción de la población que está a favor de la nueva
bebida es 0.25, o sea 25% que se obtiene dividiendo 100/400.

Observe que una proporción se basa en un conteo del número de éxitos con
relación al número total muestreado.

¿Cómo se estima el intervalo de confianza para una proporción de


población?

INTERVALO DE CONFIANZA UTILIZANDO UNA PROPORCIÓN DE LA


POBLACIÓN:
p ± z σp̅

donde 𝜎𝑝̅ es el error estándar de la proporción.

ERROR ESTÁNDAR DE LA PROPORCIÓN MUESTRAL:


p (1 − p)
σp̅ = √
n

Por tanto, el intervalo de confianza se establece mediante:

INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN MUESTRAL:


p (1 − p)
p ± Z √
n

donde:
p: es la proporción muestral
z: es el valor z del grado de confianza seleccionado
n: es el tamaño de la muestra

Ejemplo:

Suponga que 1060 de 2000 trabajadores sindicados que se muestrean, dijeron


que planean poner a votación una propuesta para unirse a la federación. Si se

Estimaciones de Intervalos de Confianza 29


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

utiliza un nivel de confianza de 0.95, ¿cuál es la estimación de intervalo para la


proporción poblacional? ¿A qué conclusión se llegaría con base en el intervalo
de confianza?

Solución:

Utilizando la fórmula respectiva, el intervalo se calcula como sigue:

p (1 − p) 0.80 (1 − 0.80)
p ± Z √ = 0.80 ± 1.96 √
n 2000

0.80 (1 − 0.80)
= 0.80 ± 1.96 √
2000

= 0.782 𝑦 0.818

Limites de confianza: 78.2 % y 81.8 %

Suponga que por lo menos 75% de los miembros del sindicato deben aprobar
la fusión. Con base en los resultados de la muestra, cuando votan todos los
trabajadores sindicados, la propuesta probablemente será aceptada debido a
que 0.75 está por debajo del intervalo 0.782 y 0.818.

2.8. Factor de corrección para población finita

(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 293).

Población Infinita: Las poblaciones que se han muestreado hasta ahora han
sido muy grandes o se supone que son infinitas. ¿Qué sucede si la población
muestreada no es infinita, y que ni siquiera es muy grande? En tales casos se
necesita hacer algunos ajustes en la forma en que se calcula el error estándar
de medias muestrales y el de proporciones de muestra.

La población finita: Una población que tiene un límite superior fijo se


considera finita.

Estimaciones de Intervalos de Confianza 30


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Por ejemplo, hay 21376 estudiantes inscritos en una universidad del Ecuador, y
la empresa Chrysler-Jeep Corp., manufacturó 917 unidades en su planta de
Arkansas el año pasado.

Una población finita puede ser notablemente pequeña; por ejemplo, podría
constar de todos los alumnos inscritos en este periodo académico. Una
población también puede ser muy grande, como todos los ciudadanos que
viven en un determinado país.

Para una población finita, donde el número total de objetos es N y el tamaño de


la muestra es n, se hace el siguiente ajuste a los errores estándares de medias
y de proporción muestrales:

ERROR ESTÁNDAR DE LAS MEDIAS MUESTRALES, UTILIZANDO UN


FACTOR DE CORRECCIÓN:

σ N−n
σX̅ = √
√n N−1

ERROR ESTÁNDAR DE LAS PROPORCIONES DE MUESTRA, UTILIZANDO


UN FACTOR DE CORRECCIÓN:

p (1 − p) N−n
σp = √ √
n N−1

Este ajuste se denomina factor de corrección para población finita.

¿Por qué es necesario aplicar un factor y cuál es su efecto?

Lógicamente si la muestra es un porcentaje considerable de la población,


entonces se esperaría que cualesquiera estimaciones fueran más precisas que
las correspondientes a muestras más pequeñas.

Observe el efecto del término: (N-n) / (N-1).

Supóngase que la población es 1000 y la muestra es 100. Entones tal razón

Estimaciones de Intervalos de Confianza 31


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

vale (1000-100)/ (1000-1), o sea, 900/999. Con la raíz cuadrada se obtiene el


factor de corrección, 0.9492. Multiplicando por el error estándar, se reduce el
error aproximadamente en 5% (1-0.9492  0.05). Esta reducción en el tamaño
del error estándar resulta en un intervalo menor de valores en la estimación de
la media poblacional.
Si la muestra es 200, el factor de corrección es 0.8949, lo que significa que el
error estándar se reduce en más de 10%.

En la Tabla siguiente se muestran los efectos de diferentes tamaños de


muestra sobre el factor de corrección. Observe que cuando la muestra es
aproximadamente menor que 5% de la población, el impacto del factor de
corrección es muy pequeño. La regla general es que si la razón n/N es menor
que 0.05, se omite el factor de corrección para población finita.

Tamaño de muestra Fracción de la población Factor de corrección


10 0.010 0.9955
25 0.025 0.9879
50 0.050 0.9752
100 0.100 0.9492
200 0.200 0.8949
500 0.500 0.7075

Tabla: Cálculo del factor de corrección para población finita, en el caso de diversos tamaños de muestras, y cuando la
población es de 1000.

Ejemplo:

Hay 250 familias en el pequeño poblado de Sicalpa. Una encuesta con 40 de


ellas reveló que la contribución media anual a la iglesia es de $ 450 (dólares)
con una desviación estándar de $ 75. Establezca un intervalo de confianza de
95% para la contribución media anual.

Solución:

Primero observe que la población es finita. Esto es, hay un límite al número de
personas en Sicalpa.
Segundo, note que la muestra constituye más del 5% de la población; esto es,
n/N = 40/250 = 0.16.

Por tanto, se aplica el factor de corrección para población finita. El intervalo de


confianza de 95% se establece de la siguiente manera, aplicando las fórmulas

Estimaciones de Intervalos de Confianza 32


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

correspondientes:

s N −n $75 250 − 40
̅
X ± z (√ ) = $450 ± 1.96 (√ )
√n N−1 √40 350 − 1

= $450 ± $23.243 ( √ 0.8434 )

= $450 ± $21.35

= [ $ 428.65 ; $ 471.35 ]

2.9. Elección del tamaño adecuado de una


muestra

(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 295).

Una de las preocupaciones más comunes cuando se diseña un estudio


estadístico es: “¿Cuántos elementos deben incluirse en la muestra?” Si ésta es
demasiado grande, se derrocha inútilmente recursos en la recolección de
datos. De forma semejante, si la muestra es demasiado pequeña, las
conclusiones resultantes podrían ser incorrectas. El tamaño correcto de la
muestra depende de tres factores:

1. El nivel de confianza deseado.


2. El máximo error permisible por el investigador.
3. La variación en la población que se estudia.

Usted, como investigador, selecciona el nivel de confianza. Los niveles de 95%


y de 99% son los que se eligen con mayor frecuencia. Un nivel de confianza de
95% corresponde a un valor de z  1.96, y uno de 99% corresponde a un valor
z de  2.58. Cuanto más alto sea el nivel de confianza, tanto mayor será el
tamaño de la muestra.

Estimaciones de Intervalos de Confianza 33


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

El error máximo permisible, denotado como E, es la cantidad que se suma y


resta de la media muestral para determinar los puntos extremos del intervalo de
confianza. Es la cantidad de error que el investigador está dispuesto a tolerar.

Asimismo, corresponde a la mitad de la anchura del intervalo de confianza


correspondiente. Un pequeño error admisible requerirá una muestra grande, y
un error grande de esa clase aceptará el uso de una muestra menor.

El tercer factor al determinar el tamaño de una muestra es la desviación


estándar de la población. Si esta última está dispersa ampliamente, se requiere
una muestra grande. Por otra parte, si la población está concentrada (es
homogénea), el tamaño requerido de la muestra será menor. Sin embargo, es
posible que sea necesario encontrar una estimación para la desviación
estándar poblacional.

Utilice el enfoque del estudio de comparabilidad cuando hay un estimado de la


dispersión disponible según otro estudio. Suponga que se desea estimar el
número de horas de trabajo a la semana realizado por consultores privados.
Quizás la información procedente de ciertas agencias gubernamentales, que
regularmente toman muestras de la fuerza laboral, podría ser útil para hacer un
cálculo de la desviación estándar. Si se considera que una desviación estándar
observada en un análisis anterior es confiable, se puede usar en el estudio
actual como ayuda para obtener un tamaño aproximado de la muestra.

Si no está disponible alguna estimación de un estudio anterior, puede ser


apropiado emplear una aproximación basada en un intervalo de variación. Para
aplicar este enfoque se necesita conocer o tener una estimación de los valores
más grandes y los más pequeños en la población. Recuerde la Regla Empírica
que se podría esperar que casi todas las observaciones estuvieran entre  3
desviaciones estándares respecto de la media, dado que la distribución fuese
aproximadamente acampanada, es decir, normal.

Por lo tanto, la distancia entre el valor más grande y el más pequeño, es 6. Se
podría estimar la desviación estándar como un sexto de la amplitud de
variación. Por ejemplo, suponga que la directora de operaciones de un banco
desea una estimación del número de retiros que estudiantes universitarios
hacen al mes. Cree que la distribución se aproxima a la normal, que el número
mínimo de documentos presentados es 2 por mes, y que el máximo es 50. El
intervalo de variación de la cantidad de retiros mensuales es 48, obtenido por,
50 - 2. Entonces, la estimación de la desviación estándar sería 8 retiros por

Estimaciones de Intervalos de Confianza 34


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

mes, de 48/6.

Un tercer enfoque para evaluar la desviación estándar es realizar un estudio


piloto. Este es el método más comúnmente utilizado. Suponga que se desea
obtener una estimación del número de horas de trabajo a la semana de
estudiantes inscritos en la Escuela de Economía. Para probar la validez del
cuestionario, se aplica en una pequeña muestra de alumnos. A partir de ésta,
se calcula la desviación estándar del número de horas de trabajo, y se utiliza
éste para determinar el tamaño adecuado de la muestra.

Puede expresarse la interacción entre estos tres factores y el tamaño de la


muestra con la fórmula siguiente:

s
E = z
√n

Despejando n en esta ecuación, se obtiene el tamaño requerido de la muestra.

TAMAÑO DE MUESTRA PARA ESTIMAR UNA MEDIA:

z s 2
n = ( )
E

donde:
n es el tamaño de la muestra.
z es el valor normal estándar correspondiente al nivel de confianza deseado.
s es un estimado de la desviación estándar de la población.
E es el máximo error permisible.

El resultado de este cálculo no siempre es un número entero, por lo que la


práctica usual es redondear cualquier resultado fraccionario. Por ejemplo,
201.22 se redondearía a 202.

Ejemplo:

Un estudiante de economía desea determinar el ingreso medio de los


miembros de concejos urbanos. El error al estimar la media es menor que $
100 (dólares) con un nivel de confianza de 95%. El estudiante encontró un
informe presentado por el Departamento del Trabajo que estimaba la
desviación estándar en $ 1000 ¿Cuál es el tamaño de muestra requerido?

Estimaciones de Intervalos de Confianza 35


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Solución:

El máximo error permisible, E, es $ 100. El valor z para un nivel de confianza


de 95% es 1.96, y el estimado de la desviación estándar es $ 1000. Al
introducir estos valores en la fórmula correspondiente, se tiene que el tamaño
requerido de la muestra es:

2
(1.96) ($1000)
n = ( ) = (19.6)2 = 348.16
$100

El valor calculado de 384.16 se redondea a 385. Se requiere una muestra de


385 para cumplir con las especificaciones.

Si se desea un nivel de confianza más alto, digamos de 99%, entonces también


se requerirá una muestra más grande.

2
(2.58) ($1000)
n = ( ) = (25.8)2 = 665.64
$100

Se recomienda una muestra de 666.

Observe qué tanto aumenta el tamaño de la muestra por el cambio en el nivel


de confianza. Un incremento en tal nivel, de 95% a 99%, da como resultado un
aumento de 281 observaciones. Esto podría aumentar el costo del estudio,
tanto en términos de tiempo como de dinero. Por lo tanto, el nivel de confianza
debería considerarse con mucho cuidado.

El procedimiento que se acaba de describir se adapta para determinar el


tamaño de la muestra para una proporción. Nuevamente, se necesita
especificar tres conceptos:

1. El nivel de confianza deseado, generalmente 95%, o bien 99%.


2. El margen de error que se requiere en la proporción de la población.
3. Un estimado de la proporción poblacional.

La fórmula para determinar el tamaño de la muestra de una proporción es:

TAMAÑO DE MUESTRA PARA UNA PROPORCIÓN:

Estimaciones de Intervalos de Confianza 36


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

z 2
n = p (1 − p) ( )
E

Es posible utilizar un cálculo de p si se encuentra disponible a partir de un


estudio piloto o alguna otra fuente. De otra manera, se utiliza 0.50, porque el
término p(1-p) nunca puede ser mayor que cuando p = 0.50.

Por ejemplo, si p = 0.30, entonces p(1-p) = 0.30(1-0.30) = 0.21, pero cuando p


= 0.50, p(1-p) = 0.50(1-0.50) = 0.25.

Ejemplo:

El estudio en el ejemplo anterior también estima la proporción de ciudades que


cuentan con cobradores privados. El estudiante quiere que el cálculo se halle
dentro de 0.10 de la proporción de la población, el nivel deseado de confianza
es de 90%, y no hay alguna estimación disponible para la proporción de
población ¿Cuál es el tamaño de la muestra?

Solución:

El valor estimado de la proporción poblacional se encuentra dentro de 0.10, por


lo tanto, E = 0.10. El nivel deseado de confianza es 0.90, lo cual corresponde a
un valor z de 1.65. Ya que no existe ningún cálculo de la proporción de
población, se utilizará 0.50. El tamaño requerido de la muestra es:

1.65 2
𝑛 = (0.50) (0.50) ( ) = 68.0625
0.10

El estudiante necesita una muestra aleatoria de 69 ciudades.

Estimaciones de Intervalos de Confianza 37


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Recursos complementarios

Videos sobre distribuciones de muestreo de la media:

https://youtu.be/maEMZAYtex8

https://es.wikipedia.org/wiki/Intervalo_de_confianza

Estimaciones de Intervalos de Confianza 38


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Bibliografía

LIND, Douglas A.; MARCHAL, William G.; WATHEN, Samuel A. (2012).


Estadística Aplicada a los Negocios y a la Economía. México. MacGraw-
Hill. Decimoquinta edición.

WEIERS, Ronald M. (2006). Introducción a la Estadística para Negocios.


México. Thomson. Quinta edición.

BERENSON, Mark L.; LEVINE, David M.; KREHBIEL, Timothy C. (2001).


Estadística para Administración. México. Pearson Educación. Segunda
edición.

Estimaciones de Intervalos de Confianza 39


Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Estimaciones de Intervalos de Confianza 40

También podría gustarte