Está en la página 1de 20

ESTADISTICA INFERENCIAL

METODOS DE MUESTREO Y ESTIMACIONES

ESTADISTICA INFERENCIAL
AREA ESTADISITCA
DEPARTAMENTO DE CIENCIAS EXACTAS - ESPE
Semana # 7

Contenido
Título Estadística Inferencial y estimaciones

Duración 24 horas

Información general Construcción de la distribución de probabilidades de medias y


proporciones muestrales, teorema del límite central, métodos de
muestreo y estimaciones

Objetivo Desarrollar en el estudiante la habilidad de diferenciar, seleccionar y


utilizar las distribuciones de probabilidades para el análisis muestral,
métodos de muestreo y estimaciones y aplicarlas en ejercicios prácticos
de la administración.

El objetivo fundamental de la Estadística es inferir las propiedades de una


muestra a la población de estudio.
En estadística un muestreo es la técnica para la selección de una muestra a partir de
una población. En el muestreo, si el tamaño de la muestra es más pequeño que el
tamaño de la población, se puede extraer dos o más muestras de la misma población.
Al conjunto de muestras que se pueden obtener de la población se
denomina espacio muestral.

El muestreo es una herramienta de la investigación científica. Su función básica es


determinar que parte de una realidad en estudio (población o universo) debe
examinarse con la finalidad de hacer inferencias sobre dicha población.

El muestreo es más que el procedimiento empleado para obtener una o más muestras
de una población; el muestreo es una técnica que sirve para obtener una o más
muestras de población.

1
Semana # 7

Este se realiza una vez que se ha establecido un marco muestral representativo de la


población, se procede a la selección de los elementos de la muestra aunque hay
muchos diseños de la muestra.

Al tomar varias muestras de una población, las estadísticas que calculamos para cada
muestra no necesariamente serían iguales, y lo más probable es que variaran de una
muestra a otra.

Muestreo Estadístico: son aquellos que se basan en el principio de equiprobabilidad.


Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser
elegidos para formar parte de una muestra y, consiguientemente, todas las posibles
muestras de tamaño n tienen la misma probabilidad de ser elegidas.

5.1. Técnicas de muestreo

Las técnicas de muestreo nos permiten obtener una muestra representativa de la


población general, “un plano a escala en el que este representadas en miniatura todas
las características de la población general”. A través de las técnicas de muestreo
intentamos garantizar la validez interna del estudio, pudiendo distinguir los siguientes
tipos de muestreo:

1. Muestreo probabilístico

Los elementos que forman parte de la muestra tiene la misma posibilidad de ser
elegidos como parte de la muestra es decir al azar.
a) Muestreo aleatorio: Es aquel en el que todos los elementos de la población
tienen la misma probabilidad de ser elegidos como elementos de la muestra.
Su principal inconveniente es que muchas veces es imposible obtener una lista
de todos y cada uno de los individuos de la población. Otro inconveniente es
que, en muestras pequeñas, no garantiza la representatividad, ya que en
ocasiones el propio azar puede conducir a muestras altamente sesgadas.

b) Muestreo aleatorio sistemático: Es una técnica que simplifica el proceso de


elección de los elementos de la muestra. En primer lugar, se calcula la
constante de la muestra (K), dividiendo el total de la población candidata (N)

2
Semana # 7

por el tamaño de la muestra(n). Después aleatoriamente se obtiene el primer


elemento. Los sucesivos elementos se obstinen del listado ordenados
mediante la suma de la constante (K), sucesivamente hasta completar la
muestra. Este procedimiento, requiere que el orden con que está construida la
lista no tenga ninguna influencia previsible sobre el resultado del estudio.

c) Muestreo aleatorio estratificado: Se trata de una modificación del muestreo


aleatorio simple, que trata de garantizar que la muestra es representatividad
de la población estudiada, mediante el control de la igualdad de la distribución
en la población y en la muestra, de determinadas variables, estratos, que se
consideran importantes para el estudio.

d) Muestreo por conglomerados; Este método consiste en lo siguiente: antes


de seleccionar la muestra, la población se divide en unidades de primera etapa
(UPE), de las cuales se toma una muestra aleatoria. Cada una de la UPE
contiene un conjunto de unidades de análisis, que también son
seleccionadas aleatoriamente. En cualquier caso, las unidades de muestreo
de primera etapa deben cubrir por entero a la población sin intersecarse; o sea,
todo miembro de la población o unidad de análisis pertenecerá a una y sólo
una UPE. Si se admiten en la muestra a todas las unidades de análisis que
integran las UPE elegidas, se ha optado por un muestreo por conglomerados
monoetápico. Si, luego de seleccionadas aquellas unidades de primera etapa
que crean unidades de segunda etapa y dentro de cada una de ellas se eligen
algunas unidades de análisis, entonces se está ante un muestreo por
conglomerados bietápico.

Ejemplo: Unidades de primera etapa: provincias; unidades de segunda etapa:


hospitales: unidades de tercera etapa: servicios de cardiología; unidad de
análisis; individuos.
2. Muestreo no probabilístico

Las unidades o elementos se escogen utilizando métodos en los que no se utiliza el


azar.
La técnica más utilizada es el muestreo consecutivo, que consiste en seleccionar a
los individuos que cumplen los criterios de selección, a medida que acuden a la
consulta en un período determinado. Es el método más utilizado en ensayos clínicos,
principalmente cuando se trata de patología aguda. Estos métodos son intencionales,
por cuotas, bola de nieve y discrecional.

3
Semana # 7

3. Asignación a los grupos de estudio

La asignación de los individuos a los diferentes grupos de estudio debe asegurar la


comparabilidad de estos grupos, es decir que no existan diferencias entre las
variables generales.
3.1. Estudios observacionales

a) Estudios de casos y controles: La asignación a cada grupo se realiza en


función de la existencia o no de la enfermedad.
b) Estudios de cohortes: La asignación se realiza en función de la presencia o
ausencia de exposición.
Estos tipos de asignación da lugar a limitaciones en la comparabilidad de los
grupos, ya que si bien podemos intentar controlar los factores conocidos que
puedan influir en el factor de estudio, no podemos hacer lo mismo con los
desconocidos.
3.2. Estudios experimentales

En este tipo de estudio partimos de una muestra definida por los criterios de selección,
realizando el investigador la asignación a cada grupo, siendo la asignación aleatoria
o randomización la más utilizada, en ella la asignación de los individuos a cada grupo
se realiza al azar. Las ventajas de este tipo de estudio son:
 Mayor probabilidad de una distribución equilibrada de las variables pronosticas
(conocidas y no conocidas).
 Permite el uso de técnicas de enmascaramiento.
3.3. Técnicas de enmascaramiento

Son aquellas que dan lugar a que los sujetos y/o el investigador, desconozcan a que
grupo pertenecen:
 Simple ciego: cuando el sujeto o el investigador desconocen a que grupo
pertenecen.
 Doble ciego: cuando tanto el sujeto como el investigador desconocen, a priori,
el grupo al que pertenece cada sujeto.

5.2. Distribuciones muestrales y Teorema del Límite


Central

4
Semana # 7

5.2.1. Distribuciones muestrales


Una estadística muestral proveniente de una muestra aleatoria simple tiene un patrón
de comportamiento (predecible) en repetidas muestras. Este patrón es llamado la
distribución muestral de la estadística. Si conocemos la distribución muestral
podemos hacer inferencia. Las distribuciones muestrales adoptan diferentes formas
según las estadísticas investigadas y las características de la población estudiada.
Es posible entonces también definir que una distribución muestral es una distribución
de probabilidad de una estadística muestral calculada a partir de todas las muestras
posibles de tamaño "n" elegidas al azar de una población determinada. Generalmente
nos interesa conocer una o más de las siguientes características de la distribución
muestral;
 Su forma funcional (como aparece en su representación gráfica).
 Su media.
 Su desviación estándar (error estándar)

La media de las medias muestrales:


La distribución muestral de las medias muestrales es un simple listado de todas las
medias muestrales posibles. Tienen una media aritmética que se llama “media de las
muestras muestrales” o “media general” y se calcula de la manera habitual: se suman
las medias muestrales y el resultado se divide por el número de observaciones. Se
utiliza el símbolo 𝑋𝑋�, de tal manera:
∑ 𝑋𝑋�
𝑋𝑋� =
𝐾𝐾
Donde K es el número de muestras (observaciones)
Ejemplo:
Considerando los números 2, 2, 3, 4 y 5 como una población, determinar la
distribución de medias muestrales de tamaño 3.
Muestra Media muestral Distribución muestral
2, 2, 3 7/3 = 2.333 Media muestral frecuencia probabilidad
2, 2, 4 8/3 = 2.667 2.333 1 1/10

5
Semana # 7

2, 2, 5 9/3 = 3 2.667 1 1/10


2, 3, 4 9/3 = 3 3 3 3/10
2, 3, 5 10/3= 3.333 3.333 2 2/10
2, 4, 5 3.667 3.667 2 2/10
2, 3, 4 3 4 1 1/10
2, 3, 5 3.333
2, 4, 5 3.667
3, 4, 5 4
2+2+3+4+5
𝑥𝑥̅ = = 3,2
5

2,333 + 2,667 + (3 × 3) + (2 × 3,333) + (2 × 3,667) + 4


𝑋𝑋� = = 3,2
10

Como se puede observar el valor de la media es igual al valor de la media de las


medias muestrales.
Error típico y normalidad: La distribución muestral de las medias muestrales
también tiene una varianza y mide la dispersión de las medias muestrales en torno a
la media general calculándose como cualquier otra. Si se halla la raíz cuadrada de la
varianza de la distribución de medias muestrales tendríamos el llamado error típico
∑(𝑥𝑥̅ −𝑥𝑥̿ )2
de la distribución muestral: 𝜎𝜎𝑥𝑥̅ = �𝜎𝜎𝑥𝑥̅2 = � 𝐾𝐾

Podemos decir entonces, que este error típico es una medida de la dispersión de las
medias muestrales en torno a µ y por tanto, mide la tendencia a incurrir en un error
de muestreo en el intento de estimar el parámetro.
Si los datos de una población siguen una distribución normal, la distribución muestral
de las medias también será normal. Esto quiere decir, que si de una población que
sigue una distribución normal se toman todas las muestras posibles de un tamaño
específico y después de calculan las medias de todas, las medias muestrales también
deberán seguir una tendencia normal.

5.2.2. Teorema del Límite Central

6
Semana # 7

Un concepto muy importante es el del Teorema central del límite o Teorema del Límite
Central que establece que “si todas las muestras de un tamaño en particular se
seleccionan de cualquier población, la distribución muestral de la media se aproxima
a una distribución normal. Esta aproximación mejora con muestras más grandes.”
Esta aproximación se calcula a partir de :

𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 = 𝜎𝜎
√𝑛𝑛
donde:
𝜇𝜇 = media
𝜎𝜎 = desviación estándar
n = tamaño de la muestra
Existen casos en los cuales se tiene como dato adicional la población de la cual
proviene la muestra considerada, en estos se utiliza la ecuación:
𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 =
𝜎𝜎𝑥𝑥
donde:

𝜎𝜎 𝑁𝑁 − 𝑛𝑛
𝜎𝜎𝑥𝑥 = ×�
√𝑛𝑛 𝑁𝑁 − 1

N = población
𝜇𝜇 = media
𝜎𝜎 = desviación estándar
n = tamaño de la muestra
Ejemplo:
Una población normal tiene una media de 60 y una desviación estándar de 12. Usted
selecciona una muestra aleatoria de 9, Calcule la probabilidad de que la media
muestral sea mayor que 63.

7
Semana # 7

� − μ 63 − 60
X
Z= σ = = 0.75
� n 12�
√ √9

Buscando en la tabla de la distribución normal (Revisar recurso complementario),


A = 0,2266 , entonces P = 0,2266
Se sabe que un estimador puntual es un estadístico muestral que se usa para estimar
un parámetro poblacional. Como no se puede esperar que un estimador puntual
suministre el valor exacto del parámetro poblacional, se debe utilizar lo que se llama
estimación por intervalos ya que los intervalos estadísticos expresan la incertidumbre
debida a la variabilidad de los datos muestrales. Es así, que por ejemplo, basados
en una muestra de hogares en los que se está viendo televisión se puede construir
un intervalo que contenga, con un grado específico de confiabilidad, la media o la
desviación estándar de la cantidad de hogares que ven programas infantiles en la
televisión.

5.3. Intervalo de Confianza

Cuando no se conoce el parámetro de una población, es necesario realizar una


estimación (grado de aproximación de los valores obtenidos en una muestra a los
valores de la población desconocidos) mediante una muestra

Existen dos tipos de estimadores más utilizados que a continuación se detallan:

Estimador puntual: Son estadísticos obtenidos del análisis os muestra que se lo


infiere directamente a la población y deben ser insesgados suficientes y coherentes

𝑥𝑥� = 20 𝑎𝑎ñ𝑜𝑜𝑜𝑜 → 𝜇𝜇 = 20 𝑎𝑎ñ𝑜𝑜𝑜𝑜

Estimador por un intervalo de confianza se define como un “rango de valores


calculado a partir de los datos muestrales, el cual probablemente incluye el valor
verdadero de un parámetro desconocido” (Galindo, 1999)

8
Semana # 7

Un intervalo de confianza tiene un límite inferior de confianza (LCL) y un límite


superior de confianza (UCL). A cada intervalo se le asocia una probabilidad (1-α)
de que contenga el valor verdadero del valor del parámetro considerado. A tal
probabilidad se la llama nivel de confianza (o coeficiente de confianza). Es así
entonces que:

Pr(𝐿𝐿𝐿𝐿𝐿𝐿 ≤ 𝑝𝑝𝑝𝑝𝑝𝑝á𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ≤ 𝑈𝑈𝑈𝑈𝑈𝑈) = 1 − 𝛼𝛼

Al intervalo que cumpla con estas condiciones se lo nombra como intervalo de


confianza al 100 (1-α)% (α se conoce como nivel de significancia)

Para tener resultados fiables, el nivel de confianza debe ser alto (muy cercano a 1)
por lo que normalmente toma valores de 0,90; 0,95; 0,99. (90%, 95%, 99%
expresados como porcentajes)

Es importante mencionar que mientras más confiabilidad se requiera en los resultados


el nivel de confianza deberá ser mayor y por lo tanto la anchura del intervalo; sin
embargo, hay una contrapartida ya que, si bien se está seguro de que el intervalo
contiene el valor verdadero del parámetro, el intervalo de confianza es más ancho y
menos preciso. Obviamente una mayor confiabilidad se obtendrá también con un
tamaño de muestra mayor, cuyo análisis se realizará en el transcurso de la unidad.

Interpretación de los intervalos de confianza:

Un intervalo de confianza puede ser interpretado de dos maneras distintas:

a) Confía, al nivel de confianza estipulado, que el parámetro se encuentra en el


intervalo determinado
b) Si se construyen todos los intervalos de confianza posibles, el porcentaje de
ellos que incluirá el parámetro desconocido coincide con el nivel de confianza
considerado.

Por ejemplo:
La directora de un centro de cuidado infantil de la ciudad de Quito ha determinado
que los gastos medios en medicina preventiva para los niños de su centro están en
un intervalo de 35 a 38 dólares calculado a un nivel de confianza del 95%.

Esto puede ser interpretado entonces de la siguiente manera:

9
Semana # 7

a) En sentido a priori (antes de calcular el intervalo) se puede decir que existe un


95% de probabilidad de construir un intervalo que comprenda la media
poblacional. Sin embargo, una vez que se ha calculado el intervalo, la
probabilidad de que en el intervalo entre 35 y 38 se encuentre la media
poblacional es 1 o 0 y no del 95%, ya que el valor de 95% se asigna al grado
de confianza de que se encuentre en el intervalo, no a la probabilidad de que
esté en él.
b) La segunda interpretación parte de la consideración de que a partir de
cualquier población se pueden tomar infinitas muestras diferentes de tamaño
n. Cada muestra dará lugar a un intervalo ligeramente distinto porque cada
una de ellas tiene una media algo diferente afirmándose que en el 95% de
estos intervalos se incluirá la media poblacional desconocida.

Estimación de la media poblacional: Intervalo de confianza para la media


poblacional

Una de las más comunes aplicaciones de los intervalos de confianza es la de estimar


la media poblacional. Se toman dos consideraciones:

a) Para muestras grandes: (tamaño de muestra mayor o igual a 30)

Un intervalo de confianza para la media poblacional µ, a un determinado nivel de


confianza, viene dado por la ecuación:

𝜎𝜎 𝜎𝜎
�𝑥𝑥̅ − 𝑧𝑧𝛼𝛼�2 ; 𝑥𝑥̅ + 𝑧𝑧𝛼𝛼�2 �
√𝑛𝑛 √𝑛𝑛

donde:
n es el tamaño de la muestra
σ es la desviación estándar de la población
𝑧𝑧𝛼𝛼�2 es el valor z que corresponde al área de α/2 en el extremo superior de la
distribución normal estándar

Es importante mencionar que si se desconoce el valor de σ puede reemplazarse por


su estimador muestral, sin pérdida de exactitud.

10
Semana # 7

Los valores más comunes utilizados como niveles de confianza con sus respectivos
valores de z son:

Nivel de confianza α α/2 Zα/2


90% 0,10 0,05 1,645
95% 0,05 0,025 1,960
98% 0,02 0,01 2,326
99% 0,01 0,005 2,576

Ejemplo:
El director creativo de una fábrica de juguetes didácticos le ha pedido que estime el
tiempo medio necesario para producir una unidad concreta del proceso de fabricación.
Una muestra de 600 unidades da una media de 7,2 días. Se sabe que la desviación
estándar es de 1,90 días. A un nivel de confianza del 90%, calcular el corresponde
intervalo de confianza para el tiempo medio de ejecución del proceso de fabricación.
Datos:
𝑥𝑥̅ = 7,2 días
n = 600
σ =1,90 días
Nivel de confianza = 90% (0,90), es decir que α = 1- 0,90 = 0,10. Por lo tanto α/2 =
0,05
𝑧𝑧𝛼𝛼�2 (valor z que corresponde al área de α/2) = 1,645

Entonces el intervalo de confianza para el tiempo medio de ejecución solicitado será:

𝜎𝜎 𝜎𝜎
�𝑥𝑥̅ − 𝑧𝑧𝛼𝛼�2 ; 𝑥𝑥̅ + 𝑧𝑧𝛼𝛼�2 �
√𝑛𝑛 √𝑛𝑛

1,90 1,90
�7,2 − 1,645 × ; 7,2 + 1,645 × �
√600 √600

(7,2 − 0.128; 7,2 + 0,128)

11
Semana # 7

(7,072 ; 7,328)

Interpretación: Estoy 90% seguro de que el tiempo medio de ejecución del proceso
de fabricación está entre 7,072 días y 7,328 días.

b) Para muestras pequeñas: (tamaño de muestra menor a 30)

Antes de hablar del intervalo de confianza para muestras pequeñas será necesario
revisar el tema sobre Distribución T de Student.

Distribución t de Student:

Cuando hay que tomar una muestra pequeña, la distribución normal no siempre es
la adecuada porque no cumple el teorema de limite central. En concreto, cuando la
muestra es pequeña y la desviación estándar es desconocida, no se deberá aplicar
la distribución z recurriéndose a una distribución alternativa llamada t de Student.

Esta distribución solo se le aplica en el análisis muestral cuyas características son las
siguientes:

1.- Su forma es simétrica, es decir se parece a la distribución normal


2.- Su apuntamiento es platicúrtica
3.- La variabilidad es muy grande
4.- Es una distribución de variables aleatorias continuas
5.- Al igual que la distribución normal, se la puede estandarizar; a esta distribución se
la puede estudentizar y obtener puntuaciones t

𝑥𝑥̅ − 𝜇𝜇
𝑡𝑡 = 𝑠𝑠
√𝑛𝑛

Los valores de probabilidad vienen tabulados en la tabla que se muestra en el link:


https://www.uam.es/personal_pdi/ciencias/gallardo/Tablas-normal-chi-t-F.pdf

12
Semana # 7

Estos valores dependen de los grados de libertad (g.l) porque la ley de probabilidad
t varía cuando n varía. Cuando n aumenta, la distribución t tiende hacia la normal
estándar.
La lectura de la tabla se hace de la siguiente manera;
a) Escoger el número r de grados de libertad de acuerdo al tamaño de la
muestra
b) Considerar la probabilidad α, según el nivel de confianza
c) Lee los valores obtenidos de t en la tabla (recuerde de se lee: el valor t a r
grados de libertad y nivel de significancia α)
Ejemplo:
Encontrar el valor de la ley t para una muestra de 7 personas y un nivel de confianza
de 95%.

Con estos datos se sabe que:


Grados de libertad = r = tamaño de la muestra = 7
Nivel de confianza = 95% (0,95), es decir que α = 1-0,95 = 0,05

Con estos dos datos entrando a la tabla se obtiene que el valor t buscado es de =
1,895.

Intervalo de confianza:

Para construir un intervalo de confianza para la media en muestras pequeñas,


debemos basar nuestra ecuación en la distribución t, por lo tanto quedará establecida
de la siguiente manera:

𝑠𝑠 𝑠𝑠
�𝑥𝑥̅ − 𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) ; 𝑥𝑥̅ + 𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) �
√𝑛𝑛 √𝑛𝑛

donde:
n es el tamaño de la muestra
s es la desviación estándar muestral
𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) es el valor de la distribución t de Student a (n-1) grados de libertad, para el
cual el área en el extremo superior es igual a α/2.

13
Semana # 7

Ejemplo:

En una muestra de 16 estudiantes de una carrera se encontró una estatura media de


164.5 cm con una desviación estándar de 8.3 cm Calcular e interpretar un intervalo
de confianza de 95% para la media poblacional.
Datos:
𝑥𝑥̅ = 164,5 cm
n = 16, es decir n-1 = 16 -1 = 15
s = 8,3 cm
Nivel de confianza = 95% (0,95), es decir que α = 1- 0,95 = 0,05. Por lo tanto α/2 =
0,025
𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) (el valor t a 15 grados de libertad y un nivel de significancia 0,025) = 2,131

Entonces el intervalo de confianza para la media poblacional será:


𝑠𝑠 𝑠𝑠
�𝑥𝑥̅ − 𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) ; 𝑥𝑥̅ + 𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) �
√𝑛𝑛 √𝑛𝑛

8,3 8,3
�164,5 − 2,131 × ; 164,5 + 2,131 �
√16 √16

(164,5 − 4,422; 164,5 + 4,422)

(160,078 ; 168,922)

Interpretación: Estoy 95% seguro de que la estatura media de los estudiantes de


una carrera está entre 160.078 cm y 168.922 cm

Estimación de la media poblacional: Intervalo de confianza para proporciones


poblacionales

Muchas veces las decisiones dependen de parámetros con dos categorías en donde
puedan caer las respuestas. Es así, que cuando esto sucede el parámetro que se
utiliza es la proporción poblacional.

14
Semana # 7

Para construir el correspondiente intervalo de confianza se utiliza la siguiente


ecuación:

𝑝𝑝̂ (1 − 𝑝𝑝̂ ) 𝑝𝑝̂ (1 − 𝑝𝑝̂ )


�𝑝𝑝̂ − 𝑧𝑧𝛼𝛼⁄2� ; 𝑝𝑝̂ + 𝑧𝑧𝛼𝛼⁄2 � �
𝑛𝑛 𝑛𝑛

donde:
n es el tamaño de la muestra
zα/2 es el valor z que corresponde al área α/2 en el extreme superior de la distribución
normal estándar.

Ejemplo:

En un estudio realizado a los egresados de la carrera de Licenciatura en


Administración Educativa, los investigadores encontraron que, de una muestra de 210
egresados, 77 habían repetido la materia de Dirección Estratégica. Calcule un
intervalo de confianza al 90% para la proporción poblacional de los que han repetido
la materia de Dirección Estratégica.
Datos:
77
El valor proporcional para quienes han repetido la materia indicada = 𝑝𝑝̂ = = 0,367
210

n = 210 egresados
Nivel de confianza = 90% (0,90), es decir que α = 1- 0,90 = 0,10. Por lo tanto α/2 =
0,05
𝑧𝑧𝛼𝛼⁄2 (valor z que corresponde al área de α/2) = 1,645

Entonces el intervalo de confianza para la proporción poblacional será:

𝑝𝑝̂ (1 − 𝑝𝑝̂ ) 𝑝𝑝̂ (1 − 𝑝𝑝̂ )


�𝑝𝑝̂ − 𝑧𝑧𝛼𝛼⁄2� ; 𝑝𝑝̂ + 𝑧𝑧𝛼𝛼⁄2 � �
𝑛𝑛 𝑛𝑛

15
Semana # 7

0,367 × (1 − 0,367) 0,367 × (1 − 0,367)


�0,367 − 1,645� ; 0,367 + 1,645� �
210 210

(0,367 − 0,055 ; 0,367 + 0,055)

(0,312 ; 0,422)

Interpretación: Estoy 90% seguro de que la proporción poblacional para los


egresados que repitieron la materia de Dirección Estratégica está entre 0,312 y 0,422.

5.4. Tamaño de muestra


El tamaño de la muestra es importante en la determinación de la probabilidad del error
y la precisión de la estimación. Tomando en consideración el nivel de confianza,
existen dos factores que inciden en el tamaño muestral:

a) La variabilidad de la población (σ2), que es un factor no controlable por el


investigador.
b) El grado de error que se puede aceptar, que es un factor que depende de lo
crítico que sea el trabajo sobre el cual se está analizando el parámetro. Es
importante mencionar que cualquier intervalo dado tiene una amplitud igual al
doble del error tolerable.

a) Tamaño de muestra para la media poblacional:

Debemos partir de que la variable tipifica z es igual a:

𝑥𝑥̅ − 𝜇𝜇 𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 = =
𝜎𝜎𝑥𝑥 𝜎𝜎/√𝑛𝑛
despejando n se tiene:

𝑧𝑧 2 𝜎𝜎 2
𝑛𝑛 =
(𝑥𝑥̅ − 𝜇𝜇 )2

En ciertas bibliografías encontrará la siguiente relación, que es equivalente a la


anterior:

16
Semana # 7

2
�𝑧𝑧𝛼𝛼⁄2 � (𝜎𝜎)2
𝑛𝑛 =
𝐸𝐸2

donde, 𝑥𝑥̅ − 𝜇𝜇 es el error permitido o tolerable ( E ).

b) Tamaño de muestra para la proporción:

Para este caso debemos partir de que los intervalos de confianza tienen la forma:
𝑝𝑝̂ (1 − 𝑝𝑝̂ )
𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼⁄2 �
𝑛𝑛
𝑝𝑝�(1−𝑝𝑝�)
donde el error es 𝑧𝑧𝛼𝛼⁄2 � por lo que el tamaño de la muestra se calculará con la
𝑛𝑛
siguiente ecuación:

2
�𝑧𝑧𝛼𝛼⁄2� 𝑝𝑝̂ (1 − 𝑝𝑝̂ )
𝑛𝑛 =
𝐸𝐸2

Si no se conociera de antemano la estimación de p, se suele tomar p = 0,5, porque


este valor hace que tengamos un tamaño de muestras máximo.

Ejemplos:

a) Se desea conocer la distancia promedio que corren semanalmente los


miembros del club de carreras de fondo “Correr es Vivir”. Por estudios
anteriores se conoce que la desviación estándar de estas distancias es 4 km.
¿A cuántos atletas habrá que muestrear si la estimación debe quedar a menos
de 0,2 km con un nivel de confianza del 95%?

Datos:
σ = 4 km
E = 0,2 km porque el intervalo es de la forma (𝑥𝑥̅ − 0,2; 𝑥𝑥̅ + 0,2)
Para un intervalo de confianza del 95% se tiene que el valor de z = 1,96

Entonces:

17
Semana # 7

𝑧𝑧 2 𝜎𝜎 2
𝑛𝑛 =
(𝑥𝑥̅ − 𝜇𝜇 )2

(1,96)2 (4)2
𝑛𝑛 = = 1536,64
(0,2)2

Es decir, que se necesita un tamaño de muestra mínimo de 1537 atletas. Si la


muestra fuera demasiado alta, es necesario aumentar el error permitido.

b) Victor Pérez un afamado doctor de la región se presenta como candidato a la


Alcaldía de la urbe. Quiere estimar con un error de un punto porcentual la
proporción de electores que le votará. También quiere confiar al 98% en los
datos que halle. ¿Qué tamaño de muestra deberá tener el sondeo?
Datos:
Para este caso haremos unos de la proporción en donde se puede asumir p = 0,5
E = 0,01
Nivel de confianza = 98% (0,98), es decir que α = 1- 0,98 = 0,02. Por lo tanto, α/2 =
0,01
𝑧𝑧𝛼𝛼⁄2 (valor z que corresponde al área de α/2) = 2,326

Entonces:
2
�𝑧𝑧𝛼𝛼⁄2� 𝑝𝑝̂ (1 − 𝑝𝑝̂ )
𝑛𝑛 =
𝐸𝐸2

(2,326)2 0,5 (1 − 0,5)


𝑛𝑛 =
(0,01)2

𝑛𝑛 = 13525,69

Es decir, que necesitará una muestra de 13526 para el sondeo del caso.

18
Semana # 7

19

También podría gustarte