Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA INFERENCIAL
AREA ESTADISITCA
DEPARTAMENTO DE CIENCIAS EXACTAS - ESPE
Semana # 7
Contenido
Título Estadística Inferencial y estimaciones
Duración 24 horas
El muestreo es más que el procedimiento empleado para obtener una o más muestras
de una población; el muestreo es una técnica que sirve para obtener una o más
muestras de población.
1
Semana # 7
Al tomar varias muestras de una población, las estadísticas que calculamos para cada
muestra no necesariamente serían iguales, y lo más probable es que variaran de una
muestra a otra.
1. Muestreo probabilístico
Los elementos que forman parte de la muestra tiene la misma posibilidad de ser
elegidos como parte de la muestra es decir al azar.
a) Muestreo aleatorio: Es aquel en el que todos los elementos de la población
tienen la misma probabilidad de ser elegidos como elementos de la muestra.
Su principal inconveniente es que muchas veces es imposible obtener una lista
de todos y cada uno de los individuos de la población. Otro inconveniente es
que, en muestras pequeñas, no garantiza la representatividad, ya que en
ocasiones el propio azar puede conducir a muestras altamente sesgadas.
2
Semana # 7
3
Semana # 7
En este tipo de estudio partimos de una muestra definida por los criterios de selección,
realizando el investigador la asignación a cada grupo, siendo la asignación aleatoria
o randomización la más utilizada, en ella la asignación de los individuos a cada grupo
se realiza al azar. Las ventajas de este tipo de estudio son:
Mayor probabilidad de una distribución equilibrada de las variables pronosticas
(conocidas y no conocidas).
Permite el uso de técnicas de enmascaramiento.
3.3. Técnicas de enmascaramiento
Son aquellas que dan lugar a que los sujetos y/o el investigador, desconozcan a que
grupo pertenecen:
Simple ciego: cuando el sujeto o el investigador desconocen a que grupo
pertenecen.
Doble ciego: cuando tanto el sujeto como el investigador desconocen, a priori,
el grupo al que pertenece cada sujeto.
4
Semana # 7
5
Semana # 7
Podemos decir entonces, que este error típico es una medida de la dispersión de las
medias muestrales en torno a µ y por tanto, mide la tendencia a incurrir en un error
de muestreo en el intento de estimar el parámetro.
Si los datos de una población siguen una distribución normal, la distribución muestral
de las medias también será normal. Esto quiere decir, que si de una población que
sigue una distribución normal se toman todas las muestras posibles de un tamaño
específico y después de calculan las medias de todas, las medias muestrales también
deberán seguir una tendencia normal.
6
Semana # 7
Un concepto muy importante es el del Teorema central del límite o Teorema del Límite
Central que establece que “si todas las muestras de un tamaño en particular se
seleccionan de cualquier población, la distribución muestral de la media se aproxima
a una distribución normal. Esta aproximación mejora con muestras más grandes.”
Esta aproximación se calcula a partir de :
𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 = 𝜎𝜎
√𝑛𝑛
donde:
𝜇𝜇 = media
𝜎𝜎 = desviación estándar
n = tamaño de la muestra
Existen casos en los cuales se tiene como dato adicional la población de la cual
proviene la muestra considerada, en estos se utiliza la ecuación:
𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 =
𝜎𝜎𝑥𝑥
donde:
𝜎𝜎 𝑁𝑁 − 𝑛𝑛
𝜎𝜎𝑥𝑥 = ×�
√𝑛𝑛 𝑁𝑁 − 1
N = población
𝜇𝜇 = media
𝜎𝜎 = desviación estándar
n = tamaño de la muestra
Ejemplo:
Una población normal tiene una media de 60 y una desviación estándar de 12. Usted
selecciona una muestra aleatoria de 9, Calcule la probabilidad de que la media
muestral sea mayor que 63.
7
Semana # 7
� − μ 63 − 60
X
Z= σ = = 0.75
� n 12�
√ √9
8
Semana # 7
Para tener resultados fiables, el nivel de confianza debe ser alto (muy cercano a 1)
por lo que normalmente toma valores de 0,90; 0,95; 0,99. (90%, 95%, 99%
expresados como porcentajes)
Por ejemplo:
La directora de un centro de cuidado infantil de la ciudad de Quito ha determinado
que los gastos medios en medicina preventiva para los niños de su centro están en
un intervalo de 35 a 38 dólares calculado a un nivel de confianza del 95%.
9
Semana # 7
𝜎𝜎 𝜎𝜎
�𝑥𝑥̅ − 𝑧𝑧𝛼𝛼�2 ; 𝑥𝑥̅ + 𝑧𝑧𝛼𝛼�2 �
√𝑛𝑛 √𝑛𝑛
donde:
n es el tamaño de la muestra
σ es la desviación estándar de la población
𝑧𝑧𝛼𝛼�2 es el valor z que corresponde al área de α/2 en el extremo superior de la
distribución normal estándar
10
Semana # 7
Los valores más comunes utilizados como niveles de confianza con sus respectivos
valores de z son:
Ejemplo:
El director creativo de una fábrica de juguetes didácticos le ha pedido que estime el
tiempo medio necesario para producir una unidad concreta del proceso de fabricación.
Una muestra de 600 unidades da una media de 7,2 días. Se sabe que la desviación
estándar es de 1,90 días. A un nivel de confianza del 90%, calcular el corresponde
intervalo de confianza para el tiempo medio de ejecución del proceso de fabricación.
Datos:
𝑥𝑥̅ = 7,2 días
n = 600
σ =1,90 días
Nivel de confianza = 90% (0,90), es decir que α = 1- 0,90 = 0,10. Por lo tanto α/2 =
0,05
𝑧𝑧𝛼𝛼�2 (valor z que corresponde al área de α/2) = 1,645
𝜎𝜎 𝜎𝜎
�𝑥𝑥̅ − 𝑧𝑧𝛼𝛼�2 ; 𝑥𝑥̅ + 𝑧𝑧𝛼𝛼�2 �
√𝑛𝑛 √𝑛𝑛
1,90 1,90
�7,2 − 1,645 × ; 7,2 + 1,645 × �
√600 √600
11
Semana # 7
(7,072 ; 7,328)
Interpretación: Estoy 90% seguro de que el tiempo medio de ejecución del proceso
de fabricación está entre 7,072 días y 7,328 días.
Antes de hablar del intervalo de confianza para muestras pequeñas será necesario
revisar el tema sobre Distribución T de Student.
Distribución t de Student:
Cuando hay que tomar una muestra pequeña, la distribución normal no siempre es
la adecuada porque no cumple el teorema de limite central. En concreto, cuando la
muestra es pequeña y la desviación estándar es desconocida, no se deberá aplicar
la distribución z recurriéndose a una distribución alternativa llamada t de Student.
Esta distribución solo se le aplica en el análisis muestral cuyas características son las
siguientes:
𝑥𝑥̅ − 𝜇𝜇
𝑡𝑡 = 𝑠𝑠
√𝑛𝑛
12
Semana # 7
Estos valores dependen de los grados de libertad (g.l) porque la ley de probabilidad
t varía cuando n varía. Cuando n aumenta, la distribución t tiende hacia la normal
estándar.
La lectura de la tabla se hace de la siguiente manera;
a) Escoger el número r de grados de libertad de acuerdo al tamaño de la
muestra
b) Considerar la probabilidad α, según el nivel de confianza
c) Lee los valores obtenidos de t en la tabla (recuerde de se lee: el valor t a r
grados de libertad y nivel de significancia α)
Ejemplo:
Encontrar el valor de la ley t para una muestra de 7 personas y un nivel de confianza
de 95%.
Con estos dos datos entrando a la tabla se obtiene que el valor t buscado es de =
1,895.
Intervalo de confianza:
𝑠𝑠 𝑠𝑠
�𝑥𝑥̅ − 𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) ; 𝑥𝑥̅ + 𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) �
√𝑛𝑛 √𝑛𝑛
donde:
n es el tamaño de la muestra
s es la desviación estándar muestral
𝑡𝑡𝛼𝛼�2(𝑛𝑛−1) es el valor de la distribución t de Student a (n-1) grados de libertad, para el
cual el área en el extremo superior es igual a α/2.
13
Semana # 7
Ejemplo:
8,3 8,3
�164,5 − 2,131 × ; 164,5 + 2,131 �
√16 √16
(160,078 ; 168,922)
Muchas veces las decisiones dependen de parámetros con dos categorías en donde
puedan caer las respuestas. Es así, que cuando esto sucede el parámetro que se
utiliza es la proporción poblacional.
14
Semana # 7
donde:
n es el tamaño de la muestra
zα/2 es el valor z que corresponde al área α/2 en el extreme superior de la distribución
normal estándar.
Ejemplo:
n = 210 egresados
Nivel de confianza = 90% (0,90), es decir que α = 1- 0,90 = 0,10. Por lo tanto α/2 =
0,05
𝑧𝑧𝛼𝛼⁄2 (valor z que corresponde al área de α/2) = 1,645
15
Semana # 7
(0,312 ; 0,422)
𝑥𝑥̅ − 𝜇𝜇 𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 = =
𝜎𝜎𝑥𝑥 𝜎𝜎/√𝑛𝑛
despejando n se tiene:
𝑧𝑧 2 𝜎𝜎 2
𝑛𝑛 =
(𝑥𝑥̅ − 𝜇𝜇 )2
16
Semana # 7
2
�𝑧𝑧𝛼𝛼⁄2 � (𝜎𝜎)2
𝑛𝑛 =
𝐸𝐸2
Para este caso debemos partir de que los intervalos de confianza tienen la forma:
𝑝𝑝̂ (1 − 𝑝𝑝̂ )
𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼⁄2 �
𝑛𝑛
𝑝𝑝�(1−𝑝𝑝�)
donde el error es 𝑧𝑧𝛼𝛼⁄2 � por lo que el tamaño de la muestra se calculará con la
𝑛𝑛
siguiente ecuación:
2
�𝑧𝑧𝛼𝛼⁄2� 𝑝𝑝̂ (1 − 𝑝𝑝̂ )
𝑛𝑛 =
𝐸𝐸2
Ejemplos:
Datos:
σ = 4 km
E = 0,2 km porque el intervalo es de la forma (𝑥𝑥̅ − 0,2; 𝑥𝑥̅ + 0,2)
Para un intervalo de confianza del 95% se tiene que el valor de z = 1,96
Entonces:
17
Semana # 7
𝑧𝑧 2 𝜎𝜎 2
𝑛𝑛 =
(𝑥𝑥̅ − 𝜇𝜇 )2
(1,96)2 (4)2
𝑛𝑛 = = 1536,64
(0,2)2
Entonces:
2
�𝑧𝑧𝛼𝛼⁄2� 𝑝𝑝̂ (1 − 𝑝𝑝̂ )
𝑛𝑛 =
𝐸𝐸2
𝑛𝑛 = 13525,69
Es decir, que necesitará una muestra de 13526 para el sondeo del caso.
18
Semana # 7
19