Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MII MM Separata
MII MM Separata
NOCIONES DE MUESTREO E
INFERENCIA ESTADÍSTICA
ÍNDICE
I. MUESTREO
Para que estos datos estadísticos sean de utilidad tienen que presentar dos características
básicas:
3
1. Deben ser pertinentes; es decir, deben guardar una relación con el tema a investigar.
2. Deben ser in sesgado; es decir no deben tener deformaciones o errores provenientes
de los instrumentos empleados en la recolección de los datos.
Para que una muestra sea aceptable desde el punto de vista del análisis estadístico
deberá reunir las siguientes características:
4
f. Mayor confiabilidad y precisión de los datos obtenidos.
Por otra parte, la aplicación del muestreo presenta algunas limitaciones comunes entre las
cuales tenemos:
1. No permite hacer cálculos, proyecciones o tabulaciones con respecto a sectores
pequeños de una población o cuando se requiere información de cada elemento de la
población, ya que las dudas serían tan importantes que no es posible tener una
acertada predicción en base de la muestra.
2. El cálculo de los resultados está sujeto a los errores del muestreo en sí y de errores
ajenos al muestreo.
3. Las investigaciones completas ofrecen un margen más sólido y eficiente de exactitud
que los obtenidos en base a la muestra.
4. En base a una muestra se dificulta la tabulación cruzada de algunas características
investigadas.
5. Las probabilidades de error se multiplican en las diferentes operaciones y en las
complicaciones que surjan de su propio mecanismo.
6. La preparación estadístico-matemática del muestrista para el diseño eficiente de la
muestra en todas sus etapas.
Existen dos tipos generales para seleccionar muestras a partir de las poblaciones; el
primero es el muestreo probabilístico: son aquellos en donde la operación del muestreo
es controlada objetivamente, es decir, son muestras escogidas al azar. Después, tenemos
los muestreos no probabilísticas: son aquellos en donde la operación del muestreo es
realizado en forma subjetiva, al menos parcialmente, lo que significa que los resultados
obtenidos de la muestra pudiesen no ser representativos de la población.
A. Muestras Aleatorias Simples: en este tipo de muestreo cada uno de los individuos de
la población tiene la misma posibilidad de ser elegido. El cual puede ser con reemplazo
y sin reemplazo. En este caso, para dar la seguridad de que la muestra aleatoria no
5
sea viciada, debe emplearse para su constitución una tabla aleatoria o procesos
electrónicos aleatorios.
Este tipo de muestreo resulta más económico que otros procedimientos aleatorios,
además asegura la equiprobabilidad de la elección, sin embargo, su limitante radica en
que no provee suficientes casos de grupos minoritarios.
1
Se refiere a los sujetos escogidos para someterse a observación en una muestra en
estudio y no se les ubica, o bien no es posible lograr que proporcionen la información
necesaria.
6
disminución de la precisión de sus resultados, en el caso que el número de
conglomerados sea menor de 30. Los pasos a seguir son los mismos que el grupo
anterior (muestreo aleatorio simple).
D. Muestras Sistemáticas: Este tipo de muestreo consiste en escoger una unidad al azar
y luego selecciona cada unidad que se encuentre a m unidades de aquella. Esta
técnica suele ser más rápida y está menos expuesta a errores que la del muestreo
aleatorio simple. Generalmente, se emplea cuando se quiere seleccionar elementos de
un estrato, en un diseño estratificado. Por ejemplo, se desea escoger una muestra
probabilística de 16 hospitales, de una lista de 160 hospitales.
7
Se incluirán en la muestra los hospitales con los números: 3, 13, 23, 33, 43, 53, 63, 73,
83, 93, 103, 113, 123, 133, 143, 153.
8
1.4. Tamaño De Muestra
Para establecer una fórmula del tamaño de muestra se requiere saber el tipo de
parámetro que se desea estimar, es decir, si el interés es estimar una media aritmética
se requiere una fórmula específica y si se quiere estimar una proporción se considera
otra fórmula.
n = Z² ² N
E²(N-1)+Z²²
Donde:
N: Tamaño de la población que es objeto de estudio.
Z: es una desviación normal cuyo valor corresponde al grado de confianza que se
establece.
Es decir:
N.C.: 90% 95% 99%
Z : 1.64 1.96 2.57
²: Varianza poblacional de la población que es objeto de estudio
Para establecer el valor a la varianza, hay que tener en cuenta las siguientes
recomendaciones:
Recurrir a estudios similares que se han realizado y obtener el valor de la varianza
respectiva.
9
Realizar un estudio piloto para estimar ².
Ejemplo
Interés: Conocer el colesterol promedio de los estudiantes de la Facultad de
Medicina USMP. (Suponemos que son 1800 alumnos)
Solución
Por definición de error relativo. Er = E/X * 100. Por consiguiente, E= Er* X /100.
Como grado de confianza 95%, nos indica que Z=1.96
E= 0.06*210 = 12.6; = 30.
Por tanto, n=22 (Para realizar el estudio se requiere como mínimo 22 estudiantes)
n = Z² P (1 – P) N
E²(N-1) + Z²P(1-P)
N: Tamaño de la población
Z: Desviación normal
P: Proporción de unidades que poseen el atributo de interés en la población
10
E: Error absoluto o precisión de la estimación de la proporción. Por lo general el valor
que asume es de 0.05
Ejemplo
Interés: Conocer la proporción de estudiantes que fuman cigarrillos en la Facultad de
Medicina de La USMP número de estudiantes N= 1700.
Solución
Z= 2.57. De un estudio preliminar se ha determinado que la proporción de alumnos
que fuman cigarrillos es de p=0.40. El error absoluto que se toma en cuenta es de
E=0.05
Reemplazando la información en fórmula, se tiene:
n= (2.57)²(0.4)(0.6)(1700) = 462
(0.05)²(1699) + (2.57)²(0.4)(0.6)
Por lo menos se requiere para ejecutar el estudio por lo menos 462 estudiantes, con
un grado de confianza del 99% y precisión del 5%.
11
Para estimar una proporción,
n = Z² P (1 – P)
E²
12
II. INFERENCIA ESTADÍSTICA
La inferencia estadística se refiere a los métodos y/o procesos para obtener conclusiones
acerca de poblaciones, basados en la información muestral.
13
2.1. Áreas de la inferencia estadística
Un estimador puntual del parámetro de una población es una regla que indica
como calcular un número con base muéstrales. Al número resultante se llama
estimación puntual.
14
Ejemplo 1:
Se desea estudiar el salario promedio anual de los profesionales de salud de una
compañía farmacéutica. Para ello se tomó una muestra de n=100 profesionales de
la compañía, se registra el salario anual de cada profesional de salud en la muestra
y se calculan la media y la desviación estándar muestral de los salarios
obteniéndose:
x= $7,750 y s= $900
Solución:
: Salario promedio anual
= x = $7,750
Se estima que el salario promedio anual es de $7,750
Los valores de los límites, inferior (L1) y superior (L2), se encuentran aplicando la
fórmula general:
Por consiguiente, los límites del intervalo se obtienen sumando o restando el error
estándar al valor de la media muestral. Específicamente, para hallar el límite inferior
15
(L1) se resta el error estándar y para hallar el límite superior (L2) se suma el error
estándar.
Ejemplo 2:
= 170 cm ; s = 20 cm
Solución
Si no se especifica el grado de confianza, se utiliza por lo general 95%, lo cual
corresponde a z = 1.96. Conociendo los datos. Se puede aplicar la fórmula:
= Z x s_
Li = 170 - 1.96 x 20/6_ 163.47 cm
Ls = 170 + 1.96 x 20/6 176.53 cm
Por lo tanto, la estatura promedio de los estudiantes de la facultad de medicina de
la USMP está comprendida entre 163.5 y 176.5 cm, con un grado de confianza del
95%.
I.C. 95% (163.5 ; 176.5 cm)
Los valores de los límites, inferior (L1) y superior (L2), se encuentran aplicando la
fórmula general:
16
Por consiguiente, los límites del intervalo se obtienen sumando o restando el error
estándar al valor de la proporción muestral (p). Específicamente, para hallar el
límite inferior (L1) se resta el error estándar y para hallar el límite superior (L2) se
suma el error estándar.
Ejemplo
Supóngase que en una muestra de 2000 personas se encontró que 250 son
alcohólicos. Es decir, el porcentaje de alcohólicos en la muestra es:
p=250/2000x100=12.5%.Calcular el intervalo de confianza al 95%.
Por lo tanto, con un nivel de confianza de 95%, se puede afirmar que el porcentaje de
alcoholismo en la población se encuentra entre 11.05% y 13.95%.
17
2.3. Prueba de hipótesis
Es una técnica estadística que se sigue para decidir si se rechaza o no una hipótesis
estadística en base a la información de una muestra. Es llamada también docimasia de
hipótesis o contraste de hipótesis.
Hipótesis alterna (H1): Son todas las alternativas o suposiciones para contrastar la
hipótesis nula (Ho), es decir, aquellas que plantean una diferencia entre los
parámetros involucrados y proponen que la diferencia observada es consecuencia
efectiva entre las poblaciones de origen. La hipótesis alterna puede ser uni o
bilateral.
Ejemplo
Un investigador pretende estudiar en forma comparativa la eficacia de 2 tratamientos,
tratamiento A y tratamiento B, para determinar cuál es mejor.
18
Ho: A - B= 0. La afirmación de esta hipótesis es que el tratamiento A no difiere del
tratamiento B.
Con respecto al ejemplo, se pueden plantear varias alternativas. Una de ellas es H1: A
- B 0. La interpretación es que el tratamiento A es mejor que el tratamiento B, siendo
por consiguiente H1 unilateral a la derecha.
Al hallar el valor , se puede tomar una decisión respecto a cuál de las 2 hipótesis
planteadas es verdadera y cual falsa. La toma de decisiones se resume en el siguiente
cuadro:
Ho verdadero Ho falso
Cuando se toma una decisión estadística, se puede cometer el error tipo I o el error
tipo II.
19
el nivel de significación de la prueba, pues permite diferenciar la región de rechazo
y no rechazo de la prueba. Es así que 1- indica el grado de confianza de la
prueba.
20
III. APLICACIONES DE LA PRUEBA DE HIPÓTESIS
H1 : μ μ0 H1 : μ > μ0 H1 : μ < μ0
Paso 2.- Niveles de significación. (teórico) ”” α puede ser : 0.01, 0.05, 0.10,etc
Paso 3.- Estadístico de prueba.
Caso 1: Caso 2:
Varianza poblacional conocida Varianza poblacional desconocida; n≤30
x -μ x -μ
Zcal = N(0,1) Tcal = t (n-1)
σ/ n S/ n P – VALOR
Caso 3: (tabla )
Varianza poblacional desconocida; n>30
x
Z
S/ n
Paso 4.- Formular la regla de decisión
Si el p-valor < Se rechaza H0
Si el p-valor ≥ No se rechaza H0
Paso 5.- Conclusión:
En este caso se especifica la hipótesis estadística que no ha sido rechazada
indicando el nivel de significancia teórico considerado (α)
21
3.3. Diferencia de dos medias poblaciones independientes.
d
T ~ t(n 1) P – VALOR (tabla distr.”t” student)
Sd / n
Donde:
d: promedio de las diferencia de los valores antes y después
Sd : desviación estándar de las diferencias de los valores antes y después
Paso 4.- Formular la regla de decisión
Si el p-valor < Se rechaza H0
Si el p-valor ≥ No se rechaza H0
22
3.5. Diferencia de dos proporciones poblacionales independientes.
Paso 1.- Planteamiento de hipótesis.
H 0 : P1 P2 H 0 : P1 P2 H 0 : P1 P2
H 1 : P1 P2 H 1 : P1 P2 H 1 : P1 P2
Paso 2.- Niveles de significación. (teórico) ”” α puede ser : 0.01, 0.05, 0.10,etc
Paso 3.- Estadístico de prueba.
(p1 - p 2 )
Zcal = P – VALOR (tabla distr.normal)
ˆ
p(1- ˆ 1 + 1
p)
n1 n2
Donde :
ˆ = x1 + x 2 = n1p1 + n2p 2
p
n1 + n2 n1 + n2
Paso 4.- Formular la regla de decisión
Si el p-valor < Se rechaza H0
Si el p-valor ≥ No se rechaza H0
23
24