Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística II
CAPITULO I
MUESTREO
En esta unidad se hace un repaso de algunas definiciones básicas, necesarias para una
mejor comprensión del tema y, en general, de los procedimientos estadísticos de selección de
muestras.
Estadística II
Kendall y Buckland (citados por Gini V. Glas / Julian C. Stanley, 1980) definen la estadística
como un valor resumido, calculado, como base en una muestra de observaciones que
generalmente, aunque no por necesidad, se considera como una estimación de parámetro de
determinada población; es decir, una función de valores de muestra.
"La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos
de masa o colectivo, cuya mediación requiere una masa de observaciones de otros fenómenos
más simples llamados individuales o particulares". (Gini, 1953.
Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger,
organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar
decisiones razonables basadas en tal análisis.
La Estadística está constituida por un conjunto de métodos de análisis de datos que pueden
agruparse en tres categorías: La Estadística Descriptiva, el Análisis Exploratorio de Datos y la
Inferencia Estadística, que se describen a continuación:
Estadística II
Datos estadísticos: Son las cifras ó números, clasificados y otras informaciones que se
obtienen mediante experimentos, encuestas, observaciones personales, etc. Por ejemplo, una
persona contestó “SI” en una encuesta, un vehículo usa cauchos “X”; una persona resulto de
sexo “M” y de estatura “1.73”, se lanzo un dado 10 veces y en la séptima vez salió “Cara”.
Una variable aleatoria, es una función puntual que asigna un número real a cada elemento
de un espacio muestral (resultados de un experimento aleatorio). Generalmente, las variables
aleatorias se simbolizan con las ultimas letras del alfabeto, como X, Y y Z y los valores que
toman se denotan con las correspondientes letras minúsculas x, y, z. sus resultados no son
predecibles con exactitud.
Estadística II
categoría, como forma de representar ese fenómeno. Suele usarse el término observar como
sinónimo de medir. Por ejemplo, pesar un objeto es observar una propiedad, su peso, y
asignarle un número, el número de kilogramos que pesa. Determinar el estado civil de una
persona también es efectuar una medición, que consiste en clasificar esa propiedad en una de
Estadística II
Estadística II
2. Escala Ordinal: se usa cuando es posible establecer una relación de orden entre las
distintas categorías de una variable. Es decir, prevalece la relación de orden “mayor que” ( ≥ ) .
Se pueden usar letras o números para identificar a cada categoría de la variable. Los números
o letras deben reflejar un orden de las categorías y no se puede realizar operaciones
aritméticas entre los números asignados a las distintas categorías, tales números solo reflejan
una relación de orden.
Ejemplos:
Preescolar →1
Nivel de Educación Básica →2
Instrucción Media y Diversificada → 3
Superior →4
Mala →1
Calidad de un Regular →2
servicio Buena →3
Excelente → 4
Estadística II
Estadística II
Estadística II
Estadística II
Estadística II
Estadística II
población tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos
siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra sea
representativa.
En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los
problemas de representatividad aun en situaciones de muestreo no probabilístico, por ejemplo
los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la
población.
Entre los métodos de muestreo no probabilísticos más utilizados en investigación
encontramos:
a) Muestreo por cuotas:
También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de
un buen conocimiento de los estratos de la población y/o de los individuos más
"representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto,
semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de
aquél.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos
que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de
sexo femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros que
se encuentren que cumplan esas características. Este método se utiliza mucho en las
encuestas de opinión.
Estadística II
Estadística II
se simboliza con la letra e . Por ejemplo, se puede tener que la estimación que se desea hacer,
sea la de una proporción poblacional ( p) , con un EMA de 0,09 (e=0,09) ; se tendría entonces
un intervalo de ( p ±0,09 ) . si loa resultados arrojados por el estudio arrojan que la proporción
muestral es igual a 0,27, el investigador tolerará, como máximo, una desviación desde
( 0,27 ± 0,09 )=( 0,18; 0,36 ), en su estimación de la proporción poblacional.
Es evidente que si el investigador requiere aumentar la precisión, el intervalo de oscilación
debe ser menos amplio y el valor de e a utilizar debe ser menor, esto es:
Mayor Precisión → e más pequeño → n más GRANDE
Menor Precisión → e más grande → n más PEQUEÑO
c) La confianza: el hecho de trabajar con solo una parte de la población “una muestra”, no
garantiza con total exactitud o precesión la estimación, por lo que habrá siempre cierta
incertidumbre en el muestreo. No obstante, si el muestreo es probabilístico, dicha incertidumbre
puede ser controlada, fijando un determinado nivel de confianza, denominado Coeficiente de
Confianza, el cual no es más, que una medida de la seguridad que se tiene de que la
estimación está dentro del EMA fijado por el investigador. También esta medida, es fijada por el
investigador, quien decide la proporción o porcentaje de muestras en las que espera que su
estimación se desvíe del intervalo fijado con el EMA. Siguiendo con el ejemplo anterior, se
podría establecer un coeficiente de confianza de 0,95, que significa un 95% de confianza, esto
es que de cada 100 casos se obtendrá una muestra que satisface su precisión en un 95% y
solo 5% (0,05) de cada 100 casos, se obtendrá una muestra que no satisface la precesión.
En conclusión, la precisión “ e ”, siempre debe ser acompañada con un determinado nivel
de confianza, dándose el caso de que los coeficientes de confianza más utilizados en las
ciencias sociales son:
90 %
95 %
99 %
Se concluye entonces, que existe una relación entre el nivel de confianza y el tamaño de la
muestra. Si los demás factores (varianza y la precisión) permanecen inalterables, se tendrá:
A Mayor Confianza → n más GRANDE
A Menor Confianza → n más PEQUEÑO
d) El costo: este factor es de suma importancia, ya que en la medida que la investigación
cuente con un determinado presupuesto, con el cual desarrollarse, la evaluación del tamaño
óptimo tendrá relación estrecha con el costo. De esta manera, si ante una precisión, una
homogeneidad y una confianza dada resulta un costo demasiado elevado, será necesario la
revisión del esquema de muestreo propuesto para ajustarlo a los requerimientos
presupuestarios asignados, con lo cual se corre el riesgo de sacrificar la confianza fijada o la
precisión.
PRINCIPIO BÁSICO DEL MUESTREO: “La teoría del Muestreo intenta desarrollar
métodos de estimación que proporcionen, al más bajo costo, estimadores que sean lo
suficientemente precisos para un propósito establecido” [Cochran, 1.974].
Estadística II
6.3. Calculo del tamaño de muestra en el M.A.S. para estimar la Media Poblacional
Si la medida de interés en una muestra aleatoria simple es la media poblacional, el tamaño
de la muestra se calcula con la siguiente ecuación:
Estadística II
Z 2 * S2
n= 2
e
Donde:
Z=¿ Valor de la distribución normal para un nivel de confianza dada.
S2=¿ Varianza estimada de la variable más relevante en el estudio
e=¿ Error máximo admisible para la estimación.
Esta ecuación se aplica para casos en los cuales la población es infinita o el muestreo es
con reemplazo. Por el contrario si la población es finita y no hay reemplazo el muestreo, se
puede ajustar al tamaño de la muestra a través de una expresión denominada Factor de
Corrección para Poblaciones Finitas (FCPF). La decisión para asumir si la población es finita o
infinita, se orienta por siguiente regla:
Z2 * S2
n =
e2
n 0 *N
n =
n0 +(N −1)
(1,645)2 * (35)2
n = 2
(15)
Estadística II
Interpretación: para una población de 138 procesados el tamaño óptimo para este plan de
muestreo es de 14 procesados como mínimo,
6.5. Calculo del tamaño de la muestra en el M.A.S. para estimar una Proporción
Poblacional
Si la muestra aleatoria simple es para estimar la proporción de la población, el tamaño de la
misma se determina con la siguiente ecuación:
2
Z *P(1-P)
n = 2
e
Donde:
Z=¿ Valor de la distribución normal para un nivel de confianza dada.
P(1−P)=¿ Varianza de la proporción y está determinada por un valor estimado o
hipotético de la proporción P.
e=¿ Error máximo admisible para la estimación.
Si la población es finita se corrige el tamaño de la muestra con el factor de corrección
explicado en el ejerció anterior del ejemplo 2.
Ejemplo 3:
Estadística II
S2D → 0
2
SE → ∞
Lo anterior significa que en la medida en que los estratos sean homogéneos en su interior
con respecto a las variables estudiadas, se puede mejorar la eficacia del diseño de selección
de la muestra y ganar mayor precisión.
7.1. Procedimiento de selección del M.A.E.
a) Elaborar los estratos de acuerdo con las variables de estudio
b) se extrae una muestra aleatoria simple de cada estrato por separado
c) los miembros seleccionados de cada estrato se combinan o mezclan para lograr tener
una muestra de toda la población denominada muestra aleatoria estratificada.
Estadística II
∑ W i∗S i
i=1
Donde:
Ni
W i = Peso relativo del estrato “i” con W i =
N
Si = Desviación típica del estrato “i”
7.2.1. Calculo del tamaño de muestra en el M.A.E con asignación de Neyman para
estimar la Media Poblacional
n=¿ ¿ ¿
7.2.2. Calculo del tamaño de muestra en el M.A.E con asignación de Neyman para
estimar la Proporción Poblacional
Estadística II
2
( ∑ N i √ P i∗Qi )
n= 2 2
N ∗e
2
+ ∑ N i∗Pi∗Q i
z
7.2.3. Calculo del tamaño de muestra en el M.A.E con asignación Proporcional para
estimar la Media Poblacional
1
N ∑ i∗S
N 2
i
n= 2
e 1
2
+ 2 ∑ N i∗S 2
z N i
7.2.4. Calculo del tamaño de muestra en el M.A.E con asignación Proporcional para
estimar la Proporción Poblacional
N ∑ N i∗P i∗Qi
n= 2
e
2 ∑
2
N + N i∗Pi∗Qi
z
En todas las ecuaciones anteriores se observa que la presencia de las desviaciones típicas
de cada una de los estratos como requerimiento para la determinación del tamaño de la
muestra requerido
Ejemplo 4: Se cuenta con la siguiente información referida a 2.010 fincas de una Región.
Tabla Nº 1. 1
Distribución del número de Fincas de una determinada región
Desviación Típica
Tamaño de la Finca
Número de Fincas de la producción de papas
(hectáreas)
(según prueba piloto)
0 – 80 855 15,3 toneladas
81 – 160 725 19,8 toneladas
161 y más 430 10,2 toneladas
Estadística II
a) Asignación de Neyman
b) Asignación Proporcional
Número de Estratos: 3 definidos por el tamaño de las fincas.
SOLUCIÓN POR MEDIO DE LA ASIGNACIÓN DE NEYMAN PARA LA MEDIA
POBLACIONAL
Primero se calcula las desviaciones típicas mediante las siguientes fórmulas para cada
estrato:
a) ¿ ¿
2
b) N i∗S i
Tabla Nº 1.2
Calculo de las desviaciones típicas para cada estrato
Número Desviación Ni
de Fincas Típica Wi= N i∗S i Si
2
N i∗S i
2
N
Ni Si
855 15,3 ton 0,43 13.081,5 234,09 200.146,95
725 19,8 ton 0,36 14.355 392,04 284.229,00
430 10,2 ton 0,21 4.386 104,04 44.737,2
N = 2.010 1 ¿¿ ∑ N i∗S =529.113,15
i
2
n=¿ ¿ ¿
2
(855∗15,3+ 725∗19,8+ 430∗10,2)
n=
( 2.010) ∗(3,5)2
2
2
+(200.146,95+284.229+44.737,2)
(1,645)
2
(31.822,5)
n=
.100∗12,25
4.040 +529.113,15
2,71
1.012 .671.506,3
n=
4.040 .100∗4,527+529.113,15
1.012 .671.506,3
n=
18.289 .271,16+529.113,15
1.012 .671.506,3
n=
18.818 .384,31
n=53,8129
Estadística II
∑ W i∗S i
i=1
Estadística II
1
N
∑ N i∗S i
2
n= 2
e 1
2
+ 2 ∑ N i∗S 2
z N i
0,00049751∗(529.113,15)
n= =¿
12,25 1
+ (529.113,15)
2,71 4.040.100
263,24
n= =¿
1∗529.113,15
4,527+
4.040 .100
263,24
n= =¿
529.113,15
4,527+
4.040 .100
263,24 263,24
n= = =56,51
4,527+0,13096536 4,657900625
Estadística II
430
n3 =57 =57∗0,21=12,2
2010
Interpretación: según la asignación proporcional se deben extraer para el primer estrato 24
fincas, para el segundo 20 y para el tercer estrato 12 fincas lo que da como sumatoria n = 56, el
cual es un número menor al tamaño óptimo de n y esto se debe al redondeo. Cuando esto
ocurre se recomienda colocar el elemento faltante en el estrato con menor tamaño, lo que
resulta, para este caso, que el tercer estrato tendrá un tamaño de muestra igual a 13 fincas ó
de igual manera se puede redondear algunos de los resultados como por ejemplo: 20,6 llevarlo
a 21. Para este caso en particular se le sumo el elemento faltante al último estrato, por tener el
menor valor.
La sumatoria total debe dar el tamaño de la muestra total:
n1 +n 2+ n3+ …+n L =n
24+ 20+13=57
8. MUESTREO ALEATORIO POR CONGLOMERADO (M.A.C.)
Consiste en seleccionar de una población, en forma aleatoria, un conjunto de m colecciones
de elementos muestrales llamados conglomerados y, posteriormente, efectuar un censo o
enumeración completa en cada uno de los conglomerados seleccionados.
Los métodos anteriores se utilizan para seleccionar directamente de la población los
elementos ó unidades muestrales. En el muestreo por conglomerado la unidad muestral es un
grupo de elementos de la población.
Un conglomerado puede ser natural o no natural, los primeros están referidos por ejemplo,
a las unidades hospitalarias, unidades educativas, un departamento universitario, una caja de
un determinado producto, entre otros, y los no naturales pueden ser las urnas electorales.
Cuando los conglomerados son áreas geográficas suele hablarse de muestreo por áreas.
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número
de conjutos y en investigar después todos los elementos pertenecientes a los conglomerados
elegidos.
Supuesto Básico: el M.A.C proporciona una cantidad específica de información a un costo
mínimo cuando:
a) No exista una lista con todos los elementos de la población o sería muy costoso
obtenerlo.
b) La población es muy grande y dispersa en un área geográfica.
8.1. Procedimiento de selección del M.A.C.
El procedimiento se lleva a cabo en dos etapas:
Etapa 1: se determinan conglomerados de elementos muestrales, los cuales se asumen
reunidos o concentrados en áreas geográficas ó físicas de ubicación fácil o conveniente. De la
lista de conglomerados que se diseñe, se escoge al azar un determinado número de unidades.
La elección de los conglomerados debe hacerse de manera cuidadosa basado en el supuesto
básico para una selección óptima de la muestra.
Etapa 2: luego de seleccionar cierto número de conglomerados, se registra (para los
integrantes de cada uno) la información requerida en función de las variables en estudio.
Principio Básico: los conglomerados deben ser lo más heterogéneos posible en su interior
y, a su vez, lo más homogéneos posible entre sí.
La situación ideal sería que un único conglomerado pudiese representar fielmente a la
población. El principio anterior puede representarse simbólicamente asumiendo S2 d y a S2e
como las varianzas dentro y entre los conglomerados, respectivamente, entonces:
Estadística II
S2D → ∞
2
SE → 0
Este principio es lógico, ya que si se va extraer algún conglomerado en particular, lo ideal
sería que el conglomerado tuviera un alto grado de heterogeneidad que posibilitara la presencia
de los distintos comportamientos de los elementos de la población.
Selección de la muestra por conglomerados.
1) Definir los conglomerados en los que se va a dividir a la población, los cuales pueden ser
manzanas de un barrio o urbanización, municipios o parroquias de un estado o ciudad, calles
de una ciudad, salones de clase de un colegio o universidad, otros.
2) Se elabora una lista de todos los conglomerados y a cada uno se les asigna un número
para identificarlos, también puede ser un plano o mapa.
3) Elegir al azar, tantos números como conglomerados se haya decidido seleccionar.
4) Finalmente, se procede a obtener la información requerida de todos y cada uno de los
elementos incluidos en los conglomerados elegidos al azar.
30
n=
0.025 x 29+1
30
n=
7,25+1
Estadística II
30
n=
8,25
n=3,6363 …
n=4
Interpretación: se deben seleccionar 4 aulas o conglomerados
b) Se aplica la formula de Sierra Bravo con un margen de error del 5% sobre el valor de la
población estudiantil N = 1350 estudiantes. Se divide el valor obtenido entre treinta para
determinar el número de aula a seleccionar.
1350
n=
0,025 ( 1349 ) +1
1350
n=
33,725+1
n=38,88
n=39
39
El número de aulas es igual a n= =0,866 … 1
45
n=1 Aula
c) Si se advierte que se pueden entrevistar 200 estudiantes por motivos de costo y tiempo,
se divide esta cantidad (200) entre el número de estudiantes por aula (45) para obtener el
número de aulas a seleccionar.
200
n= =4,44 … 5
45
n=5 Aulas
Estadística II