Está en la página 1de 157

CURSO DE TEORIA DE

MUESTREO
NOCIONES BÁSICAS
BIBLIOGRAFÍA
 Material preparado por el docente
 Técnicas de Muestreo
William Cochran (CECSA)
 Muestreo: Diseño y Análisis
Sharon Lohr (Thomson)
 Model Assisted Survey Sampling
Särndal, Swensson, Wretman (Springer-Verlag)
 Técnicas de Muestreo Estadístico
César Pérez (Alfaomega)
 Teoría y Práctica del Muestreo
Curso organizado por el Programa MECOVI en
1999, del cual se tomaron prestadas algunas de
las transparencias que aquí se presentan.
Primeras definiciones

• Población y muestra • Marcos Muestrales


• Probabilidad • Propiedades deseables
• Encuestas por Muestreo de los marcos
• Diseño Muestral • Definición de Unidades
• Muestreo Probabilístico
¿Qué es una Población?

 Es un conjunto bien definido de todos


los elementos que interesa investigar.

 Ejemplos: personas, personas


mayores de cierta edad, hogares
particulares, instituciones, empresas,
alumnos de cierta edad, alumnos de
un grado.

 Expresiones equivalentes: “Población


Objetivo” o “Universo”.
Investigación sobre calidad educativa
¿Cuál es la Población?

 Alumnos de cierta edad especificad, no


importa el grado que cursan.
 Alumnos matriculados en un grado
escolar.
 Alumnos del grado que concurren
habitualmente a clases en el momento
que se realizan las pruebas.
 Alumnos del grado que rinden las
pruebas.
¿Qué es una muestra?

Población Muestra
¿Qué es una muestra?

 Es una parte de la población que se


espera pueda brindar información
sobre toda la población.
 Trabajar con datos de una muestra, en
lugar de la población, origina cierto
grado de incertidumbre o riesgo.

 Obliga a vivir con el “Error Muestral”.

 Se espera que la muestra sea una


buena imagen de la población.
¿Qué es el muestreo?

 Es una técnica que permite seleccionar


una muestra de la población.
 Los métodos de muestreo se pueden
clasificar en dos grandes categorías: el
probabilístico y el no probabilístico.
 Eventualmente la muestra podría ser tan
grande como la población (caso de un
censo).
¿Qué es la probabilidad?

 Es una función que a cada suceso


(resultado posible) de un experimento
aleatorio, le asigna un número.
 Un número comprendido entre 0 y 1, que
está relacionado con la chance de
ocurrencia de un suceso. A mayor chance,
mayor la probabilidad.
 Si el suceso tiene mucha chance de
ocurrir, entonces la probabilidad es un
número cercano a 1. Si tiene escasas
posibilidades de ocurrir, entonces la
probabilidad del suceso es un número
cercano a 0.
¿Qué es la probabilidad?

 La probabilidad de obtener un “3” al tirar


un dado es 1/6. La probabilidad de
obtener una “cara” al tirar una moneda
es ½.
 Si las escuelas de una región se numeran
del 1 al 49, y se elige una escuela como
quien seleccionara una bolilla de un
bolillero con números del 1 al 49, la
probabilidad que resulte elegida una de
las primeras 5 escuelas es 5/49.
 La probabilidad que al elegir dos escuelas
(sin reposición) resulten seleccionadas la
Nº 6 y la Nº 11 es 1C249 = 0,00085.
Muestreo Probabilístico

 El procedimiento de selección de la muestra


se basa en un mecanismo de azar.
 Es posible definir el conjunto de muestras
posibles.
 Cada muestra posible tiene asociada una
probabilidad conocida de ser seleccionada.
 Todo elemento de la población tiene
probabilidad no nula de ser seleccionado
(toda unidad de la población pertenece al
menos a una muestra posible).
Si el muestreo es probabilístico, entonces
es posible realizar inferencia estadística.

POBLACIÓN O
UNIVERSO

Distribución de variables
Parámetros
Técnicas de

Inferencia
inductiva
muestreo

Resumen de datos

Muestra

Muestra
¿Porqué una muestra y no un censo?

 Menor costo
 Menos recursos humanos calificados
 Información más oportuna
 Mayor calidad ¿por qué?
¿Qué es una Encuesta por Muestreo?

Es una estrategia que implica:


 La selección de una muestra de
unidades de la población.
 La definición de un procedimiento y de
un instrumento para la captura de
datos.
 La recolección de datos sobre las
unidades de la muestra.
 El procesamiento de los datos hasta
obtener una base de datos depurada.
 El resumen de la información.
Distintos métodos de Muestreo

 Probabilístico

 No Probabilístico
Motivos del Muestreo Probabilístico
 El muestreo probabilístico es el fundamento
de la teoría estadística.
 Permite expandir los resultados de la
muestra a la población.
 La teoría le dice al muestrista cuántas
unidades son necesarias para representar a
la población.
 También, cuánta confianza se puede poner
en la representatividad de la muestra.
Métodos de Muestreo Probabilístico

 Muestreo aleatorio simple


 Muestreo con probabilidades desiguales
 Muestreo sistemático
 Muestreo estratificado
 Muestreo por conglomerados
 Muestreo en varias etapas
 Muestreo en dos fases
Muestreo No Probabilístico

 El método de selección no emplea la teoría


de probabilidades.
 No se conoce la chance que tiene cada
unidad de la población de ser seleccionada
 No hay posibilidades de evaluar precisión
en los resultados
 Es fácil de implementar con pocos recursos
 No garantiza representatividad.
Métodos de Muestreo No Probabilístico

 Muestreo de voluntarios (donantes)


 Selección de juicio o intencional (de unidades
“típicas”)
 Muestreo de unidades accesibles (clientes que
vienen a presentar quejas)
 Muestreo por bola de nieve
 Muestreo por cuotas
 Muestreo de personas que pasan por un lugar en
un momento dado (sondeo)
 Muestreo originalmente probabilístico con
serios problemas de cobertura o de no
respuesta ¿se soluciona con los reemplazos?
¿Qué es un Marco Muestral?

 Un marco muestral es una lista.


 Una lista de las unidades de muestreo,
con información asociada, el cual se
utiliza para seleccionar una muestra de la
población.
 ¿Las unidades de muestreo coinciden con
los elementos de la población?
¿Qué es un Marco Muestral?

 Cuando las unidades de muestreo no


coinciden con los elementos de la
población, entonces el marco muestral
contiene unidades de distinta jerarquía
– unidades compuestas y unidades
elementales – y la información necesaria
para relacionarlas.
¿Qué es un Marco Muestral?

 Los buenos marcos de muestreo


contienen la siguiente información para
cada una de las jerarquías de unidades:

 identificación
 ubicación
 información auxiliar.
¿Qué es un Marco Muestral?

 La identificación precisa de las unidades


permite su cuantificación, y con ello, la
asignación de probabilidades de selección
para el sorteo de la muestra.
 La ubicación de las unidades consiste en
la dirección o la referenciación en un
mapa, y conjuntamente con la
identificación, constituyen requisitos
imprescindibles para direccionar al
personal de campo y realizar el control
administrativo de la encuesta.
¿Qué es un Marco Muestral?

La información auxiliar es útil para:


 Definir agrupamientos de las unidades
elementales (conglomerados: alumnos en
grupos escolares).
 Conocer la forma en que se relacionan las
unidades de distinta jerarquía (qué
alumnos pertenecen a qué grupos).
 Estratificar el marco de muestreo
(escuelas públicas y privadas, escuelas
urbanas y rurales).
¿Qué es un Marco Muestral?

Ejemplos de marcos muestrales:


- Guía telefónica
- Listado de hospitales
- Lista de empresas o locales
- Listado de viviendas
- Listado de escuelas
- Listado de grupos o secciones
- Listado de alumnos
Relevancia de un Marco Muestral

De él depende:
 Que todas las unidades de la población
tengan chance de ser incluidas en la muestra.
 Las alternativas para la selección de la
muestra (el diseño muestral a emplear).
 El tipo de unidad que se va a muestrear.
 Cómo se llega a contactar a las unidades de
la muestra.
 El método de estimación para aproximar los
parámetros de la población.
Posibles problemas de los Marcos

 Cobertura deficiente
 Sobre cobertura (unidades extrañas)
 Duplicación de unidades
 Desactualización
 Información auxiliar incorrecta
 Información de acceso incorrecta
Propiedades deseables de un Marco

Relacionadas con la calidad:


 unidades bien definidas
 completo
 estable
 fácil de actualizar
Propiedades deseables de un Marco

Relacionadas con la eficiencia:

 la información auxiliar está actualizada o


es fácil de actualizar
 facilita la selección de las unidades
muestrales
 es fácil de procesar y manipular
Propiedades deseables de un Marco

Relacionadas con los costos:


 bajo costo de preparación
 bajo costo para el uso
 bajo costo de actualización
Tipo de unidades en las Encuestas

 Unidad de Muestreo: cada una de las


partes en que se divide el marco.

 Unidad de Análisis: unidades que interesa


investigar en la Encuesta; pueden o no
coincidir con las unidades de muestreo.

 Unidad de Información: unidad que


provee la información sobre las unidades
de análisis.
Ejemplos de unidades en las Encuestas

 Unidad de Muestreo: escuela

 Unidad de Análisis: grupo escolar, alumno

 Unidad de Información: maestro, alumno


Más definiciones

• Variable • Teoría de
• Parámetro probabilidades
• Estimador • Probabilidades de
• Estimación inclusión
• Mecanismos
• Error muestral
aleatorios
• Errores ajenos
al muestreo
¿Qué es una variable?

 Una variable estadística es una


característica numérica que poseen todas
las unidades de la población.
 En teoría, es posible medir el valor de la
variable en cada unidad de la población.
¿Qué es un parámetro?

 Es una medida resumen de la variable.


 Es una magnitud fija y desconocida.
 Es un dato numérico que caracteriza a la
población.
 No depende de la muestra elegida. Pero la
muestra puede ayudar a conocerla
(aproximarla).
Parámetros más usuales
 Total: suma de los valores de una variable
medidos sobre toda la población.
 Promedio: cociente entre el total de la variable
y el tamaño de la población.
 Proporción de un atributo: porcentaje de
elementos de la población que cumplen una
condición.
 Razón: cociente de los Totales (o de los
Promedios) de dos variables.
 Cuantil: Valor de una variable que,
previamente ordenada, acumula cierto
porcentaje de la población.
Notación para los parámetros más
usuales
Parámetros
N

tY   yi = Total de la variable Y
i 1

1 N
  . y i = Media de la variable Y
N i 1
1 N
  . ( y i   ) 2 = Varianza poblacional
2

N i 1
1 N
2
'  . ( y i   ) 2 = Cuasi-varianza poblacional
N  1 i 1
1 N 0
P  . y i con y i   = Proporción de los yi=1 en la población
N i 1 1
 t
R  Y  Y = Razón entre la variable Y, y la variable auxiliar X
X tX
Yp : P (Y  Yp )  p0 = Percentil p0 de la variable Y
0 0
¿Qué es un estadístico o estimador?

 Es una función matemática de las


observaciones de la muestra, que no
depende de elementos desconocidos, y
que puede utilizarse como aproximación
del parámetro.

Parámetro: 
Estimador: ˆ = g(X1, X2,…..,Xn)
¿Qué es una estimación?

 Es el resultado de calcular el estadístico con la


información que provee la muestra
seleccionada.

Parámetro: 
Estimador: ˆ = g(X1, X2,…..,Xn)
Estimación: ˆ0 = g(x1, x2,…..,xn)
¿Qué es el error muestral?

 Diferencia entre el valor del parámetro y la


estimación que provee la muestra.
 Es el error que resulta de utilizar sólo una
parte de la población para aproximar el
parámetro.
 Su magnitud es desconocida (porque el
parámetro es desconocido) y por lo tanto
imposible de calcular.
¿Qué es el error muestral?

 No está generalmente relacionado con el


tamaño de la población, pero sí con el tamaño
de la muestra (disminuye cuando el tamaño
de la muestra aumenta).
 Si el muestreo es probabilístico, el error
muestral se puede acotar (controlar) con una
probabilidad alta.

P [  ˆ -   <  ] = 0,95
Qué es el error muestral?
•Muestra 1
•Muestra 3 •Muestra ..
•Muestra 2

•. . .
.

Estimación
de 
Parámetro
¿Qué son los errores no muestrales?

 Son errores ajenos al muestreo, que no


provienen del hecho de observar una parte de
la población, sino que son consecuencia de
otros factores relacionados con las encuestas.
 No disminuyen cuando el tamaño de la muestra
aumenta, sino que incluso pueden aumentar.
 Su característica principal: no son medibles.
 Se pueden clasificar con arreglo a diversos
criterios.
¿Qué son los errores no muestrales?

Clasificación de los errores por el agente


causante:
 muestrista
 método de recolección
 entrevistador
 entrevistado
 cuestionario
 programador
 digitador
 analista
¿Qué son los errores no muestrales?

Clasificación de los errores por tipo:


 de cobertura
 de respuesta
 de no respuesta
¿Qué son los errores no muestrales?

Clasificación de los errores según la etapa


de la investigación en que se producen:
 en la elaboración de los instrumentos
 en la selección de la muestra
 en la recolección de datos
 en el procesamiento
 en la estimación y expansión
 en el análisis de los resultados
Errores en una Encuesta por
muestreo

Error
de
Cobertura
Error
Muestral Error
no
Muestral

Población Marco Muestra Muestra


Objetivo Muestral Planeada Actual
¿Cómo se utiliza la Teoría de las
Probabilidades con fines de Muestreo?

 En la etapa de selección de la muestra.


 En la etapa de proyección de los resultados a
toda la población (inferencia estadística).
 En la etapa de evaluación de la precisión y
confianza en las estimaciones.
¿Qué son las probabilidades de inclusión?

 Son las probabilidades que tienen las


unidades de la población de pertenecer a
la muestra.

 En el muestreo probabilístico, toda unidad


del marco tiene una probabilidad de
inclusión fijada por el muestrista de
antemano.
¿Qué es un Mecanismo Aleatorio?

 Es un procedimiento que permite seleccionar


unidades de una población con
probabilidades conocidas de antemano.
 El procedimiento suele generar números al
azar, números que pueden asociarse
unívocamente a las unidades de la población.
 Ejemplos: Bolillero, tecla RAN de las
calculadoras científicas, función ALEATORIO
en paquetes de software estadístico.
¿Qué es un Mecanismo Aleatorio?

 Procedimiento que impide cualquier forma de


“manipulación” del investigador, por cuanto
las unidades de la muestra se eligen en forma
objetiva, con independencia de las
motivaciones de quien las selecciona.
 Es un mecanismo que debe encontrar el
muestrista para asegurar la asignación de
probabilidades planeada (equiprobabilidad o
probabilidades desiguales).
Muestreo Aleatorio Simple

• Definición • Selección de una muestra


aleatoria simple
• Probabilidades de
inclusión • Estimadores
• Ventajas y • Error de muestreo
desventajas • Precisión
• Tasa de muestreo • Intervalo de confianza
¿Qué es una muestra aleatoria simple
sin reposición (MAS S/R)?

 Se eligen n elementos de los N de la


población, de a uno y sin reponer.
 En cada extracción todos los elementos
(que no fueron elegidos antes) tienen la
misma probabilidad de ser elegidos.
 Todas las muestras con los mismos
elementos, aunque en distinto orden, se
consideran la misma muestra.
Propiedades de una MAS

 Todas las combinaciones de n elementos


tomados de los N de la población son
muestras posibles.
 Todas las muestras posibles tienen igual
probabilidad de ser seleccionadas.
 Cada elemento de la población tiene igual
probabilidad de ser incluido en una muestra.
Dicha probabilidad es igual a n/N, también
conocida como fracción de muestreo.
 Las probabilidades de inclusión son iguales
para todos los elementos de la población.
Tamaño de la muestra
Definición de los símbolos

N = Tamaño de la población

e = Error máximo deseado

Z = Factor probabilístico, que viene dado


por el nivel de confianza del estimador

𝜎 2 = Varianza
Fórmula práctica
• Cuando no se conoce el tamaño de la población:
Cuando se conoce el tamaño de la población
Valor de Z para un nivel de confianza dado:

NIVEL DE CONFIANZA VALOR DE


DEL ESTIMADOR Z
90% 1,65
93% 1,82
95% 1,96
98% 2,33
99% 2,58
¿Qué hacer cuando no se conoce P?
• Asignarle un valor entre 0,4 y 0,6. Preferiblemente asignarle 0,5.
P+Q=1 ¿Por qué P= 0,5?
Q= 1-P
P Q PQ
0,1 0,9 0,09
0,2 0,8 0,16
0,3 0,7 0,21
0,4 0,6 0,24
0,5 0,5 0,25
Criterio de
0,6 0,4 0,24
varianza
0,7 0,3 0,21
0,8 0,2 0,16 máxima
0,9 0,1 0,09
Muestra aleatoria simple
Propiedades de una MAS

¿Cómo se espera que se comporte una MAS?

Lo esperado es que la muestra se reparta de manera


más o menos uniforme en la población.
Ventajas de una MAS

 Es fácil de seleccionar.
 Es adecuada cuando la población es bien
homogénea.
 A más grande su tamaño, la muestra
proporciona una imagen más parecida a
la población.
Desventajas de una MAS
 Estimaciones muy pobres cuando la población es muy
asimétrica respecto del valor de la variable principal.

 El MAS S/R no puede garantizar que en la muestra todas


las subpoblaciones estarán bien representadas, sobre
todo, si alguna de ellas tienen escasa incidencia en la
población.

 La estimación de parámetros tiene más error muestral


que otros métodos de muestreo.

 Tiene mayores costos que otros métodos de muestreo en


los cuales las unidades de la muestra están próximas
(agrupadas).
¿Qué son la tasa y la fracción de muestreo?

 Los dos términos refieren a la proporción de


población incluida en la muestra, una en
forma porcentual (tasa de muestreo) y la
otra en términos absolutos (fracción de
muestreo).
 Tasa de muestreo = 100*n/N.
 Fracción de muestreo = n/N.
Probabilidad de inclusión en MAS

 La probabilidad de inclusión de una unidad


en la muestra es la misma para todas las
unidades, y es igual a la fracción de
muestreo: f = n/N.
 ¿Cuántas unidades de la población
representa una unidad seleccionada?
Representa N/n elementos de la población,
o sea la inversa de la fracción de muestreo.
 N/n se denomina factor de expansión para
una muestra aleatoria simple.
¿Cómo se estima un promedio, una
proporción y un total mediante MAS?
 1
Estimador de la media poblacional:  y  
n uiS
yi

  N
Estimador del total poblacional: t y  N  y  
n s
yi

n(C ) 1 0
Estimador de una proporción: pˆ    yi si yi  
n n u S i
1
Donde n(C) es el número de elementos en la
muestra que tienen el atributo C.

Propiedades de  y en el MAS S/R

1. Insesgamiento del estimador: E ( ˆ y )   y


  y2  n   y
2

2. Varianza del estimador: V (  y )  1  f   1   .


n  N  n
2
  S' y
3. Estimador de la varianza del estimador: V (  y )  1  f 
n
4. Teorema de Madow
H) n grande y f pequeña (N muy grande)
T) El estimador de la media converge a la
 y 2
distribución normal N[  y , 1  f  ]
n
¿Cómo se selecciona una MAS?

 Con la ayuda de una tabla de números al azar.


 Con una calculadora que genere números al
azar (tecla RAN).
 Con software estadístico (EXCEL, SAS, SPSS)
¿Cómo se selecciona una MAS C/R?

 Con el mismo esquema del bolillero, pero


cada vez que se elige una bolilla, se la
repone en el bolillero para que tenga
chance de ser elegida en la siguiente
extracción.
 Con el esquema C/R en cada extracción
todos los elementos tienen la misma
probabilidad de ser elegidos.
 El sorteo puede realizarse también con
un bolillero, con la tecla RAN de las
calculadoras científicas o con software
estadístico (EXCEL, SAS, SPSS)
Diferencias entre MAS S/R y MAS C/R

 En el MAS S/R las fórmulas para el


cálculo de varianzas son más
complicadas.
 El número de muestras posibles es
mucho mayor en el esquema C/R: N
n

 Para estimar promedios o totales el


muestreo sin reposición es más eficiente
que el muestreo con reposición:
V ( ˆ MAS S / R ) N  n
 1
V ( ˆ MAS C / R ) N  1
¿Cómo se evalúa la precisión en el MAS?

Existen distintos termómetros para


evaluar precisión:
 Desvío Estándar del estimador
 Coeficiente de Variación del
estimador
 Margen de Error
 Intervalo de Confianza
¿Qué es el Desvío Estándar del
estimador?

 El DE un número que mide la variabilidad del


estimador y permite evaluar la bondad de la
estimación obtenida con una muestra.
 Si la muestra es probabilística, se lo puede
estimar con la misma muestra.
 Valores pequeños indican el estimador le ha
de “pegar” cerca al valor del parámetro.
 El Desvío Estándar del estimador se mide en
la misma escala que la variable que se está
investigando.
 Es un insumo para otras medidas de
precisión.
Cálculo del Desvío Estándar del
estimador de la media poblacional

 Se obtiene como raíz


 y 2
cuadrada de la varianza
del estimador.
DE  1  f 
n

 Como en general la
S 2
cuasi-varianza
poblacional se D ˆ 
E 1 f 
desconoce, se la estima n
con S 2 :
¿Cuándo tendremos buena precisión
al estimar una media poblacional?
dispersión
débil
2
s
1  f  n
tamaño de
fracción de muestra
muestreo alta grande
¿Qué es el Coeficiente de Variación?

 Es otro termómetro de la bondad de una


estimación.
 Fórmula: CV=DE/Estimación.

 Este termómetro dice que las cosas


andan muy bien si el CV es < 0,05 y que
estamos muy mal si supera 0,20.
¿Qué es el Margen de Error?
 Matemáticamente: es la cantidad máxima de
error que el investigador está dispuesto a
aceptar con un tamaño de muestra y un
diseño dados, a cierto nivel de confianza. Al
margen de error también se lo denomina la
precisión absoluta del estimador.
 Si la variable Y es  simétrica, entonces el
estimador de la media poblacional, las 2/3
partes de las veces dará estimaciones que
estarán a menos de un DE del valor del
parámetro; 19/20 veces estará dentro de
los 2 DE; 99% dentro de  3 desvíos.
¿Qué es el Nivel de Confianza?

 Es una medida de probabilidad del % de


muestras, sobre todas las posibles, que
brindan estimaciones dentro de los
márgenes de error.
 Lo fija el investigador, tan alto como lo
permiten los recursos: 0.99, 0.95, 0.90
 Permite construir los “intervalos de
confianza”.
¿Qué es el Nivel de Confianza?

Nivel de Confianza del 95%

Márgenes de Error

El Nivel de Confianza señala el porcentaje de


muestras “buenas” que esperamos obtener si se
eligieran “muchas” muestras.
Estimación del Margen de Error

 A partir del desvío estándar estimado, una


constante que depende del nivel de confianza y
el tamaño de la muestra.
 Para el caso de estimar una media poblacional
con un nivel de confianza del 95%, si la
muestra es grande, se tiene la siguiente
precisión absoluta:

s
ˆ  1.96
n
¿Cómo se estima la precisión relativa
para una muestra con tamaño dado?

 La precisión relativa se obtiene


dividiendo la precisión absoluta del
estimador entre la estimación
obtenida.
 Para el caso de estimar una media
poblacional, la precisión relativa es:
ˆ
ˆ
¿Qué es un Intervalo de Confianza al 95%?

 Es un rango de posibles valores para el


valor del parámetro.
 Ese rango se determina fijando un valor
superior y otro inferior a partir del
margen de error deseado. Para el caso
de estimar una media poblacional:

S
estimación  1.96
n
Interpretación de un Intervalo de Confianza

 Nunca sabremos si el parámetro está o


no dentro del intervalo.
 Sólo se puede decir que el investigador
deposita en el intervalo una confianza del
95% porque a priori sabe que tiene una
probabilidad del 95% de haber
seleccionado una “buena muestra”.
MUESTREO SISTEMATICO (MS)
• En el marco del muestreo probabilístico, el
muestreo sistemático es un proceso muy simple y
que sólo requiere la elección de un individuo al
azar. El resto del proceso es muy elemental.

• La técnica que requiere tener un control preciso


del marco muestral de individuos seleccionables
junto con la probabilidad de que sean
seleccionados.
• En ocasiones el muestreo sistemático se
suele utilizar como sustituto del muestreo
aleatorio simple.
• En este muestreo, se ordenan previamente
los individuos de la población; después se
elige uno de ellos al azar, a continuación,
a intervalos constantes, se eligen todos los
demás hasta completar la muestra.
¿Cómo funciona el MS?
• Se elabora una lista con los elementos de la población, de 1
a N.
• Garantizar una buena aleatorización de los elementos.
• Se determina el intervalo de selección k = N/n.
• Se elige un número aleatorio entre 1 y el k .
• El número que se elige lo llamaremos i = arranque aleatorio.
• Ese i es el primer elemento de la muestra.
• Los siguientes elementos de la muestra se eligen
sistemáticamente conforme al intervalo resultante.
Ejemplo:
N = 60 personas
n= 12 personas

k = 60/12 = 5

i será un número entre 1 y 5


Suponer que el arranque aleatorio (i) es el 2
Ejemplo:
Ventajas del MS respecto al MAS:

• La principal ventaja de utilizar muestreo


sistemático sobre muestreo aleatorio simple
es su sencillez.
• Otra ventaja es la garantía de que el
muestreo se hará equitativamente sobre la
población.
Desventaja del MS respecto al MAS:

• En el proceso de selección de la muestra


puede haber un rasgo periódico oculto
dentro de la población. Si la técnica de
muestreo coincide con la periodicidad del
rasgo, la técnica de muestreo ya no será
buena ni la representatividad de la muestra.
Recomendaciones antes de aplicar MS:

• Asegurarse de la existencia de un buen


marco muestral, completo.

• Aleatorizar bien los elementos del marco


muestreal para romper cualquier rasgo o
secuencia oculta que pudiera coincidir con
el intervalo de selección de la muestra
Muestreo estratificado

• Definición • Afijación por estrato


• Estimadores • Otros temas relevantes
• Construcción de
los estratos • Post-estratificación
• Comparación con
MAS S/R
¿Qué es el muestreo aleatorio estratificado?

 Es un método de muestreo que emplea


información auxiliar del marco muestral
para crear estratos o grupos
homogéneos en una población que se
sabe heterogénea.
 Estos grupos se diferencian por tener
distinta distribución geográfica, poseer o
no un cierto atributo, o presentar
diversidad en los tamaños de las
unidades que los conforman.
Definición del MAE

Sea una población dividida en grupos,


separados y no vacíos (estratos). Una
muestra de n elementos de esta
población es una muestra aleatoria
estratificada (MAE) si se cumple que:
 la muestra se compone de submuestras
de todos y cada uno de los estratos
 las submuestras se eligen en cada estrato
por MAS S/R
 la selección de la submuestra en cada
estrato es independiente de la selección
en los restantes estratos.
¿Cómo es una muestra por MAE?

POBLACIÓN MUESTRA ESTRATIFICADA

N1 n1 1  nh  Nh
H

N2 n h =n
n2 h 1

N3
n3

NH nH
¿Cómo es una muestra por MAE?

Estrato 1

Estrato 2

Estrato 3

Estrato H
¿Por qué se estratifica?
 Para lograr homogeneidad en los estratos y
con ello disminuir la dispersión general de la
variable en estudio.
 Para lograr mayor precisión en los
estimadores.
 Para disminuir el tamaño de la muestra.
 Para brindar estimaciones en las sub
poblaciones o estratos más importantes.
 Cuando se requiere incrementar la eficiencia
de la muestra por unidad de costo operativo.
¿Cómo se selecciona una muestra MAE?

 Primero: En cada estrato se elige una


submuestra.
 Segundo: La submuestra de cada estrato
se elige por MAS (también MSis).
 Tercero: Las submuestras se eligen en
forma independiente en cada estrato.
 Cuarto: La muestra total es la unión de las
submuestras.
Ventajas del MAE

 El método asegura que en la muestra


habrá representantes de todos los estratos
(incluso de los que representan pequeños
grupos en la población).
 Si cada estrato representa un dominio de
estudio o éste se conforma con la unión de
algunos estratos, entonces es seguro que
la muestra proporcionará información de
dicho dominio de estudio.
 El método permite muestrear con distintas
tasas de muestreo en las diferentes
subpoblaciones de interés (otorga
flexibilidad al diseño muestral).
Ventajas del MAE

 El muestreo estratificado permite


reducir el costo por varias vías:
 se pueden utilizar diferentes métodos de
muestreo en cada estrato
 permite asignar el tamaño de la muestra
en cada estrato atendiendo a su costo (al
costo variable unitario)
 permite reducir el tamaño de muestra
(respecto del tamaño requerido en otros
diseños) para una precisión o varianza
dadas.
Ventajas del MAE
 La estratificación permite aumentar la
eficiencia de los estimadores.
 Mayor eficiencia de los estimadores si,
respecto de las principales variables a
investigar, las unidades por estrato
resultan homogéneas y los estratos
resultan heterogéneos entre sí.
 La regla de homogeneidad dentro y
heterogeneidad entre consiste en definir
los estratos de manera que las varianzas
dentro sean pequeñas, a la vez que las
medias de los estratos sean bien
diferentes entre sí.
Desventajas del MAE

 Necesidad de contar con un marco que


tenga información auxiliar.
 Dificultad para crear o formar los estratos.
 ¿Cuál es el número óptimo de estratos?
 Los estimadores no son tan simples (como
en el caso del MAS). En general en el MAE
se utilizan estimadores ponderados.
 Para determinar en forma óptima el
tamaño de la muestra en cada estrato es
necesario disponer de medidas de
dispersión para cada estrato.
Notación en el MAE

Nh = Tamaño poblacional del estrato h

nh = Tamaño de la muestra en el estrato h

H = Número de estratos
H
N =  N h = Tamaño total de la población
h 1
H
n=  n = Tamaño total de la muestra
h 1
h
Notación en el MAE

1 Nh
h  . y hi = Media de la variable Y en el estrato h
N h i 1

1 H Nh
Y  . y hi = Media de la variable Y en la población
N h 1 i 1
Nh
1
2
' 
h . ( y hi   h ) 2 = Cuasi-varianza poblacional en el estrato h
N h  1 i 1

1 H Nh
2
'  . ( y hi   ) 2 = Cuasi-varianza poblacional
N  1 h 1 i 1
Estimadores en el MAE
H Nh H
ˆ Y   .ˆ h   Wh .ˆ h
h 1 N h 1

Pˆ  ˆ Y
tˆY  N .ˆ Y
 
 y ty
R 
 
x tx
 2
1 n 2

 
h

 h   Y  Y  S '2
h
nh  1 i 1
hi h

Donde Wh indica el “peso” o ponderación


del estrato h en total de la población.
Propiedades de los Estimadores en
MAE
0 E S ' 2h    ' 2h

1 E ˆ Y    Y
2
 N h   'h  nh 
2
H
2 V ˆ Y      . .1  
h 1
 N  nh  N h 
2

H N  S ' 2
 nh 
2' V ˆ Y      . .1  
ˆ h h

h 1
 N  nh  N h 
1 f H
3 V ˆ PROP   . N h . ' 2h
n.N h 1
Propiedades de los Estimadores en
MAE
H
 Nh  1 2 H  Nh 
4 '  
2
. ' h    . h   
2

h 1  N  1  h 1  N  1 

1 f  H H
 Nh  2 
5 V ˆ MAS   V ˆ PROP   
.  N h .  h     1 
2
. ' h 
n.N  1  h 1 h 1  N  

(6) Si  ' 2h   'Y2 , h : V ˆ MAS   V ˆ PROP .


¿Cómo se construyen los estratos?
 Se construyen a partir de una ó más
variables contenidas en el marco muestral.
 Seleccionado el criterio de estratificación, a
continuación debe definirse cuántos
estratos se construirán.
 En lo posible, los estratos podrán coincidir
con los subuniversos de interés o con una
partición de estos.
 Para aumentar la precisión de los
estimadores (de una media o de una
proporción) los estratos deberán ser
homogéneos “dentro” y heterogéneos
“entre”.
Afijación por estrato

Dado el tamaño de la muestra total, n, ¿de cuántas formas


pueden elegirse las nh? Las nh pueden elegirse de muchas
formas, todas las que satisfacen a la vez las condiciones:

1  nh  N h
 H n n
 
h 1
h

Muchas de estas posibles asignaciones son descartables porque


los estimadores resultantes no son eficientes.
Afijación por estrato
Supuesto C  c0   ch .nh
h

AFIJACIÓN TAMAÑO DE LA MUESTRA

n
UNIFORME nh  8
H
Nh
PROPORCIONAL nh  n. 9
N
N h . 'h
ÓPTIMA (NEYMAN) nh  n. 10
 N h . 'h
h

N h . 'h / ch
ÓPTIMA CON COSTOS nh  n. 11
 N h . 'h / ch
h
Ventajas y desventajas de los
criterios de afijación

La afijación uniforme presenta las menores


exigencias para el muestrista. Sólo tiene que
dividir el tamaño total de la muestra entre el
número de estratos y verificar que ningún nh
resulte mayor que el respectivo Nh. Si éste
fuera el caso, entonces la afijación será
cuasi-uniforme.
La afijación proporcional presenta dos
ventajas: la auto ponderación de la muestra
y la mayor credibilidad entre los usuarios no
calificados.
Ventajas y desventajas de los
criterios de afijación

El MAE óptimo (Neyman) consigue el máximo de


eficiencia posible porque utiliza más información
que las otras formas de afijación de la muestra por
estrato. Una desventaja del procedimiento es que,
justamente, se requiere de información sobre las
cuasi-varianzas dentro de los estratos, la cual no
siempre está disponible.
La afijación que minimiza el costo para una
varianza (o precisión) dada (o que minimiza la
varianza para un costo total dado) tiene sentido
sólo cuando los costos unitarios variables por
estrato presentan diferencias marcadas.
Otros temas relevantes del MAE

El tamaño total de la muestra (n).


Cómo definir los estratos.
¿Cuántos estratos?
Tamaño de la muestra total (n) y por estratos
para obtener precisión para la población total y
las subpoblaciones.
¿Puede ocurrir que nh > Nh en el MAE óptimo?
Efecto de alejarse un poco de la afijación óptima.
Efecto de disponer sólo de los Nh aproximados.
Efecto de una estratificación impura.
Post-estratificación

 El MAE proporciona ganancia en eficiencia a


condición de disponer información auxiliar.
 Si en el marco no hay información auxiliar,
se puede estratificar después de realizada la
encuesta.
 Condición para post-estratificar: Se deben
conocer los totales poblacionales de cada
post-estrato.
 Ejemplo de estratos a posteriori en
investigaciones sobre educación: niñas y
niños.
¿Cómo se estima con post-estratificación?

Considerando los post-estratos como estratos:

H
ˆ POST  Wh .ˆ h
h 1

1  f H 1 H
Vˆ ˆ POST   . Wh .S h  2 . 1  Wh .S h2
2

n h 1 n h 1

Observación: el primer término es la varianza en el MAEP,


mientras que el segundo es el incremento consecuencia
de la post estratificación.
¿Cuándo la post-estratificación es más
eficiente que el MAS?

 Cuando los Nh son conocidos y grandes.

 Cuando los nh son grandes (> 30).

 Es casi tan preciso como MAE con asignación


proporcional si n es grande.
Muestreo de conglomerados

• Definición • La correlación intra-


• Estimadores conglomerado
• El tamaño del
conglomerado
¿Qué es el muestreo por conglomerados?

 La población se divide en clases o grupos


denominados “conglomerados”.
 Se eligen al azar (por MAS S/R, MAS C/R,
MSis o con PPT) ciertos conglomerados de la
población. La muestra es le conjunto de todas
las unidades elementales pertenecientes a los
conglomerados sorteados.
 El MCong es tanto más eficiente cuanto más
heterogéneos sean los conglomerados.
¿Qué es el muestreo MCong?
¿Cuáles son las ventajas de este diseño?

 Para el sorteo de la muestra no es necesario


disponer de un marco de todas las unidades
elementales.
 Si los conglomerados implican proximidad
geográfica, permite cubrir grandes áreas a bajo
costo. Se reducen sensiblemente los costos de
transporte
 Facilita la organización descentralizada de los
trabajos de campo.
 Si los conglomerados son de igual tamaño (o de
tamaños similares) se facilita la distribución de
las cargas de trabajo y del material.
¿Qué desventajas tiene el MCong?

 El MCong es menos preciso que el MAS


(excepto con conglomerados heterogéneos,
poco usual en la práctica)
 Se tiene poca precisión cuando la muestra
consiste en un pequeño número de grandes
conglomerados.
 Las fórmulas de los estimadores son
complejas, y más aún, las fórmulas para
estimar la variabilidad de los estimadores.
MCong versus MAE

 Los conglomerados, ¿son agrupamientos similares a


los estratos? En ambos casos se pueden utilizar
agrupamientos naturales: áreas geográficas,
escuelas, empresas
 En la muestra estratificada el número de estratos es
fijo (se define antes de seleccionar la muestra); el
número de conglomerados depende del tamaño de
la muestra.
 En la estimación del promedio por unidad
elemental, la varianza del estimador MAE depende
de la varianza dentro de los estratos; la varianza del
estimador del promedio en el MCong depende
principalmente de la variabilidad entre los
conglomerados.
MCong versus MAE

 Para estimar el promedio por unidad


elemental, se obtiene mayor precisión en el
muestreo estratificado si los valores de las
unidades dentro de los estratos son similares
(homogeneidad dentro) y las medias por
estrato son diferentes (heterogeneidad
entre); mientras que en el muestreo de
conglomerados la mayor precisión se
consigue cuando los valores de las unidades
son diferentes entre sí (heterogeneidad
dentro) y las medias por conglomerado son
similares.
Notación en el MCong

Total de conglomerados en el marco = N


Total de conglomerados en la muestra = n
Total de unidades elementales en el conglomerado j = M j
N
Total de unidades elementales en la población = M0 = M
j 1
j

n
Total de unidades elementales en la muestra = M
j 1
j

Mj

Total de la variable Y en el conglomerado j = y


i 1
ij

Mj

y ij
Promedio de la variable Y en el conglomerado j = yj  i 1

Mj
Conglomerados de igual tamaño (Mj=M) seleccionados
por MAS S/R

1 n 1 n M
̂ cong  . y j  .  yij
n j1 n.M j1 i1
 n  1
Vˆ ˆ cong   1  . . y j  ˆ cong 
n 2

 N  n.( n  1) j 1

Obsérvese que para calcular la varianza, no


son necesarios los valores individuales de
las unidades, alcanza con conocer el
promedio por conglomerado.
Conglomerados de igual tamaño (Mj=M) seleccionados
por MAS S/R

Teniendo en cuenta que:

y  
 Y     yij  y j     y j  Y   
N M 2 N M N M
2 2

j 1 i 1
ij
j 1 i 1 j 1 i 1

Para que el Mcong resulte eficiente, el segundo


término del miembro de la derecha debe ser
pequeño (pues su estimación interviene como factor
en el cálculo de la varianza del estimador de la
media). Para ello es necesario que el primer término
de la derecha sea lo más grande posible, y ello se
logra definiendo los conglomerados de manera que
tengan heterogeneidad dentro.
Conglomerados de igual tamaño (Mj=M) seleccionados
por MAS S/R

 El muestreo de conglomerados es menos eficiente


que el MAS S/R si las unidades dentro son muy
parecidas entre sí, es decir, si hay contagio entre
las unidades dentro de los conglomerados.
 Para medir el grado de contagio dentro de los
conglomerados se define el coeficiente de
correlación intra-clase:

   y  y 2 
N M

M  j 1 i1 ij j

 1 . N M
M  1    yij  Y 2 
 j 1 i1 
Conglomerados de igual tamaño (Mj=M) seleccionados
por MAS S/R

 Se cumple que –1/(M-1)    1. Si dentro de los


conglomerados el “contagio es total”, entonces
resulta  = 1, y por lo visto antes, el muestreo de
conglomerados no será eficiente.
 Se obtiene una estimación de  mediante la
siguiente expresión:

   y  y 2 
n M

M  j 1 i1 ij j

ˆ  1  . n M
M  1    yij  ˆY 2 
 j 1 i1 
Conglomerados de igual tamaño (Mj=M) seleccionados
por MAS S/R

Se verifica que:
N
V ˆ cong   V ˆ MAS . 1   .M  1  V ˆ MAS .1   .M  1
N 1
Se deduce que para estimar Y:
- Si  > 0  El MAS S/R es más eficiente que el MCong.
- Si  = 0  Ambos estimadores son = de eficientes.
- Si  < 0  El estimador por MCong es preferible.
¿Cómo se mide la ganancia o pérdida de eficiencia del
MCong respecto al MAS?

A través del Efecto de Diseño de Kish (Deff)


que mide la ganancia o pérdida de eficiencia
entre el MAS y cualquier otro diseño. Si se
trata del estimador de la media para
conglomerados de igual tamaño:

V ˆ cong 
Deff   1   .M  1
V ˆ MAS 
¿Qué ocurre si los conglomerados
son de distinto tamaño?

Se puede estimar el coeficiente de correlación


intra-clase con:

2    yij  ˆ cong y kj  ˆ cong   M j


n n

ˆ  j 1 i k j 1

 M  M  1.  y  ˆ 
n n Mj
2
j j ij cong
j 1 j 1 i 1

Y si los tamaños no son muy desiguales, entonces:

V ˆ cong 
Deff   1   .M  1
V ˆ MAS 
Donde M es el tamaño medio de los conglomerados.
¿Cómo solucionar la posible “ineficiencia” de la
correlación intra-clase positiva?

 Seleccionar más conglomerados, ¡pero esto


aumenta el costo!
 Incorporar estratificación previa o post
estratos: diseño muestral más complejo.
 Redefinir los conglomerados: por ejemplo,
para que sean más grandes o con arreglo a
otro criterio de tal forma que disminuya la
correlación positiva.
En la evaluación de la calidad educativa:
¿los conglomerados deberían ser
las escuelas o los grupos escolares?

 ¿Qué es más eficiente para estimar la media


de rendimiento?
 ¿Qué resulta más costoso?
 ¿Qué es mejor: 100 escuelas con un promedio
de 2 grupos por escuela o 200 grupos
escolares?
 ¿Tenemos idea de la correlación intra-clase
por escuela y por grupo escolar?
Variantes en la selección de los
conglomerados
DISEÑO MAS S/R MAS S/R

PARÁMETRO y y

n Mj

1 n
 y ij

 . y j
j 1 i 1
̂ cong ̂ cong  n
ESTIMADOR n j 1
M
j 1
j

NOMBRE De expansión simple De razón

ESTIMADOR  n 1 n 2

Vˆ ˆ cong   1  . . y j  ˆ cong 


DE LA V( ̂ cong )  N  n.(n  1) j 1

ESTIMADOR
DEL ECM ( ̂ cong ) ~  n 1 n 2

ECM ˆ cong   1  . . M j ( y j  ˆ cong )


 N  n.(n  1).M 2 j 1

OBSERVACIONES MJ N

y ij M
j 1
j
i 1
yj  M 
MJ N
Variantes en la selección de los
conglomerados

DISEÑO MAS C/R PPT C/R

PARÁMETRO y y

ESTIMADOR 1 n 1 n
̂ cong  . y j ̂ cong  . y j
n j 1 n j 1

ESTIMADOR 1 n 2

V ˆ cong  
ˆ . y j  ˆ cong 
DE LA V( ̂ cong ) n.(n  1) j 1
¿En qué casos es preferible uno u otro diseño?

 Se recomienda el estimador MAS S/R de expansión


simple si no existe relación entre el tamaño de los
conglomerados y el total de la variable Y al interior
de cada conglomerado.
 Se recomienda el MAS S/R con el estimador de
razón o el Muestreo PPT C/R si no existe relación
entre el tamaño del conglomerado y el promedio de
la variable Y al interior del conglomerado.
 El Muestreo PPT C/R es preferible cuando las
muestras no son grandes.
 El MAS S/R de expansión simple no se recomienda
cuando los promedios de Y varían poco entre los
conglomerados y los tamaños de éstos varían
considerablemente. En estos casos es preferible el
estimador de razón.
Muestreo en dos etapas

• Definición • Diseño MAS-MAS


• Ventajas • Diseño PPT-MAS
• Eficiencia
¿Qué es el muestreo en 2 etapas (M2E)?

 Se dispone de un marco de muestreo con dos


niveles: unidades de primera etapa (UPE) y
unidades de segunda etapa (USE) las cuales
definen el universo a investigar.
 Cada USE pertenece a una única UPE.
 Primero, se selecciona una muestra de UPE.
 Segundo, se sortea en cada UPE una muestra
de unidades elementales, mediante un
procedimiento que garantiza independencia.
 La probabilidad de selección de una USE en la
muestra final es el producto de las
probabilidades de selección en las dos etapas.
¿Qué es el muestreo en 2 etapas?
¿Cómo se obtiene una M2E?

1. Definir las unidades de primera etapa y disponer del


correspondiente marco de muestreo.
2. Definir el método de muestreo de las UPE (MAS, MSis, PPT).
3. Determinar la fracción de muestreo de la primera etapa
(f1 = n/N).
4. Realizar el sorteo de las UPE.
5. Disponer de la lista de unidades elementales para cada una
de las UPE sorteadas.
6. Definir el método de muestreo de las USE (MAS, MSis). El
sorteo de las USE debe realizarse independientemente
del procedimiento de selección de las UPE.
7. Determinar la fracción de muestreo de la segunda etapa
(f2 = mj/Mj).
8. Determinar el tamaño de la muestra en cada UPE (mj).
9. Realizar el sorteo de las USE en cada una de las UPE
seleccionadas.
Muestreo en 2 etapas
 También se le conoce como muestreo de
conglomerados con submuestreo.
 Es más flexible que el muestreo en una etapa.
 En caso de conglomerados con mucho
contagio, se consigue la misma eficiencia
reduciendo el tamaño de la muestra.
 La variabilidad de los estimadores depende de
las dos etapas. El cálculo de varianzas se
vuelve más complejo.
 Las fórmulas de los estimadores y su
variabilidad se simplifican si la selección de la
primera etapa es PPT y C/R y en la segunda
etapa es MAS S/R.
Ventajas del Muestreo en 2 etapas

 Reducción de costos y del tiempo.


 Permite muestrear aunque no se dispone de
un marco de lista para todo el universo.
 Es más flexible que el muestreo en una etapa.
 En caso de conglomerados con mucho
contagio, permite reducir el tamaño de la
muestra. “Para muestra alcanza un botón…” si
todos los botones son iguales
 En ciertos casos, con costos similares al
MCong, es posible incluir en la muestra más
conglomerados, lo que aumenta la eficiencia
de los estimadores.
Ventajas del Muestreo en 2 etapas

 Respecto del muestreo en una sola etapa


(MAS, Sistemático, Estratificado), el M2E
presenta la ventaja que no es necesario
realizar muchas visitas a lugares
distantes, pues con una visita alcanzará
para entrevistar a todas las unidades de
una unidad primaria, lo cual permite
ahorros tanto en los gastos de
desplazamiento entre una y otra unidad
como en el tiempo involucrado en dichos
desplazamientos.
Ventajas del Muestreo en 2 etapas

 Respecto del muestreo de conglomerados


en una sola etapa, el M2E tiene la ventaja
que al observar una submuestra en cada
unidad primaria, permite extender la
muestra a un mayor número de unidades
de primera etapa y con ello alcanzar una
mayor precisión de las estimaciones.
Desventajas del Muestreo en 2 etapas

 Se requiere información auxiliar para


determinar el tamaño de la muestra en
cada una de las etapas para obtener
estimadores eficientes. ¿Qué es más
eficiente y qué más barato: (n=400 y m=8)
ó (n=600 y m=6) ó (n=300 y m=Mj)?
 Las fórmulas para el cálculo de varianzas
son complejas.
Eficiencia del M2E

 La eficiencia del M2E en la estimación de


parámetros se mide en relación con un
diseño MAS S/R.
 Si los tamaños de muestra en la segunda
etapa son similares (mj  m ), entonces el
efecto de diseño puede estimarse
mediante la expresión:
Deff = 1 + ( m - 1)  
Eficiencia del M2E

 El coeficiente de correlación intra-clase en


M2E se puede estimar a partir de la
muestra con:

2    yij  ˆ cong y kj  ˆ cong   m j


n n

ˆ  j 1 ik j 1

 m  m  1.  y  ˆ 
n n m
2
j j ij cong
j 1 j 1 i 1
Diseño MAS S/R - MAS S/R
Estimador insesgado de la media

PARÁMETRO: 
N n
ESTIMADOR INSESGADO: X 
nM 0
M
1
j Xj
~
ECM DEL ESTIMADOR :
~ 1  N 2
1  f  1  N n 2 1  f2 j ' 2 
2

V X   2 
n n
1
j  M j x j  j M j x j   j M j S2 j 
M0  n n 1  n  n mj 
2

1 n i xij  x j 
mj

N
' 2
OBSERVACIONES: Mo  M j y S2 j  
j n j mj 1
Diseño MAS S/R - MAS S/R
Estimador de razón para la media

PARÁMETRO: 
n

M
j
j Xj
ESTIMADOR DE RAZÓN: X  n

M j
j

~
EC M DEL ESTIMADOR :
~ 1  N 2 1  f1 n 2 N n 2 1 f2 j ' 2 
j M j x j     j M j
2

EC M ( X )  2  ~ S2 j 
M 0  n n 1 n mj 
OBSERVACIONES:
N n
Si f 2 j  f 2 constante  ~ autoponderante. Si M o se desconoce  Mˆ 0  M j
n j

Variabilidad Variabilidad
entre las UPM dentro de UPM
Diseño PPT y C/R - MAS S/R
Estimador insesgado para la media

PARÁMETRO: 
1 n
ESTIMADOR: X  Xj
n j
2
~ ~ 1 n
ECM DEL ESTIMADOR: V X    x j  ~ 
nn  1 j
OBSERVACIONES:

Si m j  m cons tan te  ~ autoponderante


1 m j

xj  1 xij
mj Gran simplificación
en la estimación
de la varianza
¿Qué es el Muestreo PPT?
 Consiste en seleccionar unidades con
probabilidad proporcional a alguna medida de
tamaño de las unidades.
 Por ejemplo: escuelas según la cantidad de
grupos escolares o según la cantidad de alumnos.
 Se obtienen estimadores más eficientes si el
tamaño de las unidades y la variable en estudio
están correlacionadas.
 ¿El rendimiento escolar es más alto en las
escuelas más grandes?
 Para que el PPT sea eficiente, los datos sobre los
tamaños deben ser “buenos” (actualizados).
Selección con reemplazo (C/R)
 En la selección con reemplazo se simplifican
las fórmulas de la variabilidad de los
estimadores.
 La selección (el sorteo) se realiza de manera
más fácil.
 Si el muestreo es PPT con reposición, se
puede simplificar el sorteo de las unidades
elementales utilizando el muestreo
sistemático.
Método simplificado para obtener una muestra PPT C/R
utilizando MSis

1. Se calcula el acumulado de los tamaños de


todas las unidades de la población:
N
M0 = M
j 1
j

1. Se calcula la amplitud de intervalo: k  M 0 / n


2. Se selecciona un número al azar q0 de [1,k]
3. Los n elementos de la muestra son las
unidades que en el acumulado de tamaños
corresponden a:
q0, (q0+k), (q0+2k),..., (q0+(n-1)k).
4. La probabilidad de inclusión de la unidad j es
j=n x Mj / M0
¿Qué es un diseño complejo?

 Es un diseño muestral que combina dos


o más diseños simples.
 Ejemplo: diseño estratificado y
selección de conglomerados por MAS.
 Ejemplo: diseño estratificado y
selección de conglomerados por PPT.
 Ejemplo: diseño estratificado con dos
etapas de selección, PPT en la primera
etapa y MAS S/R en la segunda etapa.
¿Por qué un diseño complejo?

 Para reducir el costo de la


investigación.
 Para aumentar la eficiencia de los
estimadores.
 Para facilitar las tareas de campo,
reduciendo tiempos muertos.

También podría gustarte