Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Muest Reo
Muest Reo
TCNICAS
DE
MUESTREO
Tcnicas de Muestreo
Clase 1: Introduccin (primera parte)
Incerteza y azar:
En lenguaje coloquial hablamos de estadsticas de ftbol, por ejemplo,
refirindonos a promedios y frecuencia de ciertos eventos, sin embargo este
concepto no es adecuado tcnicamente. La estadstica es la ciencia que
estudia la incerteza, de modo que si un problema tiene una solucin fija
exacta, no es materia de la estadstica sino de las matemticas.
La incerteza se relaciona con el concepto de evento o fenmeno aleatorio,
entendemos por fenmeno aleatorio un evento o situacin cuyo resultado no se
conoce, y para el cual existe ms de un resultado posible. Por ejemplo,
resultado del lanzamiento de un dado, postura expresada por un encuestado
elegido al azar respecto de un planteamiento, ingreso per cpita de una familia
elegida al azar en cierto sector. En rigor, cuando hablamos de una seleccin al
azar nos referimos a que los individuos o elementos han sido numerados, estos
nmeros (como esferas numeradas, papeles numerados, etc) han sido
depositados en un recipiente y mezclados, para luego seleccionar uno de ellos
(y por tanto un individuo) sin mirar los nmeros. Por supuesto, es poco prctico
en la mayora de los casos, llevar una tmbola para realizar la seleccin de
elementos.
Existen mtodos alternativos, como el uso de la tabla de nmeros aleatorios,
nmeros aleatorios de una calculadora (funcin RAN), nmeros
aleatorios de excell (funcin =aleatorio()).
1) Tabla de nmeros aleatorios:
Determinar el nmero de dgitos del tamao de la Poblacin N:
El tamao de la Poblacin N tiene una cierta cantidad de dgitos (por
ejemplo N=6.114 tiene cuatro dgitos).
Seleccin del punto de partida: Se escoge un punto inicial de la tabla sin
mirarla, por ejemplo, fila 5 (horizontal) y columna 12 (vertical).
Seleccin del camino a realizar: Se decide, antes de mirar la tabla, el
camino a seguir con los nmeros dentro de la tabla, por ejemplo, se
seguir hacia la derecha (o se seguir hacia abajo, o en diagonal, etc).
Se eligen los nmeros: Se sigue la pauta decidida en los dos puntos
anteriores, escogiendo nmeros de la cantidad de dgitos deseados,
hasta completar el tamao de muestra deseado n y eliminando aquellos
que sean mayores a N o que estn repetidos. Por ej., considere n=10.
Ejemplo:
Columna 12
Fila 4
19947 73392
64136 92337
90965 67897
89710
05985
16705
0 0 7 5 8 9 6 9 5 8 9 9 9 2 8 6 5 4 3 2 9 6 1 52 1 3 5 65
3 4 2 9 3 2 0 0 5 3 9 0 8 7 4 3 0 3 8 0 7 9 4 85 6 9 4 81
6 0 0 4 6 6 9 7 0 2 8 5 8 9 4 0 8 2 3 5 2 3 7 53 2 1 5 22
85071 05345
8 5722
6 9 5 3 3 4 0 6 3 8 5 1 2 4 4 2 7 1 1 2 5 5 9 86 3 9 3 35
21852 50617
10713
4063
1 3 4 8 7 0 3 8 4 2 4 7 7 9 2 0 2 1 94 2 6 4 67
Nmeros elegidos: 5.722, 6.953*, 3.406, 3.851, 2.442, 7.112*, 5.598, 5.393,
3.521, 8.525*, 617, 1.071, 3.406**, 3.134. La muestra son los nmeros en
negrita (* se eliminan por ser mayor que N y ** se elimina por estar repetido).
Poblacin
Muestra
Tipos de Muestreo:
No en todos los casos el diseo del muestreo es el mismo, en efecto hay varios
tipos de muestreo. La seleccin del diseo a utilizar se basa en la estructura
de la poblacin (si est constituida o no de subgrupos, el grado de
heterogeneidad de stos y la accesibilidad de los elementos).
1) Muestreo Aleatorio Simple M.A.S.:
La poblacin no presenta subgrupos o estos son desconocidos para el
investigador y la variable a ser medida en ella tiene un comportamiento
relativamente homogneo. Por ejemplo, interesa estudiar la postura
poltica de los N mineros de Lota, los cuales son todos varones. Se
realiza un empadronamiento y se selecciona una muestra al azar de n
mineros de dicha lista.
2) Muestro Aleatorio Estratificado M.A.E.:
La poblacin presenta subgrupos llamados estratos que, respecto de
la variable medida, tienen la caracterstica de ser heterogneos entre
ellos (diferentes) y homogneos dentro de ellos (la estratificacin
agrupa a los individuos con aquellos similares a ellos). Por ejemplo,
interesa estudiar los sueldos de la totalidad de los N trabajadores de un
hospital. Estos individuos se pueden estratificar por estamento. Para ello
se establecen los tamaos de cada estamento (N1 mdicos,
N2 enfermeros, N3 auxiliares de enfermera, N4 otros profesionales de la
salud, N5 administrativos, N6 auxiliares de limpieza, N7 guardias, y se
seleccionan muestras en cada uno, de tamaos proporcionales, n1,..., n7,
Ni
ni
tales que n = n1+...+n7 y
=
para todo i = 1,...,7.
N
n
3) Muestreo Sistemtico M.S.:
La poblacin no presenta subgrupos o estos son desconocidos para el
investigador y la variable a ser medida en ella tiene un comportamiento
relativamente homogneo. Adems se cuenta con un marco muestral
completo ordenado en el cual los individuos estn numerados o pueden
numerarse fcilmente. Finalmente, el ordenamiento en el marco
muestral no guarda relacin con la variable de inters, en el sentido de
que no se observa algn tipo de patrn, por ejemplo cclico, en ellos.
Por ejemplo, se desea estudiar el comportamiento sexual de los
N = 4.900 estudiantes de primer ao de la Universidad de Concepcin,
los cuales estn ordenados en un listado en orden alfabtico. La muestra
corresponder a un 5% de la poblacin (n = 245). Esto significa que se
seleccionar en forma sistemtica uno de cada k = 20 individuos
(k =
N 4.900
=
= 20). Para definir el nmero inicial, se selecciona un
245
n
Tcnicas de Muestreo
Clase 2: Introduccin (segunda parte)
Tipos de Variables Aleatorias:
En general la informacin total obtenida de la muestra debe resumirse
mediante:
- Tablas,
- Grficos,
- Medidas (estimadores, estadsticos).
Tanto los estimadores como los estadsticos son variables aleatorias, por lo
cual tienen una distribucin (llamada distribucin muestral, ya que su
variabilidad se debe a que la muestra es aleatoria).
Las variables aleatorias corresponden a caractersticas numricas de los
individuos.
Cada variable aleatoria tiene asociado un Recorrido, el recorrido es el conjunto
de valores posibles, valores que puede asumir esta caracterstica.
Cada uno de los valores que pueden asumir estas variables aleatorias, es
decir, cada elemento del recorrido, tiene asociada una funcin de probabilidad,
es decir una funcin matemtica que indica cun posible es que se obtenga tal
valor. Esta funcin matemtica se conoce como Distribucin de Probabilidad.
Las variables aleatorias (v.a.) y pueden ser de dos tipos:
- Discretas,
- Continuas.
Un conjunto es contable si es finito, es decir, se puede contar sus elementos.
Un conjunto es numerable si se puede numerar sus elementos en algn orden,
es decir, asignarle un nmero a cada elemento. Un conjunto numerable no
necesariamente es finito, hipotticamente uno podra numerar infinitamente sus
elementos, ya que tienen un orden especfico.
Las v.a. discretas son aquellas cuyo recorrido es numerable o contable.
Ejemplos: Nmero de hijos de una mujer, Nmero de aos de servicio de un
empleado, Edad (aos cumplidos), Aos de estudio, etc.
Las v.a. continuas son aquellas cuyo recorrido no es numerable ni contable,
sino que entre cada par de valores posibles existen infinitos valores ms.
Ejemplos: Estatura, peso de una persona.
En ocasiones una variable continua puede medirse mediante una escala de
medicin discreta.
Ejemplos:
Edad real (25 aos, dos meses, 13 das, 5 horas, 3 minutos, 5 segundos, etc.)
Edad en aos cumplidos (25 aos)
Sueldo lquido real ($354.211,6666) Sueldo lquido en pesos ($354.212).
En otras ocasiones una variable continua o discreta se puede medir en
intervalos.
Ejemplos:
Marque a qu categora de sueldo pertenece usted:
a. Menos de $300.000
b. $300.001 a $800.000
c. Ms de $800.000.
En qu grupo etreo se ubica el jefe de hogar:
a. Menos de 30 aos
b. Entre 30 y 45 aos
c. Entre 46 y 60 aos
d. Ms de 60 aos
Finalmente hay variables que se categorizan, es decir, los nmeros se
transforman en una clasificacin no numrica. Si se trata slo de dos
categoras, se dice que la variable se ha dicotomizado.
Grupo etreo del jefe de hogar: Joven (18-40), Adulto (41-59), Adulto
mayor (ms de 60).
Grupo de nivel socioeconmico: A, B, C. D. E.
Viven menores de edad en el domicilio? S (1 ms menores de edad),
No (0 menores de edad).
El sueldo per cpita es superior a $200.000? Si ($200.000 ms), No
(menos de $200.000).
Distribuciones de Probabilidad importantes:
Variable Aleatoria Discreta Importante:
Binomial:
Un experimento es cualquier situacin que genera diversos resultados.
Un experimento Bernoulli es un experimento dicotmico a cuyos resultados se
denomina xito y fracaso, para el cual las realizaciones son independientes (si
la muestra es aleatoria se asegura la independencia) y la probabilidad de xito
es constante (si la muestra es extraa de una poblacin o subpoblacin
homognea se asegura que la probabilidad de xito es igual para todos los
individuos). La probabilidad de xito se denota por p.
Una v.a. Binomial se puede definir como: nmero de xitos en n realizaciones
de un experimento Bernoulli. Se denota por X ~ b(n, p). El n de realizaciones
n es fijo.
Ejemplo:
Se encuesta a 100 personas extradas al azar (independientes) de la fuerza de
trabajo femenina de la ciudad de Concepcin (ser homogneo este grupo?),
para consultarles respecto una modificacin en la ley laboral (experimento),
que les afecta.
Poblacin: fuerza laboral femenina de la ciudad.
X: N de personas (de un total de 100 encuestadas) que estn a favor (xito)
de la modificacin. X ~ b(n=100, p), donde p es la proporcin real en la
poblacin de personas a favor de la modificacin.
Histograma: Grfico de barras verticales, que ubica en el eje horizontal los
valores de la variable en intervalos de tamao constante, y en el eje vertical la
frecuencia o el nmero de ocurrencias en cada intervalo (se puede reemplazar
la frecuencia por el porcentaje).
% de individuos
Ejemplo:
Edad
Probabilidad
Probabilidad
Exponencial:
Los valores bajos son altamente probables y las probabilidades decrecen
rpidamente para valores altos. Si se construye un histograma la figura es
semejante a la siguiente:
Probabilidad
Normal:
El histograma resulta simtrico (un lado corresponde al reflejo del otro, como
visto en un espejo) y unimodal (un solo valor mximo). Los valores centrales
son ms probables y las probabilidades decrecen rpidamente para valores
alejados del centro. Si se construye un histograma la figura es semejante a la
siguiente:
Verificacin de Modelos:
Para verificar si un modelo es binomial, se debe realizar un anlisis intelectual
del problema. Para verificar los modelos continuos en cambio, es conveniente
realizar la grfica del histograma.
Parmetros y Estimadores
Binomial:
El parmetro de inters es la proporcin poblacional p y el estimador es la
proporcin muestral p . El clculo de p requiere un clculo sobre toda la
poblacin, cuyo tamao es N: p =
homogneas, p = X
n
N xitos en la muestra
N realizacio nes
N xitos en la poblacin
N
. En poblaciones
Normal:
El parmetro de inters es la media poblacional o esperanza y el estimador
es la media muestral o promedio .
N
X
i =1
N
n
= X = i=1
(X
i =1
X) 2
tiene que = S =
2
(X
i =1
X) 2
n -1
Medidas:
Proporcin, media y varianza no son las nicas medidas que existen. Las
medidas, en general, se dividen en medidas de localizacin y variabilidad, y se
pueden clasificar del modo siguiente:
E(X) =
X
i =1
E( X i ) =
i=1
E(X )
i=1
n E(X).
Igual Distribucin
Varianza Poblacional:
N
V(X) =
(X
i =1
X) 2
media en la Poblacin.
El estadstico anlogo es la varianza muestral S2.
Propiedades:
Sea a, b constantes y X, X1, , Xn variables.
V(a) = 0,
V(a X) = a2 V(X),
V(a X + b) = a2 V(X),
V( X i )
i=1
V(X )
i=1
Independencia
n V(X).
Igual Distribucin
se ubica
es poco
Resultados Importantes:
Normal:
X N(, 2) E(X) = ; V(X) = 2.
n
E(X ) = E(
X
i=1
) = 1 E( X ) = 1 E(X ) =
n
n
i
n
i=1
i =1
X es estimador insesgado de E(X) = .
1
n E(X i ) = E(X) = .
n
n
1
1 n
V(X) 2
1
=
V
(
X
)
=
V(X
)
=
V(X
)
=
.
i
i
i
n
n
n
n2
n 2 i=1
n2
i =1
la varianza deX decrece a medida que el tamao de muestra crece.
E(S2) = V(X) = 2 S2 es estimador insesgado de V(X) = 2.
Binomial:
X b(n, p) E(X) = n p;
V(X) = n p (1- p).
1
X
1
E( p ) = E( ) = E(X) = n p = p.
n
n
n
p es estimador insesgado de p.
X
p (1 p)
1
1
V( p ) = V ( ) = 2 V (X) = 2 n p (1 p) =
.
n
n
n
n
la varianza de p decrece a medida que el tamao de muestra crece.
V(X ) =
V(
i=1
)=
Teorema de Chebyshev:
Para muestras de cualquier tamao (en particular pequeas), se tiene que,
V( )
.
independiente de la distribucin original: P(| - | B) 1
B2
Algunas consecuencias y observaciones importantes son las siguientes:
V(X)
Distrib. normal u otra continua: P(|X | 2 n ) 1
=.
4 V(X)
2 V(X)
V(p )
Distrib. binomial: P(|p p| 2 p (1 p) n ) 1
=.
4 V(p )
2 V(p )
Error de Estimacin e Intervalo de Confianza:
El error de estimacin es la diferencia absoluta entre el valor real y el valor
estimado de un parmetro E = | - |.
En el caso normal, corresponde a E = | - |.
En el caso binomial, corresponde a E = | p - p|.
Se denota por B al error mximo permitido y por (1 ) al nivel de confianza en
la estimacin. Esto se resume en la siguiente expresin:
P(| - | B) = 1 .
Esta expresin tambin es anloga a decir que, con un nivel de confianza (1- )
se tiene que el verdadero valor pertenece al Intervalo de Confianza
[ - B, + B].
El nivel de confianza quiere decir que, si se construyeran un gran nmero de
intervalos, cada uno basado en una muestra extrada al azar, el verdadero
valor del parmetro estara contenido en el porcentaje dado por 1 de ellos.
Ejercicios:
1) Considere el conjunto dado a continuacin y correspondiente a los sueldos
de los 50 empleados de una reparticin.
a. Calcule los valores poblacionales = E(X) y = V(X) .
b. Realice el histograma de los datos.
c. Obtenga 20 muestras de tamao 5.
i. Para cada una calcule X, S y el intervalo de confianza para .
ii. Vea a cuntos intervalos pertenece el valor real de .
iii. Realice el histograma de valores de X.
iv. Comente.
d. Obtenga 20 muestras de tamao 30.
i. Para cada una calcule X, S y el intervalo de confianza para .
ii. Vea a cuntos intervalos pertenece el valor real de .
iii. Realice el histograma de valores de X.
iv. Comente.
2) Considere el conjunto dado a continuacin y correspondiente a la postura
de los 50 empleados de una reparticin respecto de las nuevas polticas de
la empresa.
a. Calcule el valor poblacional p.
b. Realice el histograma de los datos (codifique como 1: a favor y
0: en contra).
c. Obtenga 20 muestras de tamao 5.
i. Para cada una calcule p y el intervalo de confianza para p.
ii. Vea a cuntos intervalos pertenece el valor real de p.
iii. Realice el histograma de valores de p .
iv. Comente.
d. Obtenga 20 muestras de tamao 30.
i. Para cada una calcule p y el intervalo de confianza para p.
ii. Vea a cuntos intervalos pertenece el valor real de p.
iii. Realice el histograma de valores de p .
iv. Comente.
279.000
279.000
287.000
290.000
297.000
298.000
319.000
320.000
323.000
332.000
340.000
343.000
346.000
352.000
353.000
356.000
367.000
386.000
391.000
412.000
414.000
423.000
430.000
440.000
451.000
459.000
477.000
490.000
510.000
530.000
546.000
557.000
570.000
580.000
605.000
649.000
684.000
699.000
716.000
740.000
Para utilizar estos intervalos, se debe ubicar en una columna de Excell los
lmites superiores de los intervalos: 200.000, 250.000, 300.000, etc. Llame a
esa columna Clases (columna C).
C
Clases
200.000
250.000
300.000
Etc.
Haciendo clic sobre las barras se marcarn las columnas fuente del grfico,
la idea es ubicarse con el Mouse sobre la columna destacada en morado,
presionar botn izquierdo del Mouse, y mover el cuadr morado a la columna
de los Intervalos:
g) Ahora presione otra vez las barras del grfico y mueva la columna azul a
la de porcentajes. Finalmente reduzca con el Mouse el largo de las
columnas de fuente de los datos:
Porcentaje
14%
12%
10%
8%
6%
4%
2%
0%
151-200
201-250
251-300
301-350
351-400
401-450
451-500
501-550
551-600
601-650
651-700
701-750
Intervalos de Sueldos
A
B
Sueldos
Probabilidades
156.000
0,02
173.000
0,02
178.000
0,02
A
B
Sueldos Probabilidades
156.000
0,02
173.000
0,02
178.000
0,02
215.000
0,02
218.000
0,02
C
Muestra 1
477000
414000
716000
386000
546000
D
Muestra 2
352000
279000
451000
319000
740000
En contra
A favor
En contra
A favor
A favor
En contra
En contra
A favor
En contra
En contra
En contra
En contra
En contra
A favor
A favor
En contra
A favor
A favor
En contra
En contra
En contra
En contra
En contra
A favor
En contra
En contra
En contra
En contra
En contra
En contra
A favor
En contra
A favor
En contra
En contra
En contra
En contra
A favor
En contra
En contra
Los desarrollos en este caso son muy semejantes a los del problema 1, pero
presentan algunas diferencias, en primer lugar, que es factible definir la
distribucin de probabilidad poblacional a ojo o con la funcin Contar.si (vea el
ejemplo) y luego dividiendo por 50 para calcular la probabilidad:
1
2
3
4
5
6
7
A
Postura
En contra
En contra
En contra
En contra
En contra
A favor
B
Resultados
A favor
En contra
Codificacin
1
0
C
Frecuencia
=CONTAR.SI(A2:A51;"A Favor")
Probabilidad
=C1/50
Tcnicas de Muestreo
Clase 3: Elementos del Problema de Muestreo
Tamao de la Muestra:
Cada elemento de la poblacin contiene una cierta cantidad de informacin
relativa a ella, a las variables en juego, a sus distribuciones y a sus parmetros;
sin embargo cada unidad muestreada implica un costo, lo que motiva la
determinacin del mnimo tamao muestral que permita el logro de los
objetivos de la estimacin (precisin y confianza deseadas), dada la
variabilidad (desviacin estndar del estimador) existente y el tamao de la
Poblacin.
De estos cuatro factores, dos son propios del problema y no se pueden alterar
(variabilidad, tamao de la poblacin), mientras que los otros dos son definidos
por el investigador (precisin y confianza).
El ideal es que se pueda contar con que las mediciones hayan sido realizadas
en forma exacta. En caso contrario, se habla de error de medicin. Este tipo
de error debe minimizarse.
Definiciones importantes:
Elemento: Objeto al cual se le pueden tomar (y eventualmente se le toman) las
mediciones.
Poblacin: Coleccin de elementos acerca de los cuales se desea realizar
inferencias.
Unidades de muestreo: Colecciones no traslapadas de elementos que cubren
la poblacin completa.
Marco muestral: Lista de unidades de muestreo.
Muestra: Una coleccin de unidades seleccionadas de uno o de varios marcos
muestrales.
Diseo del Muestreo:
El objetivo del muestreo es la estimacin de parmetros de la poblacin.
La estimacin se basa en la informacin muestral. La precisin de esta
estimacin es determinada por el investigador como el error mximo de
estimacin B.
E = | | B.
La probabilidad 1 de que la estimacin tenga un error que no supere a esta
cota se denomina nivel de confianza.
P( E B) = P(| | B) = 1 .
Como se vio anteriormente, si consideramos B = 2( ) y:
Soluciones:
Un adecuado adiestramiento de los encuestadores permitir obtener
respuestas difciles o sobre temas incmodos.
Por otra parte, la revisin pronta de la planilla de datos permitir verificacin
de informacin extraa (valores imposibles por ejemplo), y recuperacin de
datos mientras los encuestados an estn disponibles.
3) Sesgo de seleccin: Es una prctica comn y muy inconveniente,
reemplazar en forma ms o menos arbitraria a los individuos muestreados
ausentes por sus vecinos. En este caso, as como en el caso de no
respuesta, la ausencia de los individuos podra guardar relacin con su
postura frente a las interrogantes que se les plantearn, por ejemplo, puede
que sea ms comn (probable) encontrar en el domicilio a una familia con
nios que a una conformada por adultos solamente, lo cual puede sesgar
las respuestas de los individuos. La nica forma de obtener una muestra
representativa y que satisfaga las propiedades de stas, es medir a los
individuos debidamente seleccionados en forma aleatoria.
Soluciones:
Las reentrevistas programadas en diferentes horarios y das de la semana
son una forma de minimizar las omisiones en una encuesta que se realiza
en terreno.
Mtodos de recoleccin de datos:
Algunos mtodos de recoleccin de datos son:
1) Entrevista Personal: Se tiende a tener menos omisin cuando el individuo
es confrontado en forma personal. Las ventajas de una entrevista son: el
lenguaje no verbal es considerado, se puede explicar las preguntas
evitando omisiones; desventajas son: se puede provocar sesgo por las
actitudes o gestos del entrevistador, si el entrevistador no es experimentado
puede cohibir al encuestado o perder informacin. En general, se puede
usar una pauta rgida o un punteo. Si se trata de una entrevista tcnica, se
requiere del individuo su opinin experta, por lo cual es conveniente llevar
debidamente escritas las preguntas e interiorizarse del tema previamente.
Si se trata de una entrevista testimonial, en cambio, se da libertad al
encuestado para que se exprese libremente.
2) Entrevista Telefnica: Las entrevistas telefnicas resultan ms
econmicas que las personales, sin embargo deben ser ms cortas, ya que
el encuestado tiende a impacientarse. Por otra parte, generalmente utilizar
la gua telefnica como marco muestral produce sesgo, ya que no todas las
casas tienen telfono, de las que tienen no todas estn en la gua y muchos
telfonos de la gua no corresponden a casas.
3) Cuestionarios Autoaplicados: Las encuestas en que no se cuenta con un
entrevistador, sino que el individuos las responde por s mismo, son ms
econmicas. En ocasiones se hacen en un lugar especfico al cual
concurren los encuestados; pero la mayora de las veces se hacen llegar
por correo, postal o electrnico, este tipo de encuestas tiene muy bajo
porcentaje de respuesta. En cualquiera de los casos, la encuesta debe
redactarse de forma muy cuidadosa, para evitar errores u omisiones.
Ayuda:
Para muestreo aleatorio simple:
n
= X =
Xi
i=1
n
n
( Xi X)2
i =1
n 2
X n X2
i
i=1
n 1
= S =
( ) =
X
p =
n
(p) =
n 1
S
n
p (1 p)
n
n0
n
1+ 0
N
Tcnicas de Muestreo
Clase 4: Muestreo Aleatorio Simple
Introduccin:
Si el diseo del proceso de muestreo asegura que cada posible muestra tiene
la misma probabilidad de resultar elegida, se habla de Muestreo Aleatorio
Simple. Esta condicin no es equivalente a aquella que hemos establecido
anteriormente: todos los individuos tienen la misma probabilidad de ser
elegidos; sin embargo, el hecho de que todas las posibles muestras sean
equiprobables implica que todos los individuos lo son. Para asegurar la
condicin de muestras equiprobables, se deben escoger todos los individuos
en la muestra en forma aleatoria desde la poblacin sin reemplazo (sin
reemplazo significa que no se puede seleccionar a un mismo individuo ms de
una vez y con reemplazo significa que cada vez que se selecciona un
elemento, todos pueden ser elegidos, incluso los que fueron seleccionados
antes). Esto se hace mediante un sorteo en el cual se seleccionan n individuos
de los N existentes en la poblacin. En primer lugar los N individuos de la
poblacin son numerados (en muchos casos ya lo estn) y posteriormente se
eligen n individuos utilizando una tmbola, una tabla de nmeros aleatorios,
nmeros aleatorios de la calculadora o del computador, o cualquier otro mtodo
que preserve el azar.
Una muestra escogida de esta forma se denomina Muestra Aleatoria Simple y
el diseo se conoce como Muestreo Aleatorio Simple (MAS).
Este diseo es adecuado cuando la poblacin es homognea respecto de la
caracterstica de inters, o bien no se puede a priori obtener informacin sobre
eventuales grupos en ella.
Clculos:
El clculo de la combinatoria permite determinar cuntas posibles muestras
existen:
CNn = N = N! ,
n n! (N n)!
N
es una notacin para la expresin que se lee Combinatoria
n
de N sobre n y se interpreta como de cuntas formas se pueden seleccionar n
elementos de un grupo de N elementos, y donde N! es una notacin para la
expresin que se lee Factorial de N, se interpreta como todas las formas en
que se pueden ordenar N elementos y se calcula como el producto de los
nmeros desde 1 hasta N, es decir:
N! = N (N 1) (N 2) 3 2 1.
donde
CNn
Parmetros de inters:
En general, los parmetros de inters o a estimar en estos casos, son:
1) Si la variable de inters X es continua:
Media (promedio de la variable en la poblacin), por ejemplo,
X: ingreso familiar mensual de los residentes de Hualpn, = ingreso
familiar promedio de los residentes de Hualpn.
Total (suma de los valores X de los individuos en la poblacin), por
ejemplo, X: N de infracciones cursadas a conductores de taxi-colectivo
de la ciudad de Concepcin (2007), = nmero total de infracciones
cursadas en 2007 a conductores de taxi-colectivo de Concepcin.
2) Si la variable X es dicotmica:
Proporcin p (proporcin o porcentaje de individuos en la poblacin con
la caracterstica de inters), por ejemplo, X: nmero de cesantes en una
muestra extrada de los titulados en el ao 2006 en la UdeC",
p = proporcin de los titulados en la UdeC el ao 2006 que se
encuentran cesantes.
Estimadores e intervalos:
El objetivo de este diseo de muestreo, como en cualquier otro, es la
estimacin de parmetros de la poblacin. Los estimadores son insesgados y
de varianza mnima y dependiendo de si el tamao muestral final es grande o
pequeo, se generan intervalos con nivel de confianza 95% 75%,
respectivamente.
Dado un tamao poblacional N, para cada parmetro nos interesa su
estimador , pero para establecer la precisin de la estimacin, tambin nos
interesa el error estndar (desviacin estndar del estimador) ( ) y en
particular el error estndar estimado s( ) = ( ) .
N
< 20), en
n
N-n
cuyo caso las cantidades consideran un factor de correccin
.
N -1
N
20), en
tamao de poblacin grande respecto del tamao muestral (
n
cuyo caso el factor de correccin se elimina por ser superior a 0,95, es decir
cercano a 1. En este caso se habla de poblacin infinita.
1) Parmetro Media :
El estimador es =X
El error estndar es ( ) =
N-n
; con N grande ( )
.
n N-1
n
S N-n
S
El error est. estimado es s( ) = ( ) =
; con N grande s( )
.
n N-1
n
El error de estimacin es B = 2 s( ) .
4 N S p2
(N - 1) B 2 + 4 S p2
y con N grande n =
4 Sp2
B2
2) Parmetro Total = N :
El estimador es = N = N X
(N - n)
; con N grande ( ) N .
n (N - 1)
n
(N - n)
El error estndar estimado es s( ) = ( ) = S N
; con N grande
n (N - 1)
s( ) = S N .
n
El error de estimacin es B = 2 s() .
El error estndar es ( ) = N
El tamao de muestra es n =
4 N 2
; con N grande
(N - 1) ( B )2 + 4 2
N
4 N S p2
(N - 1) ( B )2 + 4 S p2
N
grande n =
4 N2 Sp2
B2
4 Sp2
( NB )2
y con N
3) Parmetro Proporcin p:
El estimador es p = X .
n
p (1 p) N - n
p (1 p)
; si N grande (p)
.
n
N -1
n
p (1 p) N - n
El error estndar estimado es s(p) =
; si N grande
n -1
N-1
p (1 p)
s(p)
.
n 1
El error de estimacin es B = 2 s(p) .
El intervalo de confianza es [p - B; p + B], de nivel 95% si n grande y 75%
en caso contrario.
4 N p 0 (1 p 0 )
El tamao de muestra es n =
, donde p0 es la
(N - 1) B 2 + 4 p 0 (1 p 0 )
4 p 0 (1 p 0 )
.
proporcin en una muestra piloto; con N grande n =
B2
Si no se cuenta con una muestra piloto, pero se sabe que la proporcin est
entre ciertos lmites, se escoge el valor p0 ms cercano a 0,5 en el intervalo.
Finalmente, si no se tiene ningn indicio del valor de p, se utiliza el valor
N
p0 = 0,5, de donde n =
y si N es grande n = 12 .
2
(N - 1) B + 1
B
Yj .
j =1
acumulado
1
0,2
0,2
0 + 0,2
2
0,25
0,45
0,2 + 0,25
3
0,15
0,6
0,45 + 0,15
4
0,1
0,7
0,6 + 0,1
5
0,2
0,9
0,7 + 0,2
6
0,1
1
0,9 + 0,1
Si los n = 3 nmeros aleatorios son 0,375 0,499 0,070, estos se relacionan
con los elementos Elemento 2: 0,2<0,375<0,45; Elemento 3: 0,2<0,499<0,6;
Elemento 1: 0<0,07<0,2. As la muestra incluye a los tres primeros elementos.
i
ms fcilmente las operaciones, por otra parte, en este caso deja de tener
importancia el tamao poblacional, de modo que no se usa factor de
correccin.
1) Parmetro Media :
n
1
Zi = Z .
N
N n i =1
El estimador es =
El error estndar es ( ) =
El error de estimacin es B = 2 s( ) .
Z
N n
.
SZ
N n
2) Parmetro Total = N :
El estimador es = Z
El error estndar es ( ) =
El error de estimacin es B = 2 s( ) .
El intervalo de confianza es [X - B; X + B] , de nivel 95% si n grande y 75%
en caso contrario.
4 2Z
El tamao de muestra es n =
. Si se cuenta con una muestra piloto,
B2
4 S 2Z
Z se reemplaza por su desviacin estndar SZp, es decir, n =
.
B2
Z
n
SZ
n
Ejercicios:
1) La empresa distribuidora de agua potable y el municipio ha financiado un
estudio basado en una muestra aleatoria simple de 100 medidores de agua
controlados dentro de una comunidad para estimar el promedio de consumo
diario por casa, durante un perodo de sequa. La media y desviacin
estndar muestrales fueron, respectivamente, x = 12,5 y s = 11,2. El
nmero total de casas en la comunidad es N = 10.000.
a) Estime el consumo diario promedio de agua por familia, puntualmente y
por intervalo. Interprete.
b) Estime el consumo diario total de agua en la comunidad, puntualmente y
por intervalo. Interprete.
Tcnicas de Muestreo
Clase 5: Muestreo Aleatorio Estratificado
Introduccin:
Como se vio en el captulo introductorio, la eleccin del diseo de muestreo
depende de factores relativos a la estructura de la poblacin. En este captulo
abordaremos el caso en el cual la poblacin est compuesta de grupos que son
heterogneos entre ellos respecto de la variable de inters, pero que presentan
un comportamiento homogneo de la variable dentro de ellos. Estos grupos se
conocen como Estratos.
En estos casos se suele utilizar el mtodo conocido como Muestreo Aleatorio
Estratificado, el cual consiste en la seleccin de muestras aleatorias simples
independientes dentro de los subgrupos o Estratos.
La utilizacin del Muestreo Aleatorio Estratificado (MAE) permite reducir la
variabilidad total del estimador utilizado, ya que sta depende de la variabilidad
de la variable de inters, la cual es baja dentro de los grupos. Como sabemos,
la variabilidad del estimador incide en el error de estimacin, de modo que se
obtendr una estimacin mucho ms precisa.
Ventajas de la Estratificacin:
Por supuesto, la estratificacin se realiza debido a sus ventajas y cuando stas
lo ameritan. Algunos de estos beneficios son:
1) Mayor precisin: Para un mismo tamao muestral, la estratificacin
produce un lmite ms pequeo para el error de estimacin que el que se
generara a partir de un MAS. Este resultado es ms efectivo mientras ms
homogneos sean internamente los estratos, es decir, mientras ms
adecuada y necesaria sea la estratificacin.
Por ejemplo, estratificar por sexo en un estudio relacionado con el peso
reducir notablemente la variabilidad; en un estudio relacionado con
sueldos, si se cree que existe discriminacin al respecto.
2) Reduccin de costos: La estratificacin en grupos convenientes permite
reducir los costos monetarios y temporales de la recoleccin de datos.
Por ejemplo si se trata de individuos que viven en diferentes sectores,
organizar el proceso de recoleccin en cada sector por separado resulta
ms econmico.
3) Estimaciones para los estratos: La estratificacin permite, a la vez que
estimar respecto del grupo total, obtener estimaciones de los estratos
mismos. Cuando stos son grupos de inters, estos resultados resultan muy
tiles. Si la estratificacin es por grupos socioeconmicos, ser mucho ms
til contar con las mediciones para cada grupo particular que para el grupo
total.
Proceso de Estratificacin:
El proceso de estratificacin es un diseo de muestreo en etapas. Una vez que
se ha determinado que el MAE es el diseo ms adecuado, las etapas son las
siguientes:
1) Definicin de Estratos: Definir claramente los L estratos existentes en la
poblacin, de modo que cada elemento de la poblacin pertenezca a un
estrato y slo a un estrato.
2) Tamao de los Estratos: Determinar o estimar el tamao de cada estrato
N1, , NL, donde naturalmente el tamao de la poblacin es la suma de los
tamaos de los estratos: N =
N .
i=1
Tambin se contar con estimaciones para el caso en que los tamaos de los
N
estratos son muy grandes respecto de las muestras ( i 20 para todos los
ni
N
estratos) y para el caso en que no es as ( i 20 para algn estrato).
ni
a) Parmetro Media :
a) Global:
1 L
Ni X i
N i=1
El estimador es E =
El error estndar es ( E ) =
( )
1
N
1
N
Ni (Ni - ni )
i=1
i2
; con N1, , NL grandes
ni
Ni i2
.
ni
i=1
L
1
N
Ni (Ni - ni )
i=1
S i2
; con
ni
1 L Ni S i2
.
N i=1 n i
El error de estimacin es B = 2 s( E ).
2
b) Por estrato:
El estimador es i = Xi.
El error estndar es ( i ) =
(Ni - n i ) i2
; si Ni grande ( i ) i .
Ni n i
ni
Si
(Ni - n i ) S i2
; si Ni grande s( i )
.
Ni n i
ni
El error de estimacin es Bi = 2 s( i ).
El intervalo de confianza es X i - B i ; X i + B i , de nivel 95% si ni grande y
75% en caso contrario.
b) Parmetro Total = N :
a) Global:
El estimador es E = N E =
El error estndar es ( E ) =
( E )
N X .
i
i=1
Ni (Ni - ni )
i=1
i2
; con N1, , NL grandes
ni
Ni i2
.
ni
i=1
2
Ni (Ni - ni )
i=1
S i2
; con
ni
Ni S i2
.
ni
i=1
L
El error de estimacin es B = 2 s( E ).
El intervalo de confianza es [ E B; E +`B], de nivel 95% si n1, , nL
grandes y 75% en caso contrario.
L
N2 i2
4 i
wi
i=1
El tamao de muestra es n =
, con wi tal que ni = wi n.
L
2
2
B + 4 Ni i
i=1
b) Por estrato:
El estimador es i = Ni Xi.
N
Ni (Ni - ni ) i2
El error estndar es ( i ) =
; si Ni grande ( i ) i i .
ni
ni
Ni S i
ni
Ni (Ni - ni ) S i2
; si Ni grande
ni
El error de estimacin es Bi = 2 s( i ).
El intervalo de confianza es [i - B i ; i + B i ] , de nivel 95% si ni grande y
75% en caso contrario.
c) Parmetro Proporcin p:
a) Global:
1 L
El estimador es p E = Ni p i .
N i=1
El error estndar es (p E ) =
grandes (p E )
1
N
Ni (Ni - n i ) p i (1 p i )
; con N1, , NL
ni
i=1
L
Ni2 p i (1 p i )
.
ni
i=1
L
1
N
Ni (Ni - n i ) p i (1 p i )
; con
ni 1
i=1
L
Ni2 p i (1 p i )
.
ni 1
i=1
El error de estimacin es B = 2 s(p E ) .
El intervalo de confianza es [p E - B; p E + B] , de nivel 95% si n1, , nL
grandes y 75% en caso contrario.
L
Ni2 p i (1 p i )
4
wi
i =1
El tamao de muestra es n =
, donde pi son las
L
2
2
N B + 4 Ni p i (1 p i )
N1, , NL grandes s(p E )
1
N
1
N
i=1
Xi
, con Xi nmero de ocurrencias del evento de
ni
inters en la psima muestra.
p i (1 p i ) Ni - ni
; si Ni grande
El error estndar es (p i ) =
ni
Ni - 1
El estimador es
(p i )
p i (1 p i )
.
ni
p i =
p i (1 p i ) Ni - n i
; si N grande
ni - 1
Ni - 1
p i (1 p i )
.
ni 1
Estos factores nos llevan a tres mtodos, segn cul de ellos es el que prima:
1) Asignacin ptima ajustada por costos:
i) ERROR FIJO: Este caso considera tanto los costos en cada estrato, las
diferentes variabilidades en ellos, y sus tamaos relativos, ajustando
tamao muestral total y en los estratos para un error de estimacin
mximo fijo B.
a) Media :
L N L
4 i i Ni i c i
ci
i=1 c i i=1
; n=
wi = L
L
Nj j
N2 B 2 + 4 Ni i2
i=1
cj
j=1
Ni i
b) Total :
Ni i
wi =
ci
; n=
Nj j
L N L
4 i i Ni i c i
i=1 c i i=1
L
B 2 + 4 Ni i2
cj
j=1
i =1
c) Proporcin p:
p i (1 p i )
ci
Ni
wi =
N
j=1
p j (1 p j )
j=1
;n=
ci
Nj
N B + 4 Ni p i (1 p i )
2
cj
Ni
y wi =
L
p (1 p i ) L
4 Ni i
Ni p i (1 p i ) c i
ci
i=1
i=1
2
i=1
L Ni L
Ni c i
i=1 c i i=1
; n=
, si no se conocen los pi (pi = 0,5).
N2 B 2 + N
cj
ii) COSTO FIJO: Este caso considera tanto los costos en cada estrato, las
diferentes variabilidades en ellos, y sus tamaos relativos, ajustando
tamao muestral total y en los estratos para un costo mximo fijo C.
a) Media y total :
Ni i
wi =
ci
; n=
Nj j
cj
j=1
C
L
.
Ci
i=1
b) Proporcin p:
p i (1 p i )
ci
Ni
wi =
N
j=1
p j (1 p j )
cj
; n=
C
L
.
Ci
i=1
Ni
y wi =
j=1
ci
; n=
Nj
cj
C
L
w
i=1
Este caso no considera los costos (asume que son todos iguales), pero si
considera las diferentes variabilidades en los estratos y sus tamaos
relativos, ajustando tamao muestral total y en los estratos para un error
de estimacin mximo fijo B.
a) Media :
wi =
Ni i
L
Nj j
; n=
j=1
L
4 Ni i
i=1
N2 B 2 + 4 Ni i2
i =1
b) Total :
2
L
4 Ni i
N
i=1
wi = L i i ; n =
L
B 2 + 4 Ni i2
Nj j
j=1
i=1
c) Proporcin p:
wi =
Ni p i (1 p i )
L
N j pi (1 p i )
n=
j=1
y wi =
N2 B 2 + 4 Ni p i (1 p i )
i =1
Ni
; n=
N
j=1
L
4 Ni p i (1 p i )
i=1
N
, si no se conocen los pi (pi = 0,5).
N B 2 + N
2
3) Asignacin proporcional:
Este caso no considera los costos (asume que son todos iguales), ni
tampoco considera las diferentes variabilidades en los estratos, es decir,
asume que no difieren demasiado; pero s considera los tamaos relativos
de ellos. El tamao muestral total y en los estratos se ajusta para un error
de estimacin mximo fijo B.
a) Media :
wi =
Ni
L
Nj
j=1
n=
L
4 N Ni i2
i=1
L
N2 B 2 + 4 Ni i2
i =1
b) Total :
wi =
Ni
N
j=1
L
4 N Ni i2
i=1
n=
L
B 2 + 4 Ni i2
i=1
c) Proporcin p:
wi =
Ni
L
Nj
n=
j=1
y wi =
Ni
j=1
N2 B 2 + 4 Ni p i (1 p i )
i =1
; n=
L
4 N Ni p i (1 p i )
i=1
N
, si no se conocen los pi (pi = 0,5).
N B 2 + N
2
N individuos
4
9
49*
36
49*
16
36*
25
4
De aqu se puede estimar que los intervalos que permiten la estratificacin son
aproximadamente 100 - 450, 450 - 650, 650 - 1000.
Existe otro mtodo, y es el siguiente:
Se construye la distribucin de frecuencias.
Se agrega una columna con raz de la frecuencia.
Se agrega una columna acumulando la raz de la frecuencia.
El valor final de la ltima columna se divide por el nmero de estratos.
Se busca los valores aproximados que acumulan el valor obtenido en el
punto anterior y sus mltiplos.
En el ejemplo:
Intervalo
100-200
200-300
300-400
400-500
500-600
600-700
700-800
800-900
900-1000
Frecuencia
4
9
49
36
49
16
36
25
4
Raiz de
Frecuencia
2
3
7
6
7
4
6
5
2
Raz Frec
Acumulada
2
5
12*
18*
25
29*
35
40
42*
El valor final 42 se divide por 3, esto da: 14. Los mltiplos son 14, 28, 42. Estos
valores (*) se buscan en la ltima columna.
As se llega aproximadamente a los siguientes intervalos para los estratos:
100 - 430, 430 - 680, 680 - 1000; los cuales son bastante semejantes a los
intervalos encontrados antes.
Estratificacin despus de seleccionar la muestra:
1) Media :
a) Global:
El estimador es E = w i i = w i X i
i=1
El error estndar es ( E ) =
i=1
w i2
i=1
i2
.
ni
w i2
i=1
S i2
.
ni
El error de estimacin es B = 2 s( E ).
El intervalo de confianza es [X - B; X + B] , de nivel 95% si n1, , nL
grandes y 75% en caso contrario.
b) Por estrato:
El estimador es i = Xi.
El error estndar es ( i )
i
ni
.
Si
.
ni
El error de estimacin es Bi = 2 s( i ).
El intervalo de confianza es X i - B i ; X i + B i , de nivel 95% si ni grande y
75% en caso contrario.
2) Parmetro Total = N :
a) Global:
El estimador es
El error estndar es ( E ) = N
E = N E
L
w i2
i=1
i2
.
ni
w i2
i=1
S i2
.
ni
El error de estimacin es B = 2 s( E ).
El intervalo de confianza es [ - B; + B] , de nivel 95% si n1, , nL grandes
y 75% en caso contrario.
b) Por estrato:
El estimador es i = Ni Xi.
El error estndar es ( i )
El error de estimacin es Bi = 2 s( i ).
El intervalo de confianza es [i - B i ; i + B i ] , de nivel 95% si ni grande y
75% en caso contrario.
Ni i
ni
.
Ni S i
ni
3) Parmetro Proporcin p:
a) Global:
El estimador es p E = w i p i .
i=1
w i2 p i (1 p i )
.
ni
i =1
L
El error estndar es (p E )
w i2 p i (1 p i )
.
ni 1
i=1
L
b) Por estrato:
Xi
, con Xi nmero de ocurrencias del evento de
ni
inters en la psima muestra.
p i (1 p i )
El error estndar es (p i )
.
ni
El estimador es
p i =
p i (1 p i )
.
ni 1
Ejercicios:
1) Bajo qu condiciones ocurre que la estratificacin produce grandes
ganancias en precisin respecto del muestreo aleatorio simple? Suponga
costos constantes.
I
Obreros
1 = 6
N1 = 152
II
Tcnicos
2 = 5
N2 = 92
III
Administrativos
3 = 3
N3 = 27
8
0
6
7
I
Obreros
24
16
0
4
0
32
16
4
9
18
5
2
8
0
II
Tcnicos
4
5
0
24
8
12
3
2
1
III
Administrativos
1
8
I
N1 = 110
n1 = 20
n1
x i = 240.000
i=1
n1
x
i=1
2
i
= 2.980.000.000
II
N2 = 168
n2 = 30
n2
x
i=1
n2
x
i=1
2
i
= 420.000
= 6.010.000.000
4) Una psicloga que est trabajando con un grupo de adultos con retraso
mental desea estimar su tiempo de reaccin promedio a cierto estmulo. Ella
considera que varones y mujeres probablemente presentarn una diferencia
en tiempos de reaccin, por lo que desea estratificar en base a los sexos. El
grupo de 96 personas tiene 45 varones.
Estudios previos de este tipo han revelado que los tiempos presentan una
amplitud aproximada de 5 a 20 segundos para los varones y de 3 a 14
segundos para las mujeres. Los costos del muestreo son los mismos para
ambos estratos.
a) Usando la asignacin ptima, encuentre el tamao de muestra
aproximado necesario para estimar el tiempo dev reaccin promedio
para el grupo con un lmite aproximado de un segundo.
b) Asigne tamaos muestrales a los estratos.
N de empleados
0 10
11 20
21 30
31 40
41 50
51 60
61 70
71 80
81 90
91 100
101 110
111 120
Total
Frecuencia
2
44
6
6
5
7
10
14
19
13
3
7
96
Use los datos de frecuencia de la tabla anexa para dividir ptimamente las
96 empresas en L = 4 estratos,
a) para los cuales sea posible usar tamaos de muestra iguales.
b) con ayuda del histograma.
c) con ayuda de alguna regla estudiada.
Qu diseo usar?
Cmo estimar el tamao muestral n?
Qu estimaciones realizara?
En base a qu herramienta se concluye respecto de la preferencia del
pblico?
e) Suponga que se sabe que para la empresa rival el 60% de los
consumidores del producto tienen entre 18 a 25 aos y el 40% tiene ms
de 25 aos. Adems se sabe que el consumo de ese producto es
masivo.
Estime el tamao muestral total y la asignacin muestral por estratos, si
se desea un error mximo de estimacin de 5%.
f) Suponga que se encuentra que las proporciones estimadas de acuerdo
a la muestra configurada en (g) son p 1 = 0,65; p 2 = 0,48. Construya
intervalos de confianza y concluya respecto del xito delproyecto en la
poblacin total y en los estratos.
a)
b)
c)
d)
Tcnicas de Muestreo
Clase 6: Estimacin de Razn, Regresin y Diferencia
Introduccin:
Existen casos en los cuales la variable a estimar Y est relacionada con otra
variable X, la cual es ms fcil de medir. En estos casos, mediante las
relaciones entre ambas variables, es posible realizar las estimaciones
deseadas. Existen tres mtodos para realizar este tipo de estimacin indirecta,
los cuales son Estimacin de Razn, Estimacin de Regresin y
Estimacin de Diferencia.
Estimacin de Razn:
Este tipo de estimacin se utiliza cuando:
La variable de inters Y est relacionada en forma directa con cierta
variable X. Esto se debe verificar de dos formas:
o grficamente se aprecia una relacin como la de la Figura 6.1,
que es lineal (lnea recta) y pasa por el origen (el cero)
1) Parmetro Total Y:
En estos casos se puede expresar el total de Y como el total de X
multiplicado por el cuociente entre la media de Y y la de X:
Y = X
( Y) =
B = 2 s( Y).
e) Tamao muestral: n =
Ejemplo:
Se desea estimar el total de individuos que viven en una poblacin. La
unidad de muestreo es la manzana, se puede contar el nmero de casas
(X) pero es difcil contar el nmero de individuos (Y) en una manzana, sin
embargo se puede escoger algunas casas al azar para estimar el promedio
de individuos por manzana Y y tambin se puede estimar el promedio de
casas por manzana X .
El cuociente
en cuyo
a) Estimador:
b) Error est.:
( ) =
d) Error de estimacin: B = 2 s( ).
e) Tamao muestral: n =
Ejemplo:
Se desea estimar el cuociente entre el endeudamiento personal en crditos
de cierto banco, actual y del ao anterior. El endeudamiento promedio
actual, por cliente, es deY = $431.000 y el del ao anterior es
X = $489.000. El inters se relaciona con endeudamiento personal, de
modo que se estima en base al cuociente de promedios: = 88,1%. El
endeudamiento disminuy en un 11,9%.
Ahora bien, si interesa el cuociente entre crditos totales otorgados este
ao y el ao anterior, se requiere estimar los totales, para lo cual se
requiere el nmero de clientes actual, NY = 3.694, y del ao anterior,
NX = 3.145. Luego
3) Parmetro media Y:
Finalmente, si por algn motivo no se cuenta con la media de la variable de
inters, desde la primera y ltima expresiones es factible derivarla:
Y = R X ,
y estimarla en funcin de sus trminos.
Muestreo Aleatorio Simple:
a) Estimador:
b) Error est.:
X.
( Y) =
e) Tamao muestral: n =
Ejemplo:
Se desea estimar la inversin promedio mensual de los 40 asociados (en
forma conjunta) de cierta compaa para el ao prximo.
Se toma una muestra aleatoria de 10 personas del grupo y se realiza la
consulta relativa a su inversin del prximo ao. El total resulta ser
Y = $23.400.000, mientras que la inversin total del ao pasado fue de
X = $146.025.000.
El ao pasado haban 45 asociados y se estima que el ao prximo habrn
43 asociados.
Es as como el promedio del ao pasado de inversin mensual por socio
corresponde a X(45) / 45 = $146.025.000 / (45 12) = $270.417, y para el
ao prximo corresponde a
Y(43) =
Estimacin de Regresin:
Este tipo de estimacin se utiliza cuando:
La variable de inters Y est relacionada linealmente con cierta variable
X, pero la lnea no pasa por el origen. Esto se debe verificar de dos
formas:
o grficamente se aprecia una relacin como la de la Figura 6.2
(lnea recta pero no pasa por el origen)
a = Y b X,
a = Y b X.
1) Parmetro media Y:
Contando con stos valores, r, a, b, ya se conoce la relacin entre X e Y y
podemos realizar la estimacin.
Muestreo Aleatorio Simple:
a) Estimador:
b) Error est.:
( Y) =
= Y + b (
X) .
, b real..
s ( Y) =
, b estimado.
e) Tamao muestral: n =
2) Parmetro Total Y:
En estos casos se puede expresar el total de Y como N veces el promedio:
Y = N Y ,
y por lo tanto su estimador se puede expresar en funcin del estimador de
la media.
Muestreo Aleatorio Simple:
a) Estimador:
b) Error est.:
=N
= N [Y + b (
( Y ) =
X)].
, b real..
s( Y ) =
d) Error de estimacin: B = 2 s( Y ).
e) Tamao muestral: n =
, b estimado.
Estimacin de Diferencia:
Este tipo de estimacin se utiliza cuando:
La variable de inters Y est relacionada linealmente con cierta variable
X, la lnea no pasa por el origen, pero la pendiente es uno (b = 1, la
recta es diagonal en 45). Esto se debe verificar de dos formas:
o grficamente se aprecia una relacin como la de la Figura 6.4
(lnea recta que no pasa por el origen, con b 1)
1) Parmetro media Y:
Muestreo Aleatorio Simple:
a) Estimador:
b) Error est.:
+D.
( Y) = SD
, si b = 1.
, se estima que b = 1.
e) Tamao muestral: n =
2) Parmetro Total Y:
Y = N Y ,
y por lo tanto su estimador se puede expresar en funcin del estimador de
la media.
Muestreo Aleatorio Simple:
a) Estimador:
b) Error est.:
=N
=N[
( Y) = SD
+D].
, si b = 1.
, se estima b = 1.
Ejercicios:
1) Se realiz una encuesta de consumo familiar con el fin de determinar qu
porcentaje de los ingresos anuales son gastados en alimentacin en una
pequea comunidad formada por 150 familias. Se cuenta con una muestra
aleatoria simple de 14 familias, cuya informacin se presenta en la tabla
adjunta.
a. Realice la estimacin de Razn y encuentre un lmite para el error de
estimacin.
b. Si se conoce el Ingreso anual total de las familias en la comunidad, el
cual es 4.800.000, estime el gasto total en alimentacin de la
comunidad.
Familia Ingreso anual Gasto en alimentacin
1
25.100
3.800
2
32.200
5.100
3
29.600
4.200
4
35.000
6.200
5
43.400
5.800
6
26.500
4.100
7
8
9
10
11
12
13
14
28.700
28.200
34.600
32.700
31.500
30.600
27.700
28.500
3.900
3.600
3.800
4.100
4.500
5.100
4.200
4.000
Total de indgenas
157
652
1.135
497
669
241
Tcnicas de Muestreo
Clase 7: Muestreo Sistemtico
Introduccin:
Existen ocasiones en las cuales la muestra a seleccionar y la poblacin son
muy grandes, por lo cual seleccionar una muestra aleatoria simple resulta
largo. Tambin en muchas ocasiones se cuenta con un marco muestral
ordenado. En estos casos resulta mucho ms sencillo considerar un mtodo
que en muchos casos es equivalente al muestreo aleatorio simple en cuanto a
precisin, pero que en trminos de facilidad para obtener la muestra resulta
muchsimos ms sencillo, y se trata del muestreo aleatorio sistemtico
Obtencin de la muestra:
Para seleccionar una muestra aleatoria sistemtica de tamao n desde una
poblacin de tamao N, la cual se encuentra ordenada y numerada en un
marco muestral:
Se obtiene la frecuencia k N/n.
Se elige un nmero al azar entre 1 y k, digamos c.
La muestra consiste de los valores: c, c + k, c + 2 k, c + 3 k
En este caso se habla de una muestra sistemtica de 1 en k.
Por ejemplo, si N=124 y n=13, entonces k 124/13 = 9,5, k = 9. Supongamos
que al elegir un nmero al azar entre 1 y 9, se obtiene el valor c = 6; entonces
el primer valor de la muestra es 6 y los dems valores se obtienen sumando
sucesivamente 9 hasta completar los n = 13 valores, correspondientes a los
individuos numerados como: 6, 15, 24, 33, 42, 51, 60, 69, 78, 87, 96, 105, 114.
Esta es una muestra sistemtica de 1 en 9.
Utilizacin del muestreo sistemtico:
El muestreo sistemtico lleva a resultados absolutamente equivalentes a los del
muestreo aleatorio simple si la poblacin se encuentra ordenada y numerada
en un marco muestral en el cual el orden no guarda relacin con la variable de
inters.
En este caso, tanto el tamao muestras, como las estimaciones, sus errores
estndar y los errores de estimacin coinciden con el muestreo aleatorio
simple.
Tipos de poblacin:
Para clasificar las poblaciones, nos referiremos al marco muestral. Este puede
ser de tres tipos, respecto del orden de las unidades y el valor medido:
a) Aleatorio: las unidades no siguen ningn patrn en el marco muestral.
En este caso no existe ninguna diferencia terica entre muestreo
aleatorio simple y sistemtico, aunque la seleccin es ms sencilla.
b) Ordenado: las unidades en el marco muestral se encuentran ordenadas
en forma creciente respecto de la variable de inters (Figura 1): en este
caso, dada la uniformidad con que es seleccionada la muestra, se ven
representados en forma casi equitativa todos los posibles valores de la
variable de inters, por lo cual la precisin de la estimacin es mayor a
Ejercicios:
1) En la tabla anexa se presentan los datos de tasas de divorcio por cada
1000 personas en Estados Unidos para una muestra sistemtica del
siglo pasado.
Ao
1900
1905
1910
1915
1920
1925
1930
1935
1940
Tasa de
divorcio
0,7
0,8
0,9
1,0
1,6
1,5
1,6
1,7
2,0
Ao
1945
1950
1955
1960
1965
1970
1975
1980
Tasa de
divorcio
3,5
2,6
2,3
2,2
2,5
3,5
4,8
5,2
Tcnicas de Muestreo
Clase 8: Muestreo por Conglomerados
Introduccin:
Existen ocasiones en las cuales la poblacin a estudiar es de difcil acceso e
incluso no se conoce su tamao ni se dispone de un marco muestral; sin
embargo, existen muchos pequeos grupos dentro de ella que no deberan
diferir mayormente entre ellos (respecto de la variable de inters) y que, por
otra parte, si se encuentran al menos listados en alguna parte, por lo cual si se
considerara como unidad de muestreo a estos grupos sera ms sencillo
realizar el muestreo. En estos casos es conveniente realizar un muestreo por
conglomerados.
Definicin de Conglomerado:
Es importante diferenciar con claridad un conglomerado de un estrato. Como
vimos anteriormente, los estratos son subconjuntos de la poblacin que son
(dentro de ellos) relativamente homogneos respecto de la variable de inters,
pero diferentes unos de otros (heterogneos entre ellos). En esos casos, cada
estrato es abordado como una poblacin distinta al momento de disear el
muestreo y es muy importante que todos ellos sean representados en la
muestra, precisamente debido a sus diferencias.
Por el contrario, cuando hablamos de conglomerados, estamos frente a
subconjuntos de la poblacin con caractersticas tales que entre ellos son muy
similares (homogneos), pero donde la diversidad se presenta dentro de ellos
(heterogneos). En estos casos cada uno de los conglomerados es una
pequea copia de miniatura de la poblacin. De este hecho se deriva que:
Debido a su heterogeneidad interna, la totalidad del conglomerado
aporta informacin sobre la poblacin completa, de modo que es
conveniente incluirlos ntegramente en la muestra. En esto difiere
notablemente del muestreo estratificado, donde la similitud interna no
hace necesario incluir los estratos completos, bastan algunas unidades
para representarlos.
Debido a su tamao, el cual generalmente es reducido, pocos
conglomerados no son, en general, suficientes para realizar las
estimaciones. Los estratos tienden a ser de mayor tamao.
Debido a su similaridad, la inclusin de uno u otro en la muestra es
equivalente, por lo cual se puede seleccionar al azar a algunos de ellos.
En el caso del muestreo estratificado, por el contrario, todos los estratos
deben estar representados, pues corresponden a diferentes realidades.
Utilizacin del muestreo por Conglomerados:
El muestreo por conglomerados se utiliza cuando:
No existen estratos claramente definidos, o bien se est muestreando
dentro de ellos (en cuyo caso los estratos se estn tratando como si
fueran poblaciones).
La poblacin es grande y est conformada por pequeos subconjuntos
con las caractersticas de conglomerados.
.
Ahora bien, el total de la variable medida en los individuos del conglomerado
i-simo se denota por yi, y corresponde a la suma de las mediciones en el
conglomerado, de donde el promedio de la variable y estimador de la media
corresponde a la suma de totales dividida por la suma de los tamaos. El total
de la poblacin, por su parte, sale de multiplicar el promedio por el nmero de
individuos en la poblacin.
Media :
Estimador:
,
Error estndar estimado de la media:
Total :
Estimador:
Si se conoce el tamao de la poblacin M:
,
Si no se conoce el tamao de la poblacin M, se requiere conocer el nmero
total de conglomerados N:
,
Error estndar estimado del total:
y se
Media :
Si la varianza se conoce de estudios anteriores, el tamao de muestra
corresponde a:
=
y en caso contrario, se calcula
corresponde a:
Total :
Si la varianza se conoce el tamao de muestra corresponde a:
=
y en caso contrario, se calcula
:
=
Proporcin p:
En este caso se requiere la estimacin de la varianza de la incidencia de la
y el
caracterstica de inters por conglomerado que se denota por
tamao de muestra corresponde a:
=
,
con
Total :
Estimador:
,
Error estndar estimado del total:
,
Lmite para el error de estimacin de la media:
Ejercicios:
1) Un politlogo desarrolla una prueba para medir el grado de conocimientos
sobre acontecimientos actuales, dado como un porcentaje. l desea estimar
el grado promedio de conocimientos en cierto colegio, pero la direccin no
permite sacar a los estudiantes seleccionados en la muestra de las clases,
aunque s permite interrumpir algunas clases realizando la prueba a cursos
completos. El nmero de cursos en el colegio es 108, el investigador
seleccion al azar a 25 de ellos y aplic la prueba a los cursos completos.
Los resultados se encuentran en la tabla anexa.
Curso
1
2
3
4
5
6
7
8
9
10
11
12
13
N estudiantes
en el curso
29
25
35
15
31
22
27
25
19
30
18
21
Total de las
calificaciones
1.590
1.510
1.490
1.610
800
1.720
1.310
1.427
1.290
860
1.620
710
1.140
Curso
14
15
16
17
18
19
20
21
22
23
24
25
N estudiantes
en el curso
40
38
28
17
22
41
32
35
19
29
18
31
Total de las
calificaciones
1.980
1.990
1.420
900
1.080
2.010
1.740
1.750
890
1.470
910
1.740
N de casas
N de residentes
N de habitaciones
12
40
58
14
39
72
12
26
20
52
98
12
37
74
33
57
10
41
76
14
48