Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dmuestreo 2
Dmuestreo 2
aleatorio
simple.
Muestreo con
y sin reempla-
zamiento
Corrección por
Muestreo aleatorio simple.
finitud
Tamaños de
muestra y
errores de
estimación
Estimaciones
previas
Aspectos
2016
computaciona-
les
Muestreo
aleatorio
En un muestreo aleatorio simple (MAS), toda muestra de
simple. tamaño n tiene la misma probabilidad de ser seleccionada, lo
cual corresponde teóricamente a la noción de muestra aleatoria
Muestreo con
y sin reempla-
dada en la sección anterior si la población es infinita. En la
zamiento práctica las poblaciones son finitas, digamos con N elementos.
Corrección por
finitud
Veremos aquı́ como tomar en cuenta este hecho y nos
Tamaños de interesará encontrar tamaños de muestra y errores de
muestra y
errores de
estimación para tres de los parámetros más frecuentemente
estimación
referidos en un estudio inferencial, la media poblacional µ, el
Estimaciones
previas total poblacional T y la proporción poblacional p.
Aspectos Para ser más precisos enfatizaremos sobre todo el primero y
computaciona-
les último de estos parámetros, pues el análisis del total
poblacional
T = N µ ó T = N p
es directamente deducible de los de µ y p.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 2 / 32
Muestreo con y sin reemplazamiento
Muestreo
aleatorio
Existen dos esquemas de muestreo aleatorio simple
simple. importantes: el muestreo aleatorio simple con reemplazamiento,
que lo denotaremos en adelante por MASc, y el muestreo
Muestreo con
y sin reempla-
aleatorio simple sin reemplazamiento, que lo denotaremos en
zamiento adelante por MASs. Con base en un enfoque basado en el
Corrección por
finitud
diseño, consideremos primero la siguiente población fı́sica P de
Tamaños de tamaño N a cuyos elementos los denotaremos por simplicidad
muestra y
errores de
con los números naturales positivos. Estos los llamaremos
estimación
objetos, entendiéndose ellos como sujetos, eventos, cosas, etc.
Estimaciones
previas P = {1, 2, . . . , N }.
Aspectos
computaciona- Sobre estos objetos mediremos una variable estadı́stica y para
les
generar la población estadı́stica Py constituida por todos los
valores de y en P; es decir,
Py = {y1 , y2 , . . . , yN },
siendo y el valor deMaestrı́a
Dr. Luis Valdivieso y para el objeto i. Note que PUCP
en Estadı́stica algunos de 3 / 32
Muestreo
aleatorio
simple.
En un esquema MASc, los objetos se seleccionan al azar uno a
uno de la población, con la peculiaridad de que estos son
Muestreo con
repuestos o reemplazados en cada etapa de selección. Ası́, un
y sin reempla-
zamiento
objeto cualesquiera j ∈ P podrı́a ser elegido en más de una
Corrección por
oportunidad.
finitud De otro lado, en el esquema MASs, que es el esquema más
Tamaños de
muestra y
utilizado en la práctica, los objetos seleccionados no se reponen
errores de
estimación
y por tanto un objeto cualesquiera j ∈ P podrı́a ser elegido en a
Estimaciones lo más una oportunidad. Note en este caso que seleccionar los
previas
elementos uno a uno hasta completar la muestra equivale a
Aspectos
computaciona- seleccionar toda la muestra de una sola vez.
les
La ventaja del diseño MASc es que las variables aleatorias
definidas en (1) y asociadas a los valores de y en los objetos
seleccionados, son variables independientes.
Corrección por
hipergeométrica multivariada, dependiendo de si el esquema es
finitud un MASc o un MASs, respectivamente. Más aún, por lo visto
Tamaños de
muestra y
en (1.2) estos estimadores podrı́an escribirse alternativamente
errores de como:
estimación
1 n 1 n
Estimaciones Ȳ = ∑ Yi y S 2 = 2
∑(Yi − Ȳ ) ,
previas n i=1 n − 1 i=1
Aspectos
computaciona- donde Y1 , Y2 , . . . , Yn denotan a los valores que secuencialmente
les
la variable estadı́stica en estudio y podrı́a tomar en cada
selección de la muestra. La proposición siguiente nos brinda
algunas propiedades de estas últimas variables aleatorias.
Muestreo
aleatorio
simple.
Corrección por
Suponga ahora que se toma un MAS con n = 2. Halle la
finitud distribución muestral de la media y varianza para esta muestra
Tamaños de
muestra y
y verifique efectivamente que estos son estimadores insesgados
errores de
estimación
de la media y varianza poblacionales mencionados. Haga esta
Estimaciones
verificación para los dos esquemas de muestreo estudiados.
previas
Aspectos
Como el ejemplo anterior lo sugiere tenemos las siguientes
computaciona-
les
propiedades en un MAS.
Muestreo
aleatorio
simple.
Los intervalos de confianza obtenidos en el capı́tulo anterior se
basan en el clásico teorema del lı́mite central, el cual asume
Muestreo con
y sin reempla- una muestra aleatoria de la variable en estudio.
zamiento
Corrección por
Desafortunadamente en un MASs, que es a la larga el esquema
finitud de muestreo aleatorio simple más utilizado, esta suposición no
Tamaños de
muestra y
es correcta. Para subsanar el problema invocaremos aquı́ un
errores de
estimación
teorema del lı́mite central asociado a poblaciones finitas en un
Estimaciones
esquema MASs. Este, que fué propuesto por Hájek (1960).
previas Para ello consideremos una población de tamaño Nm (asociada
Aspectos 2
computaciona-
a una variable estadı́stica y) de media µm y varianza σm (con
2
les
denominador Nm − 1) y sean Ȳm y Sm sus correspondientes
medias y varianzas muestrales en un MASs de tamaño nm .
Tamaños de
anterior, indexadas por m, de tal manera que tanto nm como
muestra y
errores de
Nm − nm tienden al infinito y ∀ > 0
∑x∈Tm () (x − µm )2
estimación
Estimaciones
2
→0
previas (Nm − 1)σm
Aspectos
computaciona- conforme m → ∞, entonces
les
Ȳm − µm D
Zm = √ → N (0, 1)
nm √σm
1− Nm nm
conforme m → ∞.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 11 / 32
Muestreo Este TLC, nos permite entonces construir con la variable pivote
aleatorio
simple. Zm , un IC aproximado al 100(1 − α) % para la media
poblacional µm . Este, suprimiéndose los subı́ndices m de ser el
Muestreo con tamaño de la muestra y de la población suficientemente
y sin reempla-
zamiento grandes, toma la forma:
√ √
Corrección por
σ n σ n
finitud
IC = [Ȳ − z1− 2 √
α 1− , Ȳ + z1− 2 √
α 1− ]
Tamaños de n N n N
muestra y
errores de
estimación
= [Ȳ − z1− α2 SE , Ȳ + z1− α2 SE ],
Estimaciones donde a SE ó SE(Ȳ ) se le denomina el error estándar de
previas
Aspectos
estimación de Ȳ . Observe que este IC para µ √difiere del clásico
n
computaciona-
les
para poblaciones infinitas sólo por el factor 1 − N que afecta
al error estándar de estimación. A este factor se le acostumbra
llamar el factor de corrección para poblaciones finitas. Note
también que si N → ∞, este factor tiende a 1 y por tanto uno
obtiene el IC anterior para µ.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 12 / 32
Muestreo
aleatorio
simple.
De manera similar, es posible realizar un estudio inferencial
Muestreo con
para poblaciones finitas para el caso de la estimación de la
y sin reempla-
zamiento
proporción poblacional p ya que este puede considerarse como
Corrección por
un caso particular de media cuando la variable Y es dicotómica.
finitud El IC al 100(1 − α) % para p resultante viene dado por:
Tamaños de
muestra y
errores de
estimación
√ √ √ √
p̄(1 − p̄) n p̄(1 − p̄) n
Estimaciones [p̄ − z 1− α 1− , p̄ + z1− α2 1− ],
previas 2 n−1 N n−1 N
Aspectos
computaciona-
les
donde p̄ es la proporción de 1´s ó éxitos en la muestra de
tamaño n de la población.
Muestreo
aleatorio
simple. Establecidas las fórmulas de los IC aproximados al
100(1 − α) % para cualquier media y proporción poblacional,
Muestreo con nos interesará ahora saber qué tamaño de muestra n deberı́a
y sin reempla-
zamiento uno considerar para poder garantizar a un nivel de confianza
Corrección por del 100(1 − α) % un error máximo de estimación e, donde por
finitud
error de estimación entenderemos a la diferencia en valor
Tamaños de
muestra y absoluto ∣θ̂n − θ∣ entre el parámetro y su estimador. Esto se
errores de
estimación obtiene directamente de los IC obtenidos. En efecto, si
Estimaciones queremos estimar µ, su IC correspondiente al 100(1 − α) %
previas
Aspectos
puede reescribirse como:
computaciona-
√
les
σ n
P (∣Ȳ − µ∣ ≤ z1− α2 √ 1 − ) = 1 − α.
n N
Estimaciones
previas
y si N → ∞:
2
Aspectos
z1− α p̄(1 − p̄)
2
computaciona- n=1+ .
les e2
Muestreo
aleatorio
simple.
Muestreo
aleatorio
Un instituto cuenta con 1,200 alumnos y esta interesada en
simple. realizar una encuesta a fin de determinar, entre otras cosas, el
número de sus alumnos que tienen PC en casa. El coordinador
Muestreo con
y sin reempla-
de la facultad desea estimar este total con un error máximo no
zamiento mayor a los 30 alumnos y una confianza del 99 %. ¿A cuantós
Corrección por
finitud
alumnos de la facultad se les deberı́a aplicar la encuesta?
Tamaños de Solución: Se desea estimar T = número los alumnos del
muestra y
errores de
instituto que poseen PC en casa con un margen de error no
estimación
mayor a los 30 alumnos y un nivel de confianza del 99 %. Dado
Estimaciones
previas que la población es finita ( N = 1, 200) y T = N p, donde p es la
Aspectos proporción de alumnos del instituto que poseen PC en casa, el
computaciona-
les problema equivale a estimar p con un margen de error no mayor
30
a e = 1,200 = 0.025. Por tanto, se debe tomar la encuesta a:
(z02.995 0.52 + 0.0252 )1, 200
n= = 826.503991 ≡ 827 alumnos.
z02.995 (0.52 ) + 0.0252 (1, 200)
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 19 / 32
Selección de las muestras
Muestreo
aleatorio
Vale recordar el cómo extraer muestras aleatorias simples, ya
simple. sean que estas sean con o sin reemplazamiento. En el primer
caso, la extracción se realiza directamente mediante la función
Muestreo con
y sin reempla-
de distribución empı́rica asociada a la selección de los
zamiento elementos de la población fı́sica P = {1, 2, . . . , N }, F̂ (i) = Ni .
Corrección por
finitud
Aquı́ basta generar n números aleatorios de una distribución
Tamaños de uniforme en el intervalo [0, 1]:
muestra y
errores de
estimación
u1 , u2 , . . . un ,
Estimaciones y obtener los n objetos i1 , i2 , . . . , in seleccionados en P, siendo
previas
Corrección por
también modificando. Aquı́ uno debe proceder secuencialmente
finitud empezando por generar un número aleatorio u1 ∈ [0, 1] y
Tamaños de
muestra y
obteniéndo como primer elemento de la muestra a yi1 , donde
errores de
estimación
i1 = mı́n{i ∈ P /F̂ (i) ≥ u1 }. Una vez seleccionado el k-ésimo
Estimaciones
elemento, yik , uno procederá a generar un número aleatorio,
previas uk+1 ∈ [0, 1] y obtener
Aspectos
computaciona-
les 1
ik+1 = mı́n{i ∈ P ∖ {i1 , i2 , . . . , ik } /F̂ (i) = ≥ uk }.
N −k
El elemento k + 1 de la muestra será entonces yik+1 .
Muestreo
aleatorio
simple. Existen en la literatura diferentes software estadı́sticos para el
análisis de muestras complejas. Véase por ejemplo:
Muestreo con
y sin reempla- http://www.hcp.med.harvard.edu/statistics/survey-soft/
zamiento
Corrección por Nosotros haremos uso, aparte de Excel y de rutinas en R, del paquete
finitud
survey de R. Este tiene dos propósitos centrales:
Tamaños de
muestra y 1.- Enlazar la data al diseño de metadata (pesos, probabilidades de
errores de
estimación
selección, unidades primarias, identificadores de estratos, etc) a fin de
Estimaciones
poder realizar los ajustes que sean necesarios al diseño de manera
previas confiable y automática. Ello se hace con las funciones svydesign y
Aspectos svrepdesign que crean objetos conteniendo no sólo la base de datos
computaciona-
les sino también la información del diseño.
2.- Proveer de estimaciones válidas de la varianza para los
estadı́sticos calculados sobre estos objetos.
Aspectos
consideraremos un MAS para la población API contenida en la
computaciona-
les
base de datos api. Una descripción de esta base de datos junto
con información de las 37 variables aquı́ consideradas puede
encontrarse en
http://cran.fhcrc.org/web/packages/survey/survey.pdf
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 24 / 32
Muestreo Como resumen vale comentar que el estado de California exige
aleatorio
simple. que todos sus estudiantes de escuelas públicas sean evaluados
anualmente. En tal sentido el departamento de educación de
Muestreo con este estado registra anualmente el ı́ndice API (de Academic
y sin reempla-
zamiento Performance Index) que mide cuán bien va una escuela en
Corrección por términos de rendimiento. El archivo api contiene este ı́ndice
finitud
junto con información demográfica de todas las 6,194 escuelas
Tamaños de
muestra y públicas de California con al menos 100 alumnos por escuela.
errores de
estimación Para acceder a la base de datos y al uso del paquete survey
Estimaciones (que debe ser cargado con antelación) escribamos:
previas
Aspectos library(survey)
computaciona-
les data(api)
apipop[1:3,]
Aquı́ hemos pedido mostrar los tres primeros registros de la
base de datos API (que está en apipop).
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 25 / 32
Muestreo Consideremos ahora un MASs de escuelas públicas de tamaño
aleatorio
simple. 100, donde hemos fijado la semilla aleatoria para que usted
pueda replicar los mismos resultados aquı́ obtenidos.
Muestreo con
y sin reempla-
zamiento
set.seed(100)
Corrección por
N = dim(apipop)[1]
finitud index1 = sample(N,100)
Tamaños de
muestra y
sample1 = apipop[index1,]
errores de
estimación
Por razones, que comentaremos luego, será también interesante
Estimaciones
previas agregar a esta data dos nuevas variables fpc y pw. La primera
Aspectos indicará simplemente el tamaño de la población (6,194) y la
computaciona-
les otra los pesos pw = 6,194
100 = 61.94 de muestreo. Ello se hace con
Estimaciones
cual implı́citamente asumimos que se deben de aplicar las
previas formulaciones de corrección para poblaciones finitas. La
Aspectos
computaciona-
notación ∼ indica que la variable fpc está ya definida en la
les muestra sample1. Si el argumento fpc se omite, entonces deben
de indicarse las probabilidades de selección o pesos de
muestreo. Tanto id como fpc, aparte de los valores por defecto,
conforman la metadata del diseño.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 27 / 32
Muestreo
aleatorio
Otro diseño que se podrı́a aplicar a este mismo ejemplo es por
simple.
citar un MASc, para lo cual deberı́amos formalmente de tomar
la muestra aleatoria con reemplazamiento mediante:
Muestreo con
y sin reempla-
zamiento sample2 = apipop[sample(N,100, replace=TRUE),]
Corrección por sample2 = cbind(sample2,aux)
finitud
Tamaños de
muestra y
El objeto diseño correspondiente serı́a:
errores de
estimación
dise~
noMASc=svydesign(id=~1,weights =~pw,data=sample2)
Estimaciones
previas
De pedirse información obtendrı́amos:
Aspectos
computaciona-
les
> dise~
noMASc
Independent Sampling design (with replacement)
svydesign(id = ~1, weights = ~pw, data = sample2)
Tamaños de
muestra y > svytotal(~enroll,dise~noMASs)
errores de
estimación total SE
Estimaciones enroll 3587751 233903
previas
> svymean(~stype, dise~
noMASs)
Aspectos
computaciona- mean SE
les
stypeE 0.71 0.0452
stypeH 0.08 0.0270
stypeM 0.21 0.0406
Tamaños de
> svycontrast(means1,c(api00=1,api99=-1))
muestra y
errores de
contrast SE
estimación
contrast 29.32 3.0182
Estimaciones
previas
Aspectos
Con un MASc, lo anterior se convierte en:
computaciona-
les
> svytotal(~enroll,dise~
noMASc)
total SE
enroll NA NA
Tamaños de
enroll 3547118 228618
muestra y
errores de
estimación
Tenemos también
Estimaciones
previas > svymean(~stype, dise~
noMASc)
Aspectos mean SE
computaciona-
les stypeE 0.79 0.0409
stypeH 0.07 0.0256
stypeM 0.14 0.0349
Tamaños de
api99 651.75 12.292
muestra y
errores de
> svycontrast(means1,c(api00=1,api99=-1))
estimación contrast SE
Estimaciones
previas
contrast 35.77 2.9416
Aspectos
computaciona- Ejercicio: Obtenga los verdaderos valores (que en un estudio
les
real son desconocidos) de las variables aquı́ consideradas y
compárelos con las estimaciones encontradas.