Está en la página 1de 32

Muestreo

aleatorio
simple.

Muestreo con
y sin reempla-
zamiento

Corrección por
Muestreo aleatorio simple.
finitud

Tamaños de
muestra y
errores de
estimación

Estimaciones
previas

Aspectos
2016
computaciona-
les

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 1 / 32


Muestreo aleatorio simple

Muestreo
aleatorio
En un muestreo aleatorio simple (MAS), toda muestra de
simple. tamaño n tiene la misma probabilidad de ser seleccionada, lo
cual corresponde teóricamente a la noción de muestra aleatoria
Muestreo con
y sin reempla-
dada en la sección anterior si la población es infinita. En la
zamiento práctica las poblaciones son finitas, digamos con N elementos.
Corrección por
finitud
Veremos aquı́ como tomar en cuenta este hecho y nos
Tamaños de interesará encontrar tamaños de muestra y errores de
muestra y
errores de
estimación para tres de los parámetros más frecuentemente
estimación
referidos en un estudio inferencial, la media poblacional µ, el
Estimaciones
previas total poblacional T y la proporción poblacional p.
Aspectos Para ser más precisos enfatizaremos sobre todo el primero y
computaciona-
les último de estos parámetros, pues el análisis del total
poblacional
T = N µ ó T = N p
es directamente deducible de los de µ y p.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 2 / 32
Muestreo con y sin reemplazamiento

Muestreo
aleatorio
Existen dos esquemas de muestreo aleatorio simple
simple. importantes: el muestreo aleatorio simple con reemplazamiento,
que lo denotaremos en adelante por MASc, y el muestreo
Muestreo con
y sin reempla-
aleatorio simple sin reemplazamiento, que lo denotaremos en
zamiento adelante por MASs. Con base en un enfoque basado en el
Corrección por
finitud
diseño, consideremos primero la siguiente población fı́sica P de
Tamaños de tamaño N a cuyos elementos los denotaremos por simplicidad
muestra y
errores de
con los números naturales positivos. Estos los llamaremos
estimación
objetos, entendiéndose ellos como sujetos, eventos, cosas, etc.
Estimaciones
previas P = {1, 2, . . . , N }.
Aspectos
computaciona- Sobre estos objetos mediremos una variable estadı́stica y para
les
generar la población estadı́stica Py constituida por todos los
valores de y en P; es decir,
Py = {y1 , y2 , . . . , yN },
siendo y el valor deMaestrı́a
Dr. Luis Valdivieso y para el objeto i. Note que PUCP
en Estadı́stica algunos de 3 / 32
Muestreo
aleatorio
simple.
En un esquema MASc, los objetos se seleccionan al azar uno a
uno de la población, con la peculiaridad de que estos son
Muestreo con
repuestos o reemplazados en cada etapa de selección. Ası́, un
y sin reempla-
zamiento
objeto cualesquiera j ∈ P podrı́a ser elegido en más de una
Corrección por
oportunidad.
finitud De otro lado, en el esquema MASs, que es el esquema más
Tamaños de
muestra y
utilizado en la práctica, los objetos seleccionados no se reponen
errores de
estimación
y por tanto un objeto cualesquiera j ∈ P podrı́a ser elegido en a
Estimaciones lo más una oportunidad. Note en este caso que seleccionar los
previas
elementos uno a uno hasta completar la muestra equivale a
Aspectos
computaciona- seleccionar toda la muestra de una sola vez.
les
La ventaja del diseño MASc es que las variables aleatorias
definidas en (1) y asociadas a los valores de y en los objetos
seleccionados, son variables independientes.

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 4 / 32


Muestreo Enfaticemos ahora el estudio de dos de los estimadores más
aleatorio
simple. recurrentes en el muestreo, la media y varianza muestrales:
1 N 1 N
Muestreo con Ȳ = ∑ yi δi y S2 = 2
∑(yi − Ȳ ) δi .
y sin reempla- n i=1 n − 1 i=1
zamiento

Corrección por Tanto en el MASc como en el MASs, estas estadı́sticas


finitud
constituyen los estimadores naturales de la media poblacional
Tamaños de
muestra y
errores de 1 N
estimación µN = ∑ yi
Estimaciones
N i=1
previas
y la varianza poblacional
Aspectos
computaciona-
les 2 1 N 2 2 1 N 2
σN = ∑(yi − µN ) ó σN −1 = ∑(yi − µN ) .
N i=1 N − 1 i=1
En adelante convendremos denotar a las v.a’s con mayúsculas y
con minúsculas a las no aleatorias.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 5 / 32
Muestreo
aleatorio Antes de analizar algunas propiedades de los estimadores Ȳ y
simple.
S 2 mencionados, es útil recordar por lo previamente visto que
el vector aleatorio de frecuencias de conteo por objetos de la
Muestreo con
y sin reempla- muestra (δ1 , δ2 , . . . , δN ) tiene una distribución multinomial o
zamiento

Corrección por
hipergeométrica multivariada, dependiendo de si el esquema es
finitud un MASc o un MASs, respectivamente. Más aún, por lo visto
Tamaños de
muestra y
en (1.2) estos estimadores podrı́an escribirse alternativamente
errores de como:
estimación
1 n 1 n
Estimaciones Ȳ = ∑ Yi y S 2 = 2
∑(Yi − Ȳ ) ,
previas n i=1 n − 1 i=1
Aspectos
computaciona- donde Y1 , Y2 , . . . , Yn denotan a los valores que secuencialmente
les
la variable estadı́stica en estudio y podrı́a tomar en cada
selección de la muestra. La proposición siguiente nos brinda
algunas propiedades de estas últimas variables aleatorias.

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 6 / 32


Muestreo
aleatorio
simple.

Muestreo con Proposición


y sin reempla-
zamiento

Corrección por a) En un MASc, las v.a´s Y1 , Y2 , . . . , Yn son independien-


finitud
tes e idénticamente distribuidas con media E(Y1 ) = µN y
Tamaños de 2
muestra y varianza V (Y1 ) = σN .
errores de
estimación b) En un MASs, las v.a´s Y1 , Y2 , . . . , Yn son idénticamente
2
Estimaciones
previas
distribuidas con media E(Y1 ) = µN , varianza V (Y1 ) = σN
1 2
Aspectos
y se cumple que Cov(Yi , Yj ) = − N σN −1 , ∀i ≠ j.
computaciona-
les

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 7 / 32


Ejemplo (juguete):

Muestreo
aleatorio
simple.

Considere una población de sujetos P = {1, 2, 3} y la población


Muestreo con
y sin reempla- estadı́stica {12, 30, 18} asociada a la edad y de estos sujetos.
zamiento

Corrección por
Suponga ahora que se toma un MAS con n = 2. Halle la
finitud distribución muestral de la media y varianza para esta muestra
Tamaños de
muestra y
y verifique efectivamente que estos son estimadores insesgados
errores de
estimación
de la media y varianza poblacionales mencionados. Haga esta
Estimaciones
verificación para los dos esquemas de muestreo estudiados.
previas

Aspectos
Como el ejemplo anterior lo sugiere tenemos las siguientes
computaciona-
les
propiedades en un MAS.

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 8 / 32


Muestreo
aleatorio
Proposición
simple.
La media muestral Ȳ es un estimador insesgado de la media
poblacional µN y se tiene que:
Muestreo con
2
σN
y sin reempla-
zamiento a) V (Ȳ ) = n en un MASc.
2
Corrección por n σN −1
finitud b) V (Ȳ ) = (1 − N) n en un MASs.
Tamaños de
muestra y
errores de La demostración de la proposición anterior es directa y se
estimación
puede también deducir del siguiente resultado.
Estimaciones
previas
Proposición
Aspectos
computaciona-
les a) La media muestral es el MELI (mejor estimador lineal e
insesgado) de la media poblacional.
2
b) La varianza muestral es un estimador insesgado de σN
2
para un MASc y de σN −1 para un MASs.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 9 / 32
Corrección por finitud

Muestreo
aleatorio
simple.
Los intervalos de confianza obtenidos en el capı́tulo anterior se
basan en el clásico teorema del lı́mite central, el cual asume
Muestreo con
y sin reempla- una muestra aleatoria de la variable en estudio.
zamiento

Corrección por
Desafortunadamente en un MASs, que es a la larga el esquema
finitud de muestreo aleatorio simple más utilizado, esta suposición no
Tamaños de
muestra y
es correcta. Para subsanar el problema invocaremos aquı́ un
errores de
estimación
teorema del lı́mite central asociado a poblaciones finitas en un
Estimaciones
esquema MASs. Este, que fué propuesto por Hájek (1960).
previas Para ello consideremos una población de tamaño Nm (asociada
Aspectos 2
computaciona-
a una variable estadı́stica y) de media µm y varianza σm (con
2
les
denominador Nm − 1) y sean Ȳm y Sm sus correspondientes
medias y varianzas muestrales en un MASs de tamaño nm .

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 10 / 32


Muestreo Definamos, por otro lado, para  > 0 el subconjunto Tm () de
aleatorio
simple. elementos x en esta población estadı́stica que satisfagan
∣x − µm ∣
Muestreo con
√ > .
nm
y sin reempla- nm (1 − Nm )σm
zamiento

Corrección por Si tomamos ahora una secuencia de poblaciones como la


finitud

Tamaños de
anterior, indexadas por m, de tal manera que tanto nm como
muestra y
errores de
Nm − nm tienden al infinito y ∀ > 0
∑x∈Tm () (x − µm )2
estimación

Estimaciones
2
→0
previas (Nm − 1)σm
Aspectos
computaciona- conforme m → ∞, entonces
les
Ȳm − µm D
Zm = √ → N (0, 1)
nm √σm
1− Nm nm

conforme m → ∞.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 11 / 32
Muestreo Este TLC, nos permite entonces construir con la variable pivote
aleatorio
simple. Zm , un IC aproximado al 100(1 − α) % para la media
poblacional µm . Este, suprimiéndose los subı́ndices m de ser el
Muestreo con tamaño de la muestra y de la población suficientemente
y sin reempla-
zamiento grandes, toma la forma:
√ √
Corrección por
σ n σ n
finitud
IC = [Ȳ − z1− 2 √
α 1− , Ȳ + z1− 2 √
α 1− ]
Tamaños de n N n N
muestra y
errores de
estimación
= [Ȳ − z1− α2 SE , Ȳ + z1− α2 SE ],
Estimaciones donde a SE ó SE(Ȳ ) se le denomina el error estándar de
previas

Aspectos
estimación de Ȳ . Observe que este IC para µ √difiere del clásico
n
computaciona-
les
para poblaciones infinitas sólo por el factor 1 − N que afecta
al error estándar de estimación. A este factor se le acostumbra
llamar el factor de corrección para poblaciones finitas. Note
también que si N → ∞, este factor tiende a 1 y por tanto uno
obtiene el IC anterior para µ.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 12 / 32
Muestreo
aleatorio
simple.
De manera similar, es posible realizar un estudio inferencial
Muestreo con
para poblaciones finitas para el caso de la estimación de la
y sin reempla-
zamiento
proporción poblacional p ya que este puede considerarse como
Corrección por
un caso particular de media cuando la variable Y es dicotómica.
finitud El IC al 100(1 − α) % para p resultante viene dado por:
Tamaños de
muestra y
errores de
estimación
√ √ √ √
p̄(1 − p̄) n p̄(1 − p̄) n
Estimaciones [p̄ − z 1− α 1− , p̄ + z1− α2 1− ],
previas 2 n−1 N n−1 N
Aspectos
computaciona-
les
donde p̄ es la proporción de 1´s ó éxitos en la muestra de
tamaño n de la población.

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 13 / 32


Tamaños de muestra y errores de estimación

Muestreo
aleatorio
simple. Establecidas las fórmulas de los IC aproximados al
100(1 − α) % para cualquier media y proporción poblacional,
Muestreo con nos interesará ahora saber qué tamaño de muestra n deberı́a
y sin reempla-
zamiento uno considerar para poder garantizar a un nivel de confianza
Corrección por del 100(1 − α) % un error máximo de estimación e, donde por
finitud
error de estimación entenderemos a la diferencia en valor
Tamaños de
muestra y absoluto ∣θ̂n − θ∣ entre el parámetro y su estimador. Esto se
errores de
estimación obtiene directamente de los IC obtenidos. En efecto, si
Estimaciones queremos estimar µ, su IC correspondiente al 100(1 − α) %
previas

Aspectos
puede reescribirse como:
computaciona-

les
σ n
P (∣Ȳ − µ∣ ≤ z1− α2 √ 1 − ) = 1 − α.
n N

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 14 / 32


Muestreo
aleatorio Luego, según lo convenido, se debe tener que:
simple.

σ n
Muestreo con
e = z1− α2 √ 1− ,
y sin reempla- n N
zamiento

Corrección por de donde despejando obtenemos la siguiente fórmula para el


finitud
tamaño de muestra:
Tamaños de
muestra y
2 2
errores de z1− ασ N
estimación 2
n= 2 2 2
Estimaciones z1− ασ +e N
previas 2
Aspectos
computaciona- y si N → ∞:
les
(z1− α2 σ)2
n= .
e2

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 15 / 32


Muestreo
aleatorio
simple.

De manera similar, podemos deducir la siguiente fórmula del


Muestreo con tamaño de muestra n para la estimación de p con un error
y sin reempla-
zamiento máximo de estimación de e y un nivel de confianza al
Corrección por 100(1 − α) %:
finitud 2 2
(z1− α p̄(1 − p̄) + e )N
Tamaños de 2
muestra y n= 2
errores de z1− α p̄(1 − p̄) + e2 N
estimación 2

Estimaciones
previas
y si N → ∞:
2
Aspectos
z1− α p̄(1 − p̄)
2
computaciona- n=1+ .
les e2

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 16 / 32


Estimaciones previas

Muestreo
aleatorio
simple.

Un aspecto problemático en las fórmulas anteriores lo


Muestreo con
y sin reempla-
constituyen tanto σ como p̄, ya que el primero es en general un
zamiento parámetro poblacional no conocido y el otro no puede
Corrección por
finitud
calcularse sin la muestra. En la práctica se tienen las siguientes
Tamaños de
alternativas para solucionar este problema:
muestra y
errores de Estimar estas cantidades mediante un muestreo piloto (es
estimación
decir, con una réplica previa, pero en escala menor del mues-
Estimaciones
previas treo final)
Aspectos
computaciona-
Estimar estas por cantidades similares de otros estudios se-
les mejantes.

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 17 / 32


Muestreo
aleatorio Estimar σ por
simple. Rango
σ̂ = ,
6
Muestreo con
y sin reempla- donde Rango denota el ancho del intervalo que estimamos
zamiento
contenga a todos los posibles valores de la variable Y . Es-
Corrección por
finitud to se justifica en base a la desigualdad de Chebyshev, la
Tamaños de cual recordemos nos dice que la probabilidad de que Y se
muestra y
errores de encuentre en el intervalo [µ − 3σ, µ + 3σ], siendo µ la me-
estimación
dia de Y , es muy cercano a 1 (concretamente de al menos
Estimaciones
previas 0.89).
Aspectos
computaciona-
Tomar p̄ = 12 . Esta es una regla conservadora, que simple-
les mente asigna el valor de p̄ que maximiza el tamaño de la
muestra de tal manera que uno pueda siempre garantizar,
al margen del verdadero p̄, un error de estimación de a lo
más e.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 18 / 32
Ejemplo:

Muestreo
aleatorio
Un instituto cuenta con 1,200 alumnos y esta interesada en
simple. realizar una encuesta a fin de determinar, entre otras cosas, el
número de sus alumnos que tienen PC en casa. El coordinador
Muestreo con
y sin reempla-
de la facultad desea estimar este total con un error máximo no
zamiento mayor a los 30 alumnos y una confianza del 99 %. ¿A cuantós
Corrección por
finitud
alumnos de la facultad se les deberı́a aplicar la encuesta?
Tamaños de Solución: Se desea estimar T = número los alumnos del
muestra y
errores de
instituto que poseen PC en casa con un margen de error no
estimación
mayor a los 30 alumnos y un nivel de confianza del 99 %. Dado
Estimaciones
previas que la población es finita ( N = 1, 200) y T = N p, donde p es la
Aspectos proporción de alumnos del instituto que poseen PC en casa, el
computaciona-
les problema equivale a estimar p con un margen de error no mayor
30
a e = 1,200 = 0.025. Por tanto, se debe tomar la encuesta a:
(z02.995 0.52 + 0.0252 )1, 200
n= = 826.503991 ≡ 827 alumnos.
z02.995 (0.52 ) + 0.0252 (1, 200)
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 19 / 32
Selección de las muestras

Muestreo
aleatorio
Vale recordar el cómo extraer muestras aleatorias simples, ya
simple. sean que estas sean con o sin reemplazamiento. En el primer
caso, la extracción se realiza directamente mediante la función
Muestreo con
y sin reempla-
de distribución empı́rica asociada a la selección de los
zamiento elementos de la población fı́sica P = {1, 2, . . . , N }, F̂ (i) = Ni .
Corrección por
finitud
Aquı́ basta generar n números aleatorios de una distribución
Tamaños de uniforme en el intervalo [0, 1]:
muestra y
errores de
estimación
u1 , u2 , . . . un ,
Estimaciones y obtener los n objetos i1 , i2 , . . . , in seleccionados en P, siendo
previas

Aspectos ik = mı́n{i ∈ P /F̂ (i) ≥ uk }, ∀k = 1, 2, . . . , n.


computaciona-
les
La muestra aleatoria simple con reemplazamiento (en Py )
estará luego constituida por
yi1 , yi2 , . . . , yin .
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 20 / 32
Muestreo
aleatorio En un MASs, el procedimiento anterior no es tan sencillo, pues
simple.
la no restitución de los elementos previamente tomados
modifica la función de distribución empı́rica asociada a la
Muestreo con
y sin reempla- selección de los elementos de la población fı́sica, la cual se va
zamiento

Corrección por
también modificando. Aquı́ uno debe proceder secuencialmente
finitud empezando por generar un número aleatorio u1 ∈ [0, 1] y
Tamaños de
muestra y
obteniéndo como primer elemento de la muestra a yi1 , donde
errores de
estimación
i1 = mı́n{i ∈ P /F̂ (i) ≥ u1 }. Una vez seleccionado el k-ésimo
Estimaciones
elemento, yik , uno procederá a generar un número aleatorio,
previas uk+1 ∈ [0, 1] y obtener
Aspectos
computaciona-
les 1
ik+1 = mı́n{i ∈ P ∖ {i1 , i2 , . . . , ik } /F̂ (i) = ≥ uk }.
N −k
El elemento k + 1 de la muestra será entonces yik+1 .

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 21 / 32


Muestreo Afortunadamente en R se dispone del comando sample, el cual
aleatorio
simple. nos permite obtener muestras más directamente. Su sintaxis es
m = sample(x, size, replace, prob)
Muestreo con
y sin reempla-
zamiento donde x denota al vector con los elementos de la población
Corrección por estadı́stica a escoger o simplemente es N , size es el tamaño de
finitud
muestra, replace es TRUE o FALSE, según la muestra sea con
Tamaños de
muestra y o sin reemplazo (argumento opcional que por defecto es sin
errores de
estimación reemplazo) y prob es un vector con las probabilidades de
Estimaciones selección para cada elemento en x (también argumento opcional
previas
que por defecto asume un MAS). Si por citar escribimos en R
Aspectos
computaciona-
les m = sample(80, 10)
m será un vector, cuyas componentes corresponderán a los
elementos seleccionados en P = {1, 2, . . . , 80}, mediante un
MASs de tamaño 10.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 22 / 32
Uso de software estadı́stico

Muestreo
aleatorio
simple. Existen en la literatura diferentes software estadı́sticos para el
análisis de muestras complejas. Véase por ejemplo:
Muestreo con
y sin reempla- http://www.hcp.med.harvard.edu/statistics/survey-soft/
zamiento

Corrección por Nosotros haremos uso, aparte de Excel y de rutinas en R, del paquete
finitud
survey de R. Este tiene dos propósitos centrales:
Tamaños de
muestra y 1.- Enlazar la data al diseño de metadata (pesos, probabilidades de
errores de
estimación
selección, unidades primarias, identificadores de estratos, etc) a fin de
Estimaciones
poder realizar los ajustes que sean necesarios al diseño de manera
previas confiable y automática. Ello se hace con las funciones svydesign y
Aspectos svrepdesign que crean objetos conteniendo no sólo la base de datos
computaciona-
les sino también la información del diseño.
2.- Proveer de estimaciones válidas de la varianza para los
estadı́sticos calculados sobre estos objetos.

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 23 / 32


Muestreo El primer paso para un análisis con el paquete survey consiste
aleatorio
simple. en crear un objeto diseño apropiado que contenga la data y la
metada necesaria. Esto se hace con la función svydesign
Muestreo con ó svrepdesign en caso se den pesos de replicación. Las
y sin reempla-
zamiento funciones de análisis usualmente toman como argumento el
Corrección por objeto diseño y una fórmula modelo que especifica las variables
finitud
a ser usadas. Los nombres de las funciones de análisis para los
Tamaños de
muestra y objetos creados con svydesign y svrepdesign comienzan con
errores de
estimación svy y svr, respectivamente.
Estimaciones Como introducción al uso del paquete survey en R,
previas

Aspectos
consideraremos un MAS para la población API contenida en la
computaciona-
les
base de datos api. Una descripción de esta base de datos junto
con información de las 37 variables aquı́ consideradas puede
encontrarse en
http://cran.fhcrc.org/web/packages/survey/survey.pdf
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 24 / 32
Muestreo Como resumen vale comentar que el estado de California exige
aleatorio
simple. que todos sus estudiantes de escuelas públicas sean evaluados
anualmente. En tal sentido el departamento de educación de
Muestreo con este estado registra anualmente el ı́ndice API (de Academic
y sin reempla-
zamiento Performance Index) que mide cuán bien va una escuela en
Corrección por términos de rendimiento. El archivo api contiene este ı́ndice
finitud
junto con información demográfica de todas las 6,194 escuelas
Tamaños de
muestra y públicas de California con al menos 100 alumnos por escuela.
errores de
estimación Para acceder a la base de datos y al uso del paquete survey
Estimaciones (que debe ser cargado con antelación) escribamos:
previas

Aspectos library(survey)
computaciona-
les data(api)
apipop[1:3,]
Aquı́ hemos pedido mostrar los tres primeros registros de la
base de datos API (que está en apipop).
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 25 / 32
Muestreo Consideremos ahora un MASs de escuelas públicas de tamaño
aleatorio
simple. 100, donde hemos fijado la semilla aleatoria para que usted
pueda replicar los mismos resultados aquı́ obtenidos.
Muestreo con
y sin reempla-
zamiento
set.seed(100)
Corrección por
N = dim(apipop)[1]
finitud index1 = sample(N,100)
Tamaños de
muestra y
sample1 = apipop[index1,]
errores de
estimación
Por razones, que comentaremos luego, será también interesante
Estimaciones
previas agregar a esta data dos nuevas variables fpc y pw. La primera
Aspectos indicará simplemente el tamaño de la población (6,194) y la
computaciona-
les otra los pesos pw = 6,194
100 = 61.94 de muestreo. Ello se hace con

aux=data.frame(fpc = rep(N,100),pw = rep(61.94,100))


sample1 = cbind(sample1,aux)
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 26 / 32
Muestreo
aleatorio
Definamos ahora un objeto diseño apropiado que contenga la
simple. data y metada necesaria. Esto se hace con

Muestreo con dise~


noMASs = svydesign(id=~1,fpc=~fpc,data = sample1)
y sin reempla-
zamiento
El argumento id es para indicar los niveles de conglomerados,
Corrección por
finitud los cuales en este caso no existen y es por ello que colocamos
Tamaños de
muestra y
id=∼ 1. El argumento fpc (de factor de corrección para
errores de poblaciones finitas) nos da el tamaño de la población con lo
estimación

Estimaciones
cual implı́citamente asumimos que se deben de aplicar las
previas formulaciones de corrección para poblaciones finitas. La
Aspectos
computaciona-
notación ∼ indica que la variable fpc está ya definida en la
les muestra sample1. Si el argumento fpc se omite, entonces deben
de indicarse las probabilidades de selección o pesos de
muestreo. Tanto id como fpc, aparte de los valores por defecto,
conforman la metadata del diseño.
Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 27 / 32
Muestreo
aleatorio
Otro diseño que se podrı́a aplicar a este mismo ejemplo es por
simple.
citar un MASc, para lo cual deberı́amos formalmente de tomar
la muestra aleatoria con reemplazamiento mediante:
Muestreo con
y sin reempla-
zamiento sample2 = apipop[sample(N,100, replace=TRUE),]
Corrección por sample2 = cbind(sample2,aux)
finitud

Tamaños de
muestra y
El objeto diseño correspondiente serı́a:
errores de
estimación
dise~
noMASc=svydesign(id=~1,weights =~pw,data=sample2)
Estimaciones
previas
De pedirse información obtendrı́amos:
Aspectos
computaciona-
les
> dise~
noMASc
Independent Sampling design (with replacement)
svydesign(id = ~1, weights = ~pw, data = sample2)

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 28 / 32


Muestreo Supongamos ahora que estemos interesados en estimar ciertos
aleatorio
simple. parámetros poblacionales, como por ejemplo el número total de
alumnos matriculados, la proporción por tipo de escuelas y las
Muestreo con medias y diferencia de medias del api entre los años 1999 y
y sin reempla-
zamiento 2000. Esto, con el diseño MASs se puede hacer
Corrección por respectivamente mediante:
finitud

Tamaños de
muestra y > svytotal(~enroll,dise~noMASs)
errores de
estimación total SE
Estimaciones enroll 3587751 233903
previas
> svymean(~stype, dise~
noMASs)
Aspectos
computaciona- mean SE
les
stypeE 0.71 0.0452
stypeH 0.08 0.0270
stypeM 0.21 0.0406

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 29 / 32


Muestreo
aleatorio
simple. > means1 = svymean(~api00+api99,dise~
noMASs)
> means1
Muestreo con
y sin reempla-
mean SE
zamiento api00 658.77 12.674
Corrección por api99 629.45 12.949
finitud

Tamaños de
> svycontrast(means1,c(api00=1,api99=-1))
muestra y
errores de
contrast SE
estimación
contrast 29.32 3.0182
Estimaciones
previas

Aspectos
Con un MASc, lo anterior se convierte en:
computaciona-
les
> svytotal(~enroll,dise~
noMASc)
total SE
enroll NA NA

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 30 / 32


Muestreo
aleatorio El hecho que se obtenga este resultado es porque existe en la
simple.
muestra con reemplazamiento un caso perdido. Esto se puede
corregir eliminando tal caso mediante
Muestreo con
y sin reempla-
zamiento > svytotal(~enroll,dise~
noMASc,na.rm=T)
Corrección por total SE
finitud

Tamaños de
enroll 3547118 228618
muestra y
errores de
estimación
Tenemos también
Estimaciones
previas > svymean(~stype, dise~
noMASc)
Aspectos mean SE
computaciona-
les stypeE 0.79 0.0409
stypeH 0.07 0.0256
stypeM 0.14 0.0349

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 31 / 32


Muestreo
aleatorio
simple.

> means1 = svymean(~api00+api99,dise~


noMASc)
Muestreo con > means1
y sin reempla-
zamiento mean SE
Corrección por api00 687.52 12.021
finitud

Tamaños de
api99 651.75 12.292
muestra y
errores de
> svycontrast(means1,c(api00=1,api99=-1))
estimación contrast SE
Estimaciones
previas
contrast 35.77 2.9416
Aspectos
computaciona- Ejercicio: Obtenga los verdaderos valores (que en un estudio
les
real son desconocidos) de las variables aquı́ consideradas y
compárelos con las estimaciones encontradas.

Dr. Luis Valdivieso Maestrı́a en Estadı́stica PUCP 32 / 32

También podría gustarte