Está en la página 1de 236

NOTAS DE MUESTREO EN

POBLACIONES BIOLÓGICAS

Dr. Guillermo Martı́nez Flórez


ii
Índice general

1. Estimadores de regresión 7
1.1. Estimador diferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1. Efecto de Diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. Introducción a los estimadores de regresión . . . . . . . . . . . . . . . . . . . 12
1.3. La varianza de un estimador de regresión . . . . . . . . . . . . . . . . . . . . 20

2. Estimadores de regresión para dominios 25


2.1. Modelo heterocedastico sin intersecto en dominio . . . . . . . . . . . . . . . 27

3. Estimadores de regresión para diseño de elementos 33


3.1. El modelo de razón constante y el estimador de razón . . . . . . . . . . . . . 34
3.1.1. Eficiencia del t̂yra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.2. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2. El estimador de razón bajo otros diseños . . . . . . . . . . . . . . . . . . . . 38
3.2.1. Estimador de la razón bajo un diseño de muestreo Bernoulli . . . . . 38
3.2.2. Estimador de la razón bajo un diseño de muestreo ΠP T . . . . . . . 40
3.3. El modelo de media constante . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4. Modelos que envuelven grupos poblacionales . . . . . . . . . . . . . . . . . . 43
3.5. El muestreo ESTMAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6. El estimador de razón de grupo y el estimador de razón separada . . . . . . 50
3.6.1. El diseño MAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.6.2. El diseño ESTMAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.6.3. Estimador de regresión simple . . . . . . . . . . . . . . . . . . . . . . 52
3.7. Estimación de una razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.7.1. Cuando una sola variable X explica tanto a Y como a Z . . . . . . . 58
3.7.2. Cuando se tienen dos variables auxiliares X1 que explica Y y X2 que
explica Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4. Estimadores de regresión para muestreo de conglomerados y muestreo en


dos etapas 89
4.1. Estimadores de regresión para muestreo de conglomerados . . . . . . . . . . 90

iii
iv ÍNDICE GENERAL

4.2. Modelo de razón constante para totales de UPMs . . . . . . . . . . . . . . . 93


4.3. Estimadores de la media poblacional de conglomerados . . . . . . . . . . . . 95
4.3.1. Estimadores alternativos . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.4. Estimadores de regresión para modelamiento en el nivel de elementos . . . . 97
4.4.1. Estimadores alternativos para el caso C . . . . . . . . . . . . . . . . . 100
4.5. Modelo de razón constante para elementos . . . . . . . . . . . . . . . . . . . 101

5. Muestro en dos fases 109


5.1. Notaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.2. El π ∗ -estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3. Muestreo en dos fases para estratificación . . . . . . . . . . . . . . . . . . . . 114
5.4. Estimadores de diferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.5. Estimadores de regresión para muestreo en dos fases . . . . . . . . . . . . . . 119
5.5.1. Segunda fase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.5.2. Primera fase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.5.3. Casos especiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

6. Dispersión espacial de una población 131


6.1. Pautas básicas para un programa de muestreo . . . . . . . . . . . . . . . . . 132
6.1.1. Estudios de Flora y Fauna . . . . . . . . . . . . . . . . . . . . . . . . 133
6.1.2. Estudios cuantitativos . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.1.3. Diseños muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

7. Muestreo de redes (network) 137


7.1. Estimador de multiplicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.2. Estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . . 140

8. Estimación de tamaño poblacional 145


8.1. Estimación por captura y recaptura . . . . . . . . . . . . . . . . . . . . . . . 145
8.2. Tablas de contingencia para experimentos con captura y recaptura . . . . . . 148
8.3. Estimación con varias recapturas . . . . . . . . . . . . . . . . . . . . . . . . 150
8.4. Muestro por cuadriculas (áreas) . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.5. Muestreo por fajas o bandas y lı́neas transversales . . . . . . . . . . . . . . . 155
8.6. Transectas de ancho fijo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
8.7. Muestro por intercepto de lı́neas . . . . . . . . . . . . . . . . . . . . . . . . . 162
8.8. Estimadores de parámetros poblacionales . . . . . . . . . . . . . . . . . . . . 163
8.9. Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
8.9.1. Muestreo de una lı́nea . . . . . . . . . . . . . . . . . . . . . . . . . . 164
8.9.2. Muestreo replicado con k lı́neas . . . . . . . . . . . . . . . . . . . . . 166
ÍNDICE GENERAL v

9. Muestreo de conglomerados adaptativos 169


9.1. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.2. Un estimador usando probabilidades de intersección inicial . . . . . . . . . . 171
9.3. Estimación usando el número de intersecciones iniciales . . . . . . . . . . . . 173

10.Muestreo de conglomerados adaptativos estratificado 181


10.1. Diseños . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
10.2. Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.2.1. Estimadores usando números esperados de intersecciones iniciales . . 185
10.2.2. Estimadores usando probabilidades iniciales de intersección. . . . . . 187

11.Detectabilidad y muestreo 193


11.1. Detectabilidad constante en una región . . . . . . . . . . . . . . . . . . . . . 193
11.2. Estimación de la detectabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 195
11.3. Detectabilidad con muestreo aleatorio simple . . . . . . . . . . . . . . . . . . 197
11.4. Detectabilidad estimada y muestreo aleatorio simple . . . . . . . . . . . . . . 199
11.5. Muestreo con reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . 200
11.6. Muestreo probabilı́stico de grupos con probabilidades de detección desigual . 201

12.Lı́neas y puntos transectos 203


12.1. Métodos para estimación de densidad por lı́nea transecta . . . . . . . . . . . 204
12.2. Método de franja estrecha . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
12.3. Método de suavizado al ojo . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
12.4. Métodos paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
12.5. Métodos no paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
12.5.1. Estimación de f (0) por el método Kernel . . . . . . . . . . . . . . . . 212
12.5.2. Método de la serie de Fourier . . . . . . . . . . . . . . . . . . . . . . 213
12.5.3. Nota sobre la estimación de la varianza para el método Kernel . . . . 214
12.6. Diseños para seleccionar transectas . . . . . . . . . . . . . . . . . . . . . . . 216
12.7. Muestra aleatoria simple de transectos . . . . . . . . . . . . . . . . . . . . . 217
12.7.1. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
12.7.2. Estimador de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
12.8. Estimador Jackknife en MAS de transectos . . . . . . . . . . . . . . . . . . . 221
12.8.1. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
12.8.2. Selección con probabilidad proporcional a la longitud . . . . . . . . . 223
12.9. Selección sistemática de los transectos . . . . . . . . . . . . . . . . . . . . . . 225
12.10.Esfuerzo de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
12.10.1.Tamaño de muestra mı́nimo . . . . . . . . . . . . . . . . . . . . . . . 226
12.10.2.Estimación de esfuerzo total necesario . . . . . . . . . . . . . . . . . 227
12.10.3.Muestreo punto de transectos . . . . . . . . . . . . . . . . . . . . . . 227
12.10.4.Muestreo de lı́neas transectas . . . . . . . . . . . . . . . . . . . . . . 228
vi ÍNDICE GENERAL

13.Muestreo por intersecto de lı́neas 229


13.1. Muestra aleatoria de lı́neas: dirección fija . . . . . . . . . . . . . . . . . . . . 229
13.2. Lı́neas de posición aleatoria y dirección . . . . . . . . . . . . . . . . . . . . . 234
Capı́tulo 1

Estimadores de regresión

El principal tópico de esta sección es el estimador de regresión, sin embargo hacemos una
introducción al estimador diferencia por las siguientes razones:

1. Un entendimiento del estimador diferencia simplifica el paso al estimador de regresión.

2. El estimador diferencia es simple al manipularse algebraicamente.

1.1. Estimador diferencia


Asumamos que existen J variables auxiliares denotadas x1 , x2 , ..., xj , ..., xJ donde el valor de
la j−ésima variable para el k−ésimo elemento poblacional es denotado por xjk .

Para el k−ésimo elemento se define el vector xk = (x1k , x2k , ..., xjk , ..., xJk )0 . Como es natural
la variable de estudio y toma el valor yk para el k−ésimo elemento.

Los valores y1 , y2 , ..., yN se asumen desconocidos donde x1 , x2 , ..., xj , ..., xN son conocidas. El
parámetro poblacional al ser estimado, es el total poblacional de y:
X
ty = yk
U

Una muestra probabilı́stica s es seleccionada de U = {1, 2, ..., N } mediante un diseño p (·)


con probabilidad de inclusión πk > 0 y πkl > 0, ∀k, l ∈ s. Para todos los elementos de la
muestra k ∈ s se observan yk y por supuesto xk

La idea principal del estimador diferencia es la de usar información auxiliar para formar
conjuntos de N representativos valores de y, denotados y1o , y2o , ..., yN
o
, tal que yko es al menos
una adecuada aproximación de yk .

7
8 1. ESTIMADORES DE REGRESIÓN

Con información auxiliar x1k , x2k , ..., xjk , ..., xJk , se expresa yko como una combinación lineal
de xk , es decir:
J
X
yko = Aj xjk = A0 xk
j=1

donde A = (A1 , A2 , ..., AJ )0 es un vector de valores conocidos. Observe que yko se puede cal-
cular para todo k ∈ U .

Cuando se asume una aproximación lineal:


J
. X
yk = Aj xjk = A0 xk
j=1

es razonable escoger
J
X
yko = Aj xjk = A0 xk
j=1

Cuando se tiene una sola variable auxiliar x, xj = x y Aj = 1, entonces:

yko = Ajk = xk
y se sigue que
.
yk = yko = xk , ∀k ∈ U
Ahora, el total poblacional desconocido a ser estimado puede escribirse como:

X
ty = yk
U
X X
= yko + (yk − yko )
U U
X X
= yko + Dk (1.1.1)
U U

donde

Dk = yk − yko
Luego se define el estimador diferencia como sigue:
1.1. ESTIMADOR DIFERENCIA 9

X X Dk X X
t̂y,dif = yko + = yko + Ďk (1.1.2)
U s
πk U s

Si xk es conocida en el universo y Aj también, entonces yko es conocido.


Véase el siguiente resultados:

Resultado 1.1.1. t̂y,dif , es insesgado para ty y su varianza viene dada por:


XX Dk Dl
AV (t̂y,dif ) = ∆kl
U
π k πl

Con estimador:
X X ∆kl Dk Dl
V̂ (t̂y,dif ) =
s
πkl πk πl

Demostración. Veamos si t̂y,dif , es insesgado para ty :

!
X X Dk
E(t̂y,dif ) = E yko +
U s
πk
!
X X Dk
= yko + E Ik (S)
U U
πk
X X Dk
= yko + E (Ik (S))
U U
πk
X X Dk
= yko + πk
U U
πk
X X
= yko + Dk
U U
X X
= yko + (yk − yko )
U U
X
= (yko + yk − yko )
U
X
= yk
U
= ty .
10 1. ESTIMADORES DE REGRESIÓN

En cuanto a la expresión de la varianza y su estimación, se siguen los mismos pasos para el


π−estimador, sin abrir Dk .

Para tamaños de muestra fijo:


 2
1 XX Dk Dl
AV (t̂y,dif ) = − ∆kl −
2 U
πk πl
Con estimador:
 2
1 X X ∆kl Dk Dl
V̂ (t̂y,dif ) = − −
2 s
πkl πk πl
Por ejemplo, si se emplea un diseño MAS, se tiene que:
X NX
t̂y,dif = yko + Dk
U
n s

N2 2
AVM AS (t̂y,dif ) = (1 − f )SD
n U

2
N
(1 − f ) Sy2U + Sx2U − 2SxyU
 
=
n
y su varianza estimada:

N2 2
V̂M AS (t̂y,dif ) = (1 − f )SD s
n
N2
(1 − f ) Sy2s + Sx2s − 2Sxys
 
=
n
donde Sy2U y Sx2U son las varianzas poblacionales de y y x respectivamente, y:
1 X
SxyU = (xk − x̄U ) (yk − ȳU ) .
N −1 U

1.1.1. Efecto de Diseño


Partiendo de que la correlación poblacional se define como:
SxyU
rxyU =
Sx2U Sy2U
1.1. ESTIMADOR DIFERENCIA 11

Si esta correlación es alta, el estimador diferencia producirá a menudo una gran reducción
en la varianza en comparación al π−estimador. De esto tenemos que:

N2
 
 n
(1 − f ) Sy2U + Sx2U − 2SxyU
def f t̂y,dif , t̂yπ = N2
n
(1 − f )Sy2U
Sx2U Sxy
=1+ 2
− 2 2U
SyU SyU
Sx2U rxy Sx
=1+ 2
−2 U U.
SyU S yU
Luego, si:

 Sx2 rxy Sx
def f t̂y,dif , t̂yπ < 1 ⇒ 2U − 2 U U < 0
SyU SyU
Sx
⇒ U − 2rxyU < 0
SyU
SxU
⇒ rxyU < .
2SyU
Esto significa que el estimador diferencia es más eficiente que el π−estimador, cuando la
correlación entre las dos variables es menor que que el medio del cociente entre las varianzas
de cada variable. Una manera alternativa de escribir el estimador diferencia es la siguiente:

X X
t̂y,dif = yko + Ďk
U s
X X yk − y o
k
= yko +
U s
πk
J
XX X yk X 1 X J
= Aj xjk + − Aj xjk
U j=1 s
πk s
πk j=1
J
!
X yk X X X xjk
= + Aj xjk −
s
π k j=1 U s
πk
X yk XJ

= + Aj txj − t̂xjπ .
s
πk j=1

De manera explicita, esto quiere decir que el estimador diferencia es igual al π−estimador
más un termino de ajuste.
12 1. ESTIMADORES DE REGRESIÓN

1.2. Introducción a los estimadores de regresión


Cuando en el estimador diferencia t̂y,dif los coeficientes A1 , A2 , ..., Aj no son conocidos, estos
pueden ser estimado de la muestra S. Se define el estimador de regresión:

J
X 
t̂y,reg = t̂yπ + β̂j txj − t̂xjπ
j=1

= t̂yπ + (tx − t̂xπ )0 B̂

con

B̂ = T̂−1 t
!−1 !
0
X xk xk X xk yk
=
s
σk2 πk s
σk2 πk
= B̂π

donde:
   
tx1 t̂π1
 tx2   t̂xπ2 
= y =
   
tx ..  t̂xπ .. 
 .   . 
txj t̂xπj
En lo que sigue se denotará por ξ el modelo de regresión, el cual tendrá las siguientes carac-
terı́sticas:

i) y1 , y2 , ..., yN se asumen valores realizados de las variables aleatorias independientes


(v.a.i) Y1 , Y2 , ..., YN .
J
X
ii) Eξ (Yk ) = βj xjk con k = 1, 2, ..., N .
j=1

iii) Vξ (Yk ) = σk2 con k = 1, 2, ..., N .

Donde β1 , ..., βN y σ12 , ..., σN


2
son los parámetros del modelo. Sin importar la distribución del
modelo.

Dos ejemplos del modelo envolviendo una sola variable explicativa son:
1.2. INTRODUCCIÓN A LOS ESTIMADORES DE REGRESIÓN 13

Heterocedastico sin intersecto:


Eξ (Yk ) = βxk
(1.2.1)
Vξ (Yk ) = σ 2 xk

donde (x1 , ..., xN > 0).

Homocedastico con intersecto:


Eξ (Yk ) = β1 + β2 xk
(1.2.2)
Vξ (Yk ) = σ 2

Para k = 1, 2, ..., N se tiene que:

B = (β1 , β2 , ..., βJ )0
= T−1 t
!−1 !
X xk x0 X xk y k
k
= 2
s
σ k s
σk2
−1
= (XΣX0 ) (XΣY)

con Σ = diag (σk2 ) (k = 1, ..., N ), Y = (y1 , ..., yN ) y XJ×N ; ademas, TJ×J una matriz simétrica
y tJ×1 es un J−vector columna. También los elementos de T y de t, respectivamente, son de
la forma:
X xjk xj 0 k X xjk yk
tjj 0 = = tj 0 j y tj0 =
U
σk2 U
σk2

entonces:
X xjk xj 0 k X xjk yk
t̂jj 0 = = t̂j 0 j y t̂j0 =
U
σk2 πk U
σk2 πk

los cuales son insesgados para tjj 0 y tj0 .

Bajo el modelo Heterocedastico sin intersecto:



Eξ (Yk ) = βxk
Vξ (Yk ) = σ 2 xk (x1 , ..., xN > 0)
se obtiene que:
14 1. ESTIMADORES DE REGRESIÓN

!−1 !
0
X xk xk X xk y k
B̂ =
s
σk2 πk s
σk2 πk
!−1 !
X xk xk X xk y k
=
s
σ 2 x k πk s
σ 2 xk πk
!−1 !
1 X xk 1 X yk
=
σ 2 s πk σ 2 s πk
X yk

s
πk
=X xk
s
πk
t̂yπ
= .
t̂xπ

Consecuentemente se tiene que:

t̂y,reg = t̂yπ + (tx − t̂xπ )0 B̂


 t̂yπ
= t̂yπ + tx − t̂xπ
t̂xπ
t̂yπ t̂yπ
= t̂yπ + tx − t̂xπ
t̂xπ t̂xπ
t̂yπ
= t̂yπ + tx − t̂yπ
t̂xπ
tx
= t̂yπ .
t̂xπ

Ahora, bajo el modelo Homocedastico con intersecto:



Eξ (Yk ) = β1 + β2 xk
Vξ (Yk ) = σ 2

Se tiene el vector xk = (x1k , x2k ) = (1, xk ) y B = (β1 , β2 ), y teniendo en cuenta lo tratado en


el capitulo de Estimación de parámetros distintos al total; para este modelo (modelo
de regresión simple):
1.2. INTRODUCCIÓN A LOS ESTIMADORES DE REGRESIÓN 15

X (xk − x̃s ) (yk − ỹs )


πk
βˆ2 = s
y βˆ1 = ỹs − βˆ2 x̃s
X (xk − x̃s )2

s
πk
Con esto se obtiene que:

t̂y,reg = t̂yπ + βˆ1 tx1 − t̂x1 π + βˆ2 tx2 − t̂x2 π


 
  
= t̂yπ + ỹs − βˆ2 x̃s N − N̂ + βˆ2 tx − t̂xπ


= t̂yπ + N ỹs − N̂ ỹs − N βˆ2 x̃s + N̂ βˆ2 x̃s + βˆ2 N x̄U − βˆ2 t̂xπ
= N̂ ỹs + N ỹs − N̂ ỹs − N βˆ2 x̃s + N̂ βˆ2 x̃s + βˆ2 N x̄U − βˆ2 t̂xπ
= N ỹs − N βˆ2 x̃s + βˆ2 N x̄U
h i
= N ỹs + β̂2 (x̄U − x̃s ) .

Cuando se va a estimar el modelo de regresión, se requiere de los yk , los xk y de tx . No siempre


se obtienen los x’s para toda la población y además que su correlación con la variable y sea
buena.
Se puede usar el estimador de regresión siempre que se tenga tx ; pero cuando no se tiene,
se consigue una aproximación a través de otros estudios con la consecuencia de obtener un
mayor sesgo.

“El estimador de regresión, usualmente, es más preciso que el π−estimador”

Para una muestra s, bajo un modelo ξ, produce B̂; y para k = 1, 2, .., N se obtienen los valores
ajustados (o predichos):

ŷk = xk B̂
J
X
= β̂j xjk (1.2.3)
j=1

para k ∈ s, y los residuales muestrales vienen dados por:

eks = yk − ŷk
Nótese, que los ŷk pueden obtenerse para todo k = 1, 2, .., N ; pero eks solo para los k ∈ s.
16 1. ESTIMADORES DE REGRESIÓN

Ahora:

X X y− ŷk
t̂y,reg = ŷk +
U s
πk
X X eks
= ŷk +
U s
πk
X X
= ŷk + ěks (1.2.4)
U s

J
X X X
Si la relación lineal es perfecta, esto es yk = βj xjk entonces ěks = 0 y t̂y,reg = ŷk
j=1 s U

Teorema 1.2.1. Una condición suficiente para que

X eks
=0 (1.2.5)
s
πk

para todo s ∈ =0 , es que existe un vector columna λ tal que ∀k ∈ U :

σk2 = λ0 xk

donde =0 es el conjunto de todas las muestras bajo un diseño con probabilidades de inclusión
fijas π1 , ..., πN .

Demostración. Se tiene por definición que:

X eks X yk X ŷk
= −
s
πk s
π k s
πk

Ahora:
1.2. INTRODUCCIÓN A LOS ESTIMADORES DE REGRESIÓN 17

X ŷk X 1
0
= xk B̂
s
π k s
π k
X 1 λ0 xk x0
k
= 2

s
π k σ k
X 1
= 2
λ0 xk x0k B̂
s
πk σk
!
X xk x0
= λ0 k
2

s
π k σk
! !−1 !
X xk x0 X xk x0 X xk y k
= λ0 k
2 2
k

s
π k σk s
σk kπ s
σk2 πk
!
X xk yk
= λ0
s
πk σk2
X λ0 xk yk
=
s
σk2 πk
X yk
=
s
πk
= t̂yπ

Por tanto, esto es:


X eks
= t̂yπ − t̂yπ = 0.
s
πk

Otra forma de escribir el estimador de regresión es:

t̂y,reg = t̂yπ + (tx − t̂xπ )0 B̂


= t̂yπ + (tx − t̂xπ )0 T̂−1 t
!
X yk X x y
k k
= + (tx − t̂xπ )0 T̂−1
s
πk s
σk2 πk
X 0 −1 xk

yk
= 1 + (tx − t̂xπ ) T̂ 2
s
σk πk
X yk
= gks .
s
πk
18 1. ESTIMADORES DE REGRESIÓN

xk
Donde gks = 1 + (tx − t̂xπ )0 T̂−1 .
σk2
Bajo el modelo Heterocedastico sin intersecto:

xk
gks = 1 + (tx − t̂xπ )0 T̂−1
σk2
!−1
0
0
X xk xk xk
= 1 + (tx − t̂xπ )
s
σk2 πk σk2
!−1
 X xk x k xk
=1+ tx − t̂xπ 2
s
σ x k πk σ 2 xk
!−1
 X xk 1
=1+ tx − t̂xπ 2
s
σ πk σ2
!−1
 X xk
=1+ tx − t̂xπ
s
πk
 1
=1+ tx − t̂xπ
t̂xπ
tx
=1+ −1
t̂xπ
tx
=
t̂xπ
N x̄U
= .
N̂ x̃s
Ahora, para el modelo Homocedastico con intersecto se llega a que:

" #
N x̄U − x̃s
gks = 1+ (xk − x̃s )
N̂ S̃x2s
N
= [1 + as (xk − x̃s )]

con
x̄U − x̃s
as =
S̃x2s
y
1.2. INTRODUCCIÓN A LOS ESTIMADORES DE REGRESIÓN 19

" #
1 X x2
k
S̃x2s = − N̂ x̃2s
N̂ s
πk2
1 X (xk − x̃s )2
=
N̂ s πk

Se conoce que yko = x0k B y por tanto los residuales poblacionales son:

Ek = yk − yko ⇒ yk = yko + Ek
X
Luego como t̂y,reg = gks y̌k , entonces:
s

X yko + Ek
t̂y,reg = gks
s
πk
X
gks y̌ko + Ěk

=
s

Además:

X 0

−1 xk xk
X 0
gks x̌0k = 1 + (tx − t̂xπ ) T̂
s s
σk2 πk
!
0 0
X xk 0 −1
X xk xk
= + (tx − t̂xπ ) T̂
s
πk s
σk2 πk
0
X xk
= + (tx − t̂xπ )0 T̂−1 T̂
s
πk
0
X xk
= + (tx − t̂xπ )0 I
s
πk
= t̂0xπ + t0x − t̂0xπ
X
= t0x = 0
xk
U

De esto se obtiene que:


20 1. ESTIMADORES DE REGRESIÓN

!
X X
gks y̌ko = gks x0k B
s s
!
X
0
= xk B
U
X
0
= xk B
U
X
= yko
U

Por tanto:

X yko + Ek
t̂y,reg = gks
s
πk
X gks y o X gks Ek
k
= +
s
π k s
πk
X X
= gks y̌ko + gks Ěk
s s
X X
= yko + gks Ěk .
U s

1.3. La varianza de un estimador de regresión


El estimador de regresión es aproximadamente insesgado por la linealización de Taylor:

.
t̂y,reg = t̂y,r0
= t̂yπ + (tx − t̂xπ )0 B̂
X X
= yko + Ěk (1.3.1)
U s

Cuya varianza aproximada es:

XX Ek El
AV (t̂y,reg ) = ∆kl
U
πk πl
XX
= ∆kl Ěk Ěl (1.3.2)
U
1.3. LA VARIANZA DE UN ESTIMADOR DE REGRESIÓN 21

Con estimador:
 XX
∆kl eks els XX
ˇ kl ěks ěls
= ∆


πkl πk πl



 s s
V̂ (t̂y,reg ) =
 X X ∆kl gks eks gks els XX
ˇ kl gks ěks gls ěls


 = ∆
π π π

kl k l

s s

Ası́, un intervalo de confianza al 100(1 − α) % para ty viene dado por:


q
t̂y,reg ± Z(1− α ) V̂ (t̂y,reg ) (1.3.3)
2

Si el modelo es bueno y mide el comportamiento de la población, se obtiene una varianza


estimada relativamente pequeña.

Para el modelo Heterocedastico sin intersecto, la estimación de la varianza es de la siguiente


manera:

X X ∆kl gks eks gks els


V̂ (t̂y,reg ) =
s
πkl
πk πl
X X ∆kl tx eks   tx els 

=
s
πkl t̂xπ πk t̂xπ πl
 2 X X
tx ∆kl
= ěks ěls (1.3.4)
t̂xπ s
πkl

Bajo un diseño M AS:

N2
AVM AS (t̂y,reg ) = (1 − f )SE2 U
n
N2
(1 − f ) Sy2U + Sx2U − 2SxyU
 
= (1.3.5)
n
y su varianza estimada:

 2 2
N x̄U N
V̂M AS (t̂y,reg ) = (1 − f )Se2s
N x̄s n
 2 2
x̄U N h i
= (1 − f ) Sy2s + β̂ 2 Sx2s − 2β̂Sxys (1.3.6)
x̄s n
22 1. ESTIMADORES DE REGRESIÓN

Ejemplo 1.3.1. A continuación, se muestra un ejemplo aplicativo sobre la estimación del


total, la aproximación de la varianza, la varianza estimada, el coeficiente de variación y un
intervalo de confianza a (1 − α)100 %, en un modelo Heterosedastico sin intersecto bajo un
diseño M AS:

> set.seed(1)
> gen.corr.data<- function(rho,N){
+ # first step: generate two normal random variables from normal distrbution
+ X <- rnorm(N,200,1)
+ X2 <- rnorm(N,200,1)
+ # second step generate the correlated variable
+ Y<- rho*X + sqrt(1-rho^2)*X2
+ result <-cbind(Y,X)
+ return(result)
+ }
> N=700;n=250
> Poblacion<-gen.corr.data(0.7,N)
> cor(Poblacion)#correlación
Y X
Y 1.0000000 0.6846431
X 0.6846431 1.0000000
> head(Poblacion)
Y X
[1,] 281.8847 199.3735
[2,] 284.3651 200.1836
[3,] 282.1794 199.1644
[4,] 283.9353 201.5953
[5,] 282.2569 200.3295
[6,] 281.2943 199.1795
> Y<-Poblacion[,1]
> X<-Poblacion[,2]
#Totales poblacionales
> tx=sum(X);tx
[1] 139986.9
> ty=sum(Y);ty
[1] 197965.2
#Muestra
> muestra <- sample(N,n)
> s<-Poblacion[muestra,]
> yk<-s[,1]
1.3. LA VARIANZA DE UN ESTIMADOR DE REGRESIÓN 23

> xk<-s[,2]
#Calculos para la estimación:
> gks=mean(X)/mean(xk);gks
[1] 1.000554
#Total para heterocedasico sin intersecto en MAS
> tyr=(N/n)*gks*sum(yk);tyr
[1] 198025.5
#Residuales
> B=sum(Y)/sum(X)
> Ek=Y-B*X
> b=sum(yk)/sum(xk)
> ek=yk-b*xk
#Aproximación de la Varianza
> AVtyr=(N^2/n)*(1-(n/N))*var(Ek);AVtyr
[1] 1386.129
#Varianza estimada
> Vtyr=(gks^2)*(N^2/n)*(1-(n/N))*var(ek);Vtyr
[1] 1276.294
#Coeficiente de variación
> cvr=sqrt(Vtyr)/tyr;cvr
[1] 0.0001804073
#IC al (1-alpha)100%; alpha=0.05
> alpha=0.05
> Ic<-c(tyr-qnorm(1-alpha/2)*sqrt(Vtyr),tyr+qnorm(1-alpha/2)*sqrt(Vtyr));Ic
[1] 197955.5 198095.6
24 1. ESTIMADORES DE REGRESIÓN
Capı́tulo 2

Estimadores de regresión para


dominios

Para el total de un dominio:


X
tyd = yk (2.0.1)
Ud

Se construyo el estimador de regresión como una suma de valores predichos por regresión
más un termino de ajuste que contiene los residuales de la regresión. Para el caso de querer
estimar dominios, dos alternativas son las siguientes:
 X
X Nd
t̂ydr = ŷk + ěks (2.0.2)
Ud
N̂d sd

X 1
donde N̂d = y Nd es conocido,
s
π k
d
X X
t̂0ydr = ŷk + ěks (2.0.3)
Ud sd

si Nd es desconocido.

El cálculo del término de predicción


!0
X X
ŷk = xk B̂ (2.0.4)
Ud Ud

en los estimadores anteriores requiere un conocimiento a priori del dominio total del vector
auxiliar,

25
26 2. ESTIMADORES DE REGRESIÓN PARA DOMINIOS

X X
xk = zdk xk
Ud U

donde zdk es la función indicador del dominio Ud (vista en capı́tulos anteriores). La situación
en donde estos totales sean conocidos incluye lo siguiente:

1. Se conoce la pertenencia al dominio zdk , ası́ como el valor auxiliar xk (dada el marco
de muestreo), para cada elemento k ∈ U .

2. El vector de totales de dominios


!
X X X
xk = x1k , ..., xJk
Ud Ud Ud

es conocido de una fuente precisa.

El estimador de dominios puede ser escrito como una suma ponderada π−expandidos y−valores,
X
t̂ydr = gdks y̌k (2.0.5)
s

donde las g−ponderaciones (que dependen del dominio d, toda la muestra s, y el elemento
k) son
!0 !−1
0
Nd X Nd X X xk xk xk
gdks = zdk + xk − x̌k
N̂d ud N̂d sd s
σk2 πk πk

Una propiedad atractiva de las ponderaciones es que:


X X X
gdks x̌k = zdk xk = xk
s U Ud

Las propiedades fundamentales del estimador de regresión t̂ydr se expresan en el siguiente


resultado:
Asumiendo quePel tamaño del dominio Nd es conocido, estimador de regresión del total en
dominio tyd = Ud yk es:

 X
X Nd
t̂ydr = ŷk + ěks
Ud
N̂d sd
X
= gdks y̌k (2.0.6)
s
2.1. MODELO HETEROCEDASTICO SIN INTERSECTO EN DOMINIO 27

donde
eks yk − ŷk
=
ěks =
πk πk
y gdks que ya se conoce. La aproximación de la varianza es:
  
XX Ek − ĒUd El − ĒUd
AV (t̂ydr ) = ∆kl (2.0.7)
U
πk πl
d

X Ek
donde ĒUd = . Y su estimación de la varianza viene dada por:
Ud
Nd
X X ∆kl gdks eks gdks els
V̂ (t̂ydr ) = (2.0.8)
s
πkl πk πl

2.1. Modelo heterocedastico sin intersecto en dominio


Una aplicación de las técnicas de regresión en dominio, es la descripción de la población es
en términos de un modelo de razón (o heterocedastico sin intersecto) por separado para cada
dominio. Esto es para d = 1, ..., D, el modelo es tal que

Eξ (yk ) = βd xk
Vξ (yk ) = σd2 xk
para k ∈ Ud donde todo xk > 0- Además, las pendientes βd pueden variar con el dominio.
Este modelo, puede escribirse en terminos del modelo general, si se tiene en cuenta que

B = (β1 , ..., βd , ..., βD )0


y

xk = (z1k xk , ..., zdk xk , ..., zDk xk )0


donde zdk es la función indicadora del dominio.

Ahora, el estimador de razón de dominios viene dado por

P
s y̌k
X
t̂dra = xk P d
Ud sd x̌k
!
X
= xk B̂d (2.1.1)
Ud
28 2. ESTIMADORES DE REGRESIÓN PARA DOMINIOS

con el requerimiento de que el total poblacional de x en el dominio sea conocido. Los residuales
y las g−ponderaciones son
eks = yk − B̂d xk
y P !
x k
gdks = PUd zdk
sd x̌k

La varianza y su estimador son los ya dados anteriormente.


Ejemplo 2.1.1. Bajo un M AS con n elementos obtenidos de N :
P
s y̌k
X
t̂dra = xk P d
Ud sd x̌k

X Nn s yk
P
= xk N P d
Ud n s d xk
P
s yk
X
= xk P d
U s d xk
d
ȳsd
= Nd ȳUd
x̄sd
cuya aproximación de la varianza es
N2 Nd − 1 2
AV (t̂dra ) = (1 − f ) S
n N − 1 EUd
donde
1 X
2
SEU = (yk − Bd xk )2
d
Nd − 1 U
d
P
U yk
con Bd = P d y le estimación de la varianza viene dada por
Ud x k
    
n (nsd − 1) x̄Ud 2 1 1 2
V̂ (t̂dra ) = Nd − Ses
(n − 1) nss x̄sd ns d N̂d d
   
. x̄Ud 1 1
= Nd2 − 2
Ses
x̄sd ns d N̂d d

N n sd
donde N̂d = , x̄Ud y x̄sd son las medias en Ud y sd correspondientes y
n
2 1 X 2
Ses = yk − B̂d x k
d
nd − 1 s
s

Ahora se muestra una simulación donde la población es generada con datos correlacionados:
2.1. MODELO HETEROCEDASTICO SIN INTERSECTO EN DOMINIO 29

#Generar muestra correlacionada


> set.seed(1999)
> gen.corr.data<- function(rho,N){
+ # generate two normal random variables from normal distribution
+ X <- rnorm(N,100,1)
+ X2 <- rnorm(N,100,1)
+ # generate the correlated variable
+
+ Y<- rho*X + sqrt(1-rho^2)*X2
+ result <-cbind(Y,X)
+ return(result)
+ }
> N=500
> Poblacion<-gen.corr.data(0.5,500)
> cor(Poblacion)
Y X
Y 1.0000000 0.4705257
X 0.4705257 1.0000000
#generar 0 y 1 con una binomial para dominios
> dom<-rbinom(N,1,0.7)
> datdom<-data.frame(Poblacion,dom)
> head(datdom)
Y X dom
1 137.4852 100.73267 1
2 136.2729 99.96217 1
3 138.6532 101.20301 1
4 137.6291 101.46980 0
5 135.5856 100.13369 0
6 137.2184 100.51983 1
#Ud=(U0,U1)
> d1<-subset(datdom,dom==1)
> d0<-subset(datdom,dom==0)
#totales en Ud
> Yd1<-d1$Y
> Yd0<-d0$Y
> tyd1=sum(Yd1);tyd1
[1] 48516.41
> tyd0=sum(Yd0);tyd0
[1] 19821.72
> ty=sum(datdom$Y);ty
30 2. ESTIMADORES DE REGRESIÓN PARA DOMINIOS

[1] 68338.14
#Función que estima en dominio
> N=500;n=50
> MRadom<-function(datdom,n){
+ Y<-datdom[,1]
+ X<-datdom[,2]
+ N=nrow(datdom)
+ #En Ud
+ d1<-subset(datdom,dom==1)
+ d0<-subset(datdom,dom==0)
+ Y1<-d1$Y
+ Y0<-d0$Y
+ X1<-d1$X
+ X0<-d0$X
+ #En Sd
+ sam <- sample(N,n)
+ muest<-datdom[sam,]
+ sdom1<-subset(muest,dom==1)
+ sdom0<-subset(muest,dom==0)
+ y<-Y[sam]
+ x<-X[sam]
+ y1<-sdom1$Y
+ x1<-sdom1$X
+ y0<-sdom0$Y
+ x0<-sdom0$X
+ #Estimador del Modelo Heterosedastico sin Intersecto(Razón)
+ #Dominio 1
+ beta1<-sum(y1)/sum(x1)
+ Beta1=sum(Y1)/sum(X1)
+ tra1<-sum(X1)*beta1 #dominio 1
+ Ek1=Y1-Beta1*X1
+ eks1=y1-beta1*x1
+ gs1=(sum(X1)/sum(x1))*(n/N)
+ ns1=nrow(sdom1)
+ N1=nrow(d1)
+ AVra1=((N^2)/n)*(1-(n/N))*(1/(N-1))*var(Ek1)
+ N1est=(N*ns1)/n
+ Vra1=(gs1^2)*(n/(n-1))*((ns1-1)/ns1)*(N1^2)*((1/ns1)-(1/N1est))*var(eks1)
+ cvra1=sqrt(Vra1)/tra1
+ tradom1<-c(tra1,Vra1,cvra1)
2.1. MODELO HETEROCEDASTICO SIN INTERSECTO EN DOMINIO 31

+ #Dominio 0
+ beta0<-sum(y0)/sum(x0)
+ Beta0=sum(01)/sum(X0)
+ tra0<-sum(X0)*beta0 #dominio 0
+ Ek0=Y0-Beta0*X0
+ eks0=y0-beta0*x0
+ gs0=mean(X0)/mean(x0)
+ ns0=nrow(sdom0)
+ N0=nrow(d0)
+ AVra0=((N^2)/n)*(1-(n/N))*(1/(N-1))*var(Ek0)
+ N0est=(N*ns0)/n
+ Vra0=(gs0^2)*(n/(n-1))*((ns0-1)/ns0)*(N0^2)*((1/ns0)-(1/N0est))*var(eks0)
+ cvra0=sqrt(Vra0)/tra0
+ tradom0<-c(tra0,Vra0,cvra0)
+ result.ra<-data.frame(tra1,AVra1,Vra1,cvra1,tra0,AVra0,Vra0,cvra0);result.ra
+ }
> MRadom(datdom,n)
tra1 AVra1 Vra1 cvra1 tra0 AVra0 Vra0 cvra0
1 48430.43 13.47159 4387.492 0.001367697 19818.93 9.530436 1764.746 0.002119634

Estos resultados son el total, la aproximación de la varianza, la varianza estimada y el coefi-


ciente de variación; para el estimador de regresión con un modelo de razón en dominios, se
muestran lo resultados para un dominio y su complemento (Ud y Ud0 ).
32 2. ESTIMADORES DE REGRESIÓN PARA DOMINIOS
Capı́tulo 3

Estimadores de regresión para diseño


de elementos

 J
 X 



 t̂yπ + β̂ j tx j
− t̂x jπ

 j=1





t̂ + (tx − t̂xπ )0 B̂


 yπ


t̂y,reg = !

 X X ěk X 0

 ŷ k + = xk B̂



 U s
πk U



yk

 X


 gks

s
πk

0
xk
gks = 1 + (tx − t̂xπ ) T̂−1
σk2
!−1
0 0
X xk xk xk
= 1 + (tx − t̂xπ )
s
σk2 πk σk2

Además,
XX
AV (t̂yπ ) = ∆kl Ek El
U

con Ek = yk − x0k β.

33
34 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

X X ∆kl gk eks gl els


V̂ (t̂yπ ) =
s πkl πk πl
con eks = yk − x0k β̂

3.1. El modelo de razón constante y el estimador de


razón
Para una sola variable auxiliar X, con valores positivos x1 , · · · , xN un modelo de regresión
acumulado que xykk es constante (o en promedio fijo, ∀xk ) es llamado Modelo de razón constante
o simplemente Modelo de razón
(
Eξ (yk ) = βxk
Vξ (yk ) = σk2 = σ 2 xk
con β y σ 2 desconocidos. Ası́,

X
yk
πk
X s
t̂yra = xk X
xk
U πk
s
t̂yπ
= tx
t̂xπ
!
X
= xk β̂
s

t̂yπ
con β̂ = t̂xπ

Además,

 XX Ek El
AV t̂yra = ∆kl
u π k πl
0 ty
con Ek = yk − xk β y β= tx
.

Y estimador,
3.1. EL MODELO DE RAZÓN CONSTANTE Y EL ESTIMADOR DE RAZÓN 35

 X X ∆kl  eks   els 


V̂ t̂yra = gks gls
s πkl πk πl
con gks = tx
t̂xπ
donde eks = yk − ŷk = yk − x̂0k β̂

Este modelo satisface que σk2 = λ0 xk con λ = σ 2 , entonces,


X eks
=0
S
π k

Note que,

X
t̂yra = ŷk
U
X
= xk β̂
U
!
X t̂yπ
= xk
U
t̂xπ
 
ȳs
= N ȳu
x̄s
Además el estimador de la media del estimador de razón;

t̂yra
ȳˆU =
X N
xk t̂t̂xyπ
π
U
=
N
t̂y
= x̄U π
t̂xπ
con aproximación de la varianza dada por:

 1 XX Ek El
AV ȳˆU = 2 ∆kl
N U πk π l
Y varianza estimada
  
 1 X X ∆kl eks els
V̂ ȳˆU = 2 gks gls
N s πkl πk πl
36 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

Ejemplo 3.1.1. Modelo de razón constante bajo un diseño de muestreo aleatorio simple
(MAS) viene dado por:

n
πk =
N

n n−1
πkl =
N N −1
además,
(
−n)
πkl − πk πl = − Nn2 (N
(N −1)
, k 6= l
∆kl = n
πk (1 − πk ) = N 2 (N − n), k = l

Ası́,
 
ȳs
t̂yra = N x̄U
x̄s
ȳs
Con β̂ = x̄s

La varianza aproximada esta dada por:

N2  n 1 X
AV (t̂yra ) = 1− (yk − βxk )2
n N N −1 U
= V (t̂yπ ) + β 2 V (t̂xπ ) − 2βCov(t̂xπ , t̂yπ )
 

y su varianza estimada como:

N2  n 1 X
V̂ (t̂yra ) = 1− (yk − β̂xk )2
n N N −1 U
h i
ˆ t̂xπ , t̂yπ )
= V̂ (t̂yπ ) + β̂ 2 V̂ (t̂xπ ) − 2β̂ Cov(
 2 "  2   2
X̄U ȳs ȳs N n
= V̂ (t̂yπ ) + V̂ (t̂xπ ) − 2 1− ·
X̄s x̄s x̄s n N
#
1 X
(xk − x̄s )(yk − ȳs )
N −1 s
3.1. EL MODELO DE RAZÓN CONSTANTE Y EL ESTIMADOR DE RAZÓN 37

3.1.1. Eficiencia del t̂yra


Se mira el efecto del diseño Def f

AVM AS (t̂yra )
Def f =
VM AS (t̂yπ )
Sx2U X (xk −x̄NU )(yk −ȳU )
−1
2
=1 − β 2 − 2β
S yU U
Sy2U
 
SxU S xU SxyU
=β β − 2β
SyU SyU SxU SyU
  
SxU ȳU SxU
=β − 2ρxy
SyU x̄U SyU
 
SxU CVx
=β − 2ρxy
SyU CVy
Entonces,

CVx
Def f ≤ 1 ⇔ − 2ρxy ≤ 0
CVy

CVx
⇔ρxy ≥ 0.5
CVy

3.1.2. Estimación de la varianza

N2  n 1 X
V̂0 = 1− (yk − β̂xk )2
n N n−1 s
 2 2 
x̄U N n 1 X
V̂2 = 1− (yk − β̂xk )2
ˆ
ȳs n N n − 1 s
  2
x̄U N n  1 X
V̂1 = 1− (yk − β̂xk )2
ˆ
ȳs n N n−1 s

V̂2 es la que mejores resultados ha presentado en la probabilidad de cobertura de ty

t̂yra − ty
1/2
∼ N (0, 1)
V̂2
38 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

El sesgo de t̂yra es pequeño, sin embargo, para n pequeño, este puede ser importante.

1 √1 .
Bajo M AS el sesgo es de orden n
y el sesgo relativo es del orden n

Para n > 20 el sesgo es insignificante, para reducir el sesgo de t̂yra , Pascual propone el
siguiente estimador:

ȳs ȳs − r̄s x̄s


t̂y = N x̄U +N (3.1.1)
x̄s n−1

X rk yk
donde r̄s = con rk =
s
n xk

3.2. El estimador de razón bajo otros diseños

3.2.1. Estimador de la razón bajo un diseño de muestreo Bernoulli


En un diseño de muestreo Bernoulli se sabe que las probabilidades de inclusión de primer y
segundo orden son:

πk = π

(
π, si k = l
πkl =
π 2 , si k 6= l

Además

(
π(1 − π), si k = l
∆kl =
0, si k 6= l

Ası́,
3.2. EL ESTIMADOR DE RAZÓN BAJO OTROS DISEÑOS 39

X
yk
πk
!
X s
t̂yra = xk X
xk
U πk
s
X
1
! π
yk
X s
= xk X
1
U π
xk
s
X
! yk
X s
= xk X
U xk
 s
ȳs
=N x̄U (3.2.1)
x̄s

La aproximación de la varianza esta dada por:

 
t̂yπ
AV (t̂yra ) =AV tx
t̂x
 π
t̂yπ
=t2x AV

 xπ
=t2x AV β̂
X X   
2 yk − βxk yl − βxl
=tx ∆kl
U tx πk tx πl
   
XX yk − βxk yl − βxl
= ∆kl
U πk πl
   
XX Ek El
= ∆kl
U πk πl
 2  XX
X Ek Ek El
= ∆kk 2
+ ∆kl
U
πk k6=l U
πk πl
1 X E2
k
= π(1 − π) 2
+0
π2 π k
  XU
1
= −1 Ek2 (3.2.2)
π U
40 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

ty
Con Ek = yk − x0k β y β=
tx

Luego,

 X
1 1
V̂ (t̂yra ) = −1 e2k (3.2.3)
π π s

t̂yπ
Con ek = yk − x0k β̂ y β̂ = t̂xπ

3.2.2. Estimador de la razón bajo un diseño de muestreo ΠP T

Se sabe que bajo el diseño de muestreo ΠP T las probabilidades de inclusión son:

xk
πk = n
tx
xk
=n
N x̄U

Ası́,

 
t̂yπ
t̂yra =tx
t̂xπ
!P y
k

X
= xk P xkk
U s πk
N X̄U P yk
! !
s xk
X n
X
= xk N X̄U
1
U n U
! P yk
s xk
X
= xk
U
n

La aproximación de la varianza del estimador de la razón es:


3.3. EL MODELO DE MEDIA CONSTANTE 41

 
t̂y
AV (t̂yra ) = AV tx π
t̂xπ
= t2x AV (β̂)
X X   
2 yk − βxk yl − βxl
= tx ∆kl (∗)
U tx πk tx πl
  
XX yk − βxk yl − βxl
= ∆kl
U πk πl
XX Ek El
= ∆kl
U πk πl
ty
Con Ek = yk − βxk y β = tx

Usando el método de linealización de Taylor se demuestra (∗).

Pero para muestras de tamaño fijo:

1X X Ek El
AV (t̂yra ) = − ∆kl
2 U πk πl

ty
Con Ek = yk − βxk y β =
tx

1 X X ∆kl ek el
V̂ (t̂yra ) = −
2 U πkl πk πl

t̂yπ
Con ek = yk − β̂xk y β = t̂xπ

3.3. El modelo de media constante

(
Eξ (yk ) = β
Vξ (yk ) = σ 2

Se supone xk = 1, para todo k ∈ U , además y1 , y2 , · · · , yN son variables aletorias indepen-


dientes. Ahora
42 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

X x k x0
k
T=
U
σk2
X1
=
U
σ2
N
=
σ2

X xk yk
t=
σk2u
X yk
=
u
σ2
ty
=
σ2
Luego,

β = T0 t
σ 2 ty
=
N σ2
ty
=
N
= ȳU

Entonces,

t̂yr = t̂yπ + ȳˆs (N − N̂ )


= N ȳˆs
N X yk
=
N̂ s πk
N
= t̂yπ (3.3.1)

La aproximación de la varianza se obtiene tomando Ek = yk − ȳ,

XX Ek El
AV (t̂yr ) = ∆kl
U π k πl
3.4. MODELOS QUE ENVUELVEN GRUPOS POBLACIONALES 43

y la estimación de la varianza tomamos eks = yk − ȳˆs , k∈S y

σ2 1
 
N
gks = 1 + (N − N̂ ) 2
= ∀k ∈ S
N̂ σ N̂
Entonces;
 2 X X
 N eks els
V̂ (t̂yπ ) = V̂ N ȳˆs = ∆kl
N̂ s πk πl

3.4. Modelos que envuelven grupos poblacionales


Particionamos U en subpoblaciones U1 , U2 , . . . , UE según algún principio de clasificación.

Estas subpoblaciones no son estratos.

La homogenidad dentro de los grupos es explotada para obtener estimaciones mejoradas via
t̂yr usando información auxiliar.

Los modelos por grupos tienen uno o más parámetros asociados con cualquier grupo; una vez
instalado un modelo por grupo se da lugar a un estimador de regresión particular.

Usualmente se habla de post-estratificación para denotar los grupos:

Ng denota el tamaño del grupo Ug . Entonces,

G
[ G
X G
[ G
X
U= Ug N= Ng S= Sg n= ng
g=1 g=1 g=1 g=1

Donde Sg = S ∩ Ug y ng es el tamaño de Sg

Veamos ahora que pasa cuando tengo un modelo de media constante para cada grupo, esto
es, para g = 1, . . . , G

(
Eξ (yk ) = βg
Vξ (yk ) = σg2

El cual es llamada modelo de media de grupo (ANOVA)


44 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

βg y σg son desconocidos para todo g = 1, . . . , G

Si los grupos son homogeneos y existen diferencias considerables esntre grupos, entonces al
modelo propuesto explotará una buena parte de la variación en y y el t̂yr será altamente
sufuciente.

Escribimos

Eξ (yk ) = δk0 β (3.4.1)


donde β = (β1 , β2 , . . . , βg , . . . , βG )
(
1, si k ∈ Ug
δgk =
0, si k ∈
/ Ug
Entonces el vector indicador de los grupos consta de G − 1 ceros y un 1, el cual identifica el
grupo al cual pertenece el individuo k.
El total poblacional de δk es un vector contador de grupo (N1 , . . . , Ng , . . . , NG )

X
δgk = NG
u

Para el modelo de razón constante de grupo se tiene que:

(
Eξ (yk ) = βg xk
Vξ (yk ) = σU2 g xk = σkg
2

y x1 , x2 , . . . , xNg > 0, Definiendo

(
xk , si k ∈ Ug
Xg k = δgk xk =
0, si k ∈ / Ug

con xk = (x1k , x2k , . . . , xgk , . . . , xGk ), entonces

E(yk ) = x0k β
Entonces se obtiene que:

P
Ug yk
βg = P
Ug x k
3.4. MODELOS QUE ENVUELVEN GRUPOS POBLACIONALES 45

de donde se sigue que:

P yk
sg π k
β̂g = P xk (3.4.2)
sg π k

En particular, para el modelo de media de grupo (xk = 1 ∀k):

P
U yk
βg = P g
U xk
P g
Ug y k
=
Ng
= ȳUg

P yk
sg
β̂g = P πk xk
sg π k
P yk
s
= P g π1k
s
P g πykk
sg π k
=
N̂g
= ȳˆsg

Entonces, se tiene que:

G
X
t̂yr = N g ȳˆsg
g=1
G
P yk
sg π k
X
= P xk (3.4.3)
g=1 sg π k

En efecto,
46 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

X
yk
πk
X s
t̂yr = xk X
xk
U πk
s
 X 
yk
G X  πk
X sg
=  xk X x 
 
U k 
g=1 g πk
sg
 X 
yk
G X  πk
X sg
=  1Xx 
 
U k 
g=1 g πk
sg
G
" #
X t̂ygπ
= Ng
g=1 N̂g

entonces,

G
X Ng
t̂yr = t̂ygπ
g=1 N̂g
G
X
= Ng ȳˆsg (3.4.4)
g=1

Es el estimador de post-estratificación para el modelo de media de grupo.

La aproximación de la varianza es:

XX Ek El
AV (t̂yr ) = ∆kl
u
πk π l

Donde Ek = yk − Ȳug , con g = 1, . . . , G

y
P
Ug yk
ȳUg =
Ng
3.4. MODELOS QUE ENVUELVEN GRUPOS POBLACIONALES 47

Con estimador:

X X ∆kl  eks   els 


V̂ (t̂yr ) = gks gls
s πkl πk πl
G
!2
X Ng X X ∆kl eks els
=
N̂g sg πkl πk πl
g=1

Ng
Con g = 1, . . . , G y gks = N̂g

Para un MAS:
Bajo un diseño de muestreo aleatoria simple (M AS) N̂g = Ng y t̂ygπ = Ng ȳsg , entonces
G
X Ng
t̂yr = t̂ygπ
g=1 N̂g
G
X
= t̂ygπ
g=1
G
X
= Ng ȳsg
g=1

La aproximación de la varianza esta dada por:

Note que: Ēu = Ēug = 0 y SE2 u = SE2 ug = Sy2ug ası́

G
N2  n  X Ng − 1 2
AV (t̂yr ) = 1− S
n N g=1 N − 1 yug

(yk − Ȳug )2
con Sy2ug = = Sy2ug
Ng − 1
y estimador,

G

N2 n
X ng −1
1− Se2sg


n N n−1




 g=1
V̂ (t̂yr ) =
G


Ng2
 X  
ng
Se2sg




 ng
1− Ng
g=1
48 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

(yk − ȳsg )2
con Se2sg =
Ng − 1

3.5. El muestreo ESTMAS


Existen varios casos para analizar
i) El estrato es idéntico al grupo

t̂yr = t̂yπ
ii) Los estratos están formados por modelos de grupos Ngh denota el tamaño en la celda
gh y los tamaños marginales son:

H
X G
X
Ng· = Ngh N·h = Ngh
h=1 g=1
↓ ↓
Elementos/grupo Elementos/estrato

G1 G2 ··· Gg ··· GG
E1 N·1 n·1
E2 N·2 n·2
.. .. ..
. β1 β2 ngh βg βG . .
Eh N·h n·h
.. .. ..
. . .
EH N·H n·H
N1· N2· ··· Ng· ··· NG·
n1· n2· ··· ng· ··· nG·

En el estrato h, n·h elementos son son muestredos de N·h .

La parte de la muestra del estrato h que corresponde al grupo g es Sgh de tamaño ngh

H
X ngh ȳsgh
G
N·h n·h
X
t̂ypos = Ng h=1H (3.5.1)
g=1
X n
N·h ngh
·h
h=1
3.5. EL MUESTREO ESTMAS 49

G
P yk
sg π k
X
t̂yr = Ng P xk
g=1 sg π k
H
X
N·h P
G n·h sgh yk
X
= Ng h=1
H
g=1
X
N·h P
n·h sgh xk
h=1
XH
ngh ỹgh
G
N·h n·h
X
= Ng h=1
H
(3.5.2)
g=1
X n x̃
N·h ghn·hgh
h=1

iii) El modelo esta dado por

G1 G2 ··· Gg ··· GG
E1 ,
E2
..
.
Eh βgh
..
.
EH


Eξ (yk ) = βgh ,
 para cada Ugh
h = 1, 2, . . . , H
 2
Vξ (yk ) = σgh g = 1, 2, . . . , G

G X
X H
t̂ypos = Ngh ỸShg (3.5.3)
g=1 h=1

iv) Arreglos Anidados: Un ejemplo es la subdivisión de un estrato en grupos que no son


necesariamente idénticas a cada estrato. En una encuesta de hogares, por ejemplo,
estratificar por tipo de hogar. Los grupos dentro de un estrato pueden entonces ser
formados por otra caracterı́stica del hogar, con un número desigual de los grupos en
los diferentes estrato.
50 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

3.6. El estimador de razón de grupo y el estimador de


razón separada
Bajo el modelo
(
Eξ (yk ) = βg xk
Vξ (yk ) = σg2 xk

se tiene que

G
X
t̂yr = txg β̂g
g=1
G P
g y̌k
X
= txg P (3.6.1)
g=1 g x̌k

P
con txg = Ug xk .

La aproximación de la varianza es
XX
AV (t̂yr ) = ∆kl Ěk Ěl
U

con Ek = yk − βg xk , y estimador
XX
V̂ (t̂yr ) = ˇ kl (gks )(ěks )(gls ěls )

s
txg
con eks = yk − β̂g xk y gks = t̂xg
∀k ∈ sg , entonces

G
!2
X txg XX
ˇ kl ěks ěls
V̂ (t̂yr ) = ∆ (3.6.2)
g=1
t̂xg sg

Para este caso t̂yr es llamado el estimador de razón post-estratificada o el estimador de razón
separada.

Si ns es pequeño, entonces β̂g puede ser sesgado para estimar a tyg .


Aunque el sesgo de un solo grupo puede ser modesto, el acumulado sobre todos los grupos
puede ser muy significativo.

Se recomienda tener por lo menos 20 observaciones por grupo.


3.6. EL ESTIMADOR DE RAZÓN DE GRUPO Y EL ESTIMADOR DE RAZÓN SEPARADA 51

3.6.1. El diseño MAS

G P
g yk
X
t̂yr = txg P
g=1 g xk
G
X ȳsg
= txg (3.6.3)
g=1
x̄sg

con
G
21 −f X
AV (t̂yr ) = N wg SE2 Ug (3.6.4)
n g=1
P
Ng −1 1 2 Ug y k
y SE2 Ug =
P
donde wg = Ug (yk − βg xk ) ; con βg =
P
N −1 Ng −1 Ug x k

con estimador
G 
x̄Ug 2 Ng2 2
X 
V̂ (t̂yr ) = (1 − f ) S (3.6.5)
g=1
x̄sg nsg esg

donde
1 X 2
eks = yk − βg xk y Se2sg = yk − β̂g xk
nsg − 1 s
g

3.6.2. El diseño ESTMAS


Para este caso se analizará el caso donde grupo es idéntico a estrato

G P
g yk
X
t̂yr = txg P
g=1 g xk
G
X ȳsg
= txg (3.6.6)
g=1
x̄sg

con
G
Ng2
 
X ng
AV (t̂yr ) = 1− SE2 Ug (3.6.7)
g=1
ng Ng
52 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

donde ng es fijado de antemano.

Observación: AV (t̂yr ) se minimiza si ng αNg SEUg .

El estimador de la varianza viene dado por


G 
x̄Ug 2 Ng2
  
X ng
V̂ (t̂yr ) = 1− Se2sg (3.6.8)
g=1
x̄ sg ng Ng

3.6.3. Estimador de regresión simple


Para el modelo (
Eξ (yk ) = α + βxk
Vξ (yk ) = σ 2
donde α, β y σ 2 son parámetros desconocidos, x1 , x2 , . . . , xN son conocidos, pero no necesa-
riamente positivos.

Se sabe que para una muestra aleatoria, los π-estimadores de α y β son:


P (xk −x̃s )(yk −ỹs )
s πk
α̂ = ỹs y β̂ = P (xk −x̃s )2
s πk

donde

t̂xπ t̂yπ
x̃s = y ỹs =
N̂ N̂
1
P
con N̂ = s πk .

También,
t̂yr = N [ỹs + β̂(x̄U − x̃s )] (3.6.9)
con
XX
AV (t̂yr ) = ∆kl Ěk Ěl
U

donde Ek = (yk − ȳU ) − β(xk − x̄U ), con estimador


XX
V̂ (t̂yr ) = ˇ kl (gks ěks )(gls ěls )

s

donde eks = (yk − ỹs ) − β̂(xk − x̃s ), y


3.6. EL ESTIMADOR DE RAZÓN DE GRUPO Y EL ESTIMADOR DE RAZÓN SEPARADA 53

N
gks = (1 + as (xk − x̃s ))

con

x̄U − x̃s 1 X (xk − x̃s )2


as = y Ŝx2s =
Ŝx2s N̂ s πk
P
además, s ěks = 0.

Bajo este esquema denotaremos el estimador dado en (3.6.9) por t̂yreg .

De (3.6.9) se deduce que

t̂yreg
ȳˆUreg = = ỹs + β̂(x̄U − x̃s ) (3.6.10)
N
con aproximación de la varianza

AV (t̂yreg )
AV (ȳˆUreg ) =
N2
y estimador

V̂ (t̂yreg )
V̂ (ȳˆUreg ) =
N2

Bajo MAS:

t̂yreg = N [ȳs + β̂(x̄U − x̄s )] (3.6.11)


Sxy
donde β̂ = Sxx
.

La aproximación de la varianza es

N2  n 2
AVM AS (t̂yreg ) = 1− SyU (1 − r2 ) (3.6.12)
n N
SxyU
donde r = SxU SyU
, el coeficiente de correlación lineal.

El estimador de la varianza es

N2  n 1 X
V̂ (t̂yreg ) = 1− [1 + as (xk − x̄s )]2 e2ks (3.6.13)
n N n−1 s
54 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

con

n(x̄U − x̄s )
eks = (yk − ȳs ) − β̂(xk − x̄s ) y as = P 2
s (xk − x̄k )
Se puede demostrar que cuando x es importante en el modelo, entonces

AVM AS (t̂yreg )
= 1 − r2 (3.6.14)
AVM AS (t̂yra )
siendo t̂yra el estimador de razón.

Se sigue que

AVM AS (t̂yreg ) ≤ AVM AS (t̂yra ) (3.6.15)


Sxy ȳU ȳU
con igualdad sı́, y solo si β = Sxx
= x̄U
, es decir, el t̂yreg es mejor que el t̂yra cuando β̂ 6= x̄U
.

Bajo ESTMAS:
El t̂yreg toma la forma

t̂yreg = N [ȳst + β̂(x̄U − x̄st )] (3.6.16)


donde
H   H  
X Nh X Nh
ȳst = ȳsh y x̄st = x̄sh
h=1
n h=1
n
y
H
X Nh X
(xk − x̄st )(yk − ȳst )
h=1
nh sh
β̂ = H
X Nh X
(xk − x̄st )2
h=1
nh sh

Este estimador es conocido como estimador de razón combinada para un modelo de regresión
en grupo, donde en cada uno de los grupos poblacionales de tamaño conocido N1 , N2 , . . . , NG
se asocia una regresión simple, el estimador de regresión toma la forma
G
X
t̂yreg = Ng [ỹsg + β̂g (x̄U g − x̄sg )] (3.6.17)
g=1

donde
3.7. ESTIMACIÓN DE UNA RAZÓN 55

P yk P xk
sg πk sg π k
ỹsg = P 1 y x̃sg = P 1
sg πk sg π k
y
X
(xk − x̃sg )(yk − ỹsg )/πk
sg
β̂g = X
(xk − x̃sg )2 /πk
sg

3.7. Estimación de una razón

ty t̂yπ
R= ⇒ R̂π =
tz t̂zπ
Para la razón R se puede proponer una estimación R̂π usando el estimador de regresión para
totales. Supongamos que los valores ajustados de la variable Y son:
ŷk = x0k β̂y
con !−1 !
X xk x 0 X xk y k
k
β̂y =
s
σk2 πk s
σk2 πk
Mientras que los valores ajustados de la variable Z son:
zk = x0k β̂z
con !−1 !
X xk x 0 X xk zk
k
β̂z =
s
σk2 πk s
σk2 πk
El estimador de la razón propuesto es:

t̂yr
R̂r = (3.7.1)
t̂zr
donde el estimador de regresión del total de la variable Y es:

X X yk − ŷk
t̂yr = ŷk +
U s
πk
X gks yk
= (3.7.2)
s
πk
56 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

y el estimador de regresión del total de la variable Z es:

X X zk − ẑk
t̂zr = ẑk +
U s
πk
X gks zk
= (3.7.3)
s
πk

En ambos casos gks es


!−1
0 X xk x0k x0k
gks = 1 + tx − t̂x
s
σk2 πk σk2
Cuando una sola variable X explica tanto a Y como a Z, se usa el estimador de razón:

t̂yra
R̂r =
t̂zra
P yk
πk
s
txU P xk
πk
s
= P zk
πk
s
txU P xk
π
s k
P yk
πk
s
=P zk
πk
s
t̂yπ
=
t̂zπ
= R̂π (3.7.4)

t̂yr
Para el estimador R̂r = t̂zr
se tiene que la aproximación de la varianza es:
1 2

AV (R̂) = AV (t̂y ra ) + R · AV (t̂z ra ) − 2R· AC( t̂y ra , t̂z ra ) (3.7.5)
t2z
donde,
 XX Eyk Ezl
AC t̂yra , t̂zra = ∆kl
U
πk π l
los errores poblacionales de la variable Y son
ty
Eyk = yk − x0k βy ; βy =
tx
3.7. ESTIMACIÓN DE UNA RAZÓN 57

con X X
ty = yk y tx = xk
U U

y los errores poblacionales de la variable Z son


tz
Ezl = zl − x0l βz ; βz =
tx
con X X
tz = zk y tx = xk
U U

La aproximación de la varianza se deja escribir de la siguiente forma:


"   #
1 X X Eyk − REzk Eyl − REzl
AV (R̂) = 2 ∆kl (3.7.6)
tz U
πk πl
y la g-ponderada varianza estimada es:
" ! !#
1 X X ∆kl eyks − R̂ezks eyls − R̂ezls
V̂ (R̂) = 2 gks gls (3.7.7)
t̂zr s
πkl πk πl
donde, los errores muestrales de la variable Y están dados por:

t̂yπ
eyks = yk − x0k β̂y ; β̂y =
t̂xπ
con X yk X xk
t̂yπ = y t̂xπ =
s
πk s
πk
y los errores muestrales de la variable Z están dados por:

t̂zπ
ezks = zk − x0k β̂z ; β̂z =
t̂xπ
con X zk X xk
t̂zπ = y t̂xπ =
s
πk s
πk
y las g-ponderancias bajo el modelo de razón es definido de la siguiente forma:
tx
gks = gls =
t̂xπ

Veamos la estimación de la razón para los siguientes casos:


58 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

3.7.1. Cuando una sola variable X explica tanto a Y como a Z


Razón - Intersecto

t̂yra
R̂r =
t̂zreg
de donde,

 P yk 
πk
s
t̂yra = tx  P xk

πk
s
!
N̂ ȳˆs
= N x̄U
N̂ x̄ˆs
ȳˆs
 
= N x̄U
x̄ˆs
P yk
1
xk , ȳˆs = 1
y x̄ˆs = N̂1 πxkk y
P P
aquı́ x̄U = N N̂ πk
U s s

 
t̂zreg = N z̄ˆs + β̂2 x̄U − x̄ˆs

(xk −x̄ˆs )(zk −z̄ˆs )


P
s
πk
β̂2 = 2
(xk −x̄ˆs )
P
s
πk
1
P zk 1
P xk
y z̄ˆs = N̂ πk
y x̄ˆs = N̂ πk
s s

Ası́, reemplazando las expresiones anteriores llegamos a que:

t̂yra
R̂r =
t̂zreg
 
ȳˆs
N x̄U ˆs

=  
N z̄ˆs + β̂2 x̄U − x̄ˆs
 
ˆ
x̄U x̄ȳˆss
=  (3.7.8)
z̄ˆs + β̂2 x̄U − x̄ˆs
3.7. ESTIMACIÓN DE UNA RAZÓN 59

Para la aproximación de la varianza tenemos que:

1
AV (t̂yra ) + R2 · AV (t̂zreg ) − 2R· AC(t̂yra , t̂zreg )

AV (R̂) = 2
(3.7.9)
tz
PP Eyk Eyl
donde, AV (t̂yra ) = U ∆kl πk πl con errores poblacionales

ty
Eyk = yk − x0k βy ; βy =
tx
y X X
ty = yk y tx = xk
U U

con estimador de varianza con las g-ponderancias


X X ∆kl  eyks

eyls

V̂ (t̂yra ) = gyks gyls (3.7.10)
s πkl πk πl
con errores muestrales
t̂yπ
eyks = yk − x0k β̂y ; β̂y =
t̂xπ
con X yk X xk
t̂yπ = y t̂xπ =
s
πk s
πk
y las g-ponderancias definidos por:
tx
gyks =
t̂xπ
XX Ezk Ezl
AV (t̂zreg ) = ∆kl
U πk πl
donde  
β1
Ezk = zk − x0k βz ; βz =
β2
con
P
U (xk − x̄U ) (zk − z̄U )
β2 = y β1 = z̄U − β2 x̄U
(xk − x̄U )2
P
U

donde x̄U y z̄U corresponden a las medias poblacionales de las variables X y Z, respectiva-
mente.

El estimado de la varianza es:


60 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

X X ∆kl  ezks

ezls

V̂ (t̂zreg ) = gzks gzls (3.7.11)
s πkl πk πl
donde  
β̂1
ezks = Zk − x0k β̂z ; β̂z =
β̂2
donde

(xk −x̄ˆs )(zk −z̄ˆs )


P
s
πk
β̂2 = 2 y β̂1 = z̄ˆs − β̂2 x̄ˆs
(xk −x̄ˆs )
P
s
πk

y las ponderaciones gzks son dadas por:


 ! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gzks = 1+ con S̄ˆx2s = (3.7.12)
N̂ S̄ˆ2xs
N̂ s πk

donde z̄ˆs = N̂1 πzkk , N̂ = π1k , x̄U = N1 xk y x̄ˆs = N̂1 πxkk


P P P P
s s U s
XX Eyk Ezl
AC(t̂yra , t̂zreg ) = ∆kl
U πk πl
donde, los errores poblacionales son:

ty
Eyk = yk − x0k βy ; βy =
tx
P P
donde ty = yk y tx = xk , y
U U
 
β1
Ezl = zl − x0l βz ; βz =
β2
con
P
(xl − x̄U ) (zl − z̄U )
U
β2 = y β1 = z̄U − β2 x̄U
(xl − x̄U )2
P
U
 PP E E
El estimador de AC t̂yra , t̂zreg = ∆kl πykk πzll es
U
X X ∆kl  eyks

ezls

ˆ
AC(t̂yra , t̂zreg ) = gyks gzls
s πkl πk πl
3.7. ESTIMACIÓN DE UNA RAZÓN 61

de donde,

t̂yπ
eyks = yk − x0k β̂y ; β̂y =
t̂xπ

y las g-ponderancias bajo el modelo de razón son:

tx
gyks =
t̂xπ

por otro lado,

 
β̂1
ezls = zl − x0l β̂z ; β̂z =
β̂2

con

(xl −x̄ˆs )(zl −z̄ˆs )


P
s
πl
β̂2 = 2 y β̂1 = z̄ˆs − β̂2 x̄ˆs
(xl −x̄ˆs )
P
s
πl

y las g-ponderancias bajo el modelo con intersecto son:

 ! 2
N x̄U − x̄ˆs xl − x̄ˆs 1 X xl − x̄ˆs
gzls = 1+ con S̄ˆx2s = (3.7.13)
N̂ S̄ˆ2 xs
N̂ s πl

1 1 1
P xk
xk y x̄ˆs =
P P
donde N̂ = πk
, x̄U = N N̂ πk
.
s U s

Luego, reemplazando cada estimado en la ecuación de varianza estimada de razón, tenemos:


62 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

1 h 
ˆ
 2
i
V̂ (R̂) = 2 V̂ t̂yra − 2R̂r AC t̂yra , t̂zreg + R̂r V̂ t̂zra
t̂zreg
1 h 
ˆ t̂yra , t̂zreg ) − R̂r AC(
ˆ t̂zreg , t̂yra ) + R̂r2 V̂ (t̂zreg )
i
= 2 V̂ t̂yra − R̂r AC(
t̂zreg
 
1 X X ∆kl ey ey ey ez
= 2 gyks ks gyls ls − R̂r gyks ks gzls ls
t̂zreg U πkl πk πl πk πl

ez ey ez ez
−R̂r gzks ks gyls ls + R̂r2 gzks ks gzls ls
πk πl πk πl
" !
1 X X ∆kl eyks gyls eyls − R̂r gzls ezls
= 2 gyks
t̂zreg U πkl πk πl
!!#
ez gyls eyls − R̂r gzls ezls
−R̂r gzks ks
πk πl
" ! !#
1 X X ∆kl gyks eyks − R̂r gzks ezks gyls eyls − R̂r gzls ezls
= 2 (3.7.14)
t̂zreg U πkl πk πl

donde los errores muestrales para Y son:

t̂yπ
eyks = yk − x0k β̂y ; β̂y =
t̂xπ
y las g-ponderancias para Y

tx
gyks =
t̂xπ
también tenemos que
 
β̂1
ezks = zk − x0k β̂z ; β̂z =
β̂2
donde,

(xl −x̄ˆs )(zl −z̄ˆs )


P
s
πl
β̂2 = 2 y β̂1 = z̄ˆs − β̂2 x̄ˆs
(xl −x̄ˆs )
P
s
πl

y las ponderaciones para Z son:


3.7. ESTIMACIÓN DE UNA RAZÓN 63

 ! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gzks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk

1 1 1
P xk
xk y x̄ˆs =
P P
donde N̂ = πk
, x̄U = N N̂ πk
.
s U s

Intersecto - Razón

t̂yreg
R̂r =
t̂zra

donde,
 
t̂yreg = N ȳˆs + β̂2 x̄U − x̄ˆs

con

(xk −x̄ˆs )(yk −ȳˆs )


P
s
πk
β̂2 = 2
(xk −x̄ˆs )
P
s
πk

1
P zk 1
P xk
y ȳˆS = N̂ πk
y x̄ˆS = N̂ πk
por otra parte,
s s

 P zk 
πk
s
t̂zra = tx  P xk

πk
s
!
N̂ z̄ˆs
= N x̄U
N̂ x̄ˆs
z̄ˆs
 
= N x̄U
x̄ˆs

1 1
P yk 1
P xk
xk , z̄ˆs = y x̄ˆs =
P
aquı́, x̄U = N N̂ πk N̂ πk
.
U s s

Ası́, al reemplazar las expresiones anteriores, se tiene que la razón estimada es:
64 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

t̂yreg
R̂r =
t̂zra
 
ˆ
N ȳs + β̂2 x̄U − x̄s ˆ
=  
N x̄U x̄z̄ˆˆss
 
ȳˆs + β̂2 x̄U − x̄ˆs
=   (3.7.15)
x̄U x̄z̄ˆˆss

Para la aproximación de la varianza de la razón estimada es dada de la siguiente forma:


1 2

AV (R̂) = AV (t̂y reg ) + R · AV (t̂z ra ) − 2R· AC( t̂y reg , t̂z ra )
t2z
donde,
PP Eyk Eyl
AV (t̂yreg ) = U ∆kl πk πl

con errores poblacionales


 
β1
Eyk = yk − x0k βy ; βy =
β2
y
P
(xk − x̄U ) (yk − ȳU )
U
β2 = y β1 = ȳU − β2 x̄U
(xk − x̄U )2
P
U
con estimador
X X ∆kl  eyks

eyls

V̂ (t̂yreg ) = gyks gyls
s πkl πk πl
donde
 
β̂1
eyks = yk − x0k β̂y ; β̂y =
β̂2
con

(x1k −x̄ˆs )(yk −ȳˆs )


P
s
πk
β̂2 = 2 y β̂1 = ȳˆs − β̂2 x̄ˆs
(x1k −x̄ˆs )
P
s
πk
3.7. ESTIMACIÓN DE UNA RAZÓN 65

y las g-ponderancias bajo un modelo con intersecto están dadas por:


 ! 2
N x̄U − x̄ˆs xk − x̄ˆs ˆ 2 1 X xk − x̄ˆs
gyks = 1+ con S̄xs = (3.7.16)
N̂ S̄ˆx2 s
N̂ s πk

PP Ezk Ezl
AV (t̂zra ) = U ∆kl πk πl

con errores poblacionales


tz
Ezk = Zk − x0k βz ; βz =
tx
con estimador
X X ∆kl  ezks

ezls

V̂ (t̂zra ) = gzks gzls
s πkl πk πl
donde los errores muestrales son

t̂zπ
ezks = zk − x0k β̂z ; β̂z =
t̂xπ
y las g-ponderancias bajo un modelo de razón son:
tx
gzks = (3.7.17)
t̂xπ
PP Eyk Ezl
AC(t̂yreg , t̂zra ) = U ∆kl πk πl

donde
 
β1
Eyk = yk − x0k βy ; βy =
β2
con
P
(xk − x̄U ) (yk − ȳU )
U
β2 = y β1 = ȳU − β2 x̄U
(xk − x̄U )2
P
U

por otra parte, se tiene que


tz
Ezl = zl − x0l βz ; βz =
tx
un estimador para
66 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

XX Eyk Ezl
AC(t̂yreg , t̂zra ) = ∆kl
U πk πl

es

X X ∆kl  eyks

ezls

ˆ t̂yreg , t̂zra ) =
AC( gyks gzls
s πkl πk πl

con

 
β̂1
eyks = yk − x0k β̂y ; β̂y =
β̂2

donde

(xk −x̄ˆs )(yk −ȳˆs )


P
s
πk
β̂2 = 2 y β̂1 = ȳˆs − β̂2 x̄ˆs
(xk −x̄ˆs )
P
s
πk

Y se tiene que las ponderaciones gyks son

 ! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gyks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk

Por otra parte, se tiene que

t̂zπ
ezls = zk − x0k β̂z ; β̂z =
t̂xπ

tx
gzls =
t̂xπ

Luego, como en el caso anterior, reemplazamos cada estimado en la ecuación de varianza de


una razón, ası́:
3.7. ESTIMACIÓN DE UNA RAZÓN 67

1 h ˆ 2
i
V̂ (R̂) = 2
V̂ (t̂ yreg ) − 2R̂r · AC(t̂yreg , t̂zra ) + R̂r · V̂ (t̂zra )
t̂zra
1 h
ˆ t̂yreg , t̂zra ) − R̂r · AC(
ˆ t̂zra , t̂yreg ) + R̂2 · V̂ (t̂zra )
i
= 2 V̂ (t̂yreg ) − R̂r · AC( r
t̂zra
X X 
1 ∆kl ey ey ey ez
= 2 gyks ks gyls ls − R̂r gyks ks gzls ls
t̂zra U πkl πk πl πk πl

ez ey ez ez
−R̂r gzks ks gyls ls + R̂r2 gzks ks gzls ls
πk πl πk πl
" !
1 X X ∆kl eyks gyls eyls − R̂r gzls ezls
= 2 gyks
t̂zra U πkl πk πl
!!#
ez gyls eyls − R̂r gzls ezls
−R̂r gzks ks
πk πl
" ! !#
1 X X ∆kl gyks eyks − R̂r gzks ezks gyls eyls − R̂r gzls ezls
= 2 (3.7.18)
t̂zra U πkl πk πl
donde
 
β̂1
eyks = yk − x0k β̂y ; β̂y =
β̂2
y las g-ponderancias bajo el modelo con intersecto están dados por:

X xk − x̄ˆs 2
 ! 
N x̄U − x̄ˆs xk − x̄ˆs 1
gyks = 1+ con S̄ˆxs =
2
(3.7.19)
N̂ ˆ
S̄ 2 N̂ πk
xs s
por otro lado, se tiene que

t̂zπ
ezks = zk − x0k β̂z ; β̂z =
t̂xπ
y las g-ponderancias bajo el modelo de razón están dadas por:
tx
gzks =
t̂xπ

Intersecto - Intersecto

t̂yreg
R̂r =
t̂zreg
68 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

donde,
 
t̂yreg = N ȳˆs + β̂2y x̄U − x̄ˆs

con

(xk −x̄ˆs )(yk −ȳˆs )


P
s
πk
β̂2y = 2
(xk −x̄ˆs )
P
s
πk

y
 
t̂zreg = N z̄ˆs + β̂2z x̄U − x̄ˆs

con

(xk −x̄ˆs )(zk −z̄ˆs )


P
s
πk
β̂2z = 2
(xk −x̄ˆs )
P
s
πk

Ası́,

t̂yreg
R̂r =
t̂zreg
 
N ȳˆs + β̂2y x̄U − x̄ˆs
=  
N z̄ˆs + β̂2z x̄U − x̄ˆs
 
ˆ ˆ
ȳs + β̂2y x̄U − x̄s
=  (3.7.20)
z̄ˆs + β̂2z x̄U − x̄ˆs

Para la aproximación de la varianza:

1 2

AV (R̂) = AV (t̂y reg ) + R · AV (t̂z reg ) − 2R· AC( t̂y reg , t̂z reg )
t2z
donde,

PP Eyk Eyl
AV (t̂yreg ) = U ∆kl πk πl
3.7. ESTIMACIÓN DE UNA RAZÓN 69

con
 
β1y
E yk = y k − x0k βy ; βy =
β2y
P
(xk − x̄U ) (yk − ȳU )
U
β2y = y β1y = ȳU − β2y x̄U
(xk − x̄U )2
P
U

con estimador
X X ∆kl  eyks

eyls

V̂ (t̂yreg ) = gyks gyls
s πkl πk πl
con
 
β̂1y
eyks = yk − x0k β̂y ; β̂y =
β̂2y
(xk −x̄ˆs )(yk −ȳˆs )
P
s
πk
β̂2y = ˆ s) 2 y β̂1y = ȳˆs − β̂2y x̄ˆs
(xk −barx
P
s
πk
 ! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gyks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk

PP Ezk Ezl
AV (t̂zreg ) = U ∆kl πk πl

con
 
β1z
Ezk = zk − x0k βz ; βz =
β2z
P
(xk − x̄U ) (zk − z̄U )
U
β2z = y β1z = z̄U − β2z x̄U
(xk − x̄U )2
P
U

con estimador
X X ∆kl  ezks

ezls

V̂ (t̂zreg ) = gzks gzls
s πkl πk πl
 
β̂1z
ezks = zk − x0k β̂z ; β̂z =
β̂2z
70 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

(xk −x̄ˆs )(zk −z̄ˆs )


P
s
πk
β̂2z = 2 y β̂1z = z̄ˆs − β̂2z x̄ˆs
(xk −x̄ˆs )
P
s
πk
 ! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gzks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk

PP Eyk Ezl
AC(t̂yreg , t̂zreg ) = U ∆kl πk πl

con
 
β1y
E yk = y k − x0k βy ; βy =
β2y
P
(xk − x̄U ) (yk − ȳU )
U
β2y = y β1y = ȳU − β2y x̄U
(xk − x̄U )2
P
U
y
 
β1z
Ezl = zl − x0l βz ; βz =
β2z
P
(xl − x̄U ) (zl − z̄U )
U
β2z = y β1z = z̄U − β2z x̄U
(xl − x̄U )2
P
U

con estimador
X X ∆kl  ey

e z

ˆ t̂yreg , t̂zreg ) =
AC( gyks ks
gzls ls

s πkl πk πl
con
 
β̂1y
eyks = yk − x0k β̂y ; β̂y =
β̂2y

(xk −x̄ˆ1s )(yk −ȳˆs )


P
s
πk
β̂2y = 2 y β̂1y = ȳˆs − β̂2y x̄ˆs
(xk −x̄ˆs )
P
s
πk
3.7. ESTIMACIÓN DE UNA RAZÓN 71

 ! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gyks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk
y
 
β̂1z
ezls = zl − x0l β̂z ; β̂z =
β̂2z
(xl −x̄ˆs )(zk −z̄ˆs )
P
s
πk
β̂2z = 2 y β̂1z = z̄ˆs − β̂2z x̄ˆs
(xl −x̄ˆs )
P
s
πk
 ! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gzls = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk

Luego

1 h 
ˆ 2
i
V̂ (R̂) = V̂ t̂yreg − 2R̂r · AC(t̂yreg , t̂zreg ) + R̂r · V̂ (t̂zreg )
t̂2zreg
1 h ˆ ˆ 2
i
= V̂ (t̂ yreg ) − R̂ r · AC( t̂yreg , t̂zra ) − R̂r · AC( t̂zreg , t̂yreg ) + R̂r · V̂ (t̂zreg )
t̂2zreg
 
1 X X ∆kl eyks eyls eyks ezls
= g y ks
g y ls
− R̂ r g y ks
g z ls
t̂2zreg U πkl πk πl πk πl

ez ey ez ez
−R̂r gzks ks gyls ls + R̂r2 gzks ks gzls ls
πk πl πk πl
" !
1 X X ∆kl eyks gyls eyls − R̂r gzls ezls
= gyks
t̂2zreg U πkl πk πl
!!#
ez gyls eyls − R̂r gzls ezls
−R̂r gzks ks
πk πl
" ! !#
1 X X ∆kl gyks eyks − R̂r gzks ezks gyls eyls − R̂r gzls ezls
=
t̂2zreg U πkl πk πl
       
1  X X g
∆kl  yks yks e − R̂ e
r zks gyls e yls − R̂ e
r zls
=   (3.7.21)
t̂2zreg U πkl πk πl

donde
72 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

 
β̂1y
eyks = yk − x0k β̂y ; β̂y =
β̂2y
(xl −x̄ˆs )(yk −ȳˆs )
P
s
πk
β̂2y = 2 y β̂1y = ȳˆs − β̂2y x̄ˆs
(xl −x̄ˆs )
P
s
πk
 ! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gyks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk
y
 
β̂1z
ezks = zk − x0k β̂z ; β̂z =
β̂2z
(xl −x̄ˆs )(zk −z̄ˆs )
P
s
πk
β̂2z = 2 y β̂1z = z̄ˆs − β̂2z x̄ˆs
(xl −x̄ˆs )
P
s
πk
 ! 2
N x̄U − x̄ˆs xk − x̄ˆs 1 X xk − x̄ˆs
gzks = 1+ con S̄ˆx2s =
N̂ S̄ˆ2 xs
N̂ s πk

3.7.2. Cuando se tienen dos variables auxiliares X1 que explica Y


y X2 que explica Z
Razón - Razón

t̂yra
R̂r =
t̂zra
donde

 P yk 
πk
s
t̂yra = tx1U  P x1k

πk
s
P yk
πk
s
= N x̄1U P x1k
πk
s
3.7. ESTIMACIÓN DE UNA RAZÓN 73

 P zk 
πk
s
t̂zra = tx2U  P x2k

πk
s
P zk
πk
s
= N x̄2U P x2k
πk
s

Ası́

t̂yra
R̂r =
t̂zra
P yk
πk
N x̄1U Ps x1k
πk
s
= P zk
πk
N x̄2U Ps x2k
πk
s

x̄1U t̂t̂xyπ

= (3.7.22)
x̄2U t̂t̂x2π

Para la aproximación de la varianza:

1 2

AV (R̂) = AV (t̂y ra ) + R · AV (t̂z ra ) − 2R· AC( t̂y ra , t̂z ra )
t2z
donde
PP Eyk Eyl
AV (t̂yra ) = U ∆kl πk πl

con
ty
Eyk = yk − x01k βy ; βy =
tx1
con estimador
X X ∆kl  eyks

eyls

V̂ (t̂yra ) = g1ks g1ls
s πkl πk πl
con
74 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
y
tx1
g1ks =
t̂x1π
 PP Ezk Ezl
AV t̂zra = U ∆kl πk πl

con
tz
Ezk = zk − x02k βz ; βz =
tx2
con estimador
X X ∆kl  ezks

ezls

V̂ (t̂zra ) = g2ks g2ls
s πkl πk πl
con

t̂zπ
ezks = zk − x02k β̂z ; β̂z =
t̂x2π
y
tx2
g2ks =
t̂x2π
PP Eyk Ezl
AC(t̂yra , t̂zra ) = U ∆kl πk πl

con
ty
Eyk = yk − x01k βy ; βy =
tx1
y
tz
Ezl = zl − x02l βz ; βz =
tx2
con estimador
X X ∆kl  ey

e z

ˆ t̂yra , t̂zra ) =
AC( g1ks ks
g2ls ls

s πkl πk πl
con
3.7. ESTIMACIÓN DE UNA RAZÓN 75

t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
tx1
g1ks =
t̂x1π
y

t̂zπ
ezls = zl − x02l β̂z ; β̂z =
t̂x2π
tx2
g2ls =
t̂x2π
Luego

1 h ˆ 2
i
V̂ (R̂) = V̂ (t̂yra ) − 2R̂r · AC(t̂yra , t̂zra ) + R̂r · V̂ (t̂zra )
t̂2zra
1 h
ˆ ˆ 2
i
= 2 V̂ (t̂yra ) − R̂r · AC(t̂yra , t̂zra ) − R̂r · AC(t̂zra , t̂yra ) + R̂r · V̂ (t̂zra )
t̂zra
X X 
1 ∆kl ey ey ey ez
= 2 g1ks ks g1ls ls − R̂r g1ks ks g2ls ls
t̂zra U πkl πk πl πk πl

ez ey ez ez
−R̂r g2ks ks g1ls ls + R̂r2 g2ks ks g2ls ls
πk πl πk πl
" !
1 X X ∆kl eyks g1ls eyls − R̂r g2ls ezls
= 2 g1ks
t̂zra U πkl πk πl
!!#
ez g1ls eyls − R̂r g2ls ezls
−R̂r g2ks ks
πk πl
" ! !#
1 X X ∆kl g1ks eyks − R̂r g2ks ezks g1ls eyls − R̂r g2ls ezls
= 2 (3.7.23)
t̂zra U πkl πk πl

donde

t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
tx1
g1ks =
t̂x1π
y
76 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

t̂zπ
ezks = zk − x02k β̂z ; β̂z =
t̂x2π

tx2
g2ks =
t̂x2π

Razón - Intersecto

t̂yr
R̂r =
t̂zreg

donde

 P yk 
πk
s
t̂yr = tx1U  P x1k

πk
s
P yk
πk
s
= N x̄1U P x1k
πk
s

 
t̂zreg = N z̄ˆs + β̂2 x̄2U − x̄ˆ2s

con

(x2k −x̄ˆ2s )(zk −z̄ˆs )


P
s
πk
β̂2 = 2
(x2k −x̄ˆ2s )
P
s
πk

Ası́
3.7. ESTIMACIÓN DE UNA RAZÓN 77

t̂yra
R̂r =
t̂zreg
P yk
πk
N x̄1U Ps x1k
πk
s
=  
N z̄ˆs + β̂2 x̄2U − x̄ˆ2s
P yk
πk
x̄1U Ps x1k
πk
s
=  (3.7.24)
z̄ˆs + β̂2 z̄2U − z̄ˆ2s

Para la aproximación de la varianza:

1
AV (t̂yra ) + R2 · AV (t̂zreg ) − 2R· AC(t̂yra , t̂zreg )

AV (R̂) = 2
tz
donde
PP Eyk Eyl
AV (t̂yra ) = U ∆kl πk πl

con

ty
Eyk = yk − x01k βy ; βy =
tx1
con estimador
X X ∆kl  eyks

eyls

V̂ (t̂yra ) = g1ks g1ls
s πkl πk πl
con

t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
y

tx1
g1ks =
t̂x1π
PP Ezk Ezl
AV (t̂zreg ) = U ∆kl πk πl
78 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

con
 
β1
Ezk = zk − x02k βz ; βz =
β2
P
(x2k − x̄2U ) (zk − z̄U )
U
β2 = y β1 = z̄U − β2 x̄2U
(x2k − x̄2U )2
P
U

con estimador
X X ∆kl  ezks

ezls

V̂ (t̂zreg ) = g2ks g2ls
s πkl πk πl
con
 
β̂1
ezks = zk − x02k β̂z ; β̂z =
β̂2
(x2k −x̄ˆ2s )(zk −z̄ˆs )
P
s
πk
β̂2 = 2 y β̂1 = z̄ˆs − β̂2 x̄ˆ2s
(x2k −x̄ˆ2s )
P
s
πk
y
 ! 2
N x̄2U − x̄ˆ2s x2k − x̄ˆ2s 1 X x2k − x̄ˆ2s
g2ks = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πk

PP Eyk Ezl
AC(t̂yra , t̂zreg ) = U ∆kl πk πl

con
ty
Eyk = yk − x01k βy ; βy =
tx1
y
 
β1
Ezl = zl − x02l βz ; βz =
β2
P
(x2l − x̄2U ) (zl − z̄U )
U
β2 = y β1 = z̄U − β2 x̄2U
(x2l − x̄2U )2
P
U

con estimador
3.7. ESTIMACIÓN DE UNA RAZÓN 79

X X ∆kl  eyks

ezls

ˆ t̂yra , t̂zreg ) =
AC( g1ks g2ls
s πkl πk πl
con

t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
tx1
g1ks =
t̂x1π
y
 
β̂1
ezls = zl − x02l β̂z ; β̂z =
β̂2
(x2l −x̄ˆ2s )(zl −z̄ˆs )
P
s
πl
β̂2 = 2 y β̂1 = z̄ˆs − β̂2 x̄ˆ2s
(x2l −x̄ˆ2s )
P
s
πl
 ! 2
N x̄2U − x̄ˆ2s x2l − x̄ˆ2s 1 X x2l − x̄ˆ2s
g2ls = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πl
Luego

1 h ˆ t̂yra , t̂zreg ) + R̂r2 · V̂ (t̂zra )


i
V̂ (R̂) = V̂ (t̂yra ) − 2R̂r · AC(
t̂2zreg
1 h ˆ ˆ 2
i
= 2 V̂ (t̂yra ) − R̂r · AC(t̂yra , t̂zreg ) − R̂r · AC(t̂zreg , t̂yra ) + R̂r · V̂ (t̂zreg )
t̂zreg
 
1 X X ∆kl ey ey ey ez
= 2 g1ks ks g1ls ls − R̂r g1ks ks g2ls ls
t̂zreg U πkl πk πl πk πl

ez ey ez ez
−R̂r g2ks ks g1ls ls + R̂r2 g2ks ks g2ls ls
πk πl πk πl
" !
1 X X ∆kl eyks g1ls eyls − R̂r g2ls ezls
= 2 g1ks
t̂zreg U πkl πk πl
!!#
ez g1ls eyls − R̂r g2ls ezls
−R̂r g2ks ks
πk πl
" ! !#
1 X X ∆kl g1ks eyks − R̂r g2ks ezks g1ls eyls − R̂r g2ls ezls
= 2 (3.7.25)
t̂zreg U πkl πk πl
80 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

donde

t̂yπ
eyks = yk − x01k β̂y ; β̂y =
t̂x1π
tx1
g1ks =
t̂x1π
y
 
β̂1
ezks = zk − x02k β̂z ; β̂z =
β̂2
 ! 2
N x̄2U − x̄ˆ2s x2k − x̄ˆ2s 1 X x2k − x̄ˆ2s
g2ks = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πk

Intersecto - Razón

t̂yreg
R̂r =
t̂zra
donde,
 
t̂yreg = N ȳˆs + β̂2 x̄1U − x̄ˆ1s
con

(x1k −x̄ˆ1s )(yk −ȳˆs )


P
s
πk
β̂2 = 2
(x1k −x̄ˆ1s )
P
s
πk
y

 P zk 
πk
s
t̂zra = tx2U  P x2k

πk
s
P zk
πk
s
= N x̄2U P x2k
πk
s

Ası́
3.7. ESTIMACIÓN DE UNA RAZÓN 81

t̂yreg
R̂r =
t̂zra
 
ˆ ˆ
N ȳs + β̂2 x̄1U − x̄1s
= P zk
πk
N x̄2U Ps x2k
πk
s
 
ȳˆs + β̂2 x̄1U − x̄ˆ1s
= P zk (3.7.26)
πk
s
x̄2U P x2k
πk
s

Para la aproximación de la varianza:


1
AV (t̂yreg ) + R2 · AV (t̂zra ) − 2R· AC(t̂yreg , t̂zra )

AV (R̂) = 2
tz
donde,
PP Eyk Eyl
AV (t̂yreg ) = U ∆kl πk πl

con
 
β1
Eyk = yk − x01k βy ; βy =
β2
P
(x1k − x̄1U ) (yk − ȳU )
U
β2 = y β1 = ȳU − β2 x̄1U
(x1k − x̄1U )2
P
U

con estimador
X X ∆kl  eyks

eyls

V̂ (t̂yreg ) = g1ks g1ls
s πkl πk πl
con
 
β̂1
eyks = yk − x01k β̂y ; β̂y =
β̂2
(x1k −x̄ˆ1s )(yk −ȳˆs )
P
s
πk
β̂2 = 2 y β̂1 = ȳˆs − β̂2 x̄ˆ1s
(x1k −x̄ˆ1s )
P
s
πk
82 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

y
 ! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk
PP Ezk Ezl
AV (t̂zra ) = U ∆kl πk πl

con
tz
Ezk = zk − x02k βz ; βz =
tx2
con estimador
X X ∆kl  ezks

ezls

V̂ (t̂zra ) = g2ks g2ls
s πkl πk πl
con

t̂zπ
ezks = zk − x02k β̂z ; β̂z =
t̂x2π
y
tx2
g2ks =
t̂x2π
PP Eyk Ezl
AC(t̂yreg , t̂zra ) = U ∆kl πk πl

con
 
β1
Eyk = yk − x01k βy ; βy =
β2
P
(x1k − x̄1U ) (yk − ȳU )
U
β2 = y β1 = ȳU − β2 x̄1U
(x1k − x̄1U )2
P
U
y
tz
Ezl = zl − x02l βz ; βz =
tx2
con estimador
X X ∆kl  eyks

ezls

ˆ t̂yreg , t̂zra ) =
AC( g1ks g2ls
s πkl πk πl
3.7. ESTIMACIÓN DE UNA RAZÓN 83

con
 
β̂1
eyks = yk − x01k β̂y ; β̂y =
β̂2

(x1k −x̄ˆ1s )(yk −ȳˆs )


P
s
πk
β̂2 = 2 y β̂1 = ȳˆs − β̂2 x̄ˆ1s
(x1k −x̄ˆ1s )
P
s
πk
 ! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk
y

t̂zπ
ezls = zk − x02k β̂z ; β̂z =
t̂x2π
tx2
g2ls =
t̂x2π
Luego,

1 h ˆ 2
i
V̂ (R̂) = V̂ (t̂yreg ) − 2R̂r · AC(t̂yreg , t̂zra ) + R̂r · V̂ (t̂zra )
t̂2zra
1 h
ˆ ˆ 2
i
= 2 V̂ (t̂yreg ) − R̂r · AC(t̂yreg , t̂zra ) − R̂r · AC(t̂zra , t̂yreg ) + R̂r · V̂ (t̂zra )
t̂zra
X X 
1 ∆kl ey ey ey ez
= 2 g1ks ks g1ls ls − R̂r g1ks ks g2ls ls
t̂zra U πkl πk πl πk πl

ez ey ez ez
−R̂r g2ks ks g1ls ls + R̂r2 g2ks ks g2ls ls
πk πl πk πl
" !
1 X X ∆kl eyks g1ls eyls − R̂r g2ls ezls
= 2 g1ks
t̂zra U πkl πk πl
!!#
ez g1ls eyls − R̂r g2ls ezls
−R̂r g2ks ks
πk πl
" ! !#
1 X X ∆kl g1ks eyks − R̂r g2ks ezks g1ls eyls − R̂r g2ls ezls
= 2 (3.7.27)
t̂zra U πkl πk πl

donde
84 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

 
β̂1
eyks = yk − x01k β̂y ; β̂y =
β̂2
 ! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk
y

t̂zπ
ezks = zk − x02k β̂z ; β̂z =
t̂x2π
tx2
g2ks =
t̂x2π

Intersecto - Intersecto

t̂yreg
R̂r =
t̂zreg
donde,
 
t̂yreg = N ȳˆs + β̂2y x̄1U − x̄ˆ1s
con

(x1k −x̄ˆ1s )(yk −ȳˆs )


P
s
πk
β̂2y = 2
(x1k −x̄ˆ1s )
P
s
πk

y
 
t̂zreg = N z̄ˆs + β̂2z x̄2U − x̄ˆ2s
con

(x2k −x̄ˆ2s )(zk −z̄ˆs )


P
s
πk
β̂2z = 2
(x2k −x̄ˆ2s )
P
s
πk

Ası́,
3.7. ESTIMACIÓN DE UNA RAZÓN 85

t̂yreg
R̂r =
t̂zreg
 
N ȳˆs + β̂2y x̄1U − x̄ˆ1s
=  
N z̄ˆs + β̂2z x̄2U − x̄ˆ2s
 
ȳˆs + β̂2y x̄1U − x̄ˆ1s
=  (3.7.28)
ˆ ˆ
z̄s + β̂2z x̄2U − x̄2s

Para la aproximación de la varianza:


1 2

AV (R̂) = AV (t̂y reg ) + R · AV (t̂z reg ) − 2R· AC( t̂y reg , t̂z reg )
t2z
donde
PP Eyk Eyl
AV (t̂yreg ) = U ∆kl πk πl

con
 
β1y
Eyk = yk − x01k βy ; βy =
β2y
P
(x1k − x̄1U ) (yk − ȳU )
U
β2y = y β1y = ȳU − β2 x̄1U
(x1k − x̄1U )2
P
U

con estimador
X X ∆kl  eyks

eyls

V̂ (t̂yreg ) = g1ks g1ls
s πkl πk πl
con
 
β̂1y
eyks = yk − x01k β̂y ; β̂y =
β̂2y
(x1k −x̄ˆ1s )(yk −ȳˆs )
P
s
πk
β̂2y = 2 y β̂1y = ȳˆs − β̂2y x̄ˆ1s
(x1k −x̄ˆ1s )
P
s
πk
y
86 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

 ! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk
PP Ezk Ezl
AV (t̂zreg ) = U ∆kl πk πl

con
 
β1z
Ezk = zk − x02k βz ; βz =
β2z
P
(x2k − x̄2U ) (zk − z̄U )
U
β2z = con β1z = z̄U − β2z x̄2U
(x2k − x̄2U )2
P
U

con estimador
X X ∆kl  ezks

ezls

V̂ (t̂zreg ) = g2ks g2ls
s πkl πk πl
con
 
β̂1z
ezks = zk − x02k β̂z ; β̂z =
β̂2z
(x2k −x̄ˆ2s )(zk −x̄ˆs )
P
s
πk
β̂2z = 2 y β̂1z = z̄ˆs − β̂2z x̄ˆ2s
(x2k −x̄ˆ2s )
P
s
πk
y
 ! 2
N x̄2U − x̄ˆ2s x2k − x̄ˆ2s 1 X x2k − x̄ˆ2s
g2ks = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πk
PP Eyk Ezl
AC(t̂yreg , t̂zreg ) = U ∆kl πk πl

con
 
β1y
Eyk = yk − x01k βy ; βy =
β2y
P
(x1k − x̄1U ) (yk − ȳU )
U
β2y = y β1y = ȳU − β2y x̄1U
(x1k − x̄1U )2
P
U
3.7. ESTIMACIÓN DE UNA RAZÓN 87

y
 
β1z
Ezl = zl − x02l βz ; βz =
β2z
P
(x2l − x̄2U ) (zl − z̄U )
U
β2z = y β1z = z̄U − β2z x̄2U
(x2l − x̄2U )2
P
U

con estimador

X X ∆kl  eyks

ezls

ˆ t̂yreg , t̂zreg ) =
AC( g1ks g2ls
s πkl πk πl
con
 
β̂1y
eyks = yk − x01k β̂y con β̂y =
β̂2y

(x1k −x̄ˆ1s )(yk −ȳˆs )


P
s
πk
β̂2y = 2 y β̂1y = ȳˆs − β̂2y x̄ˆ1s
(x1k −x̄ˆ1s )
P
s
πk

 ! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk

y
 
β̂1z
ezls = zl − x02l β̂z ; β̂z =
β̂2z

(x2l −x̄ˆ2s )(zk −z̄ˆs )


P
s
πk
β̂2z = 2 y β̂1z = z̄ˆs − β̂2z x̄ˆ2s
(x2l −x̄ˆ2s )
P
s
πk

 ! 2
N x̄2U − x̄ˆ2s x2k − x̄ˆ2s 1 X x2k − x̄ˆ2s
g2ls = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πk

Luego,
88 3. ESTIMADORES DE REGRESIÓN PARA DISEÑO DE ELEMENTOS

1 h ˆ t̂yreg , t̂zreg ) + R̂r2 · V̂ (t̂zreg )


i
V̂ (R̂) = V̂ (t̂yreg ) − 2R̂r · AC(
t̂2zreg
1 h ˆ t̂yreg , t̂zra ) − R̂r · AC(
ˆ t̂zreg , t̂yreg ) + R̂2 · V̂ (t̂zreg )
i
= 2 V̂ (t̂yreg ) − R̂r · AC( r
t̂zreg
 
1 X X ∆kl ey ey ey ez
= 2 g1ks ks g1ls ls − R̂r g1ks ks g2ls ls
t̂zreg U πkl πk πl πk πl

ez ey ez ez
−R̂r g2ks ks g1ls ls + R̂r2 g2ks ks g2ls ls
πk πl πk πl
" !
1 X X ∆kl eyks g1ls eyls − R̂r g2ls ezls
= 2 g1ks
t̂zreg U πkl πk πl
!!#
ez g1ls eyls − R̂r g2ls ezls
−R̂r g2ks ks
πk πl
" ! !#
1 X X ∆kl g1ks eyks − R̂r g2ks ezks g1ls eyls − R̂r g2ls ezls
= 2 (3.7.29)
t̂zreg U πkl πk πl

donde
 
β̂1y
eyks = yk − x01k β̂y ; β̂y =
β̂2y
 ! 2
N x̄1U − x̄ˆ1s x1k − x̄ˆ1s 1 X x1k − x̄ˆ1s
g1ks = 1+ con S̄ˆx21s =
N̂ S̄ˆ2 x1s
N̂ s πk
y
 
β̂1z
ezks = zk − x02k β̂z ; β̂z =
β̂2z
 ! 2
N x̄2U − x̄ˆ2s x2k − x̄ˆ2s 1 X x2k − x̄ˆ2s
g2ks = 1+ con S̄ˆx22s =
N̂ S̄ˆ2 x2s
N̂ s πk
Capı́tulo 4

Estimadores de regresión para


muestreo de conglomerados y
muestreo en dos etapas

Valores auxiliares asociados con individuos serán denotados por xk y aquellos asociados con
conglomerados por Ui .

Supongamos que U = (U1 , U2 , . . . , Ur , . . . , UJ ) es un vector de valores auxiliares, tomando los


valores

Ui = (U1i , U2i , . . . , Uri , . . . , UJi )


para la i-ésima UPM.

En este contexto se distinguen tres casos:

A) (UPMs auxiliares). Los valores Ui están disponibles para toda UPM, e.e, ∀i∈UJ .

B) (Elementos auxiliares completos). El vector de valores auxiliares xk es disponible para


todo x ∈ U .

C) (Elementos auxiliares limitados). El vector de valores auxiliares xk es disponible para


todo elemento en la UPM seleccionada.

Resultado 4.0.1.

En muestreo de conglomerados tyi es calculado sin error.

El caso C solo tiene sentido cuando se hace submuestreo en las UPMs seleccionadas.

89
90 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS

Se pueden combinar casos: Cuando se combina A y C se tienen valores auxiliares xk ,


∀k∈Ui y valores auxiliares Ui para todo UPM, i ∈ UI .

Se puede trabajar en el caso bietápico si:


P
A) Ui es disponible para todo conglomerado seleccionado i ∈ sI y tx = UI Ui es conocido.
P
B) xk es disponible para todo k ∈ s y tx = U xk es conocido.
P
C) xk puede ser conocido ∀k∈si y txi = Ui xk es conocido para toda UPM en sI .

4.1. Estimadores de regresión para muestreo de con-


glomerados
Consideraremos el caso A y asumamos que los NI puntos (tyi , Ui ) son descritos por el siguiente
modelo:
(
Eξ (tyi ) = Ui0 βI
2
Vξ (tyi ) = σIi
donde
−1 X
Ui Ui0
X 
Ui tyi
βI =
UI σ 2 UI σ 2
Ii Ii

Los valores ajustados para cada i ∈ UI son

t0yi = Ui0 βI
y el residuo para el i-ésimo conglomerado es:

Di = tyi − t0yi
yk yk
= t∗yi , donde t̂yiπ =
P P
Sea t̂yiπ = πk|i πk|i
el total estimado en la i-ésima UPM. (En conglo-
si si
merado se tiene t∗yi = tyi ).

Entonces,
!−1 !
X Ui U 0 X Ui t∗y
i i
β̂I = 2 2
s
π σ
Ii Ii s
π σ
Ii Ii
I I

Los valores predichos vienen dados por:


4.1. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS 91

t̂yip = Ui0 β̂I para i ∈ UI


y los residuos por:

di = t∗yi − t̂yip para i ∈ sI


Entonces el estimador de regresión para el caso A es:

X X t∗y − t̂yip
i
t̂yAr = t̂yip + (4.1.1)
U s
πIi
I I

Observación 4.1.1.
!
X t∗y X 1 X yk
i
=
sI
πIi sI
πIi si
πk|i
XX yk
=
sI si
πIi πk|i
X yk
=
s
πk
= t̂yπ

Es decir,
!0
X X Ui
t̂yAr = t̂yπ + Ui − β̂I (4.1.2)
UI sI
πIi
2
Si σIi = λUi para λ una constante y Ui > 0, ∀i∈Ui , entonces:
X di
=0
s
πIi
I

Lo que implica que


X
t̂yAr = t̂yip
UI

Usando los mismos argumentos que en el caso de elementos, se tiene que:


X t∗y
t̂yAr = gisI i
s
πIi
I

con
92 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS

!0 !−1
X X Ui X Ui U 0 Ui
i
gisI = 1 + Ui − 2 2
UI sI
πIi s
σ π
Ii Ii σIi
I

La aproximación de la varianza es:



AV t̂yAr = AVAU P M + AVAU SM
donde,
XX Di Dj
AVAU P M = ∆Iij ; con Di = tyi − Ui0 βI
UI πIi πIj
y
X Vi XX yk yl
AVAU SM = ; con Vi = ∆kl|i
UI
πIi Ui πk|i πl|i
La varianza estimada es:

V̂ t̂yAr = V̂AU P M + V̂AU SM
donde,
X X ∆Iij  di

dj
 X
1

1

2
V̂AU P M = gisI gjsI − − 1 gis V̂
I i
sI πIij πIi πIj πIij πIi
s I

con di = t∗yi − Ui0 β̂I


y
X V̂i X X ∆kl|i yk yl
2
V̂AU SM = gis 2
; con V̂i =
sI
I
πIi si πkl|i πk|i πl|i

Para el caso de conglomerados:


X
t∗yi = tyi = yk
Ui
y

Vi = Vbi = 0
Si el tamaño de muestra en la segunda etapa es aleatorio, entonces es mejor usar:

t∗yi = Ni ȳsi
con
4.2. MODELO DE RAZÓN CONSTANTE PARA TOTALES DE UPMS 93

P yk
πk|i
s
ȳsi = Pi 1
πk|i
si
y
 2 X X
Ni ∆kl|i eks els
V̂i =
N̂i si πkl|i πk|i πl|i

con

eks = yk − ȳˆs

4.2. Modelo de razón constante para totales de UPMs


Para el caso A, consideramos el siguiente modelo:
(
Eξ (tyi ) = Ui0 βI
Vξ (tyi ) = Ui0 σI2
Donde Ui > 0 , ∀i∈UI . Una pendiente común es asumida para todos los conglomerados de la
población UI .
Observación 4.2.1. En muchos casos los tyi son proporcionales a una medida de tamaño
de grupo (área, número de elementos, etc.)

X t∗yi
X sI
πIi
t̂yrA = Ui X
Ui
UI
sI
πIi
X
= Ui β̂I
UI
X
yk
con t∗yi = πk|i
= t̂yiπ
si

La aproximación de la varianza es:

AV (t̂yAr ) = AVAU P M + AVAU SM


donde,
94 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS

XX Di Dj
AVAU P M = ∆Iij
UI πIi πIj
P
tyi
con Di = tyi − βI Ui , para cada i ∈ Ui y βI = PUI
UI Ui

X Vi
AVAU SM =
UI
πIi
PP yk yl
con Vi = UI ∆kl|i πk|i πl|i

Para conglomerados t∗yi = tyi y V̂i = Vi = 0.

Con varianza estimada

V̂ (t̂yAr ) = V̂AU P M + V̂AU SM

donde,

X X ∆Iij  di

dj
 X
1

1

V̂AU P M = gisI gjsI − − 1 gij I V̂i
sI πIij πIi πIj πIi πIi
s I

XX
2 V̂i
V̂AU SM = gis 2
sI I
πIi
P
UI Ui
con di = t̂∗yi − β̂I Ui y gisI = P Ui
sI πIi

Bajo MAS-MAS:

! P t∗yi
sI πIi
X
t̂yAr = Ui β̂I ; β̂I = P Ui
UI sI πIi

nI nI (nI − 1)
como πIi = y πIij = , entonces
NI NI (NI − 1)
4.3. ESTIMADORES DE LA MEDIA POBLACIONAL DE CONGLOMERADOS 95

NI P ∗
nI sI tyi
β̂I = NI P
nI sI Ui

P
sI tyi
= P
sI Ui

ası́,
X  P t∗
s y
t̂yAr = Ui P I i
sI Ui
UI

X X ∆Iij  di

dj
 X
1

1
 X V̂ 2
2 i 2
V̂ (t̂yAr ) = gisI gjsI − − 1 gis V̂
I i
+ g
2 isI
sI πIij πIi πIj π Ii π Ii π
s s
I
Ii I

P
U Ui
con gisI = NI PI
nI sI Ui
entonces,

P !2 "  2 X #
U Ui NI2
   X
nI NI NI NI
V̂ (t̂yAr ) = NI PI 1− Sd2s − −1 V̂i + V̂i
nI sI U i
nI NI I nI nI s
n I s
I I

donde

Sd2sI = V̂ (di )
= V̂ (t∗yi − Ui β̂I )
ˆ ∗y , Ui )
= V̂ (t∗yi ) + β̂I2 V̂ (Ui ) − 2β̂I Cov(t i

4.3. Estimadores de la media poblacional de conglome-


rados
P ∗
U ty
ȳU = P I i (4.3.1)
UI Ni
t
Entonces, tomamos Ui = Ni , el modelo considerará las medias de UPM Nyii alrededor de una
media común βI , esto es, un modelo de media constante para medias de conglomerados.
96 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS

Resultado 4.3.1. En muestreo bietápico de elementos, un estimador aproximadamente in-


sesgado de ȳU es dado por:
P t∗yi
s π
ȳˆUr = P I NIii (4.3.2)
sI πIi
t∗yi
donde t∗yi = t̂yi π =
P
sI πk|i

La aproximación de varianza de ȳˆUr es:


!
1 XX Di Dj X Vi
AV (ȳˆUr ) = 2 ∆Iij + (4.3.3)
N UI πIi πIj U
πIi
I
P
yk
P
yk
Ui
∆kl|i πyk|i
k yl
PP
donde Di = Ni (ȳUi − ȳU ), ȳUi = Ni
, ȳU = U
N
y Vi = Ui πl|i
.

Aquı́ se tiene que


!
1 X X ∆Iij di dj X V̂i
V̂ (ȳˆUr ) = P 2 + (4.3.4)
Ni sI πIij πIi πIj πIi
s I
sI πIi

∆kl|i yk yl
con di = t∗yi − Ni ȳˆUr y V̂i =
PP
si πkl|i πk|i πl|i

En conglomerados

t∗yi = tyi y Vi = V̂i

Bajo MAS-MAS:

NI P ∗
nI sI tyi
ȳˆUr = NI P
nI sI Ni

P
sI tyi
=P
Ni
PsI
s Ni ȳsi
= PI
sI Ni
P
si yk
con ȳsi = ni
.
4.4. ESTIMADORES DE REGRESIÓN PARA MODELAMIENTO EN EL NIVEL DE ELEMENTOS 97

Haciendo t∗yi = Ni ȳsi , entonces


( 2 )
1 1 − fI
P
sI Ni
2
ȳ s i
− ˆ
ȳU r 1 X 
1 − f i

V (ȳˆUr ) = 2 + Ni2 Sy2si
N̄sI n I n I − 1 N n
I I s n i
I

donde N̄sI = sI Nnii .


P

4.3.1. Estimadores alternativos


Otros estimadores para ȳU son:

Propuesta 4.3.1. P tyiπ


sI πIi
ȳˆUr = P (4.3.5)
N̂i
sI πIi

1
P
con N̂i = si πk|i .

Se recomienda cuando en las UPMs, el tamaño de muestra es el de las UPMs.

Propuesta 4.3.2.
P Ni ȳˆsi
sIπ
ȳˆUr = P NIii (4.3.6)
sI πIi
1 yk
con ȳˆsi =
P
N̂i si πk|i .

Se recomienda cuando en las UPMs, el tamaño de muestra es aleatoria.

4.4. Estimadores de regresión para modelamiento en el


nivel de elementos
Casos B y C. Adoptan el modelo general:
(
Eξ (yk ) = x0k β
Vξ (yk ) = σk2
con !−1 !
X x 0 xk X xk yk
k
β=
U
σk2 U
σk2

y residuos Ek = yk − yk0 = yk − x0k β.


98 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS

[
La muestra está basada en los datos (yk , xk ) para k ∈ s, donde s = si con tamaño
P i∈sI
ns = sI ns .

β es estimado por:
!−1 !
X x0 xk X xk y k
k
β=
s
πk σk2 s
πk σk2

donde los pesos muestrales son πk = πIi πk|i .

Los valores ajustados y los residuales son:

y̌k = x̌k β̂; eks = yk − y̌k


los valores y̌k pueden ser calculados en el caso B ∀ k ∈ U , mientras que en el caso C ∀ k en el
conglomerado seleccionado. eks solo puede ser calculado (en ambos casos) para la muestra.

Ahora,

X X eks
t̂yBr = ŷk +
U
πk S
XX X 1 X yk − ŷk
= ŷk + (4.4.1)
U U s
πk s πk|i
I i I i

Para el caso C el estimador de regresión en cada UPM seleccionada es:


X X yk − ŷk
t̂yir = ŷk + (4.4.2)
Ui Si
πk|i
y

X t̂y
ir
t̂yCr =
sI
πIi
X ty X 1 X yk − ŷk
r
= +
sI
πIi sI
πIi s πk|i
i
X tŷi X yk − ŷk
= + (4.4.3)
s
π Ii s
πk
I
4.4. ESTIMADORES DE REGRESIÓN PARA MODELAMIENTO EN EL NIVEL DE ELEMENTOS 99

X
donde tŷi = ŷk .
Ui

También se puede escribir:


X gksB yk X gksC yk
t̂yBr = y t̂yCr = (4.4.4)
s
πk s
πk
con πk = πIi πk|i
!0
X X tx xk
gksB = 1 + txi − iπ
T̂−1
UI sI
πIi σk2
!0
X tx − t̂x xk
gksC = 1 + i iπ
T̂−1
s
π Ii σk2
I

La aproximación de la varianza es:

AV (t̂yCr ) = AVCU P M + AVCU SM


donde
XX tyi tyj
AVCU P M = ∆Iij
UI πIi πIj
y
X VE
i
AVCU SM =
UI
πIi
con
X
tyi = yk
Ui
y
X X ∆kl|i Ek El
VEi =
si πkl|i πk|i πl|i

con estimadores

V̂ (t̂yCr ) = V̂CU P M + V̂CU SM


donde
X X ∆Iij t̂y t̂yjπ X 1  1 

V̂CU P M = − − 1 V̂i
sI πIij πIi πIj πIi πIi
s I
100 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS

X V̂CE
i
V̂CU SM = 2
UI
πIi

con
X yk
t̂yiπ =
s
πk|i
i

X X ∆kl|i yk yl
V̂i =
si πkl|i πk|i πl|i

X X ∆kl|i gksC eks glsC eks


V̂CEi =
si πkl|i πk|i πl|i

4.4.1. Estimadores alternativos para el caso C


1.
P t̂yir
sI πIi
t̂yCr = NI P 1 (4.4.5)
sI πIi

Para el caso donde los totales por conglomerados se consideran aproximadamente cons-
tantes.

2.
P t̂yir
sI πIi
t̂∗∗
yCr =N P Ni (4.4.6)
sI πIi

X
para el caso donde N = Ni es conocido y los totales por conglomerados se conside-
UI
ran aproximadamente proporcional a Ni .

En este caso

1 ∗∗
ȳˆU = t̂ .
N yCr
4.5. MODELO DE RAZÓN CONSTANTE PARA ELEMENTOS 101

4.5. Modelo de razón constante para elementos


La pendiente de la población ajustada es:
P
yk
β = PU
xk
PU P
U U yk
= P IP i
xk
PUI Ui
U Ni ȳUi
=P I
UI Ni x̄Ui

con estimador
P yk
s πk
β̂ = P xk
s πk
P
t̂yiπ
sI πIi
=P t̂xiπ
sI πIi
P yk
con t̂yiπ = si πk|i

Para el caso bietápico bajo un modelo de razón


!
X
t̂yBr = txi β̂
UI
y
!
X tx
i
t̂yCr = β̂
s
πIi
I

Para la aproximación de varianza, caso B, utilizamos Ek = yk − βxk , k = 1, 2, ..., N .

Para el caso B y C utilizamos

eks = yk − β̂xk
P P txi
UI txi sI πIi
gksB = P t̂xi y gksC = P t̂xi
sI πIi sI πIi

Si xk = 1 ∀k, entonces t̂yBr es el estimador de la media poblacional.


102 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS

Ejemplo 4.5.1. Analizar los anteriores estimadores bajo un MAS-MAS

Caso B:
nI nI (nI −1) ni ni (ni −1)
πIi = NI
; πIij = NI (NI −1)
; πk|i = Ni
; πkl|i = Ni (Ni −1)
.
!
X
t̂yBr = txi β̂
UI

donde
P
t̂yiπ
P
sI πIi si yk
β̂ = P ; con t̂yiπ =
t̂xiπ πk|i
sI πIi
entonces

 
NI P Ni
P
nI sI ni si y k
β̂ =  
NI P Ni
P
nI sI s i xk
ni
 
Ni
P P
sI ni si y k
=P  P 
Ni
sI ni s i xk
P
s (Ni ȳsi )
=PI
sI (Ni x̄si )

Ası́

!
X
t̂yBr = txi β̂
UI
!P
s (Ni ȳsi )
X
= txi P I
UI sI (Ni x̄si )
!P
S (Ni ȳsi )
X
= Ni x̄Ui P I
U I
sI (Ni x̄si )

La aproximación de varianza es
XX tEi tEj X
AV (t̂yBr ) = ∆Iij + VEi
UI πIi πIj U I
4.5. MODELO DE RAZÓN CONSTANTE PARA ELEMENTOS 103

con

X
tEi = Ek
Ui
X
= (yk − βxk )
Ui

= Ni (ȳUi − β x̄Ui )

y
XX Ek El
VEi = ∆kl|i
si πk|i πl|i
Ası́,
 
NI nI NI X
AV (t̂yBr ) = 1− St2E + VEi
nI NI UI nI U
I

donde
 
Ni ni
VEi = 1− SE2 U
ni Ni I

con

SE2 U = Sy2U + β 2 Sx2U − 2βSxy


2
U
I I I I

1 X 2
St2E = tEi − t̄EUI
U I NI − 1 U
I

con
X 1 X
tEi = Ek y t̄EUI = tEi
Ui
NI U
I

Y varianza estimada

X X ∆Iij t̂E t̂E X 1  1  X 1


i i
V̂ (t̂yBr ) = − − 1 V̂BEi + V̂
2 BEi
sI πIij πIi πIj πIi πIi πIi
s I s I

donde
104 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS

P
eks UI txi
X
t̂Ei = gksB ; eks = yk − β̂xk ; gksB = P
sI
πk|i t̂xi
sI πIi
y
X X ∆kl|i  gksB eks   glsB eks 
V̂BEi =
si πkl|i πk|i πl|i
Ası́,
 2 X
N2
   X
nI NI NI NI
V̂ (t̂yBr ) = I 1− St̂2E − −1 V̂BEi + V̂BEi
nI NI s I nI nI s
n I s
I I

con
1 X ¯
2
St̂2E = t̂Ei − t̂EsI
s I nI − 1 s
I

donde

NI X 1 X
t̂Ei = gksB eks y t̂¯EsI = t̂Ei
nI s nI s
I I

NI2
   
2 nI
V̂BEi = gksB 1− Se2si
nI NI
con

Se2si = Sy2si + β̂ 2 Sx2si − 2β̂Sxy


2
si

Caso C:

nI nI (nI −1) ni ni (ni −1)


πIi = NI
; πIij = NI (NI −1)
; πk|i = Ni
; πkl|i = Ni (Ni −1)
.
!
NI X
t̂yCr = Ni ȳsi β̂
nI sI

donde
P
s Ni ȳsi
β̂ = P I
sI Ni x̄si

La aproximación de varianza
4.5. MODELO DE RAZÓN CONSTANTE PARA ELEMENTOS 105

AV (t̂yBr ) = AVCU P M + AVCU SM


con

N2
 
nI
AVCU P M = I 1− St2yU
nI NI I

donde

1 X 2
St2y = tyi − t̄yUI
UI NI − 1 U
I

X 1 X
tyi = yk y t̄yUI = ty
Ui
NI U
I

Ni2
 X  
NI ni
AVCU SM = 1− SE2 U i
nI Si
ni Ni

Y varianza estimada

V̂ (t̂yBr ) = V̂CU P M + V̂CU SM


donde

N2
   X
nI NI NI
V̂CU P M = I 1− St2ySI − −1 V̂i
nI NI nI nI s I

con

N2
 
ni
V̂i = i 1− Sy2si
ni Ni
y
2 X
Ni2
  
NI 2 ni
V̂CU SM = gksC 1− Se2si
nI sI
ni Ni

aquı́,
P
2 s Ni x̄Ui
gksC = PI
sI Ni x̄si
106 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS

Ejemplo 4.5.2. (Ejercicio 8.3 del Sarndal). Estimar el total de la variable M E84(= y)
para la población M U S84, usando un MAS conglomerado de tamaño nI = 20 de NI = 50
conglomerados, con T P 75(= U ) como la variable auxiliar. Use los siguientes datos
P P 2
sI tyi = 221006; sI tyi = 4869110166;

Ui2 = 799192;
P P
sI Ui = 3290; sI

Ui2 = 2338656;
P P
UI Ui = 8182; UI

P P
sI tyi Ui = 60333403; UI tyi Ui = 21473979.

Consideremos el siguiente modelo para el caso A


(
Eξ (yk ) = βUi
Vξ (yk ) = σ 2 Ui

entonces,

P
s tyi
β̂ = P I
sI Ui
221006
=
3290
= 67.175

X 
t̂yAr = Ui β
UI
= 8182(67.175)
= 549626.5

P
U Ui
gsi A = NI PI
nI sI Ui
8182
= 50
20
(3290)
= 1.243
4.5. MODELO DE RAZÓN CONSTANTE PARA ELEMENTOS 107

NI2
    X
nI 1 X X 
gs2i A
V̂ (t̂yAr ) = 1− 2
ty + β̂ 2 2
Ui − 2β̂ tyi Ui
nI NI nI − 1 sI i sI sI
 2  
2 50 20 1
= (1.243) 1− 4869110166 + (67.175)2 (799192)
20 50 20 − 1
−2(67.175)(60333403))
= 1190754874


1190754874
Cve = × 100 = 6.278 %
549626.5
108 4. ESTIMADORES DE REGRESIÓN PARA MUESTREO DE CONGLOMERADOS Y MUESTREO EN DOS ETAPAS
Capı́tulo 5

Muestro en dos fases

Figura 5.1: pendiente

5.1. Notaciones
La primera fase sa de tamaño na (nsa ), se toma de acuerdo con un diseño de muestreo Pa (·)
tal que Pa (sa ) es la probabilidad de que sa se escogida. La correspondientes probabilidades
de inclusión son:
X
πak = Pa (sa ); k∈U (5.1.1)
sa 3k

y
X
πakl = Pa (sa ); k, l ∈ U (5.1.2)
sa 3k,l

En la segunda fase, dada la muestra sa , la muestra s de la segunda fase de tamaño n (ns ),


es seleccionada por el diseño P (· | sa ) tal que P (s | sa ) es la probabilidad de escoger s de sa .

Bajo este esquema:


X
πk|sa = P (s | sa ) (5.1.3)
s3k
X
πk,l|sa = P (s | sa ) (5.1.4)
s3k,l

109
110 5. MUESTRO EN DOS FASES

X
Recuerde que πk = P (s)
s3k
X
Ahora, P (s) = Pa (sa )P (s | sa )
sa 3s

XX
πk = Pa (sa )P (s | sa )
s3k sa 3s
 
X X
= Pa (sa )  P (s | sa )

sa 3U s3sa
s3k
X
= Pa (sa )πk|sa (5.1.5)
sa 3k

X
Como el π-estimador no es una opción para estimar el total ty = yk , entonces se está a la
U
búsqueda de un estimador insesgado que use las ponderaciones (pesos) de una manera más
práctica. Para este fin, sea

X X yk
y̌ak = (5.1.6)
sa s
πak
a

Si yak y πak se conocieras para todo k ∈ sa , entonces se podrı́a X usar el π-estimador para
estimar ty , con yk conocido solo para k ∈ s. Sin embargo, dada sa , y̌ak es insesgadamente
sa
estimado por el π-estimador condicional

X y̌ak X yk
= (5.1.7)
s
πk|sa s
πak πk|sa

Este estimador solo necesita los πk|sa de la muestra de la primera fase sa . Introduciendo la
cantidad

πk∗ = πak πk|sa

Se nota que el peso asignado a cada yk es π1∗ , entonces la última sumatoria es obtenida de los
k
“πk∗ expandidos” yk de la muestra de la segunda fase. Denotamos los y-valores π ∗ expandidos
por:
5.2. EL π ∗ -ESTIMADOR 111

y̌ak
y̌ˇk =
πk|sa
yk
=
πak πk|sa
yk
= ∗
πk

donde ˇ es una doble expansión, la expresión


X y̌ak X yk
= (5.1.8)
s
πk|sa s
πak πk|sa

es llamado el πk∗ -estimador y es denotado por t̂π∗ , es decir,


X yk X
t̂π∗ = = y̌ˇk (5.1.9)
s
πk∗ s

Raras veces el t̂π∗ coincide con t̂π , dado que por lo general πk 6= πk∗

5.2. El π ∗-estimador
Sea


πkl = πakl πkl|sa

∆akl = πakl − πak πal

∆kl|sa = πkl|sa − πk|sa πl|sa


El error del estimador del π ∗ -estimador se puede expresar como:
! !
X X X X
t̂π∗ − t = y̌ak − yk + y̌ˇk − y̌ak (5.2.1)
sa U S sa
| {z } | {z }
Qsa Rs

donde Qsa y Rs son el error de primera y segunda fase respectivamente.


X
Resultado 5.2.1. En muestreo en dos fases, el total poblacional t = yk es estimado
U
insesgadamente por:
112 5. MUESTRO EN DOS FASES

X
t̂π∗ = y̌ˇk
s
X yk
=
s
πk∗

La varianza del π ∗ -estimador viene dada por


XX hX X i
V (t̂π∗ ) = ∆akl y̌ak y̌al + Epa ∆kl|sa y̌ˇk y̌ˇl
U sa
yk yk
donde y̌ak = πak
, y̌ˇk = πk∗
y las cantidades ∆ son como las definimos anteriormente.

Un estimador insesgado de la varianza es


X X ∆akl X X ∆kl|sa
V̂ (t̂π∗ ) = y̌ y̌
ak al + y̌ˇk y̌ˇl
s π∗ s πkl|sa
kl

donde cada parte es insesgada para su contraparte en V (t̂π∗ ).

Demostración. Veamos que es un estimador insesgado

i) E(t̂π∗ ) = ty

E(t̂π∗ ) = Epa E(t̂π∗ | sa)


!
X y̌ak
= Epa E | sa
s
π k|sa
" #
X  y̌ak
= Epa E Iak | sa
π k|sa
" sa #
X y̌ak
= Epa E(Iak | sa)
π k|sa
" sa #
X y̌ak
= Epa πk|sa
π k|sa
" sa #
X yk
= Epa
sa
πak
X
= yk
U
= ty
5.2. EL π ∗ -ESTIMADOR 113

ii) V (t̂π∗ ) = Vpa E(t̂π∗ | sa) + Epa V (t̂π∗ | sa)

donde,

XX
Vpa E(t̂π∗ | sa) = V (Qsa ) = ∆akl y̌ak y̌al
U

y
hX X i
Epa V (t̂π∗ | sa) = Epa V (Rs | sa) = Epa ∆kl|sa y̌ˇk y̌ˇl
sa

dado que
! !
X X X X
t̂π∗ − t = y̌ak − yk + y̌ˇk − y̌ak
sa U S sa

Ahora:

X X  X X 
∆akl ∆akl
E y̌ak y̌al = Epa y̌ak y̌al
s π∗ sa πakl
kl
XX
= ∆akl y̌ak y̌al
U
= Vpa E(t̂π∗ | sa)

De igual forma:

X X 
∆kl|sa X X 
E ˇ ˇ
y̌k y̌l = Epa ˇ ˇ
∆kl|sa y̌k y̌l
s πkl|sa sa

= Epa V (Rs | sa)


= Epa V (t̂π∗ | sa)

Ası́,

E[V̂ (t̂π∗ )] = V (t̂π∗ )


114 5. MUESTRO EN DOS FASES

5.3. Muestreo en dos fases para estratificación


1. En la primera fase una gran muestra sa de tamaño na es seleccionada de acuerdo a
un diseño Pa (·). La información recolectada para la muestra sa es tal que permite una
estratificación.

2. A partir de sa se forman Hsa estratos denotados sah (h = 1, 2, . . . , Hsa ) con nah ele-
mentos en el estrato (h), ası́
H sa Hsa
[ X
sa = sah y nsa = nah
h=1 h=1

3. Del estrato h se selecciona una muestra sh (sh ⊂ sah ) de tamaño nh de acuerdo al diseño
Ph (· | sa ). Los submuestreos para cada estrato son llevados de una forma independiente,
ası́ la muestra final sera:
H sa Hsa
[ X
s= sh y ns = nh
h=1 h=1

Resultado 5.3.1. En muestreo en dos fases para estratificación


H sa
X X
t̂π∗ = y̌ˇk (5.3.1)
h=1 sh

con " Hs #
XX Xa X
V (t̂π∗ ) = ∆akl y̌ak y̌al + EPa ∆kl|sa y̌ˇk y̌ˇl (5.3.2)
U
h=1 sah

donde
yk yk
y̌ak = y y̌ˇk = ∗ ,
πak π
con estimador insesgado
H sa
X X ∆akl X X ∆kl|sa
V̂ (t̂π∗ ) = y̌ ak y̌al + y̌ˇk y̌ˇl (5.3.3)
s π∗ π kl|s
kl h=1 s a
h

donde cada componente es insesgado para su contraparte en V (t̂π∗ )


Ejemplo 5.3.1. Usando el resultado 5.3.1, donde la primera fase es un diseño general, y la
segunda fase es un ESTMAS. Entonces,
nh
πk|sa = = fh para k ∈ sah
nah
5.3. MUESTREO EN DOS FASES PARA ESTRATIFICACIÓN 115

y


 fh para k = l ∈ sah



h −1
πkl|sa = fh nnah −1
para k ∈ sah , l ∈ sah , k 6= l




f h f h0 para k ∈ sah , l ∈ sah0 , h 6= h0

El π ∗ -estimador es

Hsa
X X
t̂π∗ = y̌ˇk
h=1 sh
Hsa
X X yk
=
h=1 s
πk∗
h
Hsa
XX yk
=
h=1 sh
πak πk|sa
Hsa
X nah X yk
=
h=1
nh s πak
h
Hsa
X nah X
= y̌ak
h=1
nh sh
Hsa
X
= nah y̌¯sh
h=1

La varianza se puede escribir como


H sa
!
XX X n2ah
V (t̂π∗ ) = ∆akl y̌ak y̌al + EPa (1 − fh ) Sy̌2s
U
h=1
nh ah

yk
donde Sy̌2s es la varianza en el estrato h de los valores expandidos y̌ak = πak
, es decir,
ah

1 X
Sy̌2s = (y̌ak − y̌¯sah )2
ah nah − 1 s
ah

con X y̌ak
y̌¯ =
s
nah
ah

con estimador
116 5. MUESTRO EN DOS FASES

Hsa
X X ∆akl X n2ah
V̂ (t̂π∗ ) = y̌ y̌
ak al + (1 − fh ) Sy̌2s
s π∗ n h h
kl h=1

donde πkl = πakl πkl|sa y
1 X
Sy̌2s = (y̌ak − y̌¯sh )2
h nh − 1 s
h
P yk
con y̌¯sh = n1h y̌ak = 1
P
nh πak
sh sh

Ejemplo 5.3.2. Usando el resultado 5.3.1, tomando en la primera fase un diseño MAS, y
la segunda fase un ESTMAS. Tenemos,

Sea fa = nNa la fracción de la primera fase de muestreo, wah = nnaha


el tamaño relativo del
nh
estrato h y fh = nah la fracción de la segunda fase de muestreo en el estrato h.

El π ∗ -estimador es

Hsa
X X
t̂π∗ = y̌ˇk
h=1 sh
Hsa
X X yk
=
h=1 s
πk∗
h
Hsa
XX yk
=
h=1 sh
πak πk|sa
Hsa
X nah X yk
=
h=1
nh s πak
h
Hsa
X
=N wah ȳsh
h=1
= N ȳˆU

La varianza es
Hsa
!
N2 X
2 1 − fh 2
V (t̂π∗ ) = (1 − fa ) Sy2U + EM AS N 2
wah Sys
n nh ah
|a {z } | h=1
{z }
V1
V2
5.4. ESTIMADORES DE DIFERENCIA 117

donde Sy2U y Sy2s denotan las varianzas de y en U y en sah .


ah

Entonces V̂ (t̂π∗ ) = V̂1 + V̂2 , donde


" Hs H sa
#
N2 Xa n a
X 2
wah (1 − δh ) Sy2s +

V̂1 = (1 − fa ) wah ȳsh − ȳˆU
na h na−1
h=1 h=1
y
Hsa
2
X
2 1 − fh 2
V̂2 = N wah Sys
h=1
nh h

ası́,
H sa  Hs
wah Sy2s N (N − na ) Xa

X nah − 1 nh − 1 2
V̂ (t̂π∗ ) = N (N − 1) − h
+ wah ȳsh − ȳˆU
h=1
na − 1 N −1 nh na − 1 h=1

1 na −nah
donde nh ≥ 2 y δh = nh na −1
.
nah −1 .
Cuando N >> na y na −1
= wah , entonces
Hsa 2 2 Hs
. 2 X wah Sysh N 2 Xa 2
V̂ (t̂ ) = N
π∗ + wah ȳsh − ȳˆU
h=1
nh na h=1

5.4. Estimadores de diferencia


Sean xk (disponible para k ∈ sa ) y x1k (disponible para k ∈ U ) variables predictoras. Supon-
gase las relaciones lineales
. 0
yk = xk A = yk0
y
. 0 0
yk = x1k A1 = y1k
donde A (de dimensión J) y A1 ( de dimension J1 ) son vectores conocidos. Aquı́ yk0 y y1k
0

pueden ser llamados valores sustitutos para el elemento k. Sean las diferencias
.
Dk = yk − yk0
y
. 0
D1k = yk − y1k
definidas para k ∈ U . Consideremos:
118 5. MUESTRO EN DOS FASES

X X yk − y 0 X X D1k
0 1k 0
y1k + = y1k +
U s
πak U s
πak
a a

y
X y0 X yk − y 0 X y 0 X Dk
k k k
+ = +
s
πak s
πk∗ s
πak s
πk∗
a a

utilizando estas dos diferencias, se obtiene el estimador:

X X y0 − y0 X yk − y 0
0 k 1k k
t̂dif = y1k + +
U sa
πak s
πk∗
X X D1k − Dk X Dk
0
= y1k + +
U sa
πak s
πk∗
P
el cual es un estimador insesgado de t = yk ; teniendo en cuenta que el error de este
U
estimador es: ! !
X D1k X X Dk X Dk
t̂dif − t = − D1k + −
sa
πak U s
πk∗ sa
πak
se tiene que
D1k D1l hX X i
ˇ
∆kl|sa ϡk Ď
XX
V (t̂dif ) = ∆akl + EPa l
U πak πal sa

donde ϡk = Dk
πk∗
, con estimador insesgado
X X ∆akl D1k D1l X X ∆kl|sa ˇ ˇ
V̂ (t̂dif ) = + Ďk Ďl ]
s π ∗ πak πal s πkl|sa
kl

donde cada componente es insesgada para su contraparte en V (t̂dif )

Este estimador también se puede usar cuando solo se tiene una fuente de información

Caso 1:
xk es usada en el diseño muestral para la segunda fase
0 0
xk = (x1k , x2k ) = x1k

aquı́
yk = yk0 y Dk = D1k
5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 119

Ası́,
X X yk − y 0
0 1k
t̂dif 1 = y1k +
U s
πk∗

Caso 2:

0 0
xk = (x1k , x2k ) = x2k
X y0 X yk − y 0
k k
t̂dif 2 = + ∗
s
π ak s
π k
a

con varianza
yk yl hX X i
ˇ
∆kl|sa ϡk Ď
XX
V (t̂dif 2 ) = ∆akl + EPa l
U πak πal sa

con estimador insesgado


X X ∆akl yk yl X X ∆kl|sa ˇ ˇ
V̂ (t̂dif 2 ) = ∗
+ Ďk Ďl
s π
kl πak πal
s πkl|sa

5.5. Estimadores de regresión para muestreo en dos fa-


ses
Sea x1k conocido ∀k ∈ U y sea x2k valores obtenidos en sa entonces para k ∈ Sa , se tiene
0 0
x’k = (x1k , x2k ) se debe recordar que yk solo se tiene para k ∈ s, entonces el vector completo
0 0
(x1k , x2k ) no puede usarse para predicción. De acuerdo a los resultados encontrados para el
estimador de diferencia se sugiere el estimador de regresión
X X yˆk − yˆ1k X yk − yˆk
t̂r = yk + +
U s
πak s
πk∗
a

donde ŷ1k y ŷk son valores predichos obtenidos del apropiado ajuste de regresión.

Especifiquemos ahora las predicciones en las dos fases de muestreo:

5.5.1. Segunda fase


Aquı́ ŷk será calculado para k ∈ sa y está basado en el vector predictor xk disponible para
k ∈ sa . Un modelo, denotado ξ, describe los puntos dispersos (yk , xk ) en la población finita
en el siguiente camino,
120 5. MUESTRO EN DOS FASES

( 0
Eξ (yk ) = xk β
Vξ (yk ) = σk2
Si los yk -valores fuesen conocidos para todo el conjunto sa , un estimador de β al nivel de sa
es dado por
!−1 !
X xk x0 X xk y k
k
βs a = 2
s
σk kπ s
σk2 πk
a a
0
con residuales Ek = yk − xk βsa , para k ∈ sa .

Como yk solo se conoce para k ∈ s, entonces se obtiene el estimador


!−1 !
X xk x 0 X xk y k
k
β̂s =
s
σk2 πk∗ s
σk2 πk∗
a

0
en ese caso ŷk = xk β̂s , para k ∈ sa y los residuales eks = yk − ŷk , para k ∈ s.

5.5.2. Primera fase


Aquı́ ŷ1k es calculado para k ∈ U . Introducimos un nuevo modelo para capturar la información
disponible de los puntos (yk , x1k ), k = 1, 2, . . . , N . Este nuevo modelo asume:
( 0
Eξ (yk ) = x1k β1
2
Vξ (yk ) = σ1k
en este caso
!−1 !
X x1k x0 X x1k yk
1k
β1 = 2 2
U
σ1k U
σ1k
0
con residuales E1k = yk − x1k β1 .

En este caso el estimador de β1 serı́a:


!−1 !
X x1k x0 X x1k yk
βˆ1 = 2
1k
2
sa
σ1k πak s
σ1k πak
a

el cual no se puede calcular.

Entonces se propone el estimador


5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 121

!−1 !
X x1k x0 X x1k yk
1k
β̂1s = 2 ∗ 2 ∗
s
σ1k πk s
σ1k πk
0
las predicciones quedan dadas por ŷ1k = x1k β̂1s y los residuales eks = yk − ŷ1k .

El estimador resultante no es insesgado, pero si aproximadamente insesgado (dependiendo


del tamaño de muestra).

Se define:
!0 !−1
X xk X xk X xk x0 xk
k
gks = 1 + − , k∈s
sa
πak s
πk∗ s
σ 2 ∗
π
k k σk2
y
!0 !−1
X X x1k X x1k x0 x1k
1k
g1ksa = 1 + x1k − 2
, k ∈ sa
U s
πak sa
σ1k πak σk2
a

Entonces, se puede demostrar que


hX X i
∆kl|sa ̡k ̡l
XX
AV (t̂r ) = ∆akl Ě1k Ě1l + EPa
U sa

con estimador
X X ∆akl e1ks e1ls X X ∆kl|sa eks els
V̂ (t̂r ) = ∗
g1ksa g 1lsa π + gks ∗ gls ∗
s π πak πal s πkl|sa πk πl
kl

los g-pesos en las dos fases cumplen que


X gks x0 X x0
k k
=
S
πk∗ sa
πak
y
X g1ks x0 X 0
a 1k
= x1k
s
π ak
U
a

5.5.3. Casos especiales


Caso 1:
0 0 0 0
xk = (x1k , x2k ) = x1k (no se tiene variable auxiliar para k ∈ sa ).
Entonces asumiendo que σk2 = σ1k 2
, se sigue que ŷk = ŷ1k de donde se tiene que
122 5. MUESTRO EN DOS FASES

X X yk − ŷ1k
t̂r1 = ŷ1k +
U s
πk∗

Para AV y V̂ se toma xk = x1k en la expresión para Ek , eks y gks .

Caso 2:
0 0 0 0
xk = (x1k , x2k ) = x2k para k ∈ sa .
Aquı́ se obtiene:
X ŷk X yk − ŷk
t̂r2 = +
s
πak s
πk∗
a

con
hX X i
∆kl|sa ̡k ̡l
XX
AV (t̂r2 ) = ∆akl y̌ak y̌al + EPa
U sa

y estimador
X X ∆akl X X ∆kl|sa eks els
V̂ (t̂r2 ) = ∗
y̌ˇak y̌ˇal + gks ∗ gls ∗
s π s πkl|sa πk πl
kl

Ejemplo 5.5.1. Asumamos el modelo


(
Eξ (yk ) = βxk
Vξ (yk ) = σ 2 xk
entonces,

y̌ˇk
P
ŷk = β̂s xk y β̂s = P s
ˇ
s x̌k
P
x̌ak xk
eks = yk − β̂s xk y gks = Psa ; x̌ak =
ˇ
s x̌k πak
entonces,

!P
X y̌ˇk
t̂r2 = x̌ak P s
ˇ
s x̌k
sa
!
X
= x̌ak β̂s
sa
5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 123

Bajo MAS en la primera fase (na de N ) y MAS en la segunda fase (n de na ), entonces


ȳs
t̂r2 = N x̄sa
x̄s
con
2 2
na  Sy2s
 
2

2 n x̄sa Ses
V̂ (t̂r2 ) = N 1− +N 1−
N na na x̄s n
donde
2
Se2s

1 X ȳs
= yk − xk
n n−1 s x̄s
y
1 X
Sy2s = (yk − ȳs )2
n−1 s

Ejemplo 5.5.2. Asumamos ahora que


(
Eξ1 (yk ) = β1
Vξ1 (yk ) = σ12
es decir, x1k = 1 ∀k ∈ U

t̂r = (N − N̂πa )ỹs + t̂r2


1
P  P
con t̂r2 = sa x̌ak β̂s y N̂πa = sa πak ;

y̌ˇk
P
ỹs = P s 1
s πk∗

Bajo MAS en la primera fase

t̂r = t̂r2
aquı́,

ȳˆU r = x̌sa β̂s


P xk
sa πk
con x̌s = 1 ,
πak

además,
N
e1ks = yk − ȳˆU r , g1ks =
N̂πa
124 5. MUESTRO EN DOS FASES

Ejemplo 5.5.3. Hallar t̂r2 , V̂ (t̂r2 ) y Cve con los siguientes resultados:

N = 2000, na = 400, n = 10, txa = 6000

xk : 10 14 12 8 15 12 10 9 12 10
yk : 18 30 20 18 30 25 20 18 24 20
entonces,
ȳs
β̂s =
x̄s
22.3
=
11.2
= 1.9910

ȳs
t̂r2 = N x̄sa
x̄s
6000
= 2000 (1.9910)
400
= 59732.14

eks = yk − β̂s xk
= −1.9107 2.125 − 3.8928 ··· 0.1071 0.0892

Sy2s = 22.23 y Se2s = 3.2099

2 2
na  Sy2s
 
2

2 n x̄sa Ses
V̂ (t̂r2 ) = N 1 − +N 1−
N na na x̄s n
    2
2 400 22.23 2 10 15 3.2099
= 2000 1 − + 2000 1 −
2000 400 400 11.2 10
= 2423319


2423319
Cve = × 100 = 2.6 %
59732.14
5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 125

Ejemplo 5.5.4. Suponga que para una población de N individuos se usa la estrategia bifásica
donde en la primera fase se seleccionan n1 elementos con MAS y en en la segunda fase
se utiliza un diseño PPT, donde se seleccionan n elementos proporcionales a una variable
auxiliar x.
1. Demuestre que:
n n1
N x 0 X yi 0
X
t̂y = ; con x = xi .
n1 n i=1 xi i=1

2. Demuestre que:
N − n1 2 N n1 − 1
V (t̂y ) = N SyU + Vp (y)
n1 n − 1 nn1
donde: 2
X xi  y i
Vp (y) = − ty .
U
tx xi /tX

3. Proponga un estimador insesgado de la varianza del estimador.


Solución:
n1
1. Demostración. Para poder hallar t̂y , partamos de que π1i = para un MAS y
n1
N
xi X
pi|s1 = 0 , con x0 = xi y s1 la muestra en la primera fase. Luego por definición:
x i=1

y̌1i yi
y̌ˇi = =
pi|s1 π1i Pi|s1

De este modo, se tiene que:


n
1 X yi
t̂y =
n i=1 π1i pi|s1
n
1 X yi
=
n i=1 nN1 xxi0
n
N x0 X y i
=
n1 n i=1 xi

Por tanto: n
N x0 X y i
t̂y =
n1 n i=1 xi
126 5. MUESTRO EN DOS FASES

2. Demostración. Por definición la varianza para la estrategia en dos fases planteada,


viene dada por:
" 2 #
N2 1 X X

XX yi yj
∆1kl y̌1k y̌1l + EM AS pi p j −
U n21 n S i<j pi pj
1
| {z }
V1 | {z }
V2

Para V1 se define:

n1

 N
si k = l ∈ s1
π1kl =
n1 n1 −1
si k 6= l; k, l ∈ s1

N N −1
y

n1 n1

1− k = l ∈ s1

 N N
si
∆1kl =
−n1 )
− nN12(N si k 6= l; k, l ∈ s1

(N −1)

De esta forma:

X XX
2
V1 = ∆1kl y̌1k + ∆1kl y̌1k y̌1l
U k6=l U
X y2 XX y1k y1l
= ∆1kl 1k
2
+ ∆1kl
U
π1kk6=l U
π1k π1kl
 XX
N  n1  X 2 N N − n1
= 1− y − yk yl
n1 N U k n1 N (N − 1) k6=l U
 !2 
N  n1  X N − n1  X X
= 1− yk2 − yk − yk2 
n1 N U n1 (N − 1) U U
  !2
N  n1  N − n1 X 2 N − n1 X
= 1− + yk − yk
n1 N n1 (N − 1) U n1 (N − 1) U
  !2
N (N − n1 ) X 2 N − n1 X
= y − yk
n1 (N − 1) U k n1 (N − 1) U
 !2 
N − n1  X X
= N yk2 − yk 
n1 (N − 1) U U
5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 127

 !2 
N − n1 N  X 1 X
= · yk2 − yk 
n1 N −1 U N U
" #
N − n1 N X
= · yk2 − N ȳU2
n1 N −1 U
N − n1 2
=N SyU
n1

Para V2 , veamos lo siguiente:


!
1 X yi
VP P T (t̂y ) = VP P T
n s π1i pi|s1
!
N2 1 X yi
= 2 VP P T
n1 n s pi|s1
2
N2 1 X

yi
= 2 p1i − t1y
n1 n i∈S p1i
1

2
 2
N 1 XX yi yj
= 2 p1i p1j −
n1 n S i<j p1i p1j
1

De esta forma, usando la forma alternativa de la varianza del diseño de muestreo P P T


se tiene que:

2 !
N2 1 X X

yi yj
EM AS (VP P T (t̂y )) = EM AS p1i p1j −
n21 n S i<j p1i p1j
1
2 !
2

N 1 X X yi yj
= EM AS 2
p1i p1j − Ii Ij
n1 n U i<j p1i p1j
2
N2 1 X X

yi yj
= 2 p1i p1j − EM AS (Ii Ij )
n1 n U i<j p1i p1j
2
N 2 n1 (n1 − 1) 1 X X

yi yj
= 2 p1i p1j −
n1 N (N − 1) n U i<j p1i p1j
 2
N (n1 − 1) 1 X yi
= p1i − ty
(N − 1)n1 n U p1i
128 5. MUESTRO EN DOS FASES

 2
N n 1 − 1 X xi yi
= − ty
N − 1 nn1 U tx xi /tx
N n1 − 1
= Vp (y)
N − 1 nn1

Por tanto,
N − n1 2 N n1 − 1
V (t̂y ) = V1 + V2 = N SyU + Vp (y)
n1 n − 1 nn1

3. Se deja para el lector.

Ejemplo 5.5.5. Mediante una muestra aleatoria simple grande y barata de tamaño 374 de
las casas de un distrito, se observa que 272 estaban ocupadas por familias de raza blanca y
82 por otras razas. Una segunda muestra de aproximadamente una de cada cuatro casas dio
los siguientes resultados respecto de la proporción de las casas de alquiler:

En alquiler Total
Blancos 31 74
Otros 4 18

Estimar las proporción de las casas en alquiler, e.e


ˆ y Cve.

Solución: Se tiene un muestreo bifásico donde la muestra de la primera fase de tamaño


na = 374 se distribuye entre los dos estratos con na1 = 272 y na2 = 82.

Para la segunda fase se tiene para cada estrato la siguiente información:

Estrato I → Raza blanca

n1 = 74
ŵa1 = nna1a = 272
374
31
P̂1 = 74

Estrato II → Otras razas

n2 = 18
ŵa2 = nna2a = 82
374
5.5. ESTIMADORES DE REGRESIÓN PARA MUESTREO EN DOS FASES 129

4
P̂1 = 18

Ası́, tenemos que el estimador de la proporción es

2
X
P̂ = Ŵh P̂h
h=1
272 31 82 4
= × + ×
374 74 372 18
= 0.376

La estimación de la varianza de la proporción es

   

!
na  X P̂ h 1 P̂ h Ŵh 1 X   2
V̂ (P̂ ) = Ŵh2 − + Ŵh P̂h − P̂ 
na − 1 h nh − 1 na na h
" 2 ! 2 !#
374 31 31 272 4 4 82
   
74
1 − 74 272 1 − 82
= − 374 + 18 18
− 374
373 73 374 374 17 374 374
"  2   2 #
1 272 31 82 4
+ − 0.376 + − 0.378
374 374 74 374 18
≈ 0.0025

luego,

e.e
ˆ = 0.0025 = 0.05
y
0.05
Cve = × 100 = 13.3 %
0.375
130 5. MUESTRO EN DOS FASES
Capı́tulo 6

Dispersión espacial de una población

La distribución espacial de una población tiene relación con la distribución espacial de los
individuos en la población.

Cambios temporales en la dispersión suelen ocurrir y diferentes escenarios de la misma espe-


cie frecuentemente presentan diferentes patrones de dispersión.

Este tipo de situación ocasiona distintos efectos en el análisis sobre las muestras e incluso
puede ocasionar cambios en los programas de muestreo. Este importante aspecto deja entre-
ver que la dispersión presente en una población es de gran importancia práctica.

Los individuos de una población pueden seguir tres tipos de distribución espacial:

Una distribución aleatoria.

Una distribución regular (baja dispersión, distribución uniforme, o igualmente distri-


buida).

Una distribución contagiosa (sobre dispersión, o distribución de conglomerados, o dis-


tribución agregada).

Figura 6.1: pendiente

Una serie poisson es un modelo apropiado para una distribución aleatoria, y la binomial
positiva es un modelo aproximado para una distribución regular. La binomial negativa fre-
cuentemente se usa para distribuciones contagiosas o agregadas, sin embargo es solo uno de
los posibles modelos.

131
132 6. DISPERSIÓN ESPACIAL DE UNA POBLACIÓN

Definición 6.0.1 (Distribución aleatoria). Es la primera hipótesis a ser considerada, en esta


distribución hay igual probabilidad de que un individuo ocupe cualquier punto de un área y
su presencia no influye en la presencia de otro individuo cercano. Este modelo es adecuado
para poblaciones de baja densidad.

Definición 6.0.2 (Distribución regular). En este tipo de distribuciones los individuos están
relativamente confinados y apuntados uno del otro, lo caracteriza el espaciamiento uniforme
de los individuos en la población, y en una perfecta distribución regular los individuos equi-
distan de cada otro.
Comportamientos territoriales frecuentemente producen espaciamientos uniformes de indivi-
duos. Una distribución regular raramente describe la dispersión de una población sobre un
área grande, pero a veces describe la dispersión sedimentaria de especies en un área pequeña
la distribución de los individuos dentro de un conglomerado.

Definición 6.0.3 (Distribución contagiosa). Rara vez la distribución de la población es alea-


toria o regular, sino más bien frecuentemente es contagiosa, con σ 2 > µ. En esta distribución
siempre hay definidas agregaciones o manchas de individuos, sin embargo, el patrón final varı́a
considerablemente. El patrón final de dispersión depende de los tamaños de las agregaciones,
la distancia entre las agregaciones, la distribución entre las agregaciones, y la distribución
espacial de los individuos entre las agregaciones. Un patrón común se debe a manchas de
alta densidad sobre una base general de baja densidad (muchos grupos de pocos individuos,
muchas manchas en un área vistos desde arriba (avión)).
Diferentes especies usualmente muestran diferentes distribuciones de contagio dentro del mis-
mo hábitat, y el patrón de dispersión de una especie puede variar dentro de una pequeña
área.

6.1. Pautas básicas para un programa de muestreo


Antes de implementar un programa de muestreo en un estudio sobre una población biológica,
tenga en cuenta dos aspectos:

La definición de los objetivos

El área que se desea muestrear

La frecuencia del muestreo usualmente depende de los objetivos del estudio. Las muestras
pueden ser tomadas a intervalos semanas en estudios detallados de la historia de vida, o solo
una vez al año en algunos estudios generales (Forestarias).

Frecuentemente este tipo de investigación son investigaciones extensivas de Flora y Fauna o


estudios cuantitativos extensivos.
6.1. PAUTAS BÁSICAS PARA UN PROGRAMA DE MUESTREO 133

6.1.1. Estudios de Flora y Fauna


El objetivo principal en este tipo de estudio es describir que especies están presentes, estimar
la abundancia relativa de cada especie en diferentes estaciones en una muestra aérea.

La muestra en cada estación debe cubrir una gran área. El tamaño de la muestra depende
de la diversidad y dispersión de la fauna y flora en la estación.

6.1.2. Estudios cuantitativos


El objetivo principal es estimar el número por unidad de área de cada especie (fauna o flora),
y por tanto se pueden hacer comparaciones cuantitativas.
Las principales consideraciones son:

La dimensión de la unidad de muestreo

El tamaño de la muestra

La localización de las unidades en el área.

6.1.3. Diseños muestrales


Algunos de los diseños muestrales clásicos pueden ser usados para la selección de las unidades
de estudio. Aquı́ el π-estimador con diseños con igual probabilidad o probabilidad desigual
son de gran aplicabilidad, sobre todo el segundo caso. El p-estimador también es un diseño
muy apetecido en una variedad de estudios.

Ejemplo 6.1.1. Conteo de animales, especı́ficamente de grandes mamı́feros en hábitat abier-


to, donde todos los animales de las especies dentro de una distancia prescrita de la ruta de
un avión son contados, la forma del área de estudio por lo general son irregulares, lo que
ocasiona que las franjas a recorrer sean de longitudes variables.

Ası́, se pueden seleccionar unidades de franjas con probabilidad a su longitud, seleccionando


aleatoriamente n puntos en un mapa de la región de estudio e incluyendo en la muestra cual-
quier franja que contenga al punto seleccionado (en este caso, si una franja contiene más de
uno de los puntos seleccionados, ésta es seleccionada varias veces).

En un muestreo con reemplazamiento, el estimador de Horvitz-Thompson se obtiene por

πk = 1 − (1 − pk )m ,
Ai
pi = AT
.
134 6. DISPERSIÓN ESPACIAL DE UNA POBLACIÓN

La probabilidad de selección de una franja es el producto de su longitud por su ancho, dividida


entre el área de la región.

Considere un área de estudio de 100km2 particionada en franjas de un km pero de longitud


variable. Una muestra de n = 4 franjas es seleccionada, los resultados son dados a continua-
ción (la primera unidad salió seleccionada dos veces).

yi longitud pi
60 5 0.05
60 5 0.05
14 2 0.02
1 1 0.01

n
1 X yki
t̂yp =
n i=1 pki
 
1 60 60 14 1
= + + +
4 0.05 0.05 0.02 0.01
= 800 animales

n  2
1 X yki
V̂ (t̂yp ) = − t̂yp
n(n − 1) i=1 pki
" 2  2 #
1 60 1
= − 800 + · · · + − 800
4(3) 0.05 0.01
= 68.333

q
V̂ (t̂yp )
Cve = × 100
t̂yp
= 32.67 %

El π-estimador también puede ser usado recordando que

πk = 1 − (1 − pk )n y πkl = πk − πl − [1 − (1 − pk − pl )n ]
entonces, π1 = 0.1854, π2 = 0.0776 y π3 = 0.0394.
6.1. PAUTAS BÁSICAS PARA UN PROGRAMA DE MUESTREO 135

Aquı́ solo se toman los elementos diferentes

X yk
t̂yπ =
s πk
60 14 1
= + +
0.1854 0.0776 0.0394

= 529 animales

También, π12 = 0.0112, π13 = 0.0056 y π13 = 0.0023.

X X ∆kl yk yl
V̂ (t̂yπ ) =
U πkl πk πl
X  1 − πk 2 X X  πkl − πk πl  yk yl
2
= yk +
s πk2 k6=l πk πl πkl
  n  
X 1 1 2
XX 1 1
= 2
− y k + 2 − yk yl
s π k πk k=1 i>k
π k πl π kl
   
1 1 2 1 1
= − (60) + − (14)2
0.18552 0.1855 0.07762 0.0776
   
1 1 2 1 1
+ − (1) + 2 − (60)(14)
0.03942 0.0394 (0.1855)(0.0766) 0.0112
   
1 1 1 1
+2 − (60)(1) + 2 − (14)(1)
(0.1855)(0.0394) 0.0056 (0.0766)(0.0394) 0.0023
= 74538


⇒ e.e
ˆ = 74538

= 273 animales

273
⇒ Cve = × 100
529
= 51.60 %
136 6. DISPERSIÓN ESPACIAL DE UNA POBLACIÓN
Capı́tulo 7

Muestreo de redes (network)

Enfermedades raras
1. Se seleccionan centros médicos que tengan relación con enfermedades de este tipo
(MAS). Dentro de estos se toman aquellas personas que tengan enfermedades raras.

Una persona tuvo cita en varios centros médicos.

2. Bajo la misma situación que se va a estudiar que no es muy común, se van a seleccionar
hogares. Se observan todas las personas adultas con la enfermedad y a su vez de otros
familiares de otros hogares diferentes (primer grado de consanguinidad), es decir, una
persona que tenga muchos hermanos tiene más probabilidad de estar en la muestra.

Diseños como los ilustrados anteriormente están referidos a un muestreo de redes o muestreo
de multiplicidad. El muestreo de redes , una muestra aleatoria simple o estratificada de uni-
dades seleccionadas y todas las unidades observadas que están vinculadas a cualquiera de las
unidades seleccionadas son incluidas u observadas.

La multiplicidad de una persona en el número de unidades seleccionadas, al cual una persona


está ligada. Definiendo una red como un conjunto de unidades de observación, con un patrón
de vinculación dada, esta puede estar ligada con más de una unidad seleccionada (hermanos
que viven en más de un hogar), y una simple unidad seleccionada puede estar ligada por más
de una red (ningún hermano comparte un hogar). Si la población de unidades seleccionadas
es estratificada, una red puede estratificar más de un estrato.

El estimador propuesto para la estimación del total para estos casos es llamado estimador
de multiplicidad, este es semejante al estimador de Hansen-Hurwitz tal y como lo veremos a
continuación.

137
138 7. MUESTREO DE REDES (NETWORK)

El diseño de muestreo de redes no fue propuesto para aumentar la eficiencia sino porque estas
situaciones son inevitables en el muestreo (un paciente tiene registros en más de un centro
medico).
Desarrollos teóricos posteriores muestran el potencial de este estimador para obtener varian-
zas estimadas más bajas que los procedimientos tradicionales y para incrementar el rendi-
miento del estudio, esto es el número de total de individuos en la muestra con la enfermedad
u otra caracterı́stica.

Algunas notaciones
yi : Valor de la variable de interés para la i-ésima unidad observada

N : Número de unidades de observación en la población

M : Número de unidades de selección en la población


N
X ty
ty = yk y µ = ȳu =
i=1
M
Sea mi la multiplicidad de la i-ésima unidad observacional, esto es, el número de unidades
seleccionadas para la cual esa unidad unidad observacional está incluida.
Consideremos un diseño de muestreo en el cual una muestra aleatoria simple sin reemplazo
de n unidades seleccionadas es obtenida y toda unidad observacional vinculada a cualquier
unidad de observación obtenida es incluida en la muestra.

7.1. Estimador de multiplicidad


La probabilidad de selección de extracción en extracción pi para la i-ésima unidad de obser-
vación es la probabilidad de que una de las que cualesquiera ni unidades de selección a la
que está ligada está elegida, esta es
mi
pi = (7.1.1)
M

1 X yi
t̂m =
n i∈s pi
M X yi
= (7.1.2)
n i∈s
mi

En el cual s es la secuencia de unidades de observación, incluyendo las selecciones repetidas.


7.1. ESTIMADOR DE MULTIPLICIDAD 139

R: Número de veces que la i-ésima unidad de observación es seleccionada

E(R) = npi

Definamos:

Aj : Conjunto de unidades de observación vinculadas con la unidad seleccionada j.


n X yi n X
[ X yi
s= Aj0 y =
j=1 i∈s
pi i=1 Aj
pi

entonces, llamando
X yi
wj = (7.1.3)
Aj
pi

se tiene que

n
MX
t̂m = wj
n j=1
= M w̄ (7.1.4)

con varianza

M (M − n) 2
V (t̂m ) = sw
n
M2  n 2
= 1− σw (7.1.5)
n M
y estimador

M2  n 2
V̂ (t̂m ) = 1− s (7.1.6)
n M w
donde
M M
1 X 1 X
σw2 = (wj − w̄)2 ; w̄u = wj (7.1.7)
M − 1 j=1 M j=1
y
n n
1 X 1X
s2w = (wj − w̄)2 ; w̄s = wj (7.1.8)
n − 1 j=1 n j=1
140 7. MUESTREO DE REDES (NETWORK)

entonces,

t̂m V (t̂m ) V̂ (t̂m )


µ̂m = ; V (µ̂m ) = y V (µ̂m ) =
M M2 M2

7.2. Estimador de Horvitz-Thompson


La probabilidad de que la i-ésima observación esté incluida en la muestra es la probabilidad
que una o más ni unidades de selección a la cual está ligada es seleccionada.
Como las probabilidades de inclusión son idénticas para todas las unidades de observación
de una red, el problema puede ser simplificado cambiando la notación en términos de redes
más que en unidades de observación individual.

Recuerde que una red está compuesta por todas las unidades de observación que tiene la
misma configuración de vı́nculos. Entonces particionando la población en k redes, indexadas
por 1, 2, 3, . . . , k y llamando:

yk∗ : Total de valores de la variable respuesta (y) sobre las unidades de


observación en la k-ésima red.

m∗k : Multiplicidad común para cualquier unidad de observación dentro


de la red.

Entonces:

M − m∗k : Número de unidades que no están ligadas con la k-ésima red.

M −m∗k

n
M
 : Probabilidad de selección de una muestra de n unidades de selección
n no ligadas con la k-ésima red.

M −m∗k

n
πk = 1 − M
 (7.2.1)
n

También, definiendo:

m∗kl
: Número de unidades de selección que están vinculadas a las redes
k y l.
M −m∗ −m∗ +m∗

k l lk
n
M
 : probabilidad de selección de una muestra de n unidades de obser-
n vación no ligadas con las redes k y l.
7.2. ESTIMADOR DE HORVITZ-THOMPSON 141

M −m∗k −m∗l +m∗lk



n
πkl = πk + πl − 1 + M
 (7.2.2)
n
El estimador de Horvitz-Thompson del total poblacional es
k
X yk∗
t̂π = (7.2.3)
k=1
πk
con varianza
K   K X 
X 1 − πk X πkl − πk πl
V (t̂π ) = yk∗ 2 + yk∗ yl∗ (7.2.4)
k=1
πk k=1 k6=l
πk πl

y estimador

k  k X
πkl − πk πl y ∗ y ∗
 
X 1 − πk X
V̂ (t̂π ) = yk∗ 2 + k l

k=1
πk2 k=1 k6=l
πk πl
πkl
k   k X 
X 1 1 ∗2
X 1 1
= 2
− yk + − yk∗ yl∗ (7.2.5)
k=1
π k π k
k=1 k6=l
π k π l π kl

Ejemplo 7.2.1. Se realizó un estudio para analizar una muestra de una enfermedad, para
esto se seleccionó una muestra aleatoria simple de 100 hogares, los residentes adultos de los
hogares seleccionados informan de sus hermanos en la ciudad como de ellos mismos. Los ho-
gares son las unidades de selección, mientras que los adultos son las unidades de observación
y la variable respuesta yk es codificada como 1 si la persona tiene la enfermedad y 0 en caso
contrario.

Se estima que en la ciudad existen 5 mil hogares, en 97 de los 100 hogares las personas
no tenı́an hermanos o no tenı́an la enfermedad, solamente se encontraron 3 personas con
la enfermedad y/o con hermanos, por lo tanto inicialmente se analizarán estos 3 hogares o
unidades de selección.

En la muestra del hogar 1 viven 2 adultos, los cuales son un hombre y una mujer. El hombre
tiene viviendo en la ciudad a 1 hermano, la persona seleccionada no tiene la enfermedad,
pero su hermano si. Estos conforman la red 1 con multiplicidad 2.
La mujer tiene dos hermanos, ella tiene la enfermedad, uno de los hermano tiene la enfer-
medad, pero el otro no. Estos 3 hermanos conforman la red 2 de multiplicidad 3.
El hogar del hermano de la mujer que no tiene la enfermedad, también salió seleccionado en
la muestra (hogar 2). En este hogar también vive un cuñado, quien no tiene la enfermedad y
142 7. MUESTREO DE REDES (NETWORK)

que no tiene hermanos. Estos conforman la red 3 de multiplicidad 1.


En el hogar 3 vive un adulto, quien tiene la enfermedad y no tiene hermanos en la ciudad,
conformando la red 4 de multiplicidad 1.

Figura 7.1: pendiente


X yi
Entonces, para calcular el estimador de multiplicidad, encontramos wj = .
i∈A
mi
j

Hogar 1 Hogar 2 Hogar 3


 
 y1 = 0  y5 = 0 
H −→ ; m1 = 2 H −→ y3 = 1 ; m1 = 2 H −→ y7 = 1 ; m4 = 1
y2 = 1 y4 = 1
 


 y3 = 0 
M −→ y4 = 1 ; m2 = 3 H −→ y 6 = 0 ; m3 = 1
y5 = 0

entonces,

1 2 7
w1 = 2
+ 3
= 6

2 0 2
w2 = 3
+ 1
= 3

1
w3 = 1
=1

wj = 0, para el resto.

De la ecuación (7.1.4) tenemos

 
5000 7 2
t̂m = + + 1 + 0 + ··· + 0
100 6 3
= 5000(0.02833)
= 141.7

La media de la muestra de las w-variables es 0.02833 y la varianza es s2w = 0.02753. La


varianza estimada del estimador dado por la ecuación (7.1.6) es
7.2. ESTIMADOR DE HORVITZ-THOMPSON 143

50002
 
100
V̂ (t̂m ) = 1− (0.02753)
100 5000
= 6745

y el error estándar estimado es 82 aproximadamente.

Para el estimador de Horvitz-Thompson, las cuatro primeras redes de las distintas muestras
tienen totales y1∗ = 1, y2∗ = 2, y3∗ = 0,y y4∗ = 1.

De la ecuación (7.2.1) las probabilidades de inclusión son:


5000−2

100
π1 = 1 − 5000
 = 0.039603
100
5000−3

100
π2 = 1 − 5000
 = 0.058819
100
5000−1

100
π3 = 1 − 5000
 = 0.02 = π4
100

De la ecuación (7.2.3) la estimación del total de enfermos es

1 2 0 1
t̂π = + + + + 0 + ··· + 0
0.039603 0.058819 0.02 0.02
= 109.3

De la ecuación (7.2.2) las probabilidades de inclusión conjunta relevantes son:


5000−2−3+1

100
π12 = 0.039603 + 0.058819 − 1 + 5000
 = 0.020769
100
5000−2−1

100
π14 = 0.039603 + 0.02 − 1 + 5000
 = 0.0007844
100
5000−3−1

100
π24 = 0.0588195 + 0.02 − 1 + 5000
 = 0.0011651
100

La varianza estimada dada por la ecuación (7.2.5), es


144 7. MUESTREO DE REDES (NETWORK)

     
1 1 2 1 1 2 1 1
V̂ (t̂π ) = − (1) + − (2) + −
0.0396032 0.039603 0.05881952 0.0588195 0.022 0.02
   
1 1 1 1
+2 − (2) + −
0.039603(0.0588195) 0.020769 0.039603(0.02) 0.0007844
 
1 1
+ − (2)
0.05819(0.02) 0.0011651
= 5617

Con un error estándar estimado de 75.


Capı́tulo 8

Estimación de tamaño poblacional

Existen diferentes procedimientos para estimar el tamaño y caracterı́sticas de las poblaciones


biológicas. A continuación se describen algunos métodos que se basan en la división del
ámbito que contiene la población en pequeñas áreas regulares, por cuadricula, triangulación,
etc, y mediante el empleo de lı́neas transversales y de procedimientos de captura, marcado y
recaptura.

8.1. Estimación por captura y recaptura

Suponga que se desea estimar N, la cantidad de animales en una población, (por ejemplo
peces): se atrapan n1 animales, se marcan y luego se sueltan, permitiendo que los marcados
y no marcados se mezclen, luego se extrae una segunda muestra en forma independiente de
tamaño n2 , de tal forma que el p % de los n2 están marcados, luego se tiene que bajo el
supuesto que la población no ha cambiado entre ambas muestras y que la recolección pro-
porciona una muestra aleatoria simple de la población, se estima que el p % de la población
están marcados y que por lo tanto n1 , marcados en la primera muestra, representa el p % de
la población, entonces

Se estima N como:

n1 −→ p % 100×n1
⇒x=
x −→ 100 p%

145
146 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

100 × n1
N̂ =
p%
100 × n1
=
100 × nm2
n1 × n2
=
m

Este método tiene varios supuestos

1. La población en cerrada: ningún elemento ha salido o entrado a la población (N es la


misma en ambas soluciones).

2. Cada individuo es una muestra aleatoria simple de la población.

3. Las dos muestras son independientes, es decir, que la probabilidad de que un pez sea
capturado en la segunda muestra es independiente (no depende) de su historia de
captura.

4. Los individuos marcados no pierde su marca.


n
X
Suponiendo un modelo de razón constante, entonces para ty = N = yi , donde yi = 1 para
i=1
cada i ∈ U y definiendo

1 Si el i-ésimo individuo está marcado
xi =
0 Caso contrario
N
X
Entonces, t̂yr = tx β̂, donde tx = xi = n1 y
i=1
ȳ n2
β̂ = =
x̄ m
Luego,

n2 n1 n2
N̂ = t̂yr = n1 =
m m
(Esta estimación coincide con la estimación de máxima verosimilitud). Se sigue entonces que
(ignorando la correción para poblaciones finitas):
8.1. ESTIMACIÓN POR CAPTURA Y RECAPTURA 147

V̂ (N̂ ) = t2x V̂ (β̂)


 n n 2 n − m
1 2 2
=
m m(n2 − 1)
n2 n2 n2 − m n2
= 12
m m n2 − 1
2
n n2 (n2 − m)
= 1
m3
2 m
n21 n2 (1 − n2 )
= 2
m m
Dado que N̂ es un estimador sesgado, cuando los tamaños de muestras son pequeños el sesgo
puede ser más grande y además es posible que la segunda muestra no contenga individuos
marcados, haciendo infinita la estimación. En este caso se propone el estimador (menos sesgo)

(n1 + 1)(n2 + 1)
Ñ = −1 (8.1.1)
m+1
Con el estimador de la varianza (Seber 1970)

(n1 + 1)(n2 + 1)(n1 − m)(n2 − m)


V̂ (Ñ ) = (8.1.2)
(m + 1)2 (m + 2)
q
Para estos estimadores no se recomienda estimar I.C(100(1−α) %) clásicos (θ̂ ±z 1− α
2
V̂ (θ̂))
para ninguno de los dos estimadores (N̂ y Ñ ) dado que estos exigen normalidad (o ≈ N (0, 1))
para N̂ o Ñ y esta aproximación a la normal puede no ser adecuada en estos casos, sobre todo
para muestras pequeñas. En estos casos de recomienda usar intervalos bootstrap (métodos
de remuestreo).
Ejemplo 8.1.1 (Captura y recaptura). Para estimar la cantidad de peces de un lago (N ) se
atrapan 200 peces del lago, se mancan y luego se sueltan de tal forma que se dejan un tiempo
considerable para que los marcados y el resto de los del lago se mezclen. Posteriormente se
seleccionan aleatoriamente 100 peces de lago y se encuentra que 20 de ellos están marcados, es
decir que se estima que 20 % son marcados. Bajo el supuesto que la población no ha cambiado,
entonces se tiene que n1 = 200, n2 = 100 y m = 20 de donde

n1 n2
t̂y =
m
200(100)
=
20
= 1000 peces
148 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

con

 
m
n21 1− n2
V̂ (t̂y ) =
m2 m
20

200 1002 1 − 100
2
=
202 20
100 (100 − 20)
= 100
20
2
100 (80)
=
20
= 40000

entonces,
√ 200
e.e
ˆ = 40000 = 200 y Cve = × 100 = 20 %
1000

8.2. Tablas de contingencia para experimentos con cap-


tura y recaptura
Fienberg (1972) sugiere que los datos de captura y recaptura se vean en una tabla de con-
tingencia incompleta. En general, si xij es la cifra observada en la celda (i, j), la tabla de
contingencia se ve como sigue:

¿Está en la segunda muestra?


Sı́ No
¿Está en la Sı́ x11 (= m) x12 x1+ (= n1 )
primera muestra? No x21 x∗22 x∗2+
x+1 (= n2 ) x∗+2 x∗++

El asterisco que no se observa esa celda. Las cifras esperadas son:

¿Está en la segunda muestra?


Sı́ No
¿Está en la Sı́ m11 m12 m1+
primera muestra? No m21 m∗22 m∗2+
m+1 m∗+2 m∗++ = N

para estimar las cifras esperadas usarı́amos m̂11 = x11 , m̂12 = x12 y m̂21 = x21 . Si la presencia
en la primera muestra es independiente de la presencia en la muestra segunda muestra,
8.2. TABLAS DE CONTINGENCIA PARA EXPERIMENTOS CON CAPTURA Y RECAPTURA 149

entonces las posibilidades de estar en la segunda muestra son las mismas para los individuos
m11 m12
marcados y los que no: = . En consecuencia, bajo la independencia, en la celda con
m21 m22
el individuo no incluido en cualquiera de las muestras es:

m̂12 m̂21
m̂22 =
m̂11
x12 x21
= ,
x11
y

N̂ = m̂11 + m̂12 + m̂21 + m̂22


x+1 x1+
= .
x11

Se calcula la estimación de N̂ con base a la hipótesis de que las dos muestras son indepen-
dientes; pero esa hipótesis no se puede verificar debido a que sólo se observan tres de las
cuatro celdas de la tabla de contingencias.

Ejemplo 8.2.1. Supongamos que se quiere estimas N , la cantidad de peces en un lago. Se


lleva a cabo el siguiente método: se atrapan y se marcan 200 peces del lago y se sueltan.
Permitimos que los marcados se mezclen con los demás peces del lago, luego, se extrae una
segunda muestra independiente de 100 peces. 20 de la segunda muestra están marcados, en-
tonces suponiendo que la población no ha cambiado durante el proceso de recolección de ambas
muestras. De este modo, se tiene que: Para estimar los valores faltantes y N , tenemos que:

¿Está en la segunda muestra?


Sı́ No
¿Está en la Sı́ 20 180 200
primera muestra? No 80 ? ?
100 ? N

m̂12 m̂21 x12 x21 180 × 80


m̂22 = = = = 720
m̂11 x11 20
y
x+1 x1+ 100 × 200
N̂ = = = 1000
x11 20
Por tanto:
150 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

¿Está en la segunda muestra?


Sı́ No
¿Está en la Sı́ 20 180 200
primera muestra? No 80 720 800
100 900 N̂ = 1000

8.3. Estimación con varias recapturas


Las hipótesis para la estimación por captura y recaptura con dos muestras, son fuertes:

1. La población debe ser cerrada.

2. Las dos muestras aleatorias deben ser independientes.

Además, estas hipótesis no se pueden probar, ya que solo se observan tres de las cuatro
celdas de la tabla de contingencia; son necesarias las cuatro para probar la independencia
de las muestras. Es posible ajustar modelos más complicados si se extraen K > 2 muestras
aleatorias y en particular si se hace uso de distintos tipos de marcas para los individuos
capturados en las diversas muestras.

Schnabel (1938) analizó la forma de estimar N al extraer K muestras y determinó que la


estimación de máxima verosimilitud de N es la solución de
N N
X (ni − ri ) Mi X
= ri ,
i=1
N − Mi i=1

donde:

ni es el tamaño de la muestra i.

ri es la cantidad de individuos recapturados en la muestra i.

Mi es el número de peces marcados al extraer la muestra i.

Si se usan marcas individuales, se puede analizar también aspecto de la inmigración y emi-


gración de la población y probar algunas de las hipótesis de independencia.

Se utiliza el siguiente ejemplo para dar idea de lo que se trata hacer en esta sección.

Ejemplo 8.3.1. Domingo-Salvany et al (1995), usaron captura y recaptura para estimar la


frecuencia de adicción al opio en Barcelona, España. Uno de sus conjuntos de datos consistı́a
de tres muestras (K = 3) de 1989:
8.3. ESTIMACIÓN CON VARIAS RECAPTURAS 151

1. Adictos al opio de las salas de urgencia, lista E.

2. Personas que iniciaron tratamiento contra el opio en 1989, del sistema de información
sobre uso de drogas en Cataluña, lista T.

3. Muertos por sobredosis registradas en el forense en 1989, lista D.

Habı́a un total de 2864 personas distintas en las tres listas. Los integrantes de las tres listas
se compararon en los siguientes resultados:

¿Está en la lista D?
Sı́ No
¿Está en la lista T? ¿Está en la lista T?
Sı́ No Sı́ No
¿Está en Sı́ 6 27 314 1728
la lista E? No 8 69 712 ?

No es claro que estos datos cumplan las hipótesis para el método de captura y recaptura con
dos muestras. Como hay más de dos muestras, podemos evaluar las hipótesis de independencia
mediante modelos Log-lineales; sin embargo hay una hipótesis que nunca podremos probar:
La celda faltante sigue el mismo modelo que el resto de los datos.
Si se extraen tres muestras las cifras esperadas son:

¿Está en la muestra 3?
Sı́ No
¿Está en la muestra 2? ¿Está en la muestra 2?
Sı́ No Sı́ No
¿Está en la Sı́ m111 m121 m112 m122
muestra 1? No m211 m∗221 m∗212 m∗222

El modelo Log-lineal saturado para tres muestras es:

ln (mijk ) = µ + αi + βj + γk + (αβ)ij + (αγ)ik + (βγ)jk + (αβγ)ijk

Pero, no se puede ajustar este modelo, debido a que requiere ocho grados de libertad y solo
hay siete celdas. Aun ası́, se pueden ajustar los siguientes modelos donde α se refiere a lista
E (muestra 1), β se refiere a lista T (muestra 2) y γ se refiere a lista D (muestra 3).

1. Completa independencia:

ln (mijk ) = µ + αi + βj + γk
152 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

Este modelo implica que la presencia en cualquiera de la listas es independiente de


la presencia en cualquiera de las otras listas. Siempre debe adaptarse en la captura y
recaptura con dos muestras.

2. Una lista es independiente de las otras dos:

ln (mijk ) = µ + αi + βj + γk + (αβ)ij

La presencia de la lista E (muestra 1) se relaciona con la probabilidad de que alguien esté


en la lista T (muestra 2), pero la presencia de la lista D (muestra 3) es independiente
de la presencia de las otras listas. De este modelo hay tres versiones; las otras dos
sustituyen (αγ)ik o (βγ)jk en vez de (αβ)ij .

3. Dos muestras son independientes dada la tercera:

ln (mijk ) = µ + αi + βj + γk + (αβ)ij + (αγ)ik

Hay tres modelos de este tipo; los otros dos sustituyen (αβ)ij + (βγ)jk o (αγ)ik + (βγ)jk
en vez de (αβ)ij + (αγ)ik . La presencia de la lista de muertos o de tratamientos son
condicionalmente independientes dado el estado de la lista E (muestra 1); una vez que
sabemos que alguien esta en la lista de la sala de urgencias, el hecho de saber si esta
en la lista de muertos no proporciona información adicional acerca de la probabilidad
de que esté en la lista de tratamiento.

4. Todas las interacciones son de dos sentidos:

ln (mijk ) = µ + αi + βj + γk + (αβ)ij + (αγ)ik + (βγ)jk

En este modelo siempre se ajustan perfectamente los datos: tiene la misma cantidad de
parámetros como celdas en la tabla de contingencia.

Los modelos que se ajustan a la independencia, se usan para estimar el valor de la


celda faltante, la cual puede verificarse mediante la prueba de razón de verosimilitud
de (Cormack 1992) para construir intervalos de confianza para N , usando cualquiera
de los modelos. Un intervalo de confianza de 95 % para la celda faltante consta de
aquellos valores u para los que no se rechazarı́a una prueba de hipótesis de nivel 0.05
de H0 : m222 = u para el modelo Log-lineal adapto.
Sea G2 (u) (G2 es el estadı́stico de prueba de la razón de verosimilitud) la estadı́stica de
prueba de razón de verosimilitud (desviación) para la tabla completa. con u sustituida
8.3. ESTIMACIÓN CON VARIAS RECAPTURAS 153

en la celda omitida; sea t el total des siete celdas observadas y sea û la estimación de
la celda faltante usando es modelo Log-lineal. Comark muestra que el conjunto:
     
2 2 u û
u : G (u) − G (û) + log − log < q1 (α)
t+u t + û

donde q1 (α) es el percentil de la distribución χ21 con área α en la cola derecha; es un


intervalo de confianza aproximado del 100(1 − α) % para m222 .

Aun con todo lo mostrado hasta el momento, en ninguno de los modelos se podrá demostrar
la hipótesis de que la celda faltante siga el modelo, pero al menos sera posible examinar las
hipótesis de independencia por parejas entre las muestras. Entonces, para la frecuencia de
adicción al opio se ajustaron los modelos Log-lineales vistos a partir de los datos, usando la
función glim de S-PLUS y se obtuvieron los siguientes resultados:

grados de Intervalo de
Modelo G2 libertad (gl) p−valor m̂222 N̂ confianza al 95 %
1 Independencia 1.80 3 0.62 3,967 6,891 [6.322; 7.407]
2a E*T 1.09 2 0.58 4,639 7,499 [5, 992; 9, 706]
2b E*D 1.79 2 0.41 3,959 6,823 [6, 296; 7, 425]
2c T*D 1.21 2 0.55 3,929 6,793 [6, 283; 7, 373]
3a E*T,E*D 0.19 1 0.67 6,141 9,005 [5, 921; 16, 445]
3b E*T,T*D 0.92 1 0.34 4,416 7,280 [5, 687; 9, 812]
3c E*D,T*D 1.20 1 0.27 3,918 6,782 [6, 253; 7, 388]
4 E*T,E*D,T*D – 0 – 7,510 10,374 [4, 941; 25, 964]

En este caso G2 es la estadı́stica de prueba de razón de verosimilitud para ese modelo. Se


puede apreciar que el modelo de independencia es el que mejor se ajusta a los datos. Las cifras
esperadas por celda bajo el modelo 1: Completa independencia, son: Estas cifras predichas

¿Está en la lista D?
Sı́ No
¿Está en la lista T? ¿Está en la lista T?
Sı́ No Sı́ No
¿Está en Sı́ 5.1 28.3 310.8 1730.7
la lista E? No 11.7 64.9 712.4 3966.7

por celda conducen a la estimación:

N̂ = 2864 + 3967 = 6831


154 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

Esto si se asume el modelo independencia. Análogamente se pueden calcular los valores de N̂


para los otros modelos; estimando el valor de la celda faltante a partir del modelo y sumando
esa estimación al total conocido para las demás celda, en este caso 2864.

Ahora, una aproximación a los resultados anteriores se puede apreciar si se realiza la rutina
con el procedimiento CATMOD en SAS para los datos suministrados: la rutina es la siguiente:

data opium;
input er treat death count;
cards;
1 1 1 6
1 1 2 314
1 2 1 27
1 2 2 1728
2 1 1 8
2 1 2 712
2 2 1 69;
proc catmod data=opium;
weight count;
model er*treat*death = _response_ /ml pred=freq freq prob;
loglin er treat death;
run;
proc catmod data=opium;
weight count;
model er*treat*death = _response_ /ml pred=freq freq prob;
loglin er treat death er*treat;
run;
proc catmod data=opium;
weight count;
model er*treat*death = _response_ /ml pred=freq freq prob;
loglin er treat death er*treat er*death;
run;
proc catmod data=opium;
weight count;
model er*treat*death = _response_ /ml pred=freq freq prob;
loglin er treat death er*treat er*death treat*death;
run;
8.4. MUESTRO POR CUADRICULAS (ÁREAS) 155

8.4. Muestro por cuadriculas (áreas)

Suele aplicarse a poblaciones estacionarias y ha recibido distintos nombres (por áreas). La


diferenciación de áreas en el plano y su identificación en el terreno requieren a menudo
operaciones topográficas engorrosas para el observador y perturbadoras para los elementos
observados. Para animales en el aire o agua la situación se complica y se tendrı́a que sustituir
el área por volúmenes, y la localización resulta casi imposible. Se recomienda estudiar la
forma y tamaño de las áreas en relación con un aspecto espacial de diseño de muestreo, es
decir, considerando la localización fı́sica de las unidades.

La división por cuadricula suele ser conveniente por razones de eficiencia (precisión o acu-
racidad/costo) se aconseja áreas hexagonales, aunque debe tenerse en cuenta la facilidad de
delimitación de las áreas y la rapidez de su trazado.

Similar al muestreo por conglomerados o áreas, se prefieren muchas áreas pequeñas a pocas
áreas grandes, por efecto intracorrelación, o correlación positiva intraconglomerados, esto
puede aumentar los costos y el error o sesgo de contorno.

La selección de áreas puede hacerse con probabilidad constante, o proporcional al tamaño


expresado por la extensión, o el número de individuos por área. En algunos casos es necesario
usar más de una selección, por lo tanto el muestre multietápico es una opción (cuadricula-
transectas)

8.5. Muestreo por fajas o bandas y lı́neas transversales

En el caso más simple consiste de varias lı́neas paralelas que atraviesan el ámbito que contiene
la población, estas lı́neas transversales o fajas se trazan previamente de manera que no se
corten entre sı́, y se eligen al azar entre un conjunto o sistema de lı́neas posibles, establecido
de antemano. Se van anotando los individuos o animales que se encuentren y los caracteres
que sean objeto de estudio, también se mide la distancia recorrida desde el origen hasta su
encuentro, la distancia del ejemplar a la lı́nea, ası́ como también ángulo de lı́nea con la visual
del observador al individuo.

Figura 8.1: pendiente


156 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

4 : Sucesivas posiciones del observador.


• : Individuo observado.
w : Distancia perpendicular entre la lı́nea de transecta y el individuo observado.
D : Distancia entre el observador y el individuo observado.
θ : Ángulo de la lı́nea con la visual del observador al individuo.

Entonces, llamando

l : Largo de la transecta.
n : Número de animales observados.

Existen los siguientes criterios para la determinar la densidad de especies utilizando lı́neas
de transecta
n
1. D̂ = ; donde w̄ es el promedio de las distancias y 2w es el ancho promedio de la
2lw̄
faja.
n
2. D̂ = ; donde d¯ es el ancho promedio de la faja (método de King).
2ld¯
n
3. D̂ = ¯ ; donde α es el ángulo promedio y 2d¯sin α es el ancho promedio de la faja
2ld sin α
(método de Webbs).

En cualquiera de los casos, la abundancia (N) se estima como:

N̂ = AD̂
n
=A
2lw̄
X yi
= 2lw̄
i A


1
yi : Caracterı́stica de interés =
0
Este método es conocido como de Transecta de lı́neas y aquı́ se asume que no todos los
individuos serán vistos (observados) por el observador y que el número de individuos vistos
(u observados) se incrementará con la distancia recorrida en la transecta. En esta técnica el
observador debe recorrer la lı́nea de transecta (l), contando los individuos (animales, arbo-
les, etc) a ambos lados de la lı́nea y registrando “sin error” di o wi cuando el individuo es
detectado.
8.5. MUESTREO POR FAJAS O BANDAS Y LÍNEAS TRANSVERSALES 157

Esta técnica de muestreo puede realizarse por tierra, mar o desde el aire.
Este tipo de muestreo por transectas de lı́nea exige ciertos criterios para obtener estimaciones
confiables de abundancia poblacional. Estos son:

1. Los individuos situados sobre la lı́nea nunca pueden dejar ser vistos.

2. Los individuos no se mueven antes de ser detectados, las distancias son medidas desde
la ubicación inicial del individuo y no son contados más de una vez.

3. Las distancias son medidas sin error.

4. La detección de un individuo es independiente de la detección de otro.

5. El comportamiento de respuesta de la población no cambia sustancialmente a lo largo


de la transecta.

6. Los individuos son homogéneos respecto a su comportamiento de respuesta al observa-


dor, sin importar su sexo, edad, etc.

Observación 8.5.1. Otro método de estimación de la densidad es el dado por Haynes, el


cual se realiza basado en un censo de puntos. Se asume en este método que la probabilidad de
ocurrencia depende de la distancia desde el observador y ası́ las observaciones son divididas
en clases de distancias.

Aquı́, n = n1 +n2 +· · ·+nm , son los números de observaciones en distintas clases de distancias.

Ejemplo 8.5.1. d1 ≤ 25 m, d1 ≤ 26 − 50 m, etc. La densidad se estima por:

1
D̂ =  
n1 n2 nm
2L d1
+ d2
+ ··· + dm

Observación 8.5.2. Cuando se toman varias transectas, entonces se tiene L1 , L2 , . . . , Lk1 ,


k1
X
largo de las n1 transectas seleccionadas. En este caso L = Li . (Suponga que se colocan
i=1
k1
X
las n1 transectas una después de la otra, entonces el largo total es L = Li y se sigue que
i=1
w̄ y dˆ son las distancias promedios de todos los wk y dk para las n1 lı́neas).

¿Cómo queda en este caso el estimador de Haynes?


158 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

1
Una propuesta puede ser D̂ = 
nd1 nd2
 donde ndk es el número de indivi-
ndm
2L d1
+ d2
+ ··· + dm
duos a la distancia dk

Para el caso que se tomen áreas de tipo circular de radio w, entonces la probabilidad del
k1 πw2
i-ésimo circulo es Pi = , ası́, la estimación de la densidad es (por unidad de área
A
medida)
n
D̂ =
k1 πw2
y la abundancia estimada es

N̂ = AD̂
nA
=
k1 πw2

k1 es el número de lı́neas o transectas

8.6. Transectas de ancho fijo


En este método, contrario al caso de transecta de lı́nea, el ancho (w) de la transecta se fija
antes del estudio. Se asume que todos los individuos dentro de la faja son contados y que el
largo de la transecta es conocido.

Para que este método sea válido en el caso de animales, se debe estar seguro que se encontrará
cada individuo dentro de la faja y que su presencia a lo largo de la transecta no afectará la
presencia o ausencia de otro individuo.

Figura 8.2: pendiente

La densidad de población por área muestreada es


n
D̂ = (8.6.1)
2Lw
con n el número de individuos o hallazgos.

El tamaño de la población (N ), puede ser estimado por


8.6. TRANSECTAS DE ANCHO FIJO 159

N̂ = AD̂
nA
=
2Lw
n
X yi
= (8.6.2)
p
i=1 i

1 Si es de la especie 2Lw
con yi = y pi = → Proporcional al tamaño.
0 Caso contrario A
Donde A es el área del ámbito. Nuevamente, cuando se toma o selecciona varias transectas
n1
X
de ancho fijo w, se toma L = Li (como si se colocara una transecta detrás de la otra) con
i=1
Li la longitud o largo de cada transecta seleccionada.

Error estándar
Para transectas de ancho fijo

n nA
D̂ = y N̂ = (8.6.3)
2wL 2wL
Mientras que para el caso circular

n nA
D̂ = y N̂ = . (8.6.4)
k1 πw2 k1 πw2
Los errores de estimación dependen de las cantidades
v
n u k1  2
u k1 X
2 nk n
Se = t L − (8.6.5)
L L2 (k1 − 1) k=1 k Lk L

Para el caso de transecta de ancho fijo, donde nk es el número de individuos sobre la k-ésima
área.

Mientras que para el caso circular


v
  u k1  2
n u 1 X n
Se =t nk − (8.6.6)
k1 k1 (k1 − 1) k=1
k1

Entonces los errores estándar para D̂ son


160 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

Se Ln

e.e(D̂) = (8.6.7)
2w
y
 
n
Se k1
e.e(D̂) = (8.6.8)
πw2
En cualquiera de los casos

e.e(N̂ ) = Ae.e(D̂)

Intervalos de confianza pueden ser obtenidos asumiendo una distribución Log-normal para
D̂, ası́ un I.C.(95 %) es
!

, D̂C (8.6.9)
C

donde
n  o
C = exp 1.96 × e.e loge D̂

y
s 
   2 
e.e loge D̂ = loge 1 + Cve(D̂)

con

e.e(D̂)
Cve(D̂) =

Cuando n es pequeño es mejor usar el percentil t(k1 −1, 1− α2 ) .

Ejemplo 8.6.1. En un estudio para determinar la abundancia de una cierta especie de


pájaros (robin) se realizó un muestreo por transectas, donde se seleccionaron o marcaron
19 transectas y se contaba el número de aves de la especie dentro de 70 metros de la lı́nea
(w = 35 m). Los datos obtenidos son los siguientes:
8.6. TRANSECTAS DE ANCHO FIJO 161

lı́nea: 1 2 3 4 5 6 7 8 9 10
Li =Longitud (m): 208 401 401 299 350 401 393 405 385 204
Número de aves: 2 5 9 2 6 4 2 2 1 0

lı́nea: 11 12 13 14 15 16 17 18 19 Total
Li =Longitud (m): 39 47 204 271 236 189 177 200 20 4830
Número de aves: 0 0 2 3 3 0 4 2 0 47

Entonces,

19
X
L= Li
i=1
= 4830 m
= 4.83 km

w = 70 m = 0.070 km y n = 47. Ası́,

47
D̂ =
2(0.070)(4.83)
= 69.51

= 70 pajaros/km2

1.6887
e.e(D)
ˆ = = 12.02
2(0.070)

Observación 8.6.1. i) De acuerdo a la forma o distribución de las unidades de observa-


ción, las transectas pueden varias en campo, por ejemplo

Figura 8.3: pendiente

ii) En otros casos es necesario subdividir el área de interés en sub-áreas, siendo necesario
usar una estrategia de muestreo estratificado

Figura 8.4: pendiente


162 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

8.7. Muestro por intercepto de lı́neas


La técnica de muestreo de intercepto de lı́neas es un método de muestro donde los elementos
de la población son seleccionados sin reemplazo bajo el siguiente esquema

i) Cada elemento de la población se representa geométricamente por una aguja única en


un plano R2 .

ii) Aquellos elementos cuyas agujas interceptan la lı́nea elegida en R2 , serán incluidas en
la muestra.

Esta definición incluye el muestreo de intercepto de lı́neas de población de elementos circu-


lares, conocido en la literatura de muestreo como interceptas planas.

Esta técnica de muestreo ha sido empleada en muestreo forestales para estimar la longitud
total de hileras (arboles) en una región, también se ha usado para evaluar el volumen, peso,
numero de troncos en áreas de bosques. Esta técnica también puede ser usada en problemas
de vegetación asociando objetos circulares tales como manchas o grupos de vegetación, a
los que se puede estimar cualquier caracterı́stica tales como su número, área total, biomasa,
número de flores, frutos, insectos, etc.

Su fácil aplicación y su menor costo ha permitido su uso alternativo a métodos de muestreo


basados en cuadriculas (trazas, franjas, etc.), abriendo perspectivas en estudios de ecologı́a.

En pesquerı́a (área acuı́cola) se ha usado para evaluar algas y el recurso bentónico conocido
como “loco”.

Esta técnica de muestreo pertenece a la familia de técnicas de muestreo con probabilidad de


selección proporcional al tamaño de los elementos se constituyen la población muestreada.

Suponga que se tiene un área rectángula de dimensión w × L, la cual se encuentra contenida


dentro de una región de forma arbitraria y área A.

Al centro del rectángulo se corre una lı́nea L0 L00 de longitud L, paralela a los lados de longitud
Li en forma aleatoria sobre A, bajo los siguientes supuestos.

i) Li ≤ w

ii) El centro M de la aguja esta siempre dentro de A

iii) Con respecto a la posición M , la aguja puede caer en cualquier dirección


8.8. ESTIMADORES DE PARÁMETROS POBLACIONALES 163

iv) L es suficientemente largo respecto a Li para permitir intersecciones de tipo S 0 entre


L0 L00 y Li (Li << L)

Ahora, la probabilidad de que al lanzar la aguja aleatoriamente, el centro M carga en el


rectángulo wL es

wL
P1i = (8.7.1)
A
Bajo la condición que M ⊂ wL, la probabilidad de la intersección es:

1
L
2 i
P2i = 1 1
w π
2 2
2Li
= (8.7.2)
πw
Entonces la probabilidad buscada es:

Pi = P (M ∈ wL)P (Intersección/wL)
= P1i P2i
wL 2Li
=
A πw
2Li L
= (8.7.3)

Asociando una aguja con un objeto circular en cuyo caso la probabilidad de que la aguja
insercepte la lı́nea central es donde di es el diametro del circulo que corta L0 L00

wL
Pi 0 =
A
1
di
= 21
2
w
Ldi
= (8.7.4)
A

8.8. Estimadores de parámetros poblacionales


Los parámetros de interés a estimar son:
164 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

1. Total para caracterı́stica y de los objetos por unidad de área


N
X yi
ya = (8.8.1)
i=1
A

2. Total de la caracterı́stica y de los objetos en el área Ai


N
X
y= yi (8.8.2)
i=1

3. Media de la caracterı́stica y por objeto


N
X yi
ȳU = (8.8.3)
i=1
N

Los objetos pueden corresponder a figuras circulares o no circulares.


Para este caso se usará el estimador de Horvitz-Thompsom para el total con
2Li L
πi =
πA
Entonces se tiene que: (para objetos no circulares)
n
πA X yi
t̂y = ŷ = (8.8.4)
2L i=1 Li

es un estimador insesgado de y = t̂y

Este estimador para objetos no circulares coinciden formalmente con el π-estimador, la dife-
rencia es que para el método de lı́neas de intersección el tamaño n de la muestra no se fija a
priori como en el t̂yπ , sino que el tamaño de la muestra es la variable aleatoria definida como
el número de agujas que cortaron a la intercepta.

8.9. Variables cuantitativas


8.9.1. Muestreo de una lı́nea
Datos (objetos no circulares)

y1 , y2 , . . . , yi , . . . , yn
8.9. VARIABLES CUANTITATIVAS 165

L1 , L2 , . . . , Li , . . . , Ln

Las observaciones yi y Li representan la caracterı́stica de interés y la longitud de la aguja en


el i-ésimo objeto no circular interceptado por una lı́nea aleatoriamente escogida en el área A.

θ θ̂ V (θ̂)

N n n  2
X yi π X yi  π 2 X y i
ya = ŷa = t̂ya = V (ŷa ) =
i=1
A 2l i=1 Li 2l i=1
Li

N n  n 
2 X 2
X πA X yi 2 πA yi
y = ty yi = Aya ŷ = t̂yπ = Aŷa = V (ŷ) = A V (ŷa )
i=1
2l i=1 Li 2l i=1
Li

N n n  2
X yi X yi X yi − ỹs
N A Li Li
X yi i=1 i=1 i=1
ȳU = = N
ȳˆU = ỹs = n V (ỹs ) = n  2
i=1
N A
X 1 X 1
i=1
Li i=1
Li

Para yi = 1 ∀i = 1, 2, . . . , N , entonces

N̂ = Aŷa
n
πA X 1
= (8.9.1)
2L i=1 Li

y la varianza sigue de la expresión definida para t̂yπ

Datos circulares

y1 , y2 , . . . , yi , . . . , yn

d1 , d2 , . . . , di , . . . , dn

donde las observaciones yi y di representa la caracterı́stica de interés y el diámetro de i-ésimo


objeto circular interceptado por una lı́nea aleatoriamente escogida en el área A.
166 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL

θ θ̂ V (θ̂)

N n n  2
X yi π X yi  π 2 X y i
ya = ŷa = t̂ya = V (ŷa ) =
i=1
A 2l i=1 Li 2l i=1
Li

N n  n 
2 X 2
X πA X yi 2 πA yi
y = ty yi = Aya ŷ = t̂yπ = Aŷa = V (ŷ) = A V (ŷa )
i=1
2l i=1 Li 2l i=1
Li

N n n  2
X yi X yi X yi − ỹs
N A Li Li
X yi i=1 i=1 i=1
ȳU = = N
ȳˆU = ỹs = n V (ỹs ) = n  2
i=1
N A
X 1 X 1
i=1
Li i=1
Li

Para estimar el total N de objetos circulares basta con hacer yi = 1 ∀i = 1, 2, . . . , N

8.9.2. Muestreo replicado con k lı́neas


Datos:

y11 , y12 , . . . , y1i , . . . , y1n1


transecta 1
L11 , L12 , . . . , L1i , . . . , L1n1

y11 , y12 , . . . , y1i , . . . , y1n1


transecta 2
L21 , L22 , . . . , L2i , . . . , L2n1
..
.
y21 , y22 , . . . , y2i , . . . , y2n1
transecta j
Lj1 , Lj2 , . . . , Lji , . . . , Ljnj
..
.
yk1 , yk2 , . . . , yki , . . . , yknk
transecta k
Lk1 , Lk2 , . . . , Lki , . . . , Lknk
Si los objetos son circulares, simplemente se reemplazan las longitudes Lji (individuo i para
la j-ésima lı́nea) de las agujas por los diámetros dji de los objetos.
8.9. VARIABLES CUANTITATIVAS 167

θ θ̂ V (θ̂)

k k
X
Lj (yja − ŷa )2
X
Lj yaj nj
k X
j=1 π X yij j=1
ya = k
ŷa = k
V (ŷa ) = k
X X j=1 i=1
Lij X
Lj 2 Lj (k − 1) Lj
j=1 j=1 j=1

k k
X
Lj (ŷ0ja − ŷa0 )2
X
Lj y0ja nj
k X
j=1 π X yij j=1
ya0 = k
ŷa = Pk V (ŷa0 ) = k
X j=1 Lj j=1 i=1
dij X
Lj (k − 1) Lj
j=1 j=1

Objetos no circulares Objetos circulares


nj nj
π X yij 1 X yij
ŷja = (j = 1, 2, · · · , k) ŷ0ja = (j = 1, 2, · · · , k)
2Lj j=1 Lij Lj j=1 dij
168 8. ESTIMACIÓN DE TAMAÑO POBLACIONAL
Capı́tulo 9

Muestreo de conglomerados
adaptativos

Este tipo de muestreo tuvo su origen en el problema de muestreo peculiares (o raros) en po-
blaciones agregadas. En esta técnica, se selecciona una muestra inicial de unidades y siempre
que el valor de la variable de interés satisfaga una condición especificada, las unidades vecinas
son adicionadas a la muestra. Por ejemplo: Una parcela se selecciona si contiene al menos un
organismo bajo estudio.

La condición para un muestreo adicional, puede ser la presencia de especies de animales o


plantas raras, una alta abundancia de una especie especialmente agregada, detección de “lu-
gares calientes” en un estudio de polución ambiental, observación de una alta concentración
de minerales de oro o de combustible fósil, infección de una enfermedad rara (extraña) o
valor positivo de una variable indicadora en un estudio epidemiológico, u observación de una
caracterı́stica rara de interés en una muestra de estudios de hogares, etc.

La vecindad de una unidad puede ser definida por aproximación espacial o, en el caso de
poblaciones humanas por vı́nculos sociales o genéticos u otras conexiones.

Figura 9.1: pendiente

9.1. Muestreo aleatorio simple


Para cada unidad se define una vecindad que consiste de la unidad y un conjunto de unidades
vecinas.

169
170 9. MUESTREO DE CONGLOMERADOS ADAPTATIVOS

Un MAS de tamaño n1 es realizado y si el valor y de la unidad muestreada satisface cierta


condición c (y > c), entonces el resto de las unidades vecinas es adicionada a la muestra. Este
proceso continua hasta que el conglomerado de unidades obtenidos contiene una frontera de
unidades llamadas unidades de borde que no satisfacen c. La muestra final consiste entonces
de n1 (no necesariamente distintos) conglomerados uno para cada unidad seleccionada en la
muestra inicial.

Se concluye que si una unidad en la muestra inicial no satisface c, no hay aumento en la


muestra y tenemos un conglomerado de tamaño 1.

Aun cuando las unidades en la muestra inicial son distintas (por ser un MAS), la selección
repetida se puede presentar en la muestra final cuando un conglomerado incluye más de una
unidad en la muestra inicial; por ejemplo si dos unidades que no son de borde en algún con-
glomerado, son seleccionados en la muestra inicial, entonces este conglomerado puede ocurrir
dos veces en la muestra final.

La vecindad puede ser definida para una variedad de patrones y las unidades en la vecindad
no tienen que ser contiguas. Sin embargo, si la unidad j está en la vecindad de la unidad i,
entonces la unidad i también está en la vecindad de la unidad j (relación de simetrı́a). Estas
vecindades no dependen de los valores de y en la población.

Las unidades de borde juegan un doble rol, lo cual hace que los conglomerados no sean las
unidades más útiles para los distintos desarrollos teóricos, si una unidad de borde es seleccio-
nada de la muestra inicial, ella forma un conglomerado de tamaño 1, si esta no es seleccionada
en la muestra inicial entonces aún esta puede ser seleccionada porque serı́a un miembro de
cualquier conglomerado para el cual ella es una unidad de borde.

Se define una red (network) Ai para la unidad i como el conglomerado generado por la unidad
i pero con unidades de borde removidas. Una selección de cualquier unidad en Ai , conduce a
la selección de todo el Ai , si la unidad i es la única unidad en el conglomerado que satisface
c, entonces Ai consiste justamente de la unidad i y forma una red de tamaño 1. Ası́ mismo,
toda unidad que no satisface c pasa a ser una red de tamaño 1, como cuando la selección no
conduce a la inclusión de ninguna otra unidad, esto significa que todas las conglomeraciones
de tamaño 1 son también redes de tamaño 1. También todas las unidades de borde son redes
de tamaño 1.

Ası́ cualquier conglomerado conformado por más de una unidad puede ser clasificado como
dentro de una red y en red de tamaño 1 (uno por cada unidad de borde).

A diferencia de tener conglomerados que pueden sobrelaparse con las unidades de borde, las
9.2. UN ESTIMADOR USANDO PROBABILIDADES DE INTERSECCIÓN INICIAL 171

diferentes redes son disjuntas y forman una partición de N unidades.

9.2. Un estimador usando probabilidades de intersec-


ción inicial
La i-ésima unidad será incluida en la muestra final si cualquiera unidad de Ai (incluida en
ella) es seleccionada como parte de la muestra inicial, o si cualquier unidad de una red de la
cual la unidad i es una unidad de borde, es seleccionada.

Sea mi el número de unidades en Ai y sea ai el total de unidades en las redes de la cual la


unidad i es una unidad de borde.

Si la unidad i satisface c, entonces ai = 0, mientras si una unidad i no satisface c, entonces


mi = 1.

La probabilidad de que la unidad i sea incluida en la muestra es


N −mi −ai

n1
πi = 1 − N
 (9.2.1)
n1

si se conoce πi para i = 1, 2, . . . , N1 (para todas las unidades muestrales), entonces el π-


estimador de µ = ȳu es
v
1 X yi
µ̂π1 = µ̂π = (9.2.2)
N i=1 πi

el cual puede ser escrito como

N
1 X yi Ii
µ̂π1 = (9.2.3)
N i=1 πi

donde y1 , y2 , . . . , yv representa los valores-y de las v distintas unidades en la muestra final, e



1 si i ∈ s
Ii =
0 si i 6∈ s
Lastimosamente, aunque los mi son conocidos, para todo i ∈ s, algunos de los ai son descono-
cidos, por ejemplo si la unidad i es de borde para algún conglomerado en la muestra, entonces
todo el conglomerado al cual pertenece no serı́a muestreado, ası́ que ai serı́a desconocido. Para
superar este impase se trabajará con la probabilidad de inclusión parcial
172 9. MUESTREO DE CONGLOMERADOS ADAPTATIVOS

N −mi

n1
πi0 =1− N
 (9.2.4)
n1

la cual puede ser interpretada como la probabilidad que la unidad i sea utilizada en la esti-
mación, o equivalentemente como la probabilidad que la muestra inicial intercepte a los Ai ,
la red para la unidad i. Esta cantidad ignora las cantidades de borde de los conglomerados en
el proceso de estimación, ası́, las observaciones que no satisfacen la condición son ignoradas
si ellas no son incluidas en la muestra inicial.

El estimador insesgado de µ basado sobre las probabilidades de intersección inicial toma la


forma
N
1 X yi Ii0
µ̂π1 = (9.2.5)
N i=1 πi0

donde Ii0 toma el valor 1 (con probabilidad πi0 ) si la muestra inicial intercepta los Ai y 0 en
caso contrario.

El estimador dado en la ecuación (9.2.5) puede ser escrito como


K
1 X yk∗ Jk
µ̂2 = (9.2.6)
N k=1 αk
o
k
1 X yk
µ̂2 = (9.2.7)
N k=1 αk

donde αk = πi0 para cada unidad i en la k-ésima red. Además yk∗ es la suma de los valores-y
para la k-ésima red, K es el número total de las distintas redes en la población, k es el de las
distintas redes en la muestra, y Jk toma el valor 1 (con probabilidad αk ) si la muestra inicial
intercepta la k-ésima red, y 0 en otro caso.

Si hay xk unidades en la k-ésima red, entonces:

Para un MAS
N −xk

n1
αk = 1 − N
 (9.2.8)
n1

Para un MCR
9.3. ESTIMACIÓN USANDO EL NÚMERO DE INTERSECCIONES INICIALES 173

 xk n1
αk = 1 − 1 − (9.2.9)
N
Luego, haciendo Pjk = P (las redes j-ésima y k-ésima no se intercepten), entonces

Pjk = P ((Jj 6= 1) ∩ (Jk 6= 1))


N −xj −xk

n1
= N

n1

Ası́, la probabilidad que las redes j y k esten ambas interceptadas es:

αjk = αj + αk − (1 − Pjk )
N −xj
+ N n−x N −xj −xk
  
n1
k
− n1
=1− 1
N
 , (9.2.10)
n1

para muestreo sin reemplazo y


  n 
xj n1  xk n1 xj + xk 1
αjk = 1 − 1 − + 1− − 1− , (9.2.11)
N N N
para muestreo con reemplazo, dado que αkk = αk , entonces
K K
1 X X yj∗ yk∗ (αjk − αj αk )
V (µ̂2 ) = 2 (9.2.12)
N k=1 j=1 αk αj

con estimador insesgado

K K
1 X X yj∗ yk∗ zj zk (αjk − αj αk )
V̂ (µ̂2 ) =
N 2 k=1 j=1 αk αj
" K   K X K   #
1 X 1 1 X 1 1
= 2 − yk∗ 2 zk + − yj∗ yk∗ zj zk (9.2.13)
N k=1 αk2 αk k=1 j=1
α j α k α jk

9.3. Estimación usando el número de intersecciones ini-


ciales
El estimador de µ puede ser expresado en la forma
174 9. MUESTREO DE CONGLOMERADOS ADAPTATIVOS

N
1 X I0
µ̂ = yi i 0 (9.3.1)
N i=1 E(Ii )

otro estimador que también es insesgado está dado por

N
1 X fi
µ̃ = yi (9.3.2)
N i=1 E(fi )

donde fi es el número de unidades de la muestra inicial que caen en la red Ai (intersección)


que incluye la unidad i. Ignorando las unidades de borde de los conglomerados en el proceso
de estimación, fi es el número de veces que la unidad i-ésima aparece en la muestra final en
el estimador.

Como las fi unidades son seleccionadas de mi unidades en Ai , entonces fi tiene una distri-
bución hipergeométrica Hg (N, mi , n1 ), donde E(fi ) = n1Nmi , entonces se tiene que:

N
1 X yi fi
µ̃ = (9.3.3)
n1 i=1 mi

Para encontrar la varianza de µ, reescribimos el estimador en termino de los n1 (no nece-


sariamente distintos) redes interceptadas por la muestra inicial, puesto que mi es la misma
para todas las unidades en Ai , se tiene que

n1 X
1 X 1
µ̃ = yj
n1 i=1 j∈A mi
j
n1
1 X 1 X
= yj
n1 i=1
mi j∈A
j
n1
1 X
= wi
n1 i=1
= w̄ (9.3.4)

donde wi es la media de las mi observaciones de Ai .

Ası́, µ̃ es la media muestral obtenida al tomar un MAS de tamaño n1 de una población de


wi valores, más bien que de los yi valores. Como wi (= v̄k ) es la misma para cada unidad en
la k-ésima red, y hay xk unidades en la k-ésima red, se tiene
9.3. ESTIMACIÓN USANDO EL NÚMERO DE INTERSECCIONES INICIALES 175

N
1 X
E(µ̃) = wi
N i=1
K
1 X
= xk v̄k
K k=1
K
1 XX
= yi
N k=1 i∈B
k

=µ (9.3.5)

donde Bk es el conjunto de unidades en la k-ésima red.

Usando la teorı́a del MAS se tiene que

N
N − n1 X
V (µ̃) = (wi − µ)2 (9.3.6)
N n1 (N − 1) i=1

con estimador insesgado


1n
N − n1 X
V̂ (µ̃) = (wi − µ̃)2 (9.3.7)
N n1 (n1 − 1) i=1

Para un muestreo aleatorio con reemplazo, se tiene que


 xk n1
αk = 1 − 1 − (9.3.8)
N
y
  n 
xj n1  xk n1 xj + xk 1
αjk = 1 − 1− + 1− − 1− (9.3.9)
N N N
El estimador sigue siendo insesgado independientemente del muestreo con o sin reemplazo.

Para encontrar la varianza de µ̃ en este caso, llamando W el resultado de elegir aleatoriamente


una unidad, entonces

1
P (W = wi ) = ; i = 1, 2, . . . , N
N
y se tiene que
176 9. MUESTREO DE CONGLOMERADOS ADAPTATIVOS

σw2 = V (W )
N
1 X
= (wi − µ)2 (9.3.10)
N i=1

Luego,

σw2
V (µ̃) = V (w̄) = (9.3.11)
n1
con estimador insesgado
n1
1 X
V̂ (µ̃) = (wi − µ̃)2 (9.3.12)
n1 (n1 − 1) i=1

Ejemplo 9.3.1. Ilustraremos ahora el uso de los estimadores anteriores. En estas ilustracio-
nes, la vecindad de una unidad es definida como la unidad en si y cuatro unidades adyacentes
comparte una lı́nea de borde común.

Figura 9.2: pendiente

De una población con 400 unidades, se seleccionaron n1 = 10 con un MAS. Adaptativamente


se adicionan a las unidades iniciales aquellas que contienen por lo menos un individuo, lle-
vando a la muestra final.

Una de las unidades de la muestra inicial (cercana a la frontera) intercepta una red de m1 = 6
unidades conteniendo a un total de y ∗ = 36 puntos objetos. Otra unidad intercepta una red
de m2 = 11 unidades conteniendo y2∗ = 107 objetos. Para las otras ocho unidades dadas de
la muestra inicial yi = 0 y mi = 1. Habı́an también 28 unidades de borde, las que no son
usadas en el cálculo de los estimadores.

Las probabilidades de intersección de las redes son:

400−6

10
α1 = 1 − 400

10
= 1 − 0.8582
= 0.1418
9.3. ESTIMACIÓN USANDO EL NÚMERO DE INTERSECCIONES INICIALES 177

400−11

10
α2 = 1 − 400

10
= 1 − 0.7542
= 0.2458
Para las redes de tamaño 1 la probabilidad es
10
αk = = 0.025
400
Entonces

 
1 36 107 0 0
µ̃ = + + + ··· +
400 0.1418 0.2458 0.025 0.025
= 1.723 objetos/unidades
o

t̂y = 400(1.723)
= 689 objetos en la población
Ahora

!
400−17
10
α12 = 0.1418 + 0.2458 − 1− 400

10
= 0.3876 − (1 − 0.6444)
= 0.0320
Entonces, reescribiendo

1 y1∗ 2 1 y2∗ 2 1 2y1∗ 2 y2∗ 2 α12


      
V̂ (µ̃) = 2 −1 + −1 + −1
N α1 α1 α2 α2 α12 α1 α2

362 1072
    
1 1 1
⇒ V̂ (µ̃) = −1 + −1
4002 0.1418 0.1418 0.2458 0.2458
 
2(36)(107) 0.00320
+ −1
0.0320 (0.1418)(0.2458)
= 1.1157
178 9. MUESTREO DE CONGLOMERADOS ADAPTATIVOS


⇒ e.e
ˆ = 1.1157
= 1.056

Ahora para la primera red hay un promedio de


36
w1 = =6 objetos/unidades
6
y para la segunda red
107
w2 = = 6.9727
11
para el resto

wi = 0

 
1 36 107 0 0
⇒ µ̃ = + + + ··· +
10 6 11 1 1
= 1.573 objetos/unidades

o también

t̂y = 400(1.573)
= 629 objetos en la población

400 − 10
(6 − 1.573)2 + (6.9727 − 1.573)2

V̂ (µ̃) =
400(10)(10 − 1)
+ (0 − 1.573)2 + · · · + (0 − 1.573)2


= 1.147


⇒ e.e
ˆ = 1.147
= 1.070

y
9.3. ESTIMACIÓN USANDO EL NÚMERO DE INTERSECCIONES INICIALES 179

V̂ (t̂y ) = 4002 (1.147)


= 183.520


⇒ e.e
ˆ = 183.520
= 13.546

Observe que la media de la muestra convencional de las 45 unidades (lo cual incluye 28
unidades de borde) en la muestra final estarı́a dada por:

143
ȳ =
45
= 3.178 objetos

con

t̂y = 400(3.178)
= 1271 objetos en la región

Observe o se concluye que el procedimiento de selección adaptativo produce un alto rendi-


miento de objetos observados dado que la media muestral convencional tiende a sobrestimar.

Observación: 45 es la suma de las unidades de borde (28) más el número de unidades de


observación (17) por el método adaptativo.
180 9. MUESTREO DE CONGLOMERADOS ADAPTATIVOS
Capı́tulo 10

Muestreo de conglomerados
adaptativos estratificado

En el muestreo de conglomerado adaptativo estratificado, se selecciona una muestra estrati-


ficada inicial de una población y cada vez que se observa que el valor de la variable de interés
para una unidad satisface una condición especificada, se añaden unidades adicionales de la
vecindad de esa población a la muestra unidad. Se pueden añadir más unidades a la muestra
si cualquiera de las unidades añadidas posteriormente satisface la condición.

Desde el punto de vista práctico, los diseños de muestreo de conglomerados adaptativos es-
tratificados son importantes porque para muchas poblaciones existe información previa sobre
la cual se puede basar una estratificación inicial y no se puede predecir la distribución exacta
o los patrones de concentración de la población. En el muestreo estratificado convencional,
las unidades que se piensa que son similares se agrupan a priori en los estratos, sobre la base
de información previa sobre la población o simple proximidad de las unidades. Por otro lado,
el muestreo adaptativo de clusters proporciona un medio para aprovechar las tendencias de
agrupamiento en una población, cuando las ubicaciones y formas de los grupos no pueden
predecirse antes del estudio. Los diseños de muestreo descritos en este capı́tulo combinan los
dos métodos.

Los estimadores convencionales tales como la media de la muestra estratificada no son im-
parciales con los diseños adaptativos, por lo que los estimadores que son imparcial bajo los
diseños se dan en este capı́tulo. Una complicación que surge en el muestreo de agrupamiento
adaptativo estratificado es que una selección en un estrato puede resultar en la adición de
unidades de otros estratos a la muestra, de modo que las observaciones en estratos separados
no son independientes como en el muestreo estratificado convencional. Los diferentes estima-
dores no sesgados dados en este capı́tulo manejan tal cruce de lı́mites de estrato de maneras
ligeramente diferentes.

181
182 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO

10.1. Diseños
La población se divide en estratos L, cuyo estrato h está compuesto de unidades Nh , y el
número total de unidades en la población se denomina N . Asociado con la unidad uhi , la
i-ésima unidad del estrato h, es una variable de interés yhi . Para cualquier unidad uhi de la
población, el vecindad de la unidad uhi se define como una colección de unidades que incluye
uhi y con la propiedad de que si la unidad uh0 i0 está en el vecindario de la unidad uhi . La
vecindad de una unidad puede incluir unidades de más de un estrato. Se dice que una uni-
dad uhi satisface la condición de interés si el valor de y asociado con esa unidad está en un
conjunto C especificado.

En los diseños considerados en este capı́tulo, se selecciona una muestra inicial de unidades
de una población usando muestreo aleatorio estratificado; Es decir, dentro del estrato h, se
selecciona una muestra aleatoria simple de nh unidades sin sustitución, realizándose de forma
independiente las selecciones para estratos separados. Cada vez que una unidad seleccionada
satisface la condición, todas las unidades en su vecindario que no estén ya en la muestra
se añaden a la muestra. Pueden añadirse más unidades a la muestra siempre que alguna
de las unidades adicionalmente añadidas satisfaga la condición, de modo que la muestra
final contenga cada unidad en la vecindad de cualquier unidad de muestra que satisfaga la
condición.

Figura 10.1: Muestra aleatoria estratificada inicial de cinco unidades en cada uno de los dos
estratos.

Un ejemplo se ilustra en la figura 10.1, en la que el objetivo es estimar la abundancia de


una población agrupada, es decir, las unidades a través de área total de los números y de
objetos puntuales dentro de cada unidad. El objeto puntual podrı́a, por ejemplo, representan
10.1. DISEÑOS 183

la ubicación de una planta o animal. Una unidad satisface la condición aquı́ si contiene uno o
más objetos puntuales; Es decir, y ≥ 1. La población se divide en dos estratos, y una muestra
aleatoria simple de cinco unidades seleccionadas de cada estrato se muestra en la figura 10.1.
La vecindad de una unidad consiste en esa unidad junto con todas las unidades adyacentes
al norte, sur, este y oeste. La aplicación del diseño de muestreo de conglomerado adaptativo
estratificado da la muestra final mostrada en la figura 10.2.

Figura 10.2: Muestra final resultante de la muestra inicial de la figura 10.1.

La población puede ser dividida en k conjuntos de unidades, denominadas redes, de tal ma-
nera que la selección en la muestra inicial de cualquier unidad en una red dará lugar a la
inclusión en la muestra final de todas las unidades en esa red. Una unidad que no satisface
la condición pertenece a una red que consta de sı́ misma.

La selección inicial de una unidad que satisfaga la condición tı́picamente resultará en la adi-
ción a la muestra no sólo de todas las otras unidades de su red, sino también de unidades
que no están en su red, es decir, unidades que no satisfacen la condición pero en la vecindad
de uno o más miembros de la red. En la figura 10.3, las redes intersectadas por la muestra
inicial se delinean en lı́neas gruesas. Las otras unidades de la muestra, las unidades de borde,
no satisfacen la condición y no estaban en la muestra inicial, sino que están cada una en la
vecindad de una o más unidades que satisfacen la condición en las redes que intersecan la
muestra inicial.

El número de veces que se selecciona una unidad es igual al número de unidades de su red.
Sea rhi el número de veces que se selecciona la unidad uhi . Sea mkhi el número de unidades en
la intersección del estrato k con la red que contiene la unidad uhi . Para una unidad uhi que
no satisface la condición, sea akhi el número total de unidades en la intersección del estrato k
184 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO

con la colección de redes distintas, excluyendo el uhi mismo, que intersecan el vecindario de
la unidad uhi . La selección inicial de cualquiera de estas unidades akhi resultará en la adición
de unidad uhi a la muestra. Defina akhi como cero para cualquier unidad uhi que satisfaga la
condición.

Figura 10.3: Distintas redes intersectadas por la muestra inicial se delinean con lı́neas en
negrita.

El número esperado de veces que la unidad uhi está seleccionada es


L
X mkhi − akhi
E(rhi ) = nk
k=1
Nk
La unidad uhi se incluirá en la muestra si una o más unidades de la red a la que uhi pertenece
se incluyen en la selección inicial o, para una unidad uhi que no satisface la condición, si
una o más unidades de cualquier red que cruza la vecindad de la unidad uhi se incluye en la
muestra inicial. Debido al muestreo aleatorio estratificado inicial, la probabilidad de inclusión
πhi para la unidad uhi es
L  
Y Nk − mkhi − akhi
nk
πhi = 1 − k=1  
Nk
nk
El tamaño esperado de la muestra ν, es decir, el número esperado de unidades distintas en
la muestra final, es la suma de las probabilidades de inclusión de N en la población (véase
Cassel et al., 1977, pp. 11 y Godambe, 1955).
10.2. ESTIMADORES 185

10.2. Estimadores
Los estimadores convencionales tales como la media de la muestra estratificada, aunque no
sesgada para la media de la población con el muestreo aleatorio estratificado clásico, no son
imparciales con los diseños adaptativos. Sin embargo, puede obtenerse un estimador no equi-
tativo, aunque ineficiente, µ̂0 de la media poblacional, simplemente utilizando el estimador
estratificado convencional de la media basado en la muestra inicial, ignorando todas las ob-
servaciones posteriores.

10.2.1. Estimadores usando números esperados de intersecciones


iniciales
Para la unidad uhi , defina la nueva variable whi como el total de los valores de y de la red
a la que pertenece uhi , ponderada por la fracción de muestreo de estrato y dividida por una
suma ponderada de los tamaños de intersección de estrato de red como sigue:
L
nh X
ξkhi
Nh k=1
whi = L
X nk
mkhi
k=1
Nk

Donde ξkhi es el total de los valores y en la intersección del estrato k con la red que incluye
la unidad uhi y mkhi es el número de unidades en esta intersección. El estimador de la media
poblacional es
L nh
1 X Nh X
µ̂1 = whi (10.2.1)
N h=1 nh i=1
Al dejar que la variable aleatoria rkhi represente el número de unidades en la muestra inicial
que están en la intersección del estrato k con la red a la que pertenece la unidad uhi , el
estimador puede escribirse en la forma alternativa
 
X L
y rkhi 
L Nh  hi
1 XX h=1

µ̂1 =
 
 L
N h=1 i=1  X Nk


 mkhi 
k=1
nk
nk mkhi
Como E(rkhi ) = , se sigue que µ1 es un estimador no sesgado de la media de la
Nk
población.
186 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO

Con whi como variable de interés para la unidad uhi para cada unidad en la población, µˆ1
es la media de la muestra estratificada de una muestra aleatoria estratificada y por lo tanto
tiene varianza
L
1 X σ2
V (µ̂1 ) = 2 Nh (Nh − nh ) h (10.2.2)
N h=1 nh
En el cual el término de varianza de la población del estrato es
N
h
1 X
σh2 = (whi − w̄h )2 (10.2.3)
Nh − 1 i=1
1 X
y la media poblacional del estrato es w̄h = whi .
Nh
Se obtiene un estimador no sesgado V (µ̂1 ) de la varianza µ̂1 sustituyendo σh2 por la varianza
muestral
n
h
1 X
s2h = (whi − w̄h )2 (10.2.4)
nh − 1 i=1
1 X
Usando la media muestral w̄h = whi .
nh
Se puede construir una variación µ̂01 en el estimador µ̂1 que esté relacionada con el estimador
estratificado de “multiplicidad” del muestreo en red (Birnbaum y Sirken 1965, Levy 1977,
Sirken 1972a), en el cual el peso que recibe una observación depende del estrato en el que la
muestra inicial intercepta la red de esa unidad. Para la unidad uhi , defina la nueva variable
0
whi como el total de los valores de y en toda la red a la que pertenece la unidad uhi , dividida
por el número total de unidades en esa red; es decir
L
X
ξkhi
0 h=1
whi = L
(10.2.5)
X
mkhi
h=1

El estimador de multiplicidad estratificado modificado es dado por la Ecuación (10.2.1) con


w0 reemplazando w.

Para cada vez que se selecciona cualquier unidad de una red en la muestra inicial, el estimador
incluye un término con el total de los valores de y para esa red, dividido por el tamaño de
la red y ponderado por Nnkk para el estrato del cual la unidad fue seleccionado. Por lo tanto,
10.2. ESTIMADORES 187

cada valor y individual se produce en el estimador cada vez que se selecciona en la muestra
inicial cualquier unidad de la red a la que pertenece, pero con ponderaciones dependiendo de
los estratos de los que proceden las selecciones iniciales. Ası́, el estimador µ̂01 se puede escribir
en la forma alternativa
 
L
X
Nk
y
Nh  hi
r 
nk khi 
L X
1 X  h=1
µ̂01 = (10.2.6)

 PL
N h=1 i=1 

 k=1 m khi 

La desigualdad de µ̂01 para la media de la población se deriva del hecho de que


nk mkhi
E(rkhi ) =
Nk
0
Asociando la variable whi con la unidad uhi , el estimador µ̂01 es una media de muestra estrati-
ficada de una muestra aleatoria estratificada. Por lo tanto, la varianza y la varianza estimada
de µ̂01 están dadas por las Ecuaciones (10.2.2), (10.2.3) y (10.2.4) con w0 reemplazando w.

También es posible utilizar un estimador µ̂001 que ignora todas las unidades añadidas a través
00
de los lı́mites del estrato de cruce. Para este estimador, sea whi el total de los valores de
y en la intersección del estrato y la red de unidad uhi , dividido por el número de unidades
en esa intersección. El estimador y sus expresiones de varianza son entonces dados por las
Ecuaciones (10.2.1) a (10.2.4) con w00 reemplazando w. La falta de imparcialidad y otras pro-
piedades se derivan del caso no estratificado, ya que los componentes en diferentes estratos
son independientes.

10.2.2. Estimadores usando probabilidades iniciales de intersec-


ción.
Para cualquier diseño en el que se conozcan las probabilidades de inclusión, el estimador
de Horvitz-Thompson logra la imparcialidad dividiendo el valor de y para cada unidad en
la muestra por la probabilidad de que la unidad se incluya en la muestra. Con el muestreo
adaptativo de conglomerados, estas probabilidades de inclusión no se pueden determinar a
partir de los datos de cada unidad de la muestra. Sin embargo, se puede formar un estimador
usando para cada unidad la probabilidad de que la muestra inicial cruce la red a la que
pertenece esa unidad y dando peso cero a cualquier observación que no satisfaga la condición
que no fue incluida en la muestra inicial.
188 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO

Sean k redes distintas de la población se etiquetan 1, 2, . . . , k, sin tener en cuenta los lı́mites
del estrato. Sea yi el total de los valores y en la i − ésima red de la población. Sea xhi el
número de unidades en el estrato h que interceptan la red i. La probabilidad αi de que la
muestra inicial cruza la red i es
L  
Y Nk − xki
nk
αi = 1 − k=1   (10.2.7)
Nk
nk
Dejando qi = 1 − αi , la probabilidad αij de que la muestra inicial intercepta ambas redes i y
j es
L  
Y Nk − xki − xkj
nk
k=1
αij = 1 − qi − qj +   (10.2.8)
Nk
nk
Suponiendo que la variable de indicadora zi sea 1 si la muestra inicial cruza la red i y cero
de lo contrario. El estimador estratificado del tipo Horvitz-Thompson modificado es
K
1 X yi zi
µ̂2 = (10.2.9)
N i=1 αi

Para i = 1, 2, . . . , k, zi es una variable aleatoria de Bernoulli con E(zi ) = αi , V (zi ) = αi (1−αi )


y Cov(zi , zj ) = αij − αi αj , para i = j. Se deduce que µ̂2 es un estimador no sesgado de la
media de la población, y con la convención de que αii − αi ,
K K  
1 XX αij
V (µ̂2 ) = 2 yi yj −1 (10.2.10)
N i=1 j=1 αi αj

Un estimador no sesgado de esta variación, ya que E(zi zj ) = αij , es


K K  
1 X X yi yj zi zj αij
V̂ (µ̂2 ) = 2 −1 (10.2.11)
N i=1 j=1 αij αi αj

Siempre que la probabilidad de intersección conjunta αij no sea cero para cualquier par de
redes.

El estimador µ̂2 no es un verdadero estimador de Horvitz-Thompson porque las probabili-


dades de intersección αi no son idénticas a las probabilidades de inclusión bajo el diseño de
10.2. ESTIMADORES 189

muestreo adaptativo de conglomerados. El tamaño esperado de la muestra y otras propieda-


des de la estrategia de muestreo dependen de las probabilidades reales de inclusión.

Ejemplo 10.2.1 (Muestreo de grupos adaptativos estratificados de una población agrupa-


da). La población agrupada espacialmente de las Figuras (10.1), (10.2) y (10.3) se produjo
como una realización de un proceso de agrupamiento de Poisson (véase Diggle 1983). Cuatro
lugares “padre” se encuentran al azar en la región de estudio, y los lugares “descendientes”
se distribuyeron sobre cada ubicación de los padres de acuerdo a una distribución de Gauss
simétrica con parámetro de dispersión σ = 0.02. El número de descendientes fueron variables
aleatorias de Poisson, cada una con una media de 100. Los valores y para cada una de las
400 unidades (parcelas) de la población se enumeran a continuación:

El número real de objetos puntuales en la región es 397, de modo que la media de la población
397
verdadera es µ = 400 = 0.9925.

Para el diseño, la región de estudio se divide en dos estratos, y las muestras iniciales se se-
leccionan mediante muestreo aleatorio estratificado con tamaños de muestra iguales en cada
estrato. Una unidad satisface la condición si contiene uno o más de los objetos puntuales. El
vecindario de una unidad incluye todas las unidades adyacentes, de modo que una vecindad
tı́pico fuera del lı́mite consta de cinco parcelas en forma de cruz.

Considere el diseño con tamaños de muestra iniciales de cinco unidades en cada estrato. Un
resultado de la selección inicial de la muestra se muestra en la Figura (10.1), y la Figura
(10.2) muestra la muestra final que resulta. Los cálculos de la muestra se ilustran usando la
muestra ilustrada (Figura (10.2)). En el estrato 1 (a la izquierda), la muestra inicial ha inter-
sectado dos redes de tamaño mayor que el de una sola unidad. La primera red (a la izquierda)
consta de seis unidades, cuyo valor y total es 96. La segunda red tiene cinco unidades dentro
190 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO

del primer estrato y seis unidades dentro del segundo estrato. El total de los valores y en la
intersección de esta red con el primer estrato es 78, mientras que el total de los valores y en
la intersección de la red con el segundo estrato es 114. Por lo tanto, la segunda red tiene un
total de 11 unidades y un valor total de y de 192. En el segundo estrato, ninguna de las cinco
unidades de la muestra inicial (Figura (10.1)) satisfizo la condición.

00
Utilizando los datos de esta muestra (Figura (10.2)), el valor de la variable whi para el
00
estimador µ̂1 , que ignora el cruce entre estratos, es cero para todas las unidades que no
00
satisfacen la condición. En la primera red intersectada en el estrato 1, el valor es w11 = 96
6
=
00 78
16. Para la segunda red intersectada, el valor es w12 = 5 = 15.6, basado únicamente en
unidades dentro del estrato 1. La estimación de la población La media es

      
1 200 200
µ̂001 = (16 + 15, 6 + 0 + 0 + 0) + (0 + 0 + 0 + 0 + 0)
400 5 5
= 3.16

  
1 200(200 − 5)(74.9)
V̂ (µ̂001 ) = +0
4002 5
= 3.65

En el que 74.9 es la varianza muestral de los cinco números 16, 15, 6, 0, 0 y 0. Para el estima-
dor µ̂1 , la variable whi para la primera red de la muestra es w11 = 96
6
= 16. Para la segunda
192
red intersectada Por la muestra, el valor es w12 = 11 = 17.45.

La estimación es

    
1 200
µ̂1 = (16 + 17.45 + 0 + 0 + 0) + 0
400 5
= 3.35

La estimación de la varianza es

  
1 200(200 − 5)(84.2)
V̂ (µ̂1 ) = +0
4002 5
= 4.10

en la que 84.2 es la muestra varianza de los cinco valores muestrales de w1i en el primer
estrato. El estimador µ̂01 y su varianza estimada asumen los mismos valores que µ̂1 debido al
10.2. ESTIMADORES 191

estrato y tamaños de muestra iguales.

Para el estimador µ̂2 , primero deben calcularse las probabilidades de intersección. Formar
cada unidad en la muestra inicial que no satisface la condición, la probabilidad de intersección
es α0 = Nnhh = 200
5
= 0.025 y es la misma en cada estrato, debido a los tamaños iguales de la
muestra y del estrato. Para la primera de las grandes redes intersectadas (la de la izquierda
en la Figura (10.3)), la probabilidad de inclusión es

 
200 − 6
5
α1 = 1 −  
200
5
= 0.14261

Para la segunda red, ya que intersecta ambos estratos, la probabilidad de intersección es

  
200 − 5 200 − 6
5 5
α1 = 1 −   
200 200
5 5
= 0.24554

La probabilidad de inclusión conjunta para ambas redes es

  
200 − 6 − 5 200 − 0 − 6
5 5
α12 = 1 − (1 − 0.14261) − (1 − 0.2455) +   
200 200
5 5
= 0.03240

El estimador estratificado es

962
         
1 192 0 0
µ̂2 = + + + ··· +
4002 0.14261 0.24554 0.025 0.025
= 3.64

La varianza estimada es
192 10. MUESTREO DE CONGLOMERADOS ADAPTATIVOS ESTRATIFICADO

962 1922
          
1 1 1
V̂ (µ̂2 ) = −1 + −1
4002 0.14261 0.14261 0.24554 0.24554
  
−1
 0.0324
+ 2(96)(192)(0.0324 − (0.24554) − 1 + 0 + · · · + 0
0.14261
= 4.78
Capı́tulo 11

Detectabilidad y muestreo

En el marco de muestreo básico, se supone que la variable de interés es registrada sin error
para cada unidad de la muestra. En muchas situaciones reales, sin embargo, este no es el caso.
En los estudios de la mayorı́a de las especies de aves, es improbable que cada pájaro en una
parcela seleccionada sea detectado. En estudios aéreos de grandes mamı́feros, algunos ani-
males en el área observada pueden permanecer sin vigilancia. En un estudio de arrastre para
peces u otras especies marinas, no todos los individuos en el camino de la red se capturan.
De forma similar, cuando se evalúan muestras de suelo o de mineral para objetos minerales
como diamantes, algunos de los objetos en la muestra pueden ser perdidos.

En arqueologı́a, estudios en los que se buscan muestras o trincheras para detectar artefactos,
algunos artefactos en las parcelas de muestra pueden permanecer sin descubrir. En estudios
de poblaciones humanas también, algunos individuos en unidades muestreadas pueden per-
manecer sin ser detectados.

La probabilidad de que se observe un objeto en una unidad seleccionada sea visto, oı́do,
atrapado o detectado por otros medios, se denomina su detectabilidad. En este capı́tulo para
evitar referencias interminables a “objetos” sin nombre y porque gran parte el estudio del
problema de detectabilidad se ha asociado con estudios ecológicos, los objetos individuales
de la población se denominarán “animales”.

11.1. Detectabilidad constante en una región


Supongamos que la detectabilidad para una especie dada es alguna probabilidad constante p
en una región del área A. Tal situación puede ser razonable en el caso de una inspección de
un avión de gran altitud que cubra uniformemente un área de estudio en una región completa
o en el caso de una prospección de vistas de nidificación de acantilados de buque.

193
194 11. DETECTABILIDAD Y MUESTREO

Sea y el número de animales observados en la región, mientras que ty es el número total en


la población. Donde quiera que un animal esté en la región, su probabilidad de detección es
p. Si, además, las detecciones son independientes-detección, es decir que la detección de un
animal no afecta la detección de otro, entonces el número observado y tiene una distribución
binomial.

Por tanto, el número esperado observado es

E(y) = ty p (11.1.1)
con varianza

V (y) = ty p(1 − p) (11.1.2)


Si se conoce la probabilidad de detección p, un estimador insesgado del total ty de la población
es
y
t̂y = (11.1.3)
p
La varianza de este estimador es
 
1−p
V (t̂y ) = ty (11.1.4)
p
Un estimador insesgado de esta varianza es

y(1 − p)
V̂ (t̂y ) = (11.1.5)
p2
La densidad de la población se define como
ty
D= (11.1.6)
A
el número de animales por unidad de área en la región de estudio. Un estimador insesgado
de la densidad es
y
D̂ = (11.1.7)
pA
Con varianza
 
ty 1−p
V (D̂) = 2
A p
y varianza estimada
11.2. ESTIMACIÓN DE LA DETECTABILIDAD 195

 
y 1−p
V̂ (D̂) = 2
A p2
Ejemplo 11.1.1. Las ubicaciones de nidos de abejas en una región de estudio de 400 por
1600 metros en el Delta Yukón-Kuskokwim de Alaska (datos de Anthony 1990) se muestran
en la figura (11.1). Los nidos han sido censados con una combinación de fotografı́as aéreas
en los estudios de terreno. Los 76 nidos se tomarán como la población total ty en la región
de estudio.

Figura 11.1: Ubicación de nidos de abejas en el Delta Yukon-Kuskokwim de Alaska.

Supongamos que se propone una metodologı́a de estudio, por ejemplo, sola la observación
aérea, para lo cual se sabe que la detectabilidad es p = 0.9.

A partir de dicha estudio, el número total de nidos en la región del estudio se estimarı́a
dividiendo el número observado y por 0.9 y la varianza del estimador como dada en ecuación
anteriormente citada
 
1 − 0.9
V (t̂y ) = 76 = 8.4
0.9

El error estándar es 8.4 = 2.9

11.2. Estimación de la detectabilidad


En la mayorı́a de las situaciones, no se conoce la probabilidad de detección p, pero esta podrı́a
ser estimada por uno o varios métodos. Por ejemplo, para un levantamiento aéreo, p se podrı́a
estimar comparando el número de animales vistos desde el aire con el número encontrados
por los grupos de tierra, ya sea en la misma área de estudio o en áreas similares. Otro méto-
do para estimar la detectabilidad incluye el doble muestreo; método de captura-recaptura
y métodos utilizando animales con collar de radio (chips); métodos basados en la distancia
como los asociados con los transectos lineales; experimentos netos de malla; y métodos utili-
zando regresión donde se relacionan el número de animales detectados con factores como la
196 11. DETECTABILIDAD Y MUESTREO

velocidad de los aviones.

Basándose en el método mediante el cual p fue estimado, una estimación de V (p̂) usualmente
se puede determinar. Por ejemplo, supongamos que p se ha estimado como una relación

p̂ =

En un estudio independiente, con una muestra aleatoria de n parcelas en las que xi es el
número de animales detectados en la i-ésima parcela por el método de estudio estándar y yi
es el número real presente basado en la búsqueda intensiva de la parcela. En la estimación
del total de la población total ty con
y
t̂y =

o la densidad D con
y
D̂ =
p̂A
se puede pensar en dividir el número de animales observados y por p̂ o de multiplicar y por
el recı́proco r = p̂1 .

La varianza de r se puede estimar como

s2d
V̂ (r) =
nx̄2
donde s2d es la usual varianza muestral residual utilizada en la estimación de razón,
n
1 X
s2d = (yi − p̂xi )2
n − 1 i=1

La varianza de p̂ puede estimarse invirtiendo los roles de x y la variable respuesta y en la


estimación de la razón.

Los métodos de estimación de la razón con muestreo-doble o bifásico se aplican cuando se


realiza un recuento preciso para una submuestra de las unidades estudiadas por el método
de estudio habitual. Para cada unidad en una muestra de tamaño n0 , se registra el número xi
de animales detectados. Para una submuestra de n de las unidades de muestra, un recuento
preciso yi de los animales presentes está determinado. La relación

r=

11.3. DETECTABILIDAD CON MUESTREO ALEATORIO SIMPLE 197

1
de la submuestra estima el p
recı́proco de detectabilidad.

Los métodos de captura-recaptura pueden usarse para estimar la detectabilidad de especies.


Por ejemplo, para estimar la capturabilidad p en una prospección de arrastre de peces, un
número de peces capturados, marcados y devueltos a la población. Entonces, utilizando los
métodos usuales de reconocimiento de arrastre y tomando en cuenta el área barrida por la
red, entonces la relación, del número de peces capturados y marcados en el segundo muestreo
con el número total de peces marcados de la población en el primer muestreo se puede tomar
como estimación de la capturabilidad en otros estudios.

t2y
 
1  1−p
V (t̂y ) ≈ 2 V (y) + t2y V (p̂) = ty

+ 2 V (p̂) (11.2.1)
p p p

Ejemplo 11.2.1 (Detectabilidad estimada). Supongamos que la detectabilidad en la metodo-


logı́a del estudio para los nidos de abeja del ejemplo (11.1.1) habı́a sido independientemente
estimada, comparando las observaciones aéreas con las observaciones realizadas por los gru-
pos en tierra como p̂ = 0.9 con√una varianza de estimación de V (p̂) = 0.000625, de manera
que el error estándar de p̂ es 0.000625 = 0.025 y un intervalo de confianza del 95 % para
la verdadera detectabilidad serı́a aproximadamente de 0.85 a 0.95. Entonces la varianza del
estimador de ty serı́a

762
V (t̂y ) ≈ 2.9 + (0.000625) = 8.4 + 4.5 = 12.9
0.92

11.3. Detectabilidad con muestreo aleatorio simple


Supongamos ahora que una muestra aleatoria simple sin reemplazo de n unidades es seleccio-
nados de una población de N unidades, y que los animales dentro de una parcela seleccionada
se detectan con probabilidad p, siendo las detecciones independientes. Ejemplos en los que
tal situación podrı́a aplicarse incluyen los levantamientos de transectos aéreos de mamı́feros
grandes en que la visibilidad a lo largo del transecto volado es aproximadamente constan-
te, los sondeos desde el mar de secciones seleccionadas de acantilados para los lugares de
anidación, y las prospecciones de arrastre de peces o mariscos en los que la capturabilidad
constante se aplica al área barrida por la red.

En cualquiera de las situaciones, las propiedades de las observaciones, y por lo tanto de los
estimadores, dependerá tanto en el diseño del muestreo como en la detectabilidad.

Sea Yi el número de animales realmente en la unidad i y yi el número detectado por el


observador. El total de la población es
198 11. DETECTABILIDAD Y MUESTREO

N
X
ty = Yi (11.3.1)
i=1
ty
y la media de la población es µ = N . Los valores Y1 , Y2 , . . . , YN se consideran fijos. Dado
que la unidad i está en la muestra, yi es una variable aleatoria binomial con valor esperado
E(yi ) = Yi p con varianza V (yi ) = Yi p(1 − p). Una estimación del número de animales en la
unidad i es Ŷi = ypi . Condicionada a que la unidad i esté en la muestra,

Yi (1 − p)
E(Ŷi ) = Yi y V (Ŷi ) = (11.3.2)
p
Con una muestra aleatoria simple de n unidades, un estimador del total de la población ty es

t̂y = N (11.3.3)
p
Donde ȳ es la media muestral de los valores observados.

El estimador t̂y es un estimador no sesgado del total de la población ty y tiene varianza

N2 
 
n 2 2 1−p µ
V (t̂y ) ≈ 1− σ +N (11.3.4)
n N p n
donde σ 2 es la varianza poblacional.

El primer término de la varianza se debe a muestreo sólo n unidades del N en la población,


y el segundo término se debe al imperfecto de detectabilidad. Obsérvese que la menor detec-
tabilidad conduce a una mayor varianza en el estimador:

El término (1−p)
p
disminuye a medida que aumenta la probabilidad de detección p.
Un estimador insesgado de la varianza de t̂y es

N2 
 
n 2 2 1 − p ȳ
V̂ (t̂y ) = 2 1 − s +N (11.3.5)
np N np p
Donde ȳ y s2 hacen referencia a la media y la varianza muestral de los valores observados.
Para estimar la media µ, use µ̂ = yp y divida lo que está después del N 2 por p2 .

Ejemplo 11.3.1. Supongamos que los 1600 metros de largo que tiene la región de estudio de
nidos de aves se divide en N = 16 parcelas, de modo que cada parcela se extiende 100 metros
horizontalmente y 400 metros verticalmente. Los valores poblacionales y, del número de nidos
en cada una de las parcelas rectangulares, son (de izquierda a derecha en la figura), 5, 4, 5,
3, 3, 1, 3, 1, 2, 5, 18, 4, 10, 4 y 4. La media poblacional de estos 16 valores es µ = 4.75 y la
11.4. DETECTABILIDAD ESTIMADA Y MUESTREO ALEATORIO SIMPLE 199

varianza poblacional finita es σ 2 = 16.73.

Con una detectabilidad perfecta, una estimación del número total de nidos basada en la
región de estudio de una muestra aleatoria simple de n = 8 de las parcelas serı́a t̂y = 16ȳ con
varianza

16.73
V (t̂y ) = 16(16 − 8) = 267.7
8
con un error estándar de 16.4.

16ȳ
Con detectabilidad p = 0.9 en cada parcela seleccionada, la estimación es t̂y = 0.9
con
varianza

162 (1 − 0.9)(4.75)
V (t̂y ) = 267.7 + = 267.7 + 16.9 = 284.6
(0.9)(8)
y error estándar 16.9.

11.4. Detectabilidad estimada y muestreo aleatorio sim-


ple
Supongamos que la probabilidad p de detección no se conoce, pero una estimación p̂ es obteni-
da la cual es aproximadamente insesgada para p y no está correlacionada con ȳ. Supongamos
también que está disponible una estimación de V̂ (p̂) de la varianza de p. Para un estimador
del total de la población, considere

N ȳ
t̂y = (11.4.1)

Con la detectabilidad estimada en el denominador, t̂y ya no es insesgado para ty (aunque
puede ser aproximadamente insesgado ası́). Por el teorema de Taylor, una aproximación de
la fórmula de la varianza de t̂y es

N2 
V (ȳ) + µ2 V (p̂)

V (t̂y ) ≈ 2
p
N2  1 − p µ µ2
 
n 2 2
= n− σ +N + V (p̂) (11.4.2)
n N p n p2

Donde el tercer término es debido a la estimabilidad de p. Un estimador de la varianza viene


dado por:
200 11. DETECTABILIDAD Y MUESTREO

N2  ȳ 2
 
n 2 2 1 − p̂ ȳ
V̂ (t̂y ) = 2 n − s +N + N 2 2 V̂ (p̂) (11.4.3)
np̂ N np̂ p̂ p̂
Ejemplo 11.4.1 (Muestreo aleatorio y detectabilidad estimada). Con la detectabilidad de
p = 0.9 del ejemplo de nido de pajaros independientemente estimado con varianza V (p̂) =
0.000625 y la muestra aleatoria simple de 8 de las 16 parcelas del estudio en la región, la
varianza del estimador
16ȳ
t̂y =

Con varianza aproximada

162 4.752
V̂ (t̂y ) = 267.7 + 16.9 + (0.000625)
0.92
= 267.7 + 16.9 + 4.50
= 289.1

11.5. Muestreo con reemplazamiento


Si se utiliza muestreo aleatorio simple con sustitución, el estimador,
N ȳ
t̂y = (11.5.1)
p
con p conocido, es insesgado para ty con varianza

N2 2
 
1−p µ
V (t̂y ) ≈ σ + N2 (11.5.2)
n p n
Sea
N yi
t̂yi = (11.5.3)
p
Entonces t̂y es una media muestral de n. independientes e idénticamente distribuidas variables
aleatorias t̂y1 , t̂y2 , . . . , t̂yn , por lo que una estimación no sesgada de la varianza de t̂y es
n
1 X 2
V̂ (t̂y ) = t̂yi − t̂y (11.5.4)
n(n − 1) i=1
N 2 µ2 N 2 ȳ 4
Cuando p es estimado, el término p2 V (p̂)
es agregado a la varianza teórica y p̂V̂ (p̂)
a la varianza
estimada.
11.6. MUESTREO PROBABILÍSTICO DE GRUPOS CON PROBABILIDADES DE DETECCIÓN DESIGUAL 201

11.6. Muestreo probabilı́stico de grupos con probabili-


dades de detección desigual
Hasta ahora hemos considerado el muestreo aleatorio simple de unidades, observando objetos
tales como animales individuales, cada uno con igual probabilidad de detección. Una genera-
lización de esta situación se consideró en Steinhorst y Samuel (1989), en la que las unidades
puede seleccionarse mediante cualquier diseño de muestreo con probabilidades de inclusión
conocidas, donde los objetos son grupos de animales para los cuales se registra el número en
el grupo, y la probabilidad de detección puede diferir para diferentes objetos, dependiendo,
por ejemplo, del tamaño del grupo. De hecho, la variable de interés yij del j-ésimo objeto
en la i-ésima unidad puede ser cualquier tipo de variable-continua, discreta o indicadora.
Sea πi la probabilidad de que la unidad (parcela) i esté incluida en la muestra, y sea πii0 la
probabilidad de que tanto las unidades i como la i0 estén incluidas. Con el j-ésimo objeto
(grupo) en la i-ésima unidad (parcela) se asocia una variable yij , que puede, por ejemplo, ser
el número de animales del grupo ij. La probabilidad de detección para el j-ésimo objeto de
la i-ésima unidad es gij . Suponga que Mi denota el número de objetos en la i-ésima unidad,
y mi el número de estos que son detectados. El número de unidades distintas en la muestra
es v. Sea

Mi
X
tyi = yij (11.6.1)
i=1

el total de los valores de y (número de animales) en la unidad i.

El objetivo es estimar el total de la población

Mi
N X
X
ty = yij (11.6.2)
i=1 j=1

por ejemplo el número total de animales en la población. Un estimador de ty basado en el


método de Hortvit y Thompson es:

v mi
X 1 X yij
t̂y = (11.6.3)
π g
i=1 i j=1 ij

La varianza del estimador es:


202 11. DETECTABILIDAD Y MUESTREO

N   N X 
X 1 − πi X πii0 − πi πi0
V (t̂y ) = +t2yi tyi tyi0
i=1
πi i=1 i0 6=1
πi πi 0
N Mi  
X 1 X 1 − gij
+ yij2 (11.6.4)
π
i=1 i i=1
g ij

Un estimador insesgado de la varianza es:

v   v X 
X 1 − πi X πii0 − πi πi0
V̂ (t̂y ) = 2
t2yi
+ t̂yi t̂yi0
i=1
π i 0
i=1 i 6=1
π i π i 0

v m i
X 1 X 1 − gij 

+ 2
yij2 (11.6.5)
π
i=1 i i=1
g ij

donde
mi
X yij
t̂yi = (11.6.6)
j=1
gij
Capı́tulo 12

Lı́neas y puntos transectos

En un estudio por transectos lineales de una especie animal o vegetal, un observador que se
mueve a lo largo de una lı́nea seleccionada toma nota de la ubicación relativa a la lı́nea de
cada individuo de las especies detectadas. Suele ocurrir en tales estudios que más individuos
son detectado cerca de la lı́nea que lejos de ella, no porque la abundancia sea mayor cerca de
la lı́nea, sino porque la probabilidad de detección es más alta cerca de la lı́nea que lejos de esta.

Para estimar la abundancia o densidad de la especie en el área de estudio de uno o más de


estos transectos, esta detectabilidad no constante debe ser tenida en cuenta. Se han utilizado
métodos de transectos lineales para muchos tipos de poblaciones, aves, mamı́feros y especies
vegetales, ası́ como otros objetos para los cuales la detectabilidad depende de la ubicación
en relación con el observador. Por conveniencia, los individuos en la población será referidos
genéricamente como “animales”. Para estudios de algunos especie, el observador camina a lo
largo del transecto. También se han aplicados a los levantamientos aéreos, a los estudios de
los buques de investigación, etc.

Un transecto de lı́nea se caracteriza por una función de detectabilidad que da la probabilidad


que se detecte un animal (o planta) en un lugar determinado. En la mayorı́a de los casos, se
puede esperar que la probabilidad de detección disminuya a medida que la distancia desde el
transecto a la lı́nea aumenta. En muchos casos, la detectabilidad en la propia lı́nea se puede
suponer perfecta. En otros casos, los animales son muy esquivos para que sean observado, lo
cual da como resultado una detectabilidad que alcanza su máximo a cierta distancia de la
lı́nea.

La mayor parte de los estimadores de densidad o de abundancia se basan en la detectabilidad


media, el área efectiva observada, o densidad de detecciones a lo largo de la lı́nea. Estimado-
res basados en detecciones de probabilidades individuales también son cobijados.

Las funciones de detectabilidad son útiles para evaluar muchos métodos de estudios además

203
204 12. LÍNEAS Y PUNTOS TRANSECTOS

para transectos lineales, uno puede pensar en las unidades de detectabilidad, métodos y los
lugares seleccionados para hacer observaciones de una población difı́cil de alcanzar, como una
generalización de las unidades de muestreo clásico de estudios.

12.1. Métodos para estimación de densidad por lı́nea


transecta
La figura (12.1) muestra observaciones de animales u otros objetos de un segmento de un
transecto de lı́nea. Las distancias perpendiculares entre los objetos y el transecto son indicado
con lı́neas de trazos. Dado el conjunto de distancias de los animales observados

Figura 12.1: Observaciones de animales u otros objetos de un segmento de un transecto de


lı́nea.

Una o más lı́neas de transecto, para las cuales la detectabilidad es virtualmente perfecta cerca
de la lı́nea pero disminuye con la distancia de la lı́nea, puede no ser inmediatamente aparente
cómo para estimar la abundancia o densidad de los animales en la población. Empezaremos
con un par de métodos simples, de sentido común para estimar la densidad de población o la
abundancia de estos datos, avanzando hacia métodos más avanzados, similitud de las ideas
subyacentes a los métodos simple y elaborado.
12.2. MÉTODO DE FRANJA ESTRECHA 205

En los métodos que siguen, el objeto es estimar la densidad de animales u otros objetos en
una región de estudio del área A. Para el i-ésimo transecto en la muestra, la variable de in-
terés yi es el número de animales observados. El tamaño de la muestra n se refiere al número
de transectos seleccionados (no a la variable de interés). El total del número de animales en
la región de estudio se denomina ty , y la densidad de animales es D = tAy . Burnham et al.
(1980, p.33) sugieren que los datos deben incluir al menos 40 detecciones para proporcionar
estimaciones confiables.

Se estudian los siguientes métodos para determinar la valor de la distancia óptima wo de


detectbilidad.

12.2. Método de franja estrecha


Aunque la detectabilidad de los animales lejos de la lı́nea del transecto puede ser imper-
fecta, puede haber alguna franja estrecha a lo largo de la lı́nea en la que la detectabilidad
es virtualmente perfecta. Luego, se usan solo aquellas observaciones dentro de la franja y
se ignoran las observaciones más lejanas, se puede considerar que la franja es una unidad o
parcela convencional y se estima el total o la densidad de la población de la manera habitual.

Sea L la longitud del transecto y sea w0 la distancia máxima desde la lı́nea a la que se
supone que la detectabilidad es perfecta. Entonces, la anchura de la franja es 2w0 y su área
es 2w0 L. Sea y0 el número de animales detectados dentro de la franja estrecha para estimar la
densidad D, es decir, el número de animales por unidad de área, se puede utilizar el número
de animales en la franja estrecha dividida por su área:
y0
D̂ = (12.2.1)
2w0 L
Si la región del estudio tiene área A, el número total de animales en la región de estudio es
estimado como
Ay0
t̂y = AD̂ = (12.2.2)
2w0 L
La distancia w0 es generalmente menor que la distancia máxima a la que los animales han
sido detectados, y por lo tanto el número de animales y0 utilizados para estimar la densidad
es generalmente menor que el número total y detectado. Varios métodos han sido propuesto
para elegir la distancia w0 a la que se asume la detección perfecta. Una manera es examinar
un histograma de los datos de distancia y buscar una distancia a la que la frecuencia relativa
de las observaciones cae bruscamente.
Ejemplo 12.2.1 (Método de franja estrecha). En un transecto de lı́nea de longitud L = 100
metros, un total de y = 18 aves fueron detectadas a las siguientes distancias (en metros) de
206 12. LÍNEAS Y PUNTOS TRANSECTOS

la lı́nea de transecto: 0, 0, 1, 3, 7, 11, 11, 12, 15, 15, 18, 19, 21, 23, 28, 33, 34, 44.
Se desea estimar la densidad de aves en la región de estudio.

Graficando el número de aves detectadas en intervalos de distancia de 10 metros, encontra-


mos que cinco fueron vistos a 10 metros de la lı́nea, siete fueron vistos entre diez y veinte
metros, tres entre 20 y 30 metros, dos entre 30 y 40 metros, y uno entre 40 y 50 metros.
Entonces elegimos w0 = 20 como la distancia más allá del cual los avistamientos caen mar-
cadamente.

Ası́, la franja estrecha tiene una anchura de 2w0 = 40 metros. El número de aves detectadas
dentro de esta tira fue de y0 = 12.

La estimación de la densidad de población es

12
D̂ = = 0.003
2(20)(100)

Por lo que la estimación es de 0.003 aves por metro cuadrado o 30 aves por hectárea.
Aunque el método de la franja estrecha es muy simple, no es enteramente satisfactorio, pri-
mero porque no se utilizan todas las observaciones obtenidas, en segundo lugar porque la
determinación de la anchura de la franja estrecha parece algo arbitraria, y tercero porque la
detectabilidad puede de hecho disminuir suavemente con la distancia de modo que la franja
estrecha con detectabilidad perfecta realmente tiene ancho cero.
12.3. MÉTODO DE SUAVIZADO AL OJO 207

12.3. Método de suavizado al ojo


Al hacer un histograma para aproximar una función de probabilidad o densidad de probabi-
lidad f , primero se elige un ancho de intervalo y luego se fija la altura fˆ del histograma para
una distancia dada x por la siguiente fórmula:

Número de observaciones en el intervalo que contiene x


fˆ(x) = (12.3.1)
(Número total de observaciones)(Ancho de intervalo)
Obsérvese que, de acuerdo con su interpretación de probabilidad, el área bajo el histograma
suma uno. Usando los datos del ejemplo 1 con un ancho de intervalo de 20m (la anchura
utilizada en el método de la tira estrecha), la altura del histograma para el primer intervalo,
y especı́ficamente para la distancia x = 0, usando la ecuación , serı́a

12
fˆ(0) = = 0.0333
18(20)
ya que 12 de los 18 pájaros fueron vistos en los primeros 20 metros de intervalo.
La franja estrecha utilizó solamente los datos de este primer intervalo. Para el intervalo de
la franja estrecha, la altura del histograma es fˆ(0) = ywy0
0
, ası́ que la estimación de la tira
estrecha de D se puede escribir en términos de fˆ(0) como

fˆ(0)y 0.0333(18)
D̂ = = = 0.003
2L 2(100)
El histograma para la distancia x de la lı́nea del transecto puede ser visto como aproximación
de la función de densidad de probabilidad suave f (x) que describirı́a la distribución de las
distancias de detección que se obtendrı́an si uno corriera un número infinito de lı́neas de
transecto seleccionadas aleatoriamente para la especie en cuestión.

Observando el histograma con intervalos de 10 metros, es fácil imaginar que se podrı́a obtener
una mejor estimación de f (0), el valor de la verdadera, suave densidad de detecciones a la
distancia cero de la lı́nea del transecto. La altura del histograma para el primer intervalo,
5
en el que se observaron cinco aves, es 18(10) = 0.028. Para el segundo intervalo, en el que se
7
detectaron siete aves, la altura es 18(10) = 0.039. Del mismo modo, para los tres intervalos
restantes, las alturas son 0.017, 0.011 y 0.006.

La distribución observada de las detecciones, como se muestra en el histograma, en realidad


aumenta un poco con la distancia antes de disminuir. Suponer, sin embargo, que la verdadera
densidad de detecciones disminuye suavemente con la distancia, reflejando una detectabilidad
decreciente, y que las irregularidades en el histograma se deben al azar y al pequeño número
de observaciones. Entonces una mejor estimación de f (0), la densidad teóricamente verdadera
208 12. LÍNEAS Y PUNTOS TRANSECTOS

de las detecciones a la distancia cero, puede obtenerse ajustando una curva suave y decreciente
al histograma.

Ejemplo 12.3.1. Ajustar una curva de este tipo en el histograma y ver donde la curva
ajustada interceptó el eje vertical, la densidad de detecciones con curva exponencial ajustada.
Se obtuvo la estimación fˆ(0) = 0.036, que es mayor que el histograma en el primer intervalo
pero inferior al segundo.
La estimación de la densidad de población de aves a partir de esta estimación suavizada por
ojo de densidad a cero es

fˆ(0)y 0.036(18)
D̂ = = = 0.0032
2L 2(100)
o 32 aves por hectárea.

No se ilustra la curva alisada por el ojo del autor; el lector es alentado para hacer su propia
estimación lisa-por-ojo a partir del histograma de densidad de puesto que la elección del ancho
del intervalo y el suavizado son subjetivos, la estimación de una persona puede diferir de la
de otra persona. Los siguientes métodos reducen esta subjetividad en cierta medida, pero se
basan en la misma idea.

12.4. Métodos paramétricos


Cuando se observan animales en una parcela en franja, es decir, cada animal dentro de la
y
franja de anchura media w y longitud L la estimación de la densidad es D̂ = 2Lw , el número
de animales observados dividido por el área de la parcela. Cuando los animales se observan
a partir de un transecto de lı́nea con una función de detectabilidad g(x) que tiene perfecta
detectabilidad en la lı́nea y disminuyendo con la distancia x lejos de la lı́nea, la distancia
a los animales observados de los transectos colocados aleatoriamente tendrán densidad de
probabilidad f (x) de la misma forma que la función de detectabilidad pero escalada de modo
que el área bajo la función de densidad de probabilidad f es igual a 1. Con un valor perfecto
de detectabilidad en la lı́nea, la estimación de la densidad es

y fˆ(0)
D̂ = (12.4.1)
2L
y el punto crucial del problema es estimar f (0), la densidad a la distancia cero de la lı́nea.
Uno puede imaginar una trama de franjas equivalente, con detectabilidad perfecta para alguna
distancia w, en la que se verı́a el mismo número de animales, en promedio, como se ven desde
el transecto con detectable decreciente. La relación entre el transecto de lı́nea y el diagrama
de franjas efectivamente equivalente
12.4. MÉTODOS PARAMÉTRICOS 209

1
f (0) = (12.4.2)
w
donde w se denomina la media anchura efectiva del transecto. En términos de ancho medio
eficaz, la estimación de la densidad basada en una estimación ŵ de w es
y
D̂ = (12.4.3)
2Lŵ
Ası́, uno puede proceder de manera equivalente a estimar f (0) o a estimar w.
Cuando una forma paramétrica se especı́fica, es decir, una forma funcional de parámetros
desconocidos se asume para la función de detectabilidad g(x), métodos estadı́sticos pueden
utilizarse tales como máxima verosimilitud para estimar los parámetros desconocidos y ası́
obtener una estimación de f (0) o de w. Algunas clases de modelos paramétricos se exami-
nan en Buckland (1985), Burnham et al. (1980), Pollock (1978), Quinn y Gallucci (1980), y
Ramsey (1979). Se utilizarán dos de los más simples como ejemplos aquı́.

La ventaja de asumir una forma simple para la curva de detectabilidad es que conduce a es-
timadores simples de los estimadores de densidad de población que son los mejores en algún
sentido si la suposición es verdadera. La desventaja es que la clase de curva asumida puede no
tener la flexibilidad para representar la verdadera detectabilidad real asumida. Dos ejemplos
de funciones de detectabilidad paramétrica, el exponencial y la media-normal (half-normal),
se describen aquı́ principalmente porque conducen a estimadores de densidad simples.

La clase exponencial de funciones de detectabilidad es g(x) = exp −x



w
. A mayor valor
del parámetro w, mayor será la detectabilidad de los animales de la lı́nea del transecto. El
estimador de máxima verosimilitud para w (Ramsey 1979) es ŵ = x̄, es decir, la distancia
media de detección.

Ejemplo 12.4.1 (Detectibilidad exponencial). Con los datos del ejemplo del pájaro (Ejemplo
1), la distancia media de detección es x = 16.39 metros. El estimado de densidad de población
es
18
D̂ = = 0.055
2(16.39)(100)
o de 55 aves por hectárea. La curva exponencial ajustada ĝ(x)/ŵ se muestra en la figura.

Aunque el modelo exponencial conduce a un estimador extremadamente simple, no es realista


para la mayorı́a de las poblaciones reales y, en la práctica, no conduce a buenos resultados en
la estimación. Varios autores (Buckland 1985, Burnham et al., 1980, Eberhardt 1978a) han
argumentado que la función de detectabilidad debe tener un “hombro”, es decir, ser de nivel
o tener derivada cero en la vecindad inmediata del transecto lı́nea. El modelo más simple con
tal hombro es la media-normal (half-normal). La media-normal de detectabilidad es
210 12. LÍNEAS Y PUNTOS TRANSECTOS

−πx2
 
g(x) = exp (12.4.4)
4w2
La estimación de máxima verosimilitud de w es
v
u y
uπ X
ŵ = t x2 (12.4.5)
2y i=1 i

Ejemplo 12.4.2 (Detectibilidad media-normal). Con los datos de aves del Ejemplo 1, la
distancia de detección al cuadrado medio es
n
1X 2 1 2
0 + · · · + 442 = 417.5

xi =
n i=1 18
La estimación de w es
s 
3.1417
ŵ = 417.5 = 25.61
2
Entonces, la estimación de la densidad es
18
D̂ = = 0.0035
2(25.61)(100)
ĝ(x)
o 35 aves por hectárea. La curva semi-normal ajustada ŵ
se muestra en la figura.
12.5. MÉTODOS NO PARAMÉTRICOS 211

Existen modelos más complicados, pero con mayor flexibilidad para ajustar datos reales,
pero la estimación con tales modelos es algo complicada. Los modelos más adaptados son los
modelos no paramétricos, que esencialmente son técnicas de suavizamiento utilizadas para
estimar f (0).

12.5. Métodos no paramétricos

Para evitar suposiciones acerca de la forma de las funciones de detectabilidad desconocidas,


se pueden usar métodos de estimación de densidad no paramétricos. Utilizando observaciones
de variables aleatorias de una función de densidad de probabilidad f , los métodos utilizan
técnicas de suavización para estimar el valor f (x) de la función de densidad en cualquier valor
dado de x. Con el muestreo de transectos lineales, la función de densidad de probabilidad de
interés es la densidad de las distancias de detección observadas.

La detectabilidad en la lı́nea del transecto se asume perfecta, de modo que la estimación


tiene la forma

y fˆ(0)
D̂ =
2L
212 12. LÍNEAS Y PUNTOS TRANSECTOS

12.5.1. Estimación de f (0) por el método Kernel


En la extensa literatura estadı́stica sobre la estimación de las funciones de densidad de pro-
babilidad (PDFs), la tendencia dominante es la estimación kernel, un enfoque de suavizado
no paramétrico.

La aplicación de la metodologı́a a la estimación del transecto lineal fue sugerida por Seber
(1986) y ha sido utilizada por Quang (1993) para el problema de estimación estrechamente
relacionado en los estudios de parcelas de variables circulares.

El método emplea una función de kernel K(x), que se integra a 1; es decir,


Z ∞
K(x) dx = 1
−∞

El estimador kernel de la PDF f en x es


y  
2 X x − xj
fˆ(x) = K
yh j=1 h

Donde h se denomina el ancho de ventana y xj es el valor de la i-ésima observación (es decir,


la distancia desde la lı́nea transectada al j-ésimo animal) y y es el número de observaciones
(es decir, el número de animales detectados). El coeficiente 2 surge cuando se utiliza la den-
sidad de la distancia sin signo, sin tener en cuenta a qué lado de la lı́nea.

Para estimar f (0) con un kernel simétrico, el estimador se convierte en


y
2 X  xj 
fˆ(0) = K
yh j=1 h

Con el kernel normal, por ejemplo,


x   
j 1 1  xj  2
K = √ exp −
h 2π 2 h
Silverman (1986, p.48) da una regla simple para elegir el ancho de ventana h:
1
h = 0.9ay − 5
Q
donde a = mı́n(s, 1.34 ), en la que s es la desviación estándar de la muestra de las x observa-
ciones y Q es su intervalo intercuartı́lico. Pero cuando se trata sólo con distancias positivas,
se debe usar la distancia mediana en lugar del rango intercuartil.

El estimador de la densidad de población de los animales es entonces


12.5. MÉTODOS NO PARAMÉTRICOS 213

y fˆ(0)
D̂ =
2L
Ejemplo 12.5.1 (Kernel normal). En un transecto de lı́nea de longitud L = 100 metros, un
total de y = 18 aves fueron detectadas a las siguientes distancias (en metros) de la lı́nea de
transecto: 0, 0, 1, 3, 7, 11, 11, 12, 15, 15, 18, 19, 21, 23, 28, 33, 34, 44. La distancia absoluta
15
mediana es 15 y 1.34 = 11.19

Dado que 11.19 es menor que la desviación estándar de la muestra s = 12.56, la regla de
Silverman para elegir el ancho de ventana h da
1
h = 0.9(11.19)(18)− 5 = 5.65
La estimación del kernel normal de f (0), es

02 442
    
2
fˆ(0) = √ exp − + · · · + exp −
18(5.65) 2π 2(5.65)2 2(5.65)2
= 0.0376

La estimación de la densidad de aves es

18(0.0376)
D̂ = = 0.0034
2(100)
aves por metro cuadrado, o 34 aves por hectárea.

12.5.2. Método de la serie de Fourier


El método de la serie de Fourier para estimar f (0) es
m
1 X
fˆ(0) = ∗ + Âk
w k=1

Donde w∗ es la distancia máxima a la que los animales pueden ser observados y los coeficientes
Âk son dados por
" y  #
2 X kπxi
Âk = cos
yw∗ i=1 w∗
El número m de términos a utilizar en la aproximación es algo arbitrario, pero se ha reco-
mendado la siguiente regla general (Burnham et al., 1980): Comenzando con m = 1, elija el
primer número entero m tal que
214 12. LÍNEAS Y PUNTOS TRANSECTOS

r
1 2
≥ Âm+1

w∗ y+1
Para determinar la máxima distancia de detectabilidad w∗ , Burnham et al. (1980) y Crain et
al. (1979) recomiendan usar una distancia menor que la mayor distancia a la que se detectó
un animal, arrojando el mayor 1 % − 3 % de las distancias observadas como valores atı́picos
(véase también Burnham et al., 1981; Quang 1990).

Ejemplo 12.5.2 (Método de la serie de Fourier). Al aplicar el método de la serie de Fourier


a los datos del primer ejemplo, la observación más grande, la detección a 44 metros, se arroja
como un valor atı́pico y la siguiente mayor, 34 metros, se utiliza como w∗ .

La desigualdad de la regla general se satisface para el valor m = 1, por lo que solo se necesita
un término. Ası́, sólo se necesita calcular un coeficiente, Â1 , pero implica 17 términos (el
número de observaciones después de descartar el más grande).

El coeficiente A1 es

 
2 1(3.1417)(0) 1(3.1417)(34)
Â1 = cos + · · · + cos
17(34) 34 34
= 0.0091

La estimación de f (0) es
1
fˆ(0) = + 0.0091 = 0.00385
34
La estimación de la densidad de la población es

17(0.0385)
D̂ = = 0.0033
2(100)
o 33 aves por hectárea.

12.5.3. Nota sobre la estimación de la varianza para el método


Kernel
Si las distancias observadas fueran independientes, ası́ como idénticamente distribuidas, se
podrı́a obtener una estimación de la varianza de D̂ del estimador kernel, ya que los términos
K(xj /h) serı́an independientes e idénticamente distribuidos. Entonces serı́a fácil estimar la
varianza de D̂ o fˆ(0) usando la varianza muestral de K(xj /h). Sin embargo, las distancias
observadas, aunque idénticamente distribuidas debido a la ubicación aleatoria del transecto,
12.5. MÉTODOS NO PARAMÉTRICOS 215

no son independientes sin suposiciones adicionales sobre la propia población.

La independencia de la distancia observada requiere el supuesto de que la distribución es-


pacial de los animales en la población es aleatoria. Cualquier tendencia de los animales a
agregarse, defender territorios o verse afectados por un ambiente irregular dará lugar a co-
rrelaciones entre distancias a los animales observados del mismo transecto. Con poblaciones
extremadamente irregulares, se puede, por ejemplo, detectar los animales sobre todo a cortas
distancias de un transecto y a grandes distancias de otro. Estas correlaciones en las distancias
observadas ocurrirán aunque las detecciones pueden ser condicionalmente independientes, es
decir, dada la ubicación de dos animales, la detección de uno de un transecto dado no afecta
la detección del otro.

Si se seleccionan n transectos por muestreo aleatorio, entonces si f (0) es conocido, un esti-


mador no sesgado de la densidad de población D es
n
1X ȳf (0)
D̂ = D̂i =
n i=1 2E(L)

yi f (0)
Donde D̂i = 2E(L) , yi es el número de animales detectados del transecto i y E(L) es el valor
esperado de la longitud del transecto.

Un estimador imparcial de la varianza de D̂, asumiendo la independencia, es


n
1 X 2
V̂ (D̂) = D̂i − D̂
n(n − 1) i=1

Si no es realista suponer que los animales de la población están ubicados de forma indepen-
diente, sin embargo, debemos mirar el diseño de muestreo para ayudar en la estimación de
la varianza.

Si se debe estimar f (0) mediante el método kernel, se puede determinar una anchura de
ventana hi separadamente para cada transecto o determinar una sola anchura de ventana h
de todos los datos de distancia. En el primer caso,
n  
1 X xj
D̂i = K
hi E(L) j=1 hi

y
n
1X
D̂ = D̂i
n i=1
216 12. LÍNEAS Y PUNTOS TRANSECTOS

Dado que los estimadores de densidad en general no son imparciales, D̂ no es imparcial para
D, aunque es aproximadamente imparcial. Sin embargo, el estimador de varianza
n
1 X 2
V̂ (D̂) = D̂i − D̂
n(n − 1) i=1

Es imparcial para la varianza de D̂, debido a que los D̂i son independientes e idénticamente
distribuidos debido a la selección aleatoria en los transectos en los n lugares.

Si los n transectos tienen condiciones de detectabilidad similares, se puede obtener una mejor
estimación de f (0) combinando todos los datos de distancia del estudio. Sea h el ancho de
ventana utilizado. El estimador es
n yi
ȳ fˆ(0) 1 X X  xij 
D̂ = = K
2E(L) nhE(L) i=1 j=1 h

Donde xij es la distancia a la i-ésima lı́nea transectada del j-ésimo animal detectada a partir
de ese transecto. Definimos
yi
1 X  xij 
D̂i = K
hE(L) j=1 h
n
1X
entonces D̂ = D̂i y la varianza del estimador
n i=1
n 
1 X 2
V̂ (D̂) = D̂i − D̂
n(n − 1) i=1

Es imparcial para la varianza de D̂ si el ancho de ventana h es fijo no determinado a partir


de los datos. Algún sesgo se introduce en el estimador de varianza cuando h se determina
a partir de los datos. El sesgo tiende a ser pequeño si h se determina a partir de un gran
número de observaciones y, por tanto, tiene una pequeña varianza. Podrı́a reducirse usando
una estimación de varianza de bootstrap o jackknife.

12.6. Diseños para seleccionar transectas


El diseño de muestreo en un estudio de transectos lineales es el procedimiento por el cual se
seleccionan las ubicaciones de las lı́neas transectas. Propiedades deseadas tales como inses-
gamiento o aproximación a un estimador de densidad insesgado ası́ como las estimaciones de
la varianza estarán basadas en el diseño de muestreo que se realizó sobre la población.
12.7. MUESTRA ALEATORIA SIMPLE DE TRANSECTOS 217

Sin embargo muchos animales pueden ser vistos desde un transecto, un solo transecto es una
muestra de tamaño 1. Una estimación más precisa de la abundancia o densidad en un estudio
se espera en una muestra probabilı́stica de n transectos, particularmente si los animales están
des-uniformemente distribuidos en la región de estudio.

Las estimaciones de varianza basadas en una muestra de varios transectos son preferibles
a estimaciones “analı́ticas” basadas en observaciones dentro de un solo transecto, esta es
una recomendación sugerida por varios autores (véase Burnham y Anderson, 1976, pag. 329;
Eberhardt 1978b; Overton 1969; y Seber 1982, pág. 467). Procedimientos para estimar la
varianza de los estimadores a partir de datos dentro de un solo transecto invariablemente
se basan en supuestos sobre la distribución de los animales, la suposición tı́pica es que los
animales están ubicados de manera uniforme en la región de estudio. Por ahora, evitamos
asiduamente tales suposiciones Barry y Welsh (2001) examinan la interacción entre el diseño,
el modelo y la función de detectabilidad con transectos lineales y señalan en particular el
problema de asumir implı́citamente la independencia al evaluar la eficacia de los métodos.

Otros aspectos del método observacional, como la velocidad a la cual un transecto de lı́nea es
atravesado, afectan la forma de las funciones de detectabilidad y, por lo tanto, las propiedades
de las observaciones y estimadores.

12.7. Muestra aleatoria simple de transectos


Se seleccionará una muestra aleatoria de n transectos en el área de estudio como sigue. Una
lı́nea recta de base de longitud B se dibuja a través (o debajo) de la región de estudio en
un mapa. El área de estudio no necesita ser de forma regular. La longitud de la lı́nea de
base es la anchura de la proyección perpendicular sobre la lı́nea de cada punto del área de
estudio. Una muestra aleatoria de n puntos de transectos v1 , v2 , . . . , vn se selecciona de una
distribución uniforme en el intervalo [0, B].

Los transectos se ejecutan completamente a través del área de estudio de acuerdo a la figura,
donde se seleccionan n = 10 transectos
218 12. LÍNEAS Y PUNTOS TRANSECTOS

O también como en la figura siguiente donde se seleccionan n = 15 transectos de la región


de estudio.

Note que el muestreo es con reemplazo, aunque los lugares del transecto se seleccionan de
una distribución continua, existe una probabilidad cero de seleccionar el mismo transecto dos
veces.

Al seleccionar una muestra aleatoria de transectos, algunos sesgos pueden ser introducidos
por problemas de frontera, es decir, una probabilidad de detección media ligeramente inferior
para los animales cerca de la frontera.

12.7.1. Estimador insesgado


Debido a las irregularidades en la forma de la región de estudio, la longitud Li de la i-ésima
A
transecta es una variable aleatoria, con valor esperado E(Li ) = B , donde A es el área de la
región de estudio y B es la longitud de la lı́nea de base. Sea yi el número de animales vistos
desde el i-ésimo transecto. Si se conoce el ancho eficaz w o la densidad f (0), se utilizará un
estimador no sesgado de densidad, basada en el i-ésimo transecto, es

B  yi 
D̂i =
A 2w 
B yi f (0)
=
A 2
yi f (0)
= (12.7.1)
2E(L)
12.7. MUESTRA ALEATORIA SIMPLE DE TRANSECTOS 219

Entonces el estimador insesgado para los n transectos es:

n
1X
D̂ = D̂i
n i=1
B  ȳ 
=
A 2w 
B ȳf (0)
= (12.7.2)
A 2

Donde
n
1X
ȳ = yi
n i=1
Es la media muestral de los números observados.

Cuando w o f (0) en la expresión para D̂ se estima, por ejemplo, por uno de los métodos
que acabamos de dar, el valor estimado ŵ o fˆ(0) se sustituye en la expresión por D̂ y el
insesgamiento se mantiene sólo aproximadamente.

Si las estimaciones individuales

O
ŵ1 , . . . , ŵn
O

fˆ1 (0), . . . , fˆn (0)


se hacen independientemente para cada transecto y
Byi
D̂i =
2Aŵi
O

Byi fˆi (0)


D̂i =
2A
Entonces

D̂i , . . . , D̂n
Son independientes y un estimador insesgado de la varianza viene dado por
220 12. LÍNEAS Y PUNTOS TRANSECTOS

n
1 X 2
V̂ (D̂) = D̂i − D̂ (12.7.3)
n(n − 1) i=1

12.7.2. Estimador de razón


Cuando el área de estudio es de forma irregular, los transectos serán de diferentes longitudes.
Cuando este es el caso, puede preferirse un estimador de razón basada en las longitudes. El
estimador de razón viene dado por:

Pn
i=1 Li D̂i
D̂r = P n
Li
Pi=1n
i=1 yi
=
2ŵ ni=1 Li
P
Pn
yi ˆ
= Pi=1 n f (0) (12.7.4)
2 i=1 Li

Donde

yi
D̂i =
2Li ŵ
yi fˆ(0)
=
2Li

Como el estimador de razón, D̂r no es insesgado en el sentido de diseño, incluso cuando w o


f (0) son conocidos. Este puede ser un modelo insesgado, bajo los supuestos de una relación
lineal entre el número esperado de animales vistos y la longitud del transecto.
Un estimador de varianza del tipo de razón ajustada es

n
1 X  yi 2
V̂1 (D̂r ) = 2 − D̂r Li
L n(n − 1) i=1 2ŵ
n
!2
1 X yi fˆ(0)
= 2 − D̂r Li (12.7.5)
L n(n − 1) i=1 2

Donde
n
1X
L= Li
n i=1
12.8. ESTIMADOR JACKKNIFE EN MAS DE TRANSECTOS 221

Es la longitud promedio de los n transectos en la muestra.

Otro estimador para el tipo de estimador de razón es dado por: (ver Buckland 1982; Burnham
and Anderson 1976; Burnham et al. 1980; Seber 1979, 1982, p. 463)

n
1 X  2
V̂2 (D̂r ) = Li D̂i − D̂r
Ln(n − 1) i=1
 ˆ 2
yi fi (0)
1 Xn
2
− Li D̂r
= (12.7.6)
Ln(n − 1) i=1 Li

12.8. Estimador Jackknife en MAS de transectos


12.8.1. Estimador insesgado
Debido a las irregularidades en la forma de la región de estudio, la longitud Li de la i-ésima
A
transecta es una variable aleatoria, con valor esperado E(Li ) = B , donde A es el área de la
región de estudio y B es la longitud de la lı́nea de base. Sea yi el número de animales vistos
desde el i-ésimo transecto. Si se conoce el ancho eficaz w o la densidad f (0), se utilizará un
estimador no sesgado de densidad, basada en el i-ésimo transecto, es

B  yi 
D̂i =
A 2w
B  yif (0) 
=
A 2
yi f (0)
=
2E(L)

Entonces el estimador insesgado para los n transectos es

n
1X
D̂ = D̂i
n i=1
B  ȳ 
=
A 2w 
B ȳf (0)
=
A 2

Donde
222 12. LÍNEAS Y PUNTOS TRANSECTOS

n
1X
ȳ = yi
n i=1
Es la media muestral de los números observados.

Cuando w o f (0) en la expresión para D̂ se estima, por ejemplo, por uno de los métodos
que acabamos de dar, el valor estimado ŵ o fˆ(0) se sustituye en la expresión por D̂ y el
insesgamiento se mantiene solo aproximadamente. Si las estimaciones individuales

ŵ1 , . . . , wˆn
o
fˆ1 (0), . . . , fnˆ(0)
se hacen independientemente para cada transecto y
Byi
D̂i =
2Aŵi
o
Byi fi ˆ(0)
D̂i =
A
Entonces

D̂1 , . . . , D̂n
Son independientes y un estimador insesgado de la varianza viene dado por
n
1 X 2
V̂ (D̂) = D̂i − D̂
n(n − 1) 1
Sin embargo, a menudo se obtiene una mejor estimación de w o f (0) mediante la agrupación
de los datos de distancia de todos los transectos del estudio.

Con
Byi
D̂i =
2Aŵ
o
Byi
D̂i =
fˆ(0)2A
usando las estimaciones agrupadas, los D̂i no son independientes y V̂ (D̂i ) tiende a subestimar
la varianza verdadera del estimador. Con las estimaciones agrupadas, se podrı́a obtener una
12.8. ESTIMADOR JACKKNIFE EN MAS DE TRANSECTOS 223

mejor estimación de la varianza a través de un método de remuestreo tal como el bootstrap


o jackknife.

La estimación jackknife se obtiene mediante la eliminación sistemática de un transecto en un


momento de la muestra. Sea Dˆ(i) la estimación obtenida del n − 1 Los transectos restantes
n
1X ˆ
en la muestra después de suprimir el i-ésimo transecto, y dejar Dˆ(.) = D(i) . Obsérvese
n i=1
que para cada una de las n muestras de jackknife, cada una consistente en n − 1 transectos,
todo el proceso de hacer una estimación agrupada de w o f (0) y luego se repite la densidad
de estimación. La estimación jackknife de la varianza es

n
n − 1 Xh ˆ ˆ
i2
V̂j (D̂) = D(i) − D(.) (12.8.1)
n i=1

12.8.2. Selección con probabilidad proporcional a la longitud


Las lı́neas de transecto pueden seleccionarse con una probabilidad proporcional a la longitud
seleccionando n puntos independientemente de una distribución uniforme en toda el área de
estudio. Esto puede lograrse encerrando el área de estudio en un rectángulo y seleccionan-
do pares de coordenadas aleatorias hasta que se obtienen localizaciones dentro del área de
estudio por cada punto seleccionado, se selecciona un transecto a través del punto y per-
pendicular a la lı́nea de base. Un transecto en una amplia sección del área de estudio (un
transecto largo) tiene una mayor probabilidad de selección porque más puntos en el área de
estudio conducen a su selección. La función de densidad de probabilidad para la localización
del transecto a lo largo de la lı́nea de base L(v)
A
.

Para un único transecto seleccionado por el diseño anterior, considere el estimador

y
D̂ = (12.8.2)
2wL(v)

Donde w es la media anchura efectiva del transecto, v el punto de intersección de ese transec-
to con la lı́nea de base, y L(v) la anchura del área de estudio (la longitud del transecto) en
ese punto.

Sea zj una variable indicadora igual a 1 si el j-ésimo animal de la población se detecta y


cero en caso contrario. Condicionada al punto de partida seleccionado v, el valor esperado
del estimador es
224 12. LÍNEAS Y PUNTOS TRANSECTOS

 
t
X
zj 

  
y 
 j=1

E =E v

2wL(v)  2wL(v) 
 


t
X
g(v − xj )
j=1
=
2wL(v)

Incondicionalmente bajo el diseño, el valor esperado es

t  
g(v − xj ) L(v)
Z
1 X
E(D̂) = dv
2w j=1 R L(v) A
t
=
A
=D

Por lo tanto, D es insesgado para D, suponiendo que w o f (0) es conocido. Cuando una
estimación de w o f (0) = w1 está sustituido, el insesgamiento es aproximado. Denotar por D̂i
el estimador anterior para el i-ésimo transecto en la muestra. Cada uno de los n estimadores
es insesgado para D, de modo que su promedio
n
1X
D̂p = D̂i (12.8.3)
n i=1

Es insesgado para D.

Puesto que los n lugares de partida se seleccionaron independientemente y las detecciones son
independientes, los D̂i son variables aleatorias independientes e idénticamente distribuidas.
Un estimador imparcial de la varianza de su media de la muestra D̂p es por lo tanto
n
1 X 2
V̂ (Dˆp ) = D̂i − D̂p (12.8.4)
n(n − 1) i=1

Cuando w o f (0) = w1 son estimados, el insesgamento del estimador es solamente aproximado


y el estimador de varianza será insesgado solamente con individuos, estimaciones indepen-
dientes wi o fi (0) para cada transecto. La metodologı́a para estimar ŵi o fi ˆ(0) y obtener
12.9. SELECCIÓN SISTEMÁTICA DE LOS TRANSECTOS 225

estimaciones de varianza con los estimadores agrupados bajo muestreo con una probabilidad
proporcional a la longitud aún no está bien desarrollada.

Byi
D̂i =
2Aŵi
o
Byi fi ˆ(0)
D̂i =
A
Entonces

D̂1 , . . . , D̂n
Son independientes y un estimador insesgado de la varianza viene dado por
n
1 X 2
V̂ (D̂) = D̂i − D̂
n(n − 1) i=1

12.9. Selección sistemática de los transectos


Muchos investigadores prefieren una selección sistemática de transectos para evitar la cober-
tura de la región de estudio obtenida con muestreo aleatorio. La figura siguiente muestra
una muestra sistemática de 10 transectos, espaciados uniformemente de una seleccionada a
lo largo de los primeros diez lı́neas iniciales de la lı́nea base.

Con tal muestra, se siguen los resultados sobre el insesgamiento o la aproximación para los
estimadores de densidad, pero no los resultados sobre el insesgamiento o aproximación al
insesgamiento del estimador de la varianza.

Se dispone de un estimador de varianza no sesgado para una muestra sistemática con más de
un punto de partida seleccionado al azar para muchas poblaciones. El estimador de la varianza
del muestreo aleatorio simple tienden a ser conservador-tiende a sobrestimar la varianza real
cuando se utiliza con muestreo sistemático con un único punto de partida.
226 12. LÍNEAS Y PUNTOS TRANSECTOS

12.10. Esfuerzo de muestreo


Como con cualquier ejercicio de muestreo, la obtención de resultados fiables a partir de un
estudio de muestreo distancia, depende crı́ticamente de buen diseño de la estudio. Esto se
basa en los principios de muestreo fundamentales de la replicación y la aleatorización. Lı́neas
o puntos suficientes replicados aseguran que la variación en la tasa de encuentro (número de
objetos detectados por el esfuerzo de muestreo unidad) puede estimarse de manera adecuada.
Las lı́neas o puntos no deben ser colocados subjetivamente; más bien un esquema de aleatori-
zación debe ser empleado que da a todos los lugares de la región de estudio una probabilidad
conocida, no nulo de estar cubierto por un transecto (la “cobertura de probabilidad”). Los
análisis estándar en distancia asumen la probabilidad de cobertura uniforme.

El esfuerzo de muestreo se puede expresar de muchas maneras: como el tiempo de búsqueda


por sitio, como la búsqueda dentro de una distancia dada de un punto de referencia o lı́nea,
o el número total de sitios como replica que se necesita para encontrar un patrón.

Ejemplo:
los conteos de aves de Audubon de Navidad seleccionarán un perı́odo de 24 horas donde
los investigadores tratarán de encontrar el mayor número de especies de crı́a en un área
como sea posible dentro de las 24 horas.
Establecer un lı́mite de tiempo definido también permite que la estudio sea más estan-
darizado y los resultados se pueden comparar de año en año.
Para un estudio de muestreo sea considerado cientı́fico, debe ser al azar; es decir, los sitios
deben seleccionarse independiente de factores, tales como el número de organismos que se
encuentran en un sitio o la proximidad de un sitio al laboratorio; aunque estos parecen ser
razones válidas para pasar más esfuerzo en un sitio, esto sólo sirve para hacer que los sitios
muestreados de manera desigual con el resultado final sea las diferencias en la diversidad en-
tre los sitios no se pueden atribuir de manera convincente a algo distinto de la diferencia en el.

Para determinar cuánto esfuerzo Muestreo es necesario, hay dos consideraciones principales:

¿Cuál es el tamaño mı́nimo de la muestra para la estimación confiable? y ¿Qué precisión es


necesaria para cumplir con los objetivos del estudio? Consideramos cada uno de estos temas
a continuación

12.10.1. Tamaño de muestra mı́nimo


Hay dos componentes de tamaño de la muestra:
El número de lı́nea o punto de transectos en el diseño, y
12.10. ESFUERZO DE MUESTREO 227

El número de animales mı́nimo (entre 10 y 20) que se recomienda para replicadas lı́neas
o puntos para permitir una estimación fiable.

Si la población presenta una distribución muy desigual, entonces más lı́neas o puntos son
necesarios, para asegurar que la variabilidad a través del área de estudio está adecuadamente
representada y estimada. Buckland et al., (2001, pp 240-241) también sugieren que al menos
entre 60 y 80 animales (o grupo de animales) debe de detectado para la estimación confiable
de la función de detección de lı́nea transectos; y para puntos como mı́nimo entre 75 y 100.

12.10.2. Estimación de esfuerzo total necesario


Asumiendo que el coeficiente de variación de la densidad ha sido identificado. El coeficiente
de variación de una estimación D̂ de densidad animal D̂ es definido como

se(D̂)
Cve(D̂) =

donde se(D̂) es el error estándar de D̂.

12.10.3. Muestreo punto de transectos


Supongamos que llevamos a cabo un estudio piloto, en donde K0 puntos son muestreados.
Si esto da suficientes datos para estimar la densidad D y su coeficiente de variación por D̂
y cv(D̂) respectivamente, un método simple para estimar K, el número de puntos necesarios
para alcanzar el coeficiente objetivo de variación, por cvt (D̂), están dada por:

n o2
K0 Cve(D̂)
K= n o2 (12.10.1)
Cvet (D̂)

Estudios de muestras piloto rara vez son lo suficientemente grandes para permitir este método,
supongamos que detectamos n0 animales desde los K0 puntos en la encuesta piloto, donde es
demasiado pequeño para permitir la estimación de D. n0 , Ahora podemos tomar

K0 b
K= o2 (12.10.2)
n0
n
Cvet (D̂)

Buckland et al., (2001, p. 245) se recomienda b = 3


228 12. LÍNEAS Y PUNTOS TRANSECTOS

12.10.4. Muestreo de lı́neas transectas


Una vez finalizado el estudio piloto, número total de longitud recorrido y el número de objetos
registrados a lo largo del conjunto de piloto transectos se ponen en una ecuación simple para
calcular el número de longitud requeridos para lograr una precisión objetivo (un determinado
coeficiente de variación) como sigue (Buckland 2001).

La formular para el transecto de lı́nea y transecto de puntos son muy similares. Primero
Supongamos que un estudio piloto, realizado a lo largo de las lı́neas de la longitud total L0 ,
proporciona datos suficientes para estimar densidad D y su coeficiente de variación por D̂ y
Cve(D̂) respectivamente, y el coeficiente de variación en el tiempo recorrido Cvet (D̂). Luego
calculamos la longitud total de la lı́nea para el estudio principal como,

n o2
L0 Cve(D̂)
L= n o2 (12.10.3)
Cvet (D̂)

donde ,
L, distancia a recorrer en el diseño final del transecto (la longitud total de los transectos)

Cvet coeficiente de variación, expresado como un número entre 0 y 1 (por ejemplo,


25 % se expresarı́an como 0.25); recuerda que esto significa que “sólo cuando han reco-
rrido más de un cuarto (25 %) de los animales esto será detectable por el programa de
monitoreo”.

D̂ estimador de la densidad.

L0 , longitud total de la muestra piloto en estudio.


Si los datos experimentales son insuficientes para este método, y se detectan n0 animales, en
su lugar tomamos

L0 b
L= o2 (12.10.4)
n0
n
Cvet (D̂)

n0 número de objetos detectados a lo largo de los transectos en el estudio piloto .


var(n) nvar(f (0))
b= +
n (fˆ(0))2

donde usualmente b = 3 (Buckland et al. 2001, p. 242)


Capı́tulo 13

Muestreo por intersecto de lı́neas

En el muestreo por intersecto de lı́neas, una muestra de lı́neas transectas es seleccionada


en un área de estudio, y cada vez que un objeto de la población es intersectada por una o
más de las lı́neas de muestra, la variable de interés asociada con ese objeto es registrado.
Consideremos, por ejemplo, un estudio de hábitat ecológico en el que el objetivo es estimar
la cantidad total de frutos de ciertas especies vegetales en un área de estudio. Una muestra
aleatoria de n lı́neas, cada una de longitud L, es seleccionada y dibujada en un mapa de la
zona de estudio. Los trabajadores del campo caminan cada una de las lı́neas y, siempre que
la lı́nea intersecta un arbusto de la especie, los frutos de este arbusto se recogen y se mide su
cantidad yk .

Con el diseño descrito anteriormente, un arbusto grande tiene una mayor probabilidad de
inclusión en la muestra que un arbusto pequeño. El estimador insesgado del total de la
población depende en determinar estas probabilidades.

13.1. Muestra aleatoria de lı́neas: dirección fija


En el diseño más simple, n lı́neas de transecto se seleccionan al azar tomando n posiciones
a lo largo de una lı́nea de base de longitud B que atraviesa el ancho de la región de estudio
y trazando un transecto que atraviesa el área de estudio perpendicular a la lı́nea de base en
cada una de las posiciones seleccionadas.

Sea K el número de objetos en la población. Asociado con el k-ésimo objeto está una variable
K
X
de interés yk . El objetivo es estimar la población total t = yi o la densidad por unidad
k=1
t
de área D = , donde A es el área de la región de estudio.
A

229
230 13. MUESTREO POR INTERSECTO DE LÍNEAS

En cualquier trazo dado, la probabilidad de que la lı́nea de transecto seleccionada intersecte


el k-ésimo objeto es proporcional al ancho wk a lo largo de la lı́nea de base del conjunto
de puntos para los cuales la perpendicular intersecta el objeto k. Ası́, wk es el ancho de la
“sombra” emitida del objeto k en la lı́nea de base. La probabilidad de selección trazo por
trazo es
wk
pk = (13.1.1)
B
Sea Ci el conjunto de objetos de la población que son intersectados por la i-ésima lı́nea de
transecto en la muestra. Para cada uno de estos objetos intersectados, se divide el valor de
la variable de interés yk por la probabilidad de selección pk y se define la nueva variable vi
como la suma
X yk
vi = (13.1.2)
k∈C
pk
i

La variable vi es un estimador insesgado de la población total t. La muestra aleatoria de


n transectos dados v1 , v2 , . . . , vn , son independientes e idénticamente distribuidos. Su media
muestral
n
1X
t̂p = vi (13.1.3)
n i=1
es un estimador insesgado de t con varianza
 1
V t̂p = V (vi )
n
El estimator t̂p es similar al estimador de Hansen-Hurwitz basándose en las probabilidades
de selección trazo por trazo. En el presente diseño, sin embargo, los objetos no se seleccio-
nan independientemente, ya que las selecciones de los conjuntos se producen con lı́neas que
intersectan más de un objeto.
Sea s2v la varianza muestral de los v, esto es,
n
1 X 2
s2v = vi − t̂p (13.1.4)
n − 1 i=1

Un estimador insesgado de la varianza de t̂p es


 s2
V̂ t̂p = v (13.1.5)
n
No hay un factor de corrección de población finita porque la selección de posiciones a lo
largo de la lı́nea de base es esencialmente con reemplazo. Incluso con posiciones de transecto
distintas, un objeto dado puede ser intersectado por más de una lı́nea de transecto y por lo
13.1. MUESTRA ALEATORIA DE LÍNEAS: DIRECCIÓN FIJA 231

tanto ser contado más de una vez en el estimador t̂.

Una estimación que depende sólo de los distintos objetos intersectados por la muestra de las
lı́neas de transecto puede ser obtenida por el método de Horvitz-Thompson. Sea k el número
de los distintos objetos intersectados. La probabilidad de que el k-ésimo objeto sea incluido
en la muestra es

πk = 1 − (1 − pk )n (13.1.6)
El estimador de Horvitz–Thompson es
k
X yk
t̂π = (13.1.7)
k=1
πk
Las fórmulas de la varianza para el estimador de Horvitz-Thompson dependen de las proba-
bilidades de inclusión conjunta. Sea wkh la anchura a lo largo de la lı́nea de base del conjunto
de posiciones desde las cuales la lı́nea perpendicular intersecta los objetos k y h. La anchura
total a lo largo de la lı́nea de base a partir de la cual el objeto k o el objeto h o ambos están
intersectados es wk + wh − wkh . La probabilidad de que tanto el objeto k como el objeto h
sean intersectados al menos una vez por los transectos de la muestra es
 n
wk + wh − wkh
πkh = πk + πh − 1 + 1 − (13.1.8)
B
Las fórmulas Horvitz-Thompson de la varianza y de la varianza estimada pueden ser usadas
para t̂π .
Para cada tipo de estimador del total poblacional, un estimador de la densidad poblacional
puede obtenerse como
1
D̂ = t̂ (13.1.9)
A
con
1 
V (D̂) = V t̂ (13.1.10)
A2
Si la región de estudio es rectangular de anchura b con cada transecto de longitud l a través de
esta, el área A = bl. Si el transecto es de forma irregular, la longitud li del i-ésimo transecto
A
seleccionado al azar es una variable aleatoria, con valor esperado E (li ) = (Seber 1979).
b
Si la región del estudio está más alejada que la longitud máxima l de un único transecto, la
lı́nea de base puede continuar en lı́neas paralelas a una distancia de l. Los estimadores dados
arriba son insesgados para t o D si las lı́neas son de igual longitud o no. Seber (1979) examinó
los estimadores de razón y los estimadores de la media de la razón basados en la longitud
de los transectos. En común con otros estimadores de tipo de razón, estos estimadores son
ligeramente sesgados.
232 13. MUESTREO POR INTERSECTO DE LÍNEAS

Ejemplo 13.1.1. Los datos para este ejemplo son de Becker (1991) y Becker y Gardner
(1990). Para estimar la abundancia de Lobeznos en una región de estudio, seleccionados los
transectos se vuela en condiciones climáticas apropiadas con observadores en los aviones bus-
cando pistas en la nieve. Una vez que se encuentra un conjunto de pistas, estos son seguidos
en cada dirección y mapeados. Para el k-ésimo conjunto de pistas, la variable de interés yk
es el número de Lobeznos asociados con ese conjunto.

Los resultados de dicho estudio se muestran en la siguiente figura, la cual representa una
región de estudio rectangular de 36 millas por 20 millas en las montañas de Chugach de
Alaska. El diseño de muestreo consistió en seleccionar al azar n = 4 posiciones de transectos
que fueron sistemáticamente arregladas. Las cuatro posiciones de partida al azar (A1 , B1 ,
C1 y D1 en la figura) se seleccionaron en las primeras 12 millas (B = 12) a lo largo de la
anchura de la zona de estudio. De cada posición de partida seleccionado, un transecto fue
volado a través de la región de estudio, con dos segmentos de transecto más (por ejemplo,
A2 y A3 para la posición A1 ) añadido sistemáticamente a intervalos de 12 millas de las
posiciones de partida. Obsérvese que no tiene ninguna complicación por el hecho de que el
diseño es una muestra sistemática replicada, ya que tenemos en efecto una muestra aleatoria
simple de cuatro transectos seleccionados dentro de las primeras 12 millas, con cada transecto
seleccionado continuado en tres segmentos.

Figura 13.1: Pistas de Lobeznos

Los seleccionados transectos intersectados k = 4 distintos conjuntos de pistas, que contiene


6 Lobeznos. Numerando los sistios de las pistas de este a oeste y de norte a sur, los números
de Lobeznos fueron y1 = 1, y2 = 2, y3 = 2 y y4 = 1. Las anchuras de las proyecciones de las
pistas en la base de la región de estudio son w1 = 5.25 millas, w2 = 7.50 millas, w3 = 2.40
millas y w4 = 7.05 millas. Debido a que las posiciones de partida son seleccionadas al azar
13.1. MUESTRA ALEATORIA DE LÍNEAS: DIRECCIÓN FIJA 233

wk
en las primeras 12 millas, las probabilidades de selección son pk = , dando p1 = 0.4375,
12
p2 = 0.625, p3 = 0.2 y p4 = 0.5875.
El primer transecto intersecta el primer, segundo y cuarto conjunto de pistas, ası́ que la
variable v1 es

1 2 1
v1 = + +
0.4375 0.625 0.5875
= 2.2857 + 3.2 + 1.7021
= 7.1878

El segundo transecto también se intersecta con el primer, segundo y cuarto conjunto de pistas,
ası́ que v2 = 7.1878. El tercer transecto se intersecta con el tercer y cuarto conjunto de pistas,
ası́ que

2 1
v3 = +
0.2 0.5875
= 10.0 + 1.7021
= 11.7021

el cuarto transecto también se intersecta con el tercer y cuarto conjunto de pistas, ası́ que
v4 = 11.7021.

La estimación basada en las probabilidades de selección es

1
t̂p = (7.1878 + 7.1878 + 11.7021 + 11.7021)
4
= 9.44

o cerca de 9 Loveznos en la región de estudio. La estimación de la varianza es


 6.7930
V ˆar t̂p = = 1.70
4
Para la estimación de Horvitz-Thompson, las probabilidades de inclusión son π1 = 1 −
(1 − 0.4375)4 = 0.90, π2 = 0.98, π3 = 0, 59, y π4 = 0.98. El estimador de Horvitz-Thompson
es
1 2 2 1
t̂π = + + + = 7.57
0.90 0.98 0.59 0.97
o 8 Loveznos en la región de estudio.
234 13. MUESTREO POR INTERSECTO DE LÍNEAS

La anchura a lo largo de la lı́nea de base donde los conjuntos 1 y 2 se intersectan es w12 = 5.25.
Para las otras combinaciones, w13 = 0, w14 = 3.75, w23 = 0, w24 = 3.75 y w34 = 2.4. Las
probabilidades de inclusión conjuntas

 4
5.25 + 7.5 − 5.25
π12 = 0.90 + 0.98 − 1 + 1 − = 0.90
12
 4
5.25 + 2.4 − 0
π13 = 0.90 + 0.59 − 1 + 1 − = 0.51
12
 4
5.25 + 7.05 − 3.75
π14 = 0.90 + 0.97 − 1 + 1 − = 0.88
12
 4
7.5 + 2.4 − 0
π23 = 0.98 + 0.59 − 1 + 1 − = 0.57
12
 4
7.5 + 7.05 − 3.75
π24 = 0.98 + 0.97 − 1 + 1 − = 0.95
12
 4
2.4 + 7.05 − 2.4
π34 = 0.59 + 0.97 − 1 + 1 − = 0.59
12

La varianza estimada para el estimador de Horvitz-Thompson es

   
1 1 2 1 1
22

V̂ t̂π = 2
− 1 + 2

0.90 0.90 0.98 0.98
   
1 1 2 1 1
+ − 2 + − 12
0.592 0.59 0.972 0.97
   
1 1 1 1
+2 − (1)(2) + 2 − (1)(2)
0.90(0.98) 0.90 0.90(0.59) 0.51
   
1 1 1 1
+2 − (1)(1) + 2 − (2)(2)
0.90(0.97) 0.88 0.98(0.59) 0.57
   
1 1 1 1
+2 − (2)(1) + 2 − (2)(1)
0.98(0.97) 0.95 0.59(0.97) 0.59
= 5.27

13.2. Lı́neas de posición aleatoria y dirección


Ahora supongamos que cada lı́nea de la muestra se selecciona completamente al azar en la
región de estudio. Esto puede lograrse seleccionando primero una ubicación uniformemente
13.2. LÍNEAS DE POSICIÓN ALEATORIA Y DIRECCIÓN 235

aleatoria de la región de estudio para ser el punto medio de un transecto de longitud L. En-
tonces, independientemente, un ángulo se elige de una distribución uniforme en [0, π), dando
la dirección de la lı́nea. El problema de lı́neas más cortas cerca de la frontera de la región de
estudio, que puede conducir a sesgos pequeños de otra manera en estimadores insesgados, se
trata generalmente, al menos teóricamente, extendiendo cualquier porción de corte de una
lı́nea seleccionada en otra parte de la región de estudio (Kaiser 1983). En la práctica, el sesgo
será pequeño si la región de estudio es grande en relación con la longitud de una lı́nea de
transecto.

Un objeto es intersectado completamente por una lı́nea de muestra si las extensiones de la


lı́nea en cualquier dirección no intersecan puntos adicionales del objeto. El objeto se seleccio-
na si se intersecta completamente. Un objeto parcialmente intersectado (como sucede cuando
un punto final del transecto está dentro del objeto) se selecciona con probabilidad 12 (la razón
es simplificar cálculos de probabilidades de selección). Se supone que la lı́nea de transecto es
más larga que la longitud máxima, en la dirección de la lı́nea de transecto, de cualquiera de
los objetos de la población.

Dada la dirección θ de la transecta, la probabilidad de que el k-ésimo objeto sea intersectado


Lwk (θ)
es pk (θ) = , donde wk (θ) es el ancho del objeto k en la dirección perpendicular a θ,
A
es decir, la distancia máxima entre lı́neas en la dirección θ que se intersectan al objeto.
Lck
La probabilidad incondicional de la selección por el objeto k es pk = , donde ck =
A
E [wk (θ)], el valor esperado de wk (θ) sobre la distribución de θ.

Los estimadores insesgados del total poplacional t pueden obtenerse usando el condicional
o las probabilidades de selección (Kaiser 1983). Para el i-ésimo transecto seleccionado, se
definen las nuevas variables
X yk
vi (θ) = (13.2.1)
k∈Ci
p k (θ)
X yk
vi = (13.2.2)
k∈C
p k
i

Donde vi (θ) y vi son estimadores insesgados de t.

Con n transectos seleccionados independientemente usando el diseño


 anterior, la media de
1
la muestra de v es un estimador insesgado para t con varianza n V (vi ). Ası́, dos posibles
estimadores insesgados son
n
1X
t̂p (θ) = vi (θ) (13.2.3)
n i=1
236 13. MUESTREO POR INTERSECTO DE LÍNEAS

n
1X
t̂p = vi (13.2.4)
n i=1
s2v
Un estimador insesgado de la varianza es n
, donde s2v es la varianza muestral basada en los
valores correspondientes de v.

Se necesita un estudio adicional con respecto a la eficiencia relativa de t̂p (θ) y t̂p (ver Kimura
y Lemberg 1981). La elección práctica puede depender de la relativa facilidad de medir wk (θ)
y ck para objetos muestreados. Kaiser (1983) da el ancho esperado del k-ésimo objeto como
c∗
ck = πk , donde c∗k es la longitud del perı́metro del conjunto convexo más pequeño que contiene
objetos k y sugiere que para la medición c∗k se coloca una cuerda alrededor de objeto k y se mi-
de la longitud de la cuerda (véase también Kendall y Moran 1963, p. 58; Salomón 1978, p. 17).

Para el estimador de Horvitz-Thompson, la probabilidad de inclusión para el k-ésimo objeto


k
n
X yk
es πk = 1 − (1 − pk ) . El estimador de Horvitz-Thompson es t̂π = .
k=1
πk
Los estimadores de intersecto de lı́neas para la cobertura y el número de objetos fueron
discutidos en Lucas y Seber (1977). Los estimadores para variables más generales de interés
se dieron en McDonald (1980). Jolly (1979) aplicó ideas similares al problema de estimar
la abundancia de animales en grandes rebaños. Kaiser (1983) describe un diseño en el cual
una localización y dirección son elegidos al azar y la lı́nea se extiende a través del área de
estudio, ası́ que la longitud de la lı́nea es una variable aleatoria. Referencias del trabajo
anterior se encuentran en los trabajos de DeVries (1979) y Eberhardt (1978a). También se
han desarrollado métodos de intersecto de lı́nea basados en la duración de la intersectación
y el número de intersecciones. Muchas de las ideas de probabilidad geométrica subyacentes a
los métodos de intersecto de lı́nea se describen en Kendall y Moran (1963) y Solomon (1978).

También podría gustarte