Está en la página 1de 20

ESTADSTICA ESPAOLA

Vol. 52, nm. 174, 2010, pgs. 197 a 216

Sobre el comportamiento asinttico


de la estimacin del error cuadrtico
medio mediante jackknife en muestreo
estratificado(*)

por
MONSERRAT HERRADOR
Instituto Nacional de Estadstica
y
DAVID SALGADO
Instituto Nacional de Estadstica
Universidad Antonio de Nebrija

RESUMEN

Estudiamos el comportamiento asinttico del estimador del error


cuadrtico medio de un estimador , que es funcin no lineal de las
variables de inters de una poblacin finita U . El estimador se
construye bajo un muestreo polietpico estratificado en primera etapa
mediante el mtodo jackknife. Se obtiene que hasta el orden O(n2 )
la componente del sesgo al cuadrado del estimador es despreciable
frente a la estimacin de la varianza.

(*) Agradecemos al Profesor D. Antonio Cuevas, del departamento de Matemticas de la


Universidad Autnoma de Madrid, sus comentarios sobre el manuscrito.
198 ESTADSTICA ESPAOLA

Palabras clave: Jackknife, Muestreo Estratificado, Estimador No


Lineal, Comportamiento Asinttico, Error Cuadrtico Medio, Sesgo,
Varianza.

Clasificacin AMS: 62D05

1. INTRODUCCIN

El muestreo estratificado constituye uno de los diseos muestrales ms


importantes tanto desde el punto de vista conceptual (Smith, 1976) como prctico
(Cochran, 1977). La gran mayora de las encuestas realizadas en el Instituto
Nacional de Estadstica incorpora la estratificacin en alguna de sus etapas. Por
otro lado, la tcnica de remuestreo del jackknife se ha convertido en una
herramienta notablemente verstil no slo para la reduccin del sesgo de los
estimadores y la construccin de intervalos de confianza, sino especialmente para
la estimacin de varianzas (Miller, 1974), en particular en relacin con los
estimadores no lineales. Si bien estas caractersticas aparecieron inicialmente
ligadas a los problemas de inferencia estadstica (Shao y Tu, 1995), en el mbito de
la realizacin de encuestas este mtodo debe ser debidamente adaptado a la teora
del muestreo en poblaciones finitas (Wolter, 2007).

Esta nota metodolgica recoge el comportamiento del estimador del error


cuadrtico medio de un estimador no lineal en un diseo estratificado cuando el
nmero de estratos L crece indefinidamente L . Para ello en la seccin 2 se
recogen los resultados preliminares necesarios relativos al empleo del jackknife en
muestreo estratificado en poblaciones finitas, as como las condiciones en las que
debe entenderse el rgimen asinttico L en este contexto. En las secciones 3
y 4 se analiza el comportamiento de las dos componentes del estimador del error
cuadrtico medio, a saber, del sesgo al cuadrado y de la varianza respectivamente.
En la seccin 5 se muestra el comportamiento asinttico de la estimacin del error
cuadrtico medio y en la seccin 6 se recogen las conclusiones pertinentes. A lo
largo de todo el artculo, se denotar por al estimador de la cantidad poblacional
, sea sta cual sea.

2. RESULTADOS PRELIMINARES

Recopilamos los resultados preliminares pertinentes al estudio del comporta-


miento asinttico de un estimador no lineal en muestreo estratificado en poblacio-
nes finitas.
SOBRE EL COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUADRTICO 199

2.1 El jackknife en muestreo estratificado

Los resultados fundamentales de la adaptacin del mtodo jackknife al


muestreo estratificado en poblaciones finitas pueden consultarse en Jones (1974);
Krewski y Rao (1981); Rao y Wu (1985) (vase tambin Rao, Wu y Yue (1992);
Wolter (2007)). Denotaremos por y la variable de inters en la poblacin U de
tamao N. La cantidad poblacional a estimar es el parmetro = g ( yU ) , esto es,
una funcin g no lineal de la media poblacional de la variable de inters y . El
anlisis puede generalizarse al caso de cantidades multivariantes y = ( y1 , , yp ) t ,
de tal modo que = g ( yU ) . Sin embargo, presentamos aqu el anlisis para el caso
univariante y posteriormente mostramos cmo extenderlo para cubrir este segundo
caso. Advirtase igualmente que los resultados que siguen son tambin vlidos
para aquellos parmetros que son funciones del total g ( Y ) ( g (Y ) en el caso multi-
variante) y tales que g(Y) g(yU ) ( g( Y ) g( yU ) en el caso multivariante), donde
hemos denotado Y = kU
yk ( Y
kU
yk en el caso multivariante).

El diseo muestral ser estratificado en L estratos con la posibilidad de


submuestreo independiente en cada estrato en varias etapas sucesivas. Los
resultados que siguen se centran en el caso de muestreo monoetpico con
reemplazamiento. Posteriormente mostraremos cmo se extiende el resultado al
caso de muestreo polietpico estratificado en primera etapa. La extensin a
muestreo sin reemplazamiento es inmediata, pues el comportamiento asinttico de
ambas opciones es idntico.

El estimador del parmetro se denotar por . Para poder emplear las


frmulas habituales de estimacin del sesgo y de la varianza de los estimadores
deben cumplirse los siguientes requisitos (Jones, 1974; Wolter, 2007):
1. Existe una funcin f al menos tres veces derivable tal que el parmetro a
estimar depende a travs de esta funcin de las medias poblaciones en cada
estrato: f(yU ,, yU ) .
1 L

2. El muestreo en cada estrato es independiente. Esta condicin est contenida en


la definicin de muestreo estratificado (Srndal, Swensson y Wretman, 1992).
3. El muestreo en cada estrato es aleatorio simple con reemplazamiento, de tal
modo que el estimador de la media poblacional de cada estrato es la media
muestral de las nh unidades poblacionales muestreadas en cada estrato h:


1
y U yk y s , donde nh es el tamao de la muestra sh seleccionada
h nh ksh h

en el estrato h e yhk es el valor de la variable y para la unidad k del estrato h.


200 ESTADSTICA ESPAOLA

Asimismo se tiene que la varianza del estimador de la media poblacional yU viene


2yU

L 1
dada por (y U ) Wh2 h
, donde 2yU (yhk yU )2 y Wh denota
h 1 nh h Nh kUh h

el peso del estrato h ( Wh Nh / N ).

4. El estimador del parmetro depende a travs de la misma funcin de los


estimadores de las correspondientes medias poblacionales en cada estrato:
(y U ,, y U ) . Se supone que no depende explcitamente de los tamaos
1 L

muestrales nh , slo a travs de las medias muestrales.


La idea central de Jones (Jones, 1974) es desarrollar en serie de Taylor el
estimador (y U ,, y U ) alrededor de los valores poblaciones yU ,, yU y
1 L 1 L
tomar los correspondientes momentos segn el diseo muestral escogido. De ese
modo, Jones propone como estimador jackknife del sesgo a primer orden del
estimador la expresin

L
JK ( )
(n
h 1
h 1)( (h) ), [1]


1
donde (h) (hk ) , siendo (hk ) el estimador aplicado a la pseudomuestra
nh ksh

obtenida a partir de la muestral original s al sustraer la unidad k del estrato h.


Ntese que tanto los n estimadores (hk ) como los L estimadores (h) son
estimadores del parmetro de la poblacin completa, no del total de cada estrato
respectivo, no siendo, por tanto, independientes para . La versin para
muestreo con reemplazamiento de los dos estimadores de la varianza propuestos
por Jones(1) son:

L
nh 1

(1)
JK () =
h =1
n h ks

( (hk ) (h) ) 2 [2]
h

L
nh 1

(2)
JK( ) =
h =1
n h ks

( (hk ) (h) ) 2 , [3]
h

(1) En Jones (1974) aparecen estas frmulas para muestreo sin reemplazamiento. Tan
slo es necesario eliminar el factor de correccin de poblaciones finitas para obtener las
relaciones equivalentes con reemplazamiento.
SOBRE EL COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUADRTICO 201

donde se define

n 2 nh 2
(hk ) 1 h (hk ) (hk )(h),
nh nh


1
(h) (hk )
nh ks
h


1
(hk )(h) (hk )(hl),
nh 1 ls
h(k )

siendo (hk )(hl) el estimador aplicado a la pseudomuestra obtenida al sustraer las


unidades k y l del estrato h.
N.B.: Puesto que a lo largo de todo el trabajo slo se considerar la variable y, se
omitir como subndice de los momentos poblacionales y muestrales. As,
escribimos U2 2yU , 4U 4 yU ...
h h h h

2.2 Las condiciones del rgimen asinttico en muestreo estratificado

El inters del rgimen asinttico radica en la prctica habitual de disear


encuestas con un gran nmero de estratos, por ejemplo la Encuesta Industrial
Anual de Empresas (INE, 2007), cuyo diseo utiliza varios miles de estratos. La
condicin L equivale a n , donde tal lmite en muestreo en poblaciones
finitas debe ser debidamente definido (Srndal, Swensson y Wretman, 1992).

El rgimen asinttico se enmarca en las condiciones habituales de Isaki y Fuller


(Isaki y Fuller, 1982) en las que se tiene una sucesin de poblaciones UN de
tamao N de las que se extraen respectivas muestras de tamao n . El rgimen
asinttico se entiende como N , n . Para el muestreo estratificado, se
necesita una formulacin ms precisa, lo que fue llevado a cabo por Krewski y Rao
(Krewski y Rao, 1981). De modo resumido, las condiciones para el rgimen
asinttico son:
1. La afijacin en todos los estratos no es desproporcionadamente pequea
respecto del peso de los estratos:
202 ESTADSTICA ESPAOLA

Wh
max O(1) cuando n [4]
1h L nh / n

2. Las varianzas dentro de los estratos estn acotadas:

W
h 1
2
h Uh O(1) cuando n [5]

Rao y Wu (Rao y Wu, 1985) formulan ms hiptesis que no son necesarias para
nuestros propsitos, pero que se encuentran en el empleo habitual de este diseo.
En particular, indican cmo en el caso en el que los tamaos muestrales de los
estratos permanezcan acotados ( maxhnh O(1) ), entonces [4] equivale a

1
maxWh O(n ) [6]
1h L

lo que necesariamente implica que el nmero de estratos L debe crecer


indefinidamente. La condicin [6] se satisface si maxhWh O(L1 ) y n / L O(1) ,
esto es, si ningn estrato es de tamao desproporcionado y el tamao muestral
promedio por estrato permanece acotado. Estas condiciones aparecen
frecuentemente en la prctica.

2.3 Condiciones sobre el estimador

El estimador , como se ha adelantado, es una funcin no lineal g del


estimador insesgado de la media poblacional de la variable de inters g(y U ) .
Estas caractersticas son muy generales y deben concretarse algunas propiedades
ms acerca de la funcin g (acotacin, regularidad). Estas son:
1. Sobre los momentos de segundo orden:

O(1)
2

donde la esperanza se toma respecto al diseo muestral.

2. Sobre los momentos de sexto orden:


1
(yk yU )6 O(n3 )
N kU
SOBRE EL COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUADRTICO 203

3. Regularidad de g:
Existe un entorno cerrado y acotado B de yU tal que las derivadas de tercer
orden de g son continuas y acotadas en B .

3. COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL SESGO AL


CUADRADO

En primer lugar determinamos las propiedades asintticas del estimador del


sesgo JK ( ) para deducir a partir de ellas las de tal estimador al cuadrado y otra
variante de inters.

3.1 Comportamiento asinttico de la estimacin del sesgo

Necesitamos varios resultados preliminares. Algunos de los resultados que


siguen estn contenidos de alguna u otra forma en Krewski y Rao (1981); Rao y Wu
(1985). No obstante, incluimos aqu sus demostraciones detalladas. Las
propiedades de los operadores O() , o() , Op () y op () fueron demostradas por
Mann y Wald (Mann y Wald (1943); vase Fuller (1976) para una exposicin ms
accesible).
Lema 3.1 Sea g(y U ) , entonces


1 2
g(yU ) y U yU g(yU ) y U yU Op (n3 / 2 )
2

Demostracin. El punto fundamental es y U yU Op (n1/ 2 ) . Esto se demuestra


U2

L
partiendo de la expresin ( y U ) = Wh2 h
. Ahora bien, como Wh / nh ~ n1
h =1 nh
(segn se deduce de [4]) y como tambin se cumple [5], se llega a ( y U ) = O(n1 ) ,
de donde se concluye que y y O (n1/ 2 ) , a lo sumo.
U U p

Hecha esta observacin, desarrllese g(y U ) alrededor de yU hasta el segundo


orden. Para acotar el resto tngase en cuenta que g tiene derivada de tercer orden
con continuidad en un entorno cerrado y acotado de un punto intermedio entre
y y y (resto de Lagrange) y tal derivada est acotada con probabilidad 1 :
U U

g( ) Op (1) .
204 ESTADSTICA ESPAOLA

Lema 3.2


1 Wh2 2
( ) g(yU ) U O(n3 / 2 ) . [7]
2 h 1
nh
h

Demostracin. Tomando valores esperados en el desarrollo anterior de y resto


, se obtiene la relacin indicada. Para el orden del resto hay que aplicar el
teorema 5.4.2. de Fuller (1976) con an O(n1 / 2 ) y s 3 . Las hiptesis del
teorema estn garantizadas por las condiciones asintticas de la seccin anterior.
Como consecuencia inmediata, tenemos

Lema 3.3

( ) O(n1 ) .

Demostracin. Es inmediata a partir de las condiciones asintticas y el resultado


anterior.

Lema 3.4 Sea (hk ) el estimador que resulta de aplicar a la muestra con la
unidad k del estrato h sustrada. Entonces


1 Wh

Wh 2
(hk ) g(y U ) y s yhk
g(yU ) y sh yhk Op (n3 )
nh 1 h 2 nh 1

Demostracin. En primer lugar, tenemos la identidad

y s yhk
y U(hk ) y U Wh h
[8]
nh 1

Seguidamente desarrollamos (hk) g(y U(hk) ) alrededor de y U hasta el segundo


orden:

W 3

1 2
(hk) g(y U ) y U(hk) y U g(y U ) y U(hk) y U Op h
[9]
2 nh 1

SOBRE EL COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUADRTICO 205

donde para la acotacin del resto se ha empleado la derivabilidad con continuidad


de orden 3 de la funcin g y la convergencia conjunta en probabilidad de y U(hk) e

y U hacia yU , esto es, que


max | y U(hk) yU | ,| y U yU | 1 para todo 0
hk

que Krewski y Rao demostraron en Krewski y Rao (1981) bajo una condicin tipo


L W
Lyapunov(2), es decir, h
(yhk yU )2 O(1) para algn 0 . Sustituimos
h 1 n h

[8] en [9] y empleamos las condiciones asintticas para llegar a la relacin pedida.
Lema 3.5

g(y U ) g(yU ) Op (n1/ 2 ) .

Demostracin. Aplicando el desarrollo de Taylor a primer orden a g y haciendo


uso de la continuidad con derivabilidad de g hasta tercer orden, se llega a la
frmula del resto de Lagrange para g( y ) : R U 3, yU U
(g; y ) = g( ) y y , donde
U U
es un punto intermedio entre yU y y U . Ahora bien, como y U converge en
probabilidad a yU , dada la continuidad de g , se tiene g( ) Op (1) , esto es, es
acotada en probabilidad. Como y U yU Op (n1/ 2 ) , se sigue el resultado
enunciado.
El comportamiento asinttico del sesgo se establece en el siguiente
Teorema 3.1


JK ( ) 1 Wh2
g(yU )Ss2 Op (n3 / 2 ) [10]
2 h 1
nh h

Demostracin. A partir del lema 3.4 inmediatamente se obtiene


1 1 Wh2
(h) (hk) g(y U )Ss2 Op (n3 )
nh ks 2 nh (nh 1) h
h

(2) Se asume que se cumple esta condicin en la poblacin, lo que no resta generali-
dad.
206 ESTADSTICA ESPAOLA


1
con Ss2 (yhk ys )2 , de donde
h nh 1 ksh h

L L

(n n
JK ( ) 1 Wh2
h 1)( (h) ) g(y U )Ss2 Op (n2 ) .
2 h
h 1 h 1 h

Ahora bien, como g(y U ) g(yU ) Op (n1/ 2 ) , sustituyendo en la relacin anterior


ser

n
JK ( ) 1 Wh2
g(yU )Ss2 Op (n3 / 2 ) .
2 h
h 1 h

Advirtase que este resultado no est contenido en Rao y Wu (1985), puesto


que contiene a la segunda derivada de g en el punto yU y no en y U , como en tal
texto. Ntese que g(y ) es una cantidad poblacional, en contraposicin a g( y ) .
U U

Del teorema anterior se deduce inmediatamente el orden del estimador del


sesgo.
Corolario 3.1

JK ( ) = O (n1 ) .
p

Demostracin. Es inmediata a partir del teorema y las condiciones asintticas.

Obsrvese que corresponde con lo esperado para cualquier estimador que


reduzca el orden del sesgo (estimador de Quenouille =
JK ( ) ). Tambin se
deduce que, al orden ms alto, el estimador del sesgo es insesgado:
Corolario 3.2

( )
( ) O(n3 / 2 ) .
JK

Demostracin. Aplquese el teorema de Fuller anterior a la expresin [10] del


estimador del sesgo.
SOBRE EL COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUADRTICO 207

3.2 Estimacin del sesgo al cuadrado

Evaluaremos el comportamiento asinttico de dos estimadores diferentes para



el cuadrado del sesgo del estimador , a saber, de (i) 2 ( ) = (
JK ( )) 2 y de (ii)


L
2 ( ) (nh 1)2 ( (h) )2 . Advirtase que la diferencia radica en los trminos
h 1

cruzados del desarrollo del cuadrado del sumatorio del primero, que han sido elimi-
nados del segundo.
Los resultados que siguen se deducen de la aplicacin elemental de las
propiedades de los operadores O() y Op () a los resultados obtenidos en el
apartado anterior y recordando que y U yU Op (n1/ 2 ) .

Corolario 3.3

2
1 L
Wh2 2
( ) g(yU )
2
2
h 1
nh
U O(n5 / 2 ) .
h

[11]


Corolario 3.4. Sea 2 ( ) = (
JK ( )) 2 , entonces

2
1 L

Wh2
2 ( ) g(yU )Ss2 Op (n5 / 2 ) .
2 nh h
h 1

Corolario 3.5

L L


W h2 Wh2
n h n h
g yU Ss2 Ss2 Op n 2 .
2
h h'
h 1 h 1
h h

Este resultado tiene importantes consecuencias respecto a la posibilidad de


despreciar los trminos cruzados de ( JK ( ))2 al estimar el sesgo al cuadrado


2 ( ) . El corolario 3.5 implica que a orden O n 2 , que es el mayor orden en
p

JK ( )) 2 , los trminos cruzados son positivos. Por tanto, si no se incluyen al


(
estimar el sesgo al cuadrado 2 ( ) , se est incurriendo en una subestimacin de
esta cantidad.
208 ESTADSTICA ESPAOLA

Aun incluyendo los trminos cruzados, emplear el estimador al cuadrado tiene


otro problema: ( JK ( )) 2 es un estimador sesgado para 2 ( ) al orden mayor.
Para demostrar este resultado se necesita una condicin asinttica ms, a saber,

W
h 1
h 4Uh O(1) cuando n

y
1 4
donde 4U h k yUh .
Nh kUh


Corolario 3.6. Sea 2 ( ) = (
JK ( )) 2 , entonces

3 n h3 5 n h 3
n
L
W 4h

2 2

1
4 2
n h 1 n h2 2 nh 3

g yU U4 h O n 5 / 2 .
h 1 h

Demostracin. En primer lugar, teniendo en cuenta que estamos ante muestreo con
reemplazamiento(3), tenemos

(nh 1)(nh2 2nh 3) 4 (nh 1)2


s4 U 4U ,
h nh3 h nh3 h

2

y .
2

1
donde sh
4
k ys h
k s h
nh

Al elevar al cuadrado el estimador del sesgo, tomar valores esperados y aplicar


las condiciones asintticas despreciando trminos de orden superior, se llega a

14 n
L
2 W 4h n h3
g yU U4 +
2
JK
h 1
2
h n h 1 n h2 2n h 3 h

L L
W 2h W h2

1
4 n g yU U2 U2 O n5 / 2 .
n h h h
2

h 1 h 1 h
h h

(3) Por tanto, pueden rescatarse resultados de la inferencia estadstica. Vase Srndal,
Swensson and Wretman (1992).
SOBRE EL COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUADRTICO 209

Tan slo hay que restar la expresin [11] del desarrollo del sesgo elevada al
cuadrado para llegar a la relacin enunciada.

Finalmente,

Corolario 3.7. Sea 2 ( ) cualquiera de los dos estimadores del sesgo al cuadrado
considerados, entonces



2 ( ) O p n2 .

De este modo se tienen los rasgos principales del comportamiento asinttico de


la componente relativa al sesgo al cuadrado del estimador del error cuadrtico
medio.

4. COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DE LA VARIANZA

Los resultados de esta seccin se demuestran a partir de los resultados de


Jones (1974), controlando el orden del desarrollo de Taylor bajo las condiciones
asintticas expuestas en la primera seccin. Por rigor y para evitar confusiones con
la seccin anterior, denotaremos, tal como se ha hecho en apartados anteriores,


f : L a la funcin tal que f yU 1 ,..., yU L
y f y s 1 ,..., ys L , con las
propiedades expuestas igualmente en la primera seccin(4). Las demostraciones de
esta seccin son las mismas de Jones (Jones, 1974), en las que se tiene en cuenta


y s h y U h O p n1 / 2

(4) Los resultados que siguen son para muestreo con reemplazamiento. En Jones
(1974) aparecen estos mismos resultados para muestreo sin reemplazamiento. Los rdenes
no cambian al pasar a muestreo sin reemplazamiento puesto que el factor de correccin de
poblaciones finitas es O(1) .
210 ESTADSTICA ESPAOLA

Lema 4.1

n1 f y
L


2
h U 1 ,..., yU L U2 h
h 1 h
L
n
1
2
h f yU 1 ,..., yU L h2 f yU 1 ,..., yU L 3U h O n2
h 1 h

1
y
3
donde 3U h hk yU h .
Nh k Uh

Los dos resultados fundamentales son:


1. Para la estimacin de la varianza a primer orden,
nh 1

L 2
(1)
Teorema 4.1. Si (h k ) (h) , entonces
JK
h 1 nh k s h



(JK

O n1 .
1)

2. Para la estimacin de la varianza a segundo orden,


nh 1

L 2
( 2 )
Teorema 4.2. Si (h k ) (h) entonces
JK
h 1 nh k s h


E
(JK

O n3 / 2 .
2)

donde hemos definido

n 2 n 2
(h k ) 1 h (hk ) h (h k ) (h) ,

nh nh


1
(hk )(h) (hk ) (hl) .
nh 1 l sh(k )

Los rdenes de magnitud mayores de ambos estimadores de la varianza


coinciden, como es de esperar:
SOBRE EL COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUADRTICO 211

Corolario 4.1


(1) O n1 / 2 .
JK p
Corolario 4.2


( 2 ) O n1 / 2 .
JK p

5. COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUA-


DRTICO MEDIO

Antes de aunar los resultados anteriores para establecer el comportamiento


asinttico del estimador del error cuadrtico medio, es conveniente conocer tal
comportamiento del error cuadrtico medio en s. Empleando nuevamente el
desarrollo de Taylor y tomando la esperanza matemtica se llega a

Proposicin 5.1 Sea g y U el estimador del parmetro poblacional

g yU . Entonces

y
2
( )2 g(yU ) Op (n3 / 2 ) Op (n1 ) ,
2
U yU [12]

L
U2 h
MSE( ) g(yU ) O(n3 / 2 ) O(n1 ) .
2
Wh2 [13]
h 1
nh

Demostracin. La relacin [12] es una aplicacin directa del desarrollo de Taylor

alrededor de la media poblacional yU teniendo en cuenta y U yU Op (n1/ 2 ) y

( y U ) = yU . Para establecer [13] tan slo hay que aplicar el teorema de Fuller

anteriormente citado a [12].

Es fcil convencerse de que cada factor que se incluya en el desarrollo del error
cuadrtico medio disminuye en 1/2 el orden del resto que se obtiene.
Para llegar al comportamiento asinttico del estimador del error cuadrtico
medio debemos recordar la relacin MSE ( ) = ( ) 2 ( ) , por lo que empleando
212 ESTADSTICA ESPAOLA

los estimadores respectivos de ambas componentes, se estima el error cuadrtico



medio por MSE 2
(r )
JK .
A partir de todos los resultados anteriores se concluye lo siguiente respecto a la
estimacin del error cuadrtico medio. Dado que el estimador del sesgo al
cuadrado tiene orden Op (n 2 ) , es claro que su orden es menor que los dos
estimadores de la varianza tratados aqu. Luego se presentan varias opciones:
1. Si se quiere trabajar a primer orden, entonces

MSE


(1) O n 1 .
JK

2. Si se quiere trabajar a segundo orden, entonces



MSE
( 2 ) O n 3 / 2 .
JK

3. Si se quiere trabajar a tercer orden, entonces

MSE


( 3) O n 2 .
JK

(3) ( ) debe encontrarse con las tcnicas descritas en Jones


donde la expresin JK
(1974), esto es, con el desarrollo de Taylor a un orden ms y tomando los
momentos con respecto al diseo muestral.
4. Si se quiere trabajar a cuarto orden, entonces



MSE 2
( 4 )
JK
O n 5/ 2
(4) ( ) debe encontrarse con las tcnicas descritas en (Jones,
donde la expresin JK
1974).
(r ) ( ) tiene la expresin dadas en los teoremas 4.1 y 4.2 para
Advirtase que JK
r = 1, 2, respectivamente, mientras que para r = 3, 4, slo se ha indicado cmo
encontrarlas. El clculo de estas expresiones conlleva un largo ejercicio de
manipulaciones algebraicas y la imposicin de algunos requisitos sobre el tamao
muestral de los estratos, como n h 3 y, n h 4 respectivamente (Jones, 1974).
SOBRE EL COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUADRTICO 213

CONCLUSIONES

En esta seccin presentamos un resumen de los resultados obtenidos junto con


las indicaciones para generalizarlos al caso multivariante con muestreo polietpico
con estratificacin de las unidades de primera etapa.
Las conclusiones estn directamente relacionadas con el comportamiento
asinttico de los estimadores basados en la tcnica jackknife:
1. Dadas las relaciones anteriores, para muestras grandes, si se desprecian
trminos hasta de orden O(n2 ) en la estimacin de la varianza, no tiene mayor
sentido incluir la parte del sesgo en la estimacin del error cuadrtico medio.
2. Si se desea disponer de una estimacin insesgada del error cuadrtico medio a

orden O(n2 ) , debe encontrarse un estimador insesgado 2 a tal orden de la
componente del sesgo.
3. Si se emplea

(n
2
h 1)( (h) ) ,
h

adems de olvidar los trminos cruzados que son positivos y del mismo orden, se
est empleando una estimacin sesgada al orden mayor de la componente del
sesgo. No obstante, obsrvese que el sesgo introducido de este modo es muy
pequeo dado el orden del estimador del sesgo al cuadrado respecto al de la
varianza.
4. Para muestras pequeas, ninguna de las relaciones aqu tratadas tiene utilidad
porque no pueden despreciarse los trminos que aqu se desprecian. Anlogamen-
te, las componentes del sesgo y de la varianza ya no sern tan diferentes en sus
aportaciones a la estimacin del error cuadrtico medio.
Los resultados anteriores han sido demostrados para muestreo aleatorio simple
monoetpico con reemplazamiento, pero son vlidos tambin para el caso de
muestreo polietpico. Para ello, si N denota el tamao de la poblacin U estratifica-
da en primera etapa en L estratos U h de tamaos respectivos N h , esto es,
U Lh 1 Uh , observemos que un estimador de la media poblacional


L L 1
yU W h yU h Wh Yh i , donde Yhi denota el total de la
h 1 h 1 Nh i U h

variable y en el conglomerado ltimo i del estrato h , viene dado por


214 ESTADSTICA ESPAOLA

L Y hi
L

W y
ish
y U Wh h sh
h 1
nh h 1

donde n h es el nmero de conglomerados ltimos muestreados en el estrato h y


que, por tanto, conforman la parte de la muestra s h en tal estrato. La diferencia
con el caso monoetpico se reduce, por tanto, a emplear el estimador Yhi all
donde antes se empleaba el valor poblacional yhk en las expresiones de los
estimadores y emplear Yhi donde antes se empleaba el valor poblacional yhk en
las expresiones de cantidades poblacionales. El lector se convencer rpidamente
de que tras realizar tales sustituciones en los resultados anteriores, se mantiene su
validez. Por tanto, las conclusiones siguen siendo aplicables al muestreo
polietpico estratificado en primera etapa.
Por ltimo, tambin la generalizacin al caso de una variable de inters
multivariante es inmediata. Si en lugar de emplear las cantidades escalares yhk se
emplean cantidades vectoriales yhk p , los resultados siguen siendo vlidos, con
la debida generalizacin de las siguientes condiciones asintticas:

W S
h 1
h yi y jUh O(1) i, j 1,,p cuando n

W
h 1
h 4 yi y jUh O(1) i, j 1,,p cuando n


1
donde S y y U (yhki yiU )(yhkj y jU ) y
i j h Nh kUh h h


1
4 y y U (yhki yiU )2 (yhkj y jU )2
i j h Nh kUh h h
SOBRE EL COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUADRTICO 215

REFERENCIAS

COCHRAN, W.G. (1977). Sampling Techniques, 3rd edition. Wiley, New York.
FULLER, W.A. (1976). Introduction to Time Statistical Series. Wiley, New York.
INSTITUTO NACIONAL DE ESTADSTICA (2007). Encuesta Industrial de Empresas.
Metodologa, Instituto Nacional de Estadstica, http://www.ine.es/daco/da-
co42/encindem/metoeiae2007.pdf.
ISAKI, C.T. AND FULLER, W.A. (1982). Survey design under the regression super-
population model. Journal of the American Statistical Association 77, 89-96.
JONES, H.L. (1974). Jackknife estimation of functions of stratum means. Bio-
metrika 61, 343-348.
KREWSKI, D. AND RAO, J.N.K. (1981). Inference from stratified samples: properties
of the linearization, jackknife and balanced repeated replication methods. The
Annals of Statistics 9, 1010-1019.
MANN, H.B. AND WALD, A. (1943). On stochastic limit and order relationships. The
Annals of Mathematical Statistics 14, 217-226.
MILLER, R.P. (1974). The jackknife- a review. Biometrika 61, 1-15.
RAO, J.N.K. AND WU, C.F.J. (1985). Inferences from stratified samples: Second-
order analysis of three methods for nonlinear statistics. Journal of the Ameri-
can Statistical Association 80, 620-630.
RAO, J.N.K., WU, C.F.J. AND YUE, K. (1992). Some recent work on resampling
methods for complex surveys. Survey Methodology 18, 209-217.
SRNDAL, C.-E. SWENSSON, B. AND WRETMAN, J.H. (1992). Model assisted survey
sampling. Springer, New York.
SHAO, J. AND TU, D. (1995). The jackknife and bootstrap. Springer, New York.
SMITH, T.M.F. (1976). The foundations of survey sampling: a review. Journal of
the Royal Statistical Society Series A 139, 183-204.
WOLTER, K. (2007). Introduction to variance estimation, 2nd edition. Springer, New
York.
216 ESTADSTICA ESPAOLA

ON THE ASYMPTOTIC BEHAVIOUR OF THE MEAN SQUARE


ERROR JACKKNIFE ESTIMATOR IN STRATIFIED SAMPLING

ABSTRACT

We study the aymptotic behaviour of the estimator of the mean


square error of an estimator , which is a non-linear function of the
variables of interest in a finite population U . The estimator is built
under a multistage sampling design, stratified at the first stage,
through the jackknife method. We obtain that up to order O(n2 ) the
squared bias component of this estimator is negligible compared to the
variance estimator.

Key words: Jackknife, Stratified sampling, Non-linear estimator,


Asymptotic behaviour, Mean square error, Bias, Variance.

AMS Classification: 62D05