Comportamiento asintótico de la estimación del error cuadrático medio mediante jackknife en muestreo estratificado

ESTADSTICA ESPAOLA
Vol. 52, nm. 174, 2010, pgs. 197 a 216
Sobre el comportamiento asinttico

de la estimacin del error cuadrtico
medio mediante jackknife en muestreo
estratificado(*)
por
MONSERRAT HERRADOR
Instituto Nacional de Estadstica
y
DAVID SALGADO
Instituto Nacional de Estadstica
Universidad Antonio de Nebrija
RESUMEN
Estudiamos el comportamiento asinttico del estimador del error

cuadrtico medio de un estimador , que es funcin no lineal de las
variables de inters de una poblacin finita U . El estimador se
construye bajo un muestreo polietpico estratificado en primera etapa
mediante el mtodo jackknife. Se obtiene que hasta el orden O(n2 )
la componente del sesgo al cuadrado del estimador es despreciable
frente a la estimacin de la varianza.
(*) Agradecemos al Profesor D. Antonio Cuevas, del departamento de Matemticas de la

Universidad Autnoma de Madrid, sus comentarios sobre el manuscrito.
198 ESTADSTICA ESPAOLA
Palabras clave: Jackknife, Muestreo Estratificado, Estimador No

Lineal, Comportamiento Asinttico, Error Cuadrtico Medio, Sesgo,
Varianza.
Clasificacin AMS: 62D05
1. INTRODUCCIN
El muestreo estratificado constituye uno de los diseos muestrales ms

importantes tanto desde el punto de vista conceptual (Smith, 1976) como prctico
(Cochran, 1977). La gran mayora de las encuestas realizadas en el Instituto
Nacional de Estadstica incorpora la estratificacin en alguna de sus etapas. Por
otro lado, la tcnica de remuestreo del jackknife se ha convertido en una
herramienta notablemente verstil no slo para la reduccin del sesgo de los
estimadores y la construccin de intervalos de confianza, sino especialmente para
la estimacin de varianzas (Miller, 1974), en particular en relacin con los
estimadores no lineales. Si bien estas caractersticas aparecieron inicialmente
ligadas a los problemas de inferencia estadstica (Shao y Tu, 1995), en el mbito de
la realizacin de encuestas este mtodo debe ser debidamente adaptado a la teora
del muestreo en poblaciones finitas (Wolter, 2007).
Esta nota metodolgica recoge el comportamiento del estimador del error

cuadrtico medio de un estimador no lineal en un diseo estratificado cuando el
nmero de estratos L crece indefinidamente L . Para ello en la seccin 2 se
recogen los resultados preliminares necesarios relativos al empleo del jackknife en
muestreo estratificado en poblaciones finitas, as como las condiciones en las que
debe entenderse el rgimen asinttico L en este contexto. En las secciones 3
y 4 se analiza el comportamiento de las dos componentes del estimador del error
cuadrtico medio, a saber, del sesgo al cuadrado y de la varianza respectivamente.
En la seccin 5 se muestra el comportamiento asinttico de la estimacin del error
cuadrtico medio y en la seccin 6 se recogen las conclusiones pertinentes. A lo
largo de todo el artculo, se denotar por al estimador de la cantidad poblacional
, sea sta cual sea.
2. RESULTADOS PRELIMINARES
Recopilamos los resultados preliminares pertinentes al estudio del comporta-

miento asinttico de un estimador no lineal en muestreo estratificado en poblacio-
nes finitas.
SOBRE EL COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUADRTICO 199
2.1 El jackknife en muestreo estratificado
Los resultados fundamentales de la adaptacin del mtodo jackknife al

muestreo estratificado en poblaciones finitas pueden consultarse en Jones (1974);
Krewski y Rao (1981); Rao y Wu (1985) (vase tambin Rao, Wu y Yue (1992);
Wolter (2007)). Denotaremos por y la variable de inters en la poblacin U de
tamao N. La cantidad poblacional a estimar es el parmetro = g ( yU ) , esto es,
una funcin g no lineal de la media poblacional de la variable de inters y . El
anlisis puede generalizarse al caso de cantidades multivariantes y = ( y1 , , yp ) t ,
de tal modo que = g ( yU ) . Sin embargo, presentamos aqu el anlisis para el caso
univariante y posteriormente mostramos cmo extenderlo para cubrir este segundo
caso. Advirtase igualmente que los resultados que siguen son tambin vlidos
para aquellos parmetros que son funciones del total g ( Y ) ( g (Y ) en el caso multi-
variante) y tales que g(Y) g(yU ) ( g( Y ) g( yU ) en el caso multivariante), donde
hemos denotado Y = kU
yk ( Y
kU
yk en el caso multivariante).
El diseo muestral ser estratificado en L estratos con la posibilidad de

submuestreo independiente en cada estrato en varias etapas sucesivas. Los
resultados que siguen se centran en el caso de muestreo monoetpico con
reemplazamiento. Posteriormente mostraremos cmo se extiende el resultado al
caso de muestreo polietpico estratificado en primera etapa. La extensin a
muestreo sin reemplazamiento es inmediata, pues el comportamiento asinttico de
ambas opciones es idntico.
El estimador del parmetro se denotar por . Para poder emplear las

frmulas habituales de estimacin del sesgo y de la varianza de los estimadores
deben cumplirse los siguientes requisitos (Jones, 1974; Wolter, 2007):
1. Existe una funcin f al menos tres veces derivable tal que el parmetro a
estimar depende a travs de esta funcin de las medias poblaciones en cada
estrato: f(yU ,, yU ) .
1 L
2. El muestreo en cada estrato es independiente. Esta condicin est contenida en

la definicin de muestreo estratificado (Srndal, Swensson y Wretman, 1992).
3. El muestreo en cada estrato es aleatorio simple con reemplazamiento, de tal
modo que el estimador de la media poblacional de cada estrato es la media
muestral de las nh unidades poblacionales muestreadas en cada estrato h:

1
y U yk y s , donde nh es el tamao de la muestra sh seleccionada
h nh ksh h
en el estrato h e yhk es el valor de la variable y para la unidad k del estrato h.

Asimismo se tiene que la varianza del estimador de la media poblacional yU viene

2yU

L 1
dada por (y U ) Wh2 h
, donde 2yU (yhk yU )2 y Wh denota
h 1 nh h Nh kUh h
el peso del estrato h ( Wh Nh / N ).
4. El estimador del parmetro depende a travs de la misma funcin de los

estimadores de las correspondientes medias poblacionales en cada estrato:
(y U ,, y U ) . Se supone que no depende explcitamente de los tamaos
1 L
muestrales nh , slo a travs de las medias muestrales.

La idea central de Jones (Jones, 1974) es desarrollar en serie de Taylor el
estimador (y U ,, y U ) alrededor de los valores poblaciones yU ,, yU y
1 L 1 L
tomar los correspondientes momentos segn el diseo muestral escogido. De ese
modo, Jones propone como estimador jackknife del sesgo a primer orden del
estimador la expresin
L
JK ( )
(n
h 1
h 1)( (h) ), [1]

1
donde (h) (hk ) , siendo (hk ) el estimador aplicado a la pseudomuestra
nh ksh
obtenida a partir de la muestral original s al sustraer la unidad k del estrato h.

Ntese que tanto los n estimadores (hk ) como los L estimadores (h) son
estimadores del parmetro de la poblacin completa, no del total de cada estrato
respectivo, no siendo, por tanto, independientes para . La versin para
muestreo con reemplazamiento de los dos estimadores de la varianza propuestos
por Jones(1) son:
L
nh 1

(1)
JK () =
h =1
n h ks

( (hk ) (h) ) 2 [2]
h
L
nh 1

(2)
JK( ) =
h =1
n h ks

( (hk ) (h) ) 2 , [3]
h
(1) En Jones (1974) aparecen estas frmulas para muestreo sin reemplazamiento. Tan
slo es necesario eliminar el factor de correccin de poblaciones finitas para obtener las
relaciones equivalentes con reemplazamiento.
donde se define
n 2 nh 2
(hk ) 1 h (hk ) (hk )(h),
nh nh

1
(h) (hk )
nh ks
h

1
(hk )(h) (hk )(hl),
nh 1 ls
h(k )
siendo (hk )(hl) el estimador aplicado a la pseudomuestra obtenida al sustraer las

unidades k y l del estrato h.
N.B.: Puesto que a lo largo de todo el trabajo slo se considerar la variable y, se
omitir como subndice de los momentos poblacionales y muestrales. As,
escribimos U2 2yU , 4U 4 yU ...
h h h h
2.2 Las condiciones del rgimen asinttico en muestreo estratificado
El inters del rgimen asinttico radica en la prctica habitual de disear

encuestas con un gran nmero de estratos, por ejemplo la Encuesta Industrial
Anual de Empresas (INE, 2007), cuyo diseo utiliza varios miles de estratos. La
condicin L equivale a n , donde tal lmite en muestreo en poblaciones
finitas debe ser debidamente definido (Srndal, Swensson y Wretman, 1992).
El rgimen asinttico se enmarca en las condiciones habituales de Isaki y Fuller

(Isaki y Fuller, 1982) en las que se tiene una sucesin de poblaciones UN de
tamao N de las que se extraen respectivas muestras de tamao n . El rgimen
asinttico se entiende como N , n . Para el muestreo estratificado, se
necesita una formulacin ms precisa, lo que fue llevado a cabo por Krewski y Rao
(Krewski y Rao, 1981). De modo resumido, las condiciones para el rgimen
asinttico son:
1. La afijacin en todos los estratos no es desproporcionadamente pequea
respecto del peso de los estratos:
Wh
max O(1) cuando n [4]
1h L nh / n
2. Las varianzas dentro de los estratos estn acotadas:
W
h 1
2
h Uh O(1) cuando n [5]
Rao y Wu (Rao y Wu, 1985) formulan ms hiptesis que no son necesarias para
nuestros propsitos, pero que se encuentran en el empleo habitual de este diseo.
En particular, indican cmo en el caso en el que los tamaos muestrales de los
estratos permanezcan acotados ( maxhnh O(1) ), entonces [4] equivale a
1
maxWh O(n ) [6]
1h L
lo que necesariamente implica que el nmero de estratos L debe crecer

indefinidamente. La condicin [6] se satisface si maxhWh O(L1 ) y n / L O(1) ,
esto es, si ningn estrato es de tamao desproporcionado y el tamao muestral
promedio por estrato permanece acotado. Estas condiciones aparecen
frecuentemente en la prctica.
2.3 Condiciones sobre el estimador
El estimador , como se ha adelantado, es una funcin no lineal g del

estimador insesgado de la media poblacional de la variable de inters g(y U ) .
Estas caractersticas son muy generales y deben concretarse algunas propiedades
ms acerca de la funcin g (acotacin, regularidad). Estas son:
1. Sobre los momentos de segundo orden:
O(1)
2
donde la esperanza se toma respecto al diseo muestral.
2. Sobre los momentos de sexto orden:

1
(yk yU )6 O(n3 )
N kU
3. Regularidad de g:
Existe un entorno cerrado y acotado B de yU tal que las derivadas de tercer
orden de g son continuas y acotadas en B .
3. COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL SESGO AL

CUADRADO
En primer lugar determinamos las propiedades asintticas del estimador del

sesgo JK ( ) para deducir a partir de ellas las de tal estimador al cuadrado y otra
variante de inters.
3.1 Comportamiento asinttico de la estimacin del sesgo
Necesitamos varios resultados preliminares. Algunos de los resultados que

siguen estn contenidos de alguna u otra forma en Krewski y Rao (1981); Rao y Wu
(1985). No obstante, incluimos aqu sus demostraciones detalladas. Las
propiedades de los operadores O() , o() , Op () y op () fueron demostradas por
Mann y Wald (Mann y Wald (1943); vase Fuller (1976) para una exposicin ms
accesible).
Lema 3.1 Sea g(y U ) , entonces

1 2
g(yU ) y U yU g(yU ) y U yU Op (n3 / 2 )
2
Demostracin. El punto fundamental es y U yU Op (n1/ 2 ) . Esto se demuestra

U2

L
partiendo de la expresin ( y U ) = Wh2 h
. Ahora bien, como Wh / nh ~ n1
h =1 nh
(segn se deduce de [4]) y como tambin se cumple [5], se llega a ( y U ) = O(n1 ) ,
de donde se concluye que y y O (n1/ 2 ) , a lo sumo.
U U p
Hecha esta observacin, desarrllese g(y U ) alrededor de yU hasta el segundo

orden. Para acotar el resto tngase en cuenta que g tiene derivada de tercer orden
con continuidad en un entorno cerrado y acotado de un punto intermedio entre
y y y (resto de Lagrange) y tal derivada est acotada con probabilidad 1 :
U U
g( ) Op (1) .
Lema 3.2

1 Wh2 2
( ) g(yU ) U O(n3 / 2 ) . [7]
2 h 1
nh
h
Demostracin. Tomando valores esperados en el desarrollo anterior de y resto

, se obtiene la relacin indicada. Para el orden del resto hay que aplicar el
teorema 5.4.2. de Fuller (1976) con an O(n1 / 2 ) y s 3 . Las hiptesis del
teorema estn garantizadas por las condiciones asintticas de la seccin anterior.
Como consecuencia inmediata, tenemos
Lema 3.3
( ) O(n1 ) .
Demostracin. Es inmediata a partir de las condiciones asintticas y el resultado

anterior.
Lema 3.4 Sea (hk ) el estimador que resulta de aplicar a la muestra con la
unidad k del estrato h sustrada. Entonces

1 Wh

Wh 2
(hk ) g(y U ) y s yhk
g(yU ) y sh yhk Op (n3 )
nh 1 h 2 nh 1
Demostracin. En primer lugar, tenemos la identidad
y s yhk
y U(hk ) y U Wh h
[8]
nh 1
Seguidamente desarrollamos (hk) g(y U(hk) ) alrededor de y U hasta el segundo

orden:
W 3

1 2
(hk) g(y U ) y U(hk) y U g(y U ) y U(hk) y U Op h
[9]
2 nh 1

donde para la acotacin del resto se ha empleado la derivabilidad con continuidad

de orden 3 de la funcin g y la convergencia conjunta en probabilidad de y U(hk) e
y U hacia yU , esto es, que

max | y U(hk) yU | ,| y U yU | 1 para todo 0
hk
que Krewski y Rao demostraron en Krewski y Rao (1981) bajo una condicin tipo

L W
Lyapunov(2), es decir, h
(yhk yU )2 O(1) para algn 0 . Sustituimos
h 1 n h
[8] en [9] y empleamos las condiciones asintticas para llegar a la relacin pedida.
Lema 3.5
g(y U ) g(yU ) Op (n1/ 2 ) .
Demostracin. Aplicando el desarrollo de Taylor a primer orden a g y haciendo

uso de la continuidad con derivabilidad de g hasta tercer orden, se llega a la
frmula del resto de Lagrange para g( y ) : R U 3, yU U
(g; y ) = g( ) y y , donde
U U
es un punto intermedio entre yU y y U . Ahora bien, como y U converge en
probabilidad a yU , dada la continuidad de g , se tiene g( ) Op (1) , esto es, es
acotada en probabilidad. Como y U yU Op (n1/ 2 ) , se sigue el resultado
enunciado.
El comportamiento asinttico del sesgo se establece en el siguiente
Teorema 3.1

JK ( ) 1 Wh2
g(yU )Ss2 Op (n3 / 2 ) [10]
2 h 1
nh h
Demostracin. A partir del lema 3.4 inmediatamente se obtiene

1 1 Wh2
(h) (hk) g(y U )Ss2 Op (n3 )
nh ks 2 nh (nh 1) h
h
(2) Se asume que se cumple esta condicin en la poblacin, lo que no resta generali-
dad.

1
con Ss2 (yhk ys )2 , de donde
h nh 1 ksh h
L L
(n n
JK ( ) 1 Wh2
h 1)( (h) ) g(y U )Ss2 Op (n2 ) .
2 h
h 1 h 1 h
Ahora bien, como g(y U ) g(yU ) Op (n1/ 2 ) , sustituyendo en la relacin anterior

ser
n
JK ( ) 1 Wh2
g(yU )Ss2 Op (n3 / 2 ) .
2 h
h 1 h
Advirtase que este resultado no est contenido en Rao y Wu (1985), puesto

que contiene a la segunda derivada de g en el punto yU y no en y U , como en tal
texto. Ntese que g(y ) es una cantidad poblacional, en contraposicin a g( y ) .
U U
Del teorema anterior se deduce inmediatamente el orden del estimador del

sesgo.
Corolario 3.1
JK ( ) = O (n1 ) .
p
Demostracin. Es inmediata a partir del teorema y las condiciones asintticas.
Obsrvese que corresponde con lo esperado para cualquier estimador que

reduzca el orden del sesgo (estimador de Quenouille =
JK ( ) ). Tambin se
deduce que, al orden ms alto, el estimador del sesgo es insesgado:
Corolario 3.2
( )
( ) O(n3 / 2 ) .
JK
Demostracin. Aplquese el teorema de Fuller anterior a la expresin [10] del

estimador del sesgo.
3.2 Estimacin del sesgo al cuadrado
Evaluaremos el comportamiento asinttico de dos estimadores diferentes para

el cuadrado del sesgo del estimador , a saber, de (i) 2 ( ) = (
JK ( )) 2 y de (ii)

L
2 ( ) (nh 1)2 ( (h) )2 . Advirtase que la diferencia radica en los trminos
h 1
cruzados del desarrollo del cuadrado del sumatorio del primero, que han sido elimi-
nados del segundo.
Los resultados que siguen se deducen de la aplicacin elemental de las
propiedades de los operadores O() y Op () a los resultados obtenidos en el
apartado anterior y recordando que y U yU Op (n1/ 2 ) .
Corolario 3.3
2
1 L
Wh2 2
( ) g(yU )
2
2
h 1
nh
U O(n5 / 2 ) .
h

[11]

Corolario 3.4. Sea 2 ( ) = (
JK ( )) 2 , entonces
2
1 L

Wh2
2 ( ) g(yU )Ss2 Op (n5 / 2 ) .
2 nh h
h 1
Corolario 3.5
L L

W h2 Wh2
n h n h
g yU Ss2 Ss2 Op n 2 .
2
h h'
h 1 h 1
h h
Este resultado tiene importantes consecuencias respecto a la posibilidad de

despreciar los trminos cruzados de ( JK ( ))2 al estimar el sesgo al cuadrado

2 ( ) . El corolario 3.5 implica que a orden O n 2 , que es el mayor orden en
p
JK ( )) 2 , los trminos cruzados son positivos. Por tanto, si no se incluyen al

(
estimar el sesgo al cuadrado 2 ( ) , se est incurriendo en una subestimacin de
esta cantidad.
Aun incluyendo los trminos cruzados, emplear el estimador al cuadrado tiene

otro problema: ( JK ( )) 2 es un estimador sesgado para 2 ( ) al orden mayor.
Para demostrar este resultado se necesita una condicin asinttica ms, a saber,
W
h 1
h 4Uh O(1) cuando n
y
1 4
donde 4U h k yUh .
Nh kUh

Corolario 3.6. Sea 2 ( ) = (
JK ( )) 2 , entonces
3 n h3 5 n h 3
n
L
W 4h

2 2

1
4 2
n h 1 n h2 2 nh 3

g yU U4 h O n 5 / 2 .
h 1 h
Demostracin. En primer lugar, teniendo en cuenta que estamos ante muestreo con
reemplazamiento(3), tenemos
(nh 1)(nh2 2nh 3) 4 (nh 1)2

s4 U 4U ,
h nh3 h nh3 h
2

y .
2

1
donde sh
4
k ys h
k s h
nh
Al elevar al cuadrado el estimador del sesgo, tomar valores esperados y aplicar

las condiciones asintticas despreciando trminos de orden superior, se llega a
14 n
L
2 W 4h n h3
g yU U4 +
2
JK
h 1
2
h n h 1 n h2 2n h 3 h
L L
W 2h W h2

1
4 n g yU U2 U2 O n5 / 2 .
n h h h
2

h 1 h 1 h
h h
(3) Por tanto, pueden rescatarse resultados de la inferencia estadstica. Vase Srndal,
Swensson and Wretman (1992).
Tan slo hay que restar la expresin [11] del desarrollo del sesgo elevada al
cuadrado para llegar a la relacin enunciada.
Finalmente,

Corolario 3.7. Sea 2 ( ) cualquiera de los dos estimadores del sesgo al cuadrado
considerados, entonces

2 ( ) O p n2 .
De este modo se tienen los rasgos principales del comportamiento asinttico de

la componente relativa al sesgo al cuadrado del estimador del error cuadrtico
medio.
4. COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DE LA VARIANZA
Los resultados de esta seccin se demuestran a partir de los resultados de

Jones (1974), controlando el orden del desarrollo de Taylor bajo las condiciones
asintticas expuestas en la primera seccin. Por rigor y para evitar confusiones con
la seccin anterior, denotaremos, tal como se ha hecho en apartados anteriores,

f : L a la funcin tal que f yU 1 ,..., yU L
y f y s 1 ,..., ys L , con las
propiedades expuestas igualmente en la primera seccin(4). Las demostraciones de
esta seccin son las mismas de Jones (Jones, 1974), en las que se tiene en cuenta

y s h y U h O p n1 / 2
(4) Los resultados que siguen son para muestreo con reemplazamiento. En Jones
(1974) aparecen estos mismos resultados para muestreo sin reemplazamiento. Los rdenes
no cambian al pasar a muestreo sin reemplazamiento puesto que el factor de correccin de
poblaciones finitas es O(1) .
Lema 4.1
n1 f y
L

2
h U 1 ,..., yU L U2 h
h 1 h
L
n
1
2
h f yU 1 ,..., yU L h2 f yU 1 ,..., yU L 3U h O n2
h 1 h
1
y
3
donde 3U h hk yU h .
Nh k Uh
Los dos resultados fundamentales son:

1. Para la estimacin de la varianza a primer orden,
nh 1

L 2
(1)
Teorema 4.1. Si (h k ) (h) , entonces
JK
h 1 nh k s h

(JK

O n1 .
1)
2. Para la estimacin de la varianza a segundo orden,

nh 1

L 2
( 2 )
Teorema 4.2. Si (h k ) (h) entonces
JK
h 1 nh k s h

E
(JK

O n3 / 2 .
2)
donde hemos definido
n 2 n 2
(h k ) 1 h (hk ) h (h k ) (h) ,

nh nh

1
(hk )(h) (hk ) (hl) .
nh 1 l sh(k )
Los rdenes de magnitud mayores de ambos estimadores de la varianza

coinciden, como es de esperar:
Corolario 4.1

(1) O n1 / 2 .
JK p
Corolario 4.2

( 2 ) O n1 / 2 .
JK p
5. COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL ERROR CUA-

DRTICO MEDIO
Antes de aunar los resultados anteriores para establecer el comportamiento

asinttico del estimador del error cuadrtico medio, es conveniente conocer tal
comportamiento del error cuadrtico medio en s. Empleando nuevamente el
desarrollo de Taylor y tomando la esperanza matemtica se llega a
Proposicin 5.1 Sea g y U el estimador del parmetro poblacional
g yU . Entonces
y
2
( )2 g(yU ) Op (n3 / 2 ) Op (n1 ) ,
2
U yU [12]
L
U2 h
MSE( ) g(yU ) O(n3 / 2 ) O(n1 ) .
2
Wh2 [13]
h 1
nh
Demostracin. La relacin [12] es una aplicacin directa del desarrollo de Taylor
alrededor de la media poblacional yU teniendo en cuenta y U yU Op (n1/ 2 ) y
( y U ) = yU . Para establecer [13] tan slo hay que aplicar el teorema de Fuller
anteriormente citado a [12].
Es fcil convencerse de que cada factor que se incluya en el desarrollo del error
cuadrtico medio disminuye en 1/2 el orden del resto que se obtiene.
Para llegar al comportamiento asinttico del estimador del error cuadrtico
medio debemos recordar la relacin MSE ( ) = ( ) 2 ( ) , por lo que empleando
los estimadores respectivos de ambas componentes, se estima el error cuadrtico

medio por MSE 2
(r )
JK .
A partir de todos los resultados anteriores se concluye lo siguiente respecto a la
estimacin del error cuadrtico medio. Dado que el estimador del sesgo al
cuadrado tiene orden Op (n 2 ) , es claro que su orden es menor que los dos
estimadores de la varianza tratados aqu. Luego se presentan varias opciones:
1. Si se quiere trabajar a primer orden, entonces
MSE

(1) O n 1 .
JK
2. Si se quiere trabajar a segundo orden, entonces

MSE
( 2 ) O n 3 / 2 .
JK
3. Si se quiere trabajar a tercer orden, entonces
MSE

( 3) O n 2 .
JK
(3) ( ) debe encontrarse con las tcnicas descritas en Jones

donde la expresin JK
(1974), esto es, con el desarrollo de Taylor a un orden ms y tomando los
momentos con respecto al diseo muestral.
4. Si se quiere trabajar a cuarto orden, entonces

MSE 2
( 4 )
JK
O n 5/ 2
(4) ( ) debe encontrarse con las tcnicas descritas en (Jones,
donde la expresin JK
1974).
(r ) ( ) tiene la expresin dadas en los teoremas 4.1 y 4.2 para
Advirtase que JK
r = 1, 2, respectivamente, mientras que para r = 3, 4, slo se ha indicado cmo
encontrarlas. El clculo de estas expresiones conlleva un largo ejercicio de
manipulaciones algebraicas y la imposicin de algunos requisitos sobre el tamao
muestral de los estratos, como n h 3 y, n h 4 respectivamente (Jones, 1974).
CONCLUSIONES
En esta seccin presentamos un resumen de los resultados obtenidos junto con

las indicaciones para generalizarlos al caso multivariante con muestreo polietpico
con estratificacin de las unidades de primera etapa.
Las conclusiones estn directamente relacionadas con el comportamiento
asinttico de los estimadores basados en la tcnica jackknife:
1. Dadas las relaciones anteriores, para muestras grandes, si se desprecian
trminos hasta de orden O(n2 ) en la estimacin de la varianza, no tiene mayor
sentido incluir la parte del sesgo en la estimacin del error cuadrtico medio.
2. Si se desea disponer de una estimacin insesgada del error cuadrtico medio a

orden O(n2 ) , debe encontrarse un estimador insesgado 2 a tal orden de la
componente del sesgo.
3. Si se emplea
(n
2
h 1)( (h) ) ,
h
adems de olvidar los trminos cruzados que son positivos y del mismo orden, se
est empleando una estimacin sesgada al orden mayor de la componente del
sesgo. No obstante, obsrvese que el sesgo introducido de este modo es muy
pequeo dado el orden del estimador del sesgo al cuadrado respecto al de la
varianza.
4. Para muestras pequeas, ninguna de las relaciones aqu tratadas tiene utilidad
porque no pueden despreciarse los trminos que aqu se desprecian. Anlogamen-
te, las componentes del sesgo y de la varianza ya no sern tan diferentes en sus
aportaciones a la estimacin del error cuadrtico medio.
Los resultados anteriores han sido demostrados para muestreo aleatorio simple
monoetpico con reemplazamiento, pero son vlidos tambin para el caso de
muestreo polietpico. Para ello, si N denota el tamao de la poblacin U estratifica-
da en primera etapa en L estratos U h de tamaos respectivos N h , esto es,
U Lh 1 Uh , observemos que un estimador de la media poblacional

L L 1
yU W h yU h Wh Yh i , donde Yhi denota el total de la
h 1 h 1 Nh i U h
variable y en el conglomerado ltimo i del estrato h , viene dado por

L Y hi
L
W y
ish
y U Wh h sh
h 1
nh h 1
donde n h es el nmero de conglomerados ltimos muestreados en el estrato h y

que, por tanto, conforman la parte de la muestra s h en tal estrato. La diferencia
con el caso monoetpico se reduce, por tanto, a emplear el estimador Yhi all
donde antes se empleaba el valor poblacional yhk en las expresiones de los
estimadores y emplear Yhi donde antes se empleaba el valor poblacional yhk en
las expresiones de cantidades poblacionales. El lector se convencer rpidamente
de que tras realizar tales sustituciones en los resultados anteriores, se mantiene su
validez. Por tanto, las conclusiones siguen siendo aplicables al muestreo
polietpico estratificado en primera etapa.
Por ltimo, tambin la generalizacin al caso de una variable de inters
multivariante es inmediata. Si en lugar de emplear las cantidades escalares yhk se
emplean cantidades vectoriales yhk p , los resultados siguen siendo vlidos, con
la debida generalizacin de las siguientes condiciones asintticas:
W S
h 1
h yi y jUh O(1) i, j 1,,p cuando n
W
h 1
h 4 yi y jUh O(1) i, j 1,,p cuando n

1
donde S y y U (yhki yiU )(yhkj y jU ) y
i j h Nh kUh h h

1
4 y y U (yhki yiU )2 (yhkj y jU )2
i j h Nh kUh h h
REFERENCIAS
COCHRAN, W.G. (1977). Sampling Techniques, 3rd edition. Wiley, New York.
FULLER, W.A. (1976). Introduction to Time Statistical Series. Wiley, New York.
INSTITUTO NACIONAL DE ESTADSTICA (2007). Encuesta Industrial de Empresas.
Metodologa, Instituto Nacional de Estadstica, http://www.ine.es/daco/da-
co42/encindem/metoeiae2007.pdf.
ISAKI, C.T. AND FULLER, W.A. (1982). Survey design under the regression super-
population model. Journal of the American Statistical Association 77, 89-96.
JONES, H.L. (1974). Jackknife estimation of functions of stratum means. Bio-
metrika 61, 343-348.
KREWSKI, D. AND RAO, J.N.K. (1981). Inference from stratified samples: properties
of the linearization, jackknife and balanced repeated replication methods. The
Annals of Statistics 9, 1010-1019.
MANN, H.B. AND WALD, A. (1943). On stochastic limit and order relationships. The
Annals of Mathematical Statistics 14, 217-226.
MILLER, R.P. (1974). The jackknife- a review. Biometrika 61, 1-15.
RAO, J.N.K. AND WU, C.F.J. (1985). Inferences from stratified samples: Second-
order analysis of three methods for nonlinear statistics. Journal of the Ameri-
can Statistical Association 80, 620-630.
RAO, J.N.K., WU, C.F.J. AND YUE, K. (1992). Some recent work on resampling
methods for complex surveys. Survey Methodology 18, 209-217.
SRNDAL, C.-E. SWENSSON, B. AND WRETMAN, J.H. (1992). Model assisted survey
sampling. Springer, New York.
SHAO, J. AND TU, D. (1995). The jackknife and bootstrap. Springer, New York.
SMITH, T.M.F. (1976). The foundations of survey sampling: a review. Journal of
the Royal Statistical Society Series A 139, 183-204.
WOLTER, K. (2007). Introduction to variance estimation, 2nd edition. Springer, New
York.
ON THE ASYMPTOTIC BEHAVIOUR OF THE MEAN SQUARE

ERROR JACKKNIFE ESTIMATOR IN STRATIFIED SAMPLING
ABSTRACT
We study the aymptotic behaviour of the estimator of the mean

square error of an estimator , which is a non-linear function of the
variables of interest in a finite population U . The estimator is built
under a multistage sampling design, stratified at the first stage,
through the jackknife method. We obtain that up to order O(n2 ) the
squared bias component of this estimator is negligible compared to the
variance estimator.
Key words: Jackknife, Stratified sampling, Non-linear estimator,

Asymptotic behaviour, Mean square error, Bias, Variance.
AMS Classification: 62D05

Comportamiento asintótico de la estimación del error cuadrático medio mediante jackknife en muestreo estratificado

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Comportamiento asintótico de la estimación del error cuadrático medio mediante jackknife en muestreo estratificado

Cargado por

Copyright:

Formatos disponibles

ESTADSTICA ESPAOLA

Vol. 52, nm. 174, 2010, pgs. 197 a 216

Sobre el comportamiento asinttico

Estudiamos el comportamiento asinttico del estimador del error

(*) Agradecemos al Profesor D. Antonio Cuevas, del departamento de Matemticas de la

Palabras clave: Jackknife, Muestreo Estratificado, Estimador No

Clasificacin AMS: 62D05

El muestreo estratificado constituye uno de los diseos muestrales ms

Esta nota metodolgica recoge el comportamiento del estimador del error

Recopilamos los resultados preliminares pertinentes al estudio del comporta-

2.1 El jackknife en muestreo estratificado

Los resultados fundamentales de la adaptacin del mtodo jackknife al

El diseo muestral ser estratificado en L estratos con la posibilidad de

El estimador del parmetro se denotar por . Para poder emplear las

2. El muestreo en cada estrato es independiente. Esta condicin est contenida en

en el estrato h e yhk es el valor de la variable y para la unidad k del estrato h.

Asimismo se tiene que la varianza del estimador de la media poblacional yU viene

el peso del estrato h ( Wh Nh / N ).

4. El estimador del parmetro depende a travs de la misma funcin de los

muestrales nh , slo a travs de las medias muestrales.

obtenida a partir de la muestral original s al sustraer la unidad k del estrato h.

siendo (hk )(hl) el estimador aplicado a la pseudomuestra obtenida al sustraer las

2.2 Las condiciones del rgimen asinttico en muestreo estratificado

El inters del rgimen asinttico radica en la prctica habitual de disear

El rgimen asinttico se enmarca en las condiciones habituales de Isaki y Fuller

2. Las varianzas dentro de los estratos estn acotadas:

lo que necesariamente implica que el nmero de estratos L debe crecer

2.3 Condiciones sobre el estimador

El estimador , como se ha adelantado, es una funcin no lineal g del

donde la esperanza se toma respecto al diseo muestral.

2. Sobre los momentos de sexto orden:

3. COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DEL SESGO AL

En primer lugar determinamos las propiedades asintticas del estimador del

3.1 Comportamiento asinttico de la estimacin del sesgo

Necesitamos varios resultados preliminares. Algunos de los resultados que

Demostracin. El punto fundamental es y U yU Op (n1/ 2 ) . Esto se demuestra

Hecha esta observacin, desarrllese g(y U ) alrededor de yU hasta el segundo

Demostracin. Tomando valores esperados en el desarrollo anterior de y resto

Demostracin. Es inmediata a partir de las condiciones asintticas y el resultado

Demostracin. En primer lugar, tenemos la identidad

Seguidamente desarrollamos (hk) g(y U(hk) ) alrededor de y U hasta el segundo

donde para la acotacin del resto se ha empleado la derivabilidad con continuidad

y U hacia yU , esto es, que

g(y U ) g(yU ) Op (n1/ 2 ) .

Demostracin. Aplicando el desarrollo de Taylor a primer orden a g y haciendo

Demostracin. A partir del lema 3.4 inmediatamente se obtiene

Ahora bien, como g(y U ) g(yU ) Op (n1/ 2 ) , sustituyendo en la relacin anterior

Advirtase que este resultado no est contenido en Rao y Wu (1985), puesto

Del teorema anterior se deduce inmediatamente el orden del estimador del

Demostracin. Es inmediata a partir del teorema y las condiciones asintticas.

Obsrvese que corresponde con lo esperado para cualquier estimador que

Demostracin. Aplquese el teorema de Fuller anterior a la expresin [10] del

3.2 Estimacin del sesgo al cuadrado

Evaluaremos el comportamiento asinttico de dos estimadores diferentes para

Este resultado tiene importantes consecuencias respecto a la posibilidad de

JK ( )) 2 , los trminos cruzados son positivos. Por tanto, si no se incluyen al

Aun incluyendo los trminos cruzados, emplear el estimador al cuadrado tiene

(nh 1)(nh2 2nh 3) 4 (nh 1)2

Al elevar al cuadrado el estimador del sesgo, tomar valores esperados y aplicar

De este modo se tienen los rasgos principales del comportamiento asinttico de

4. COMPORTAMIENTO ASINTTICO DE LA ESTIMACIN DE LA VARIANZA

Los resultados de esta seccin se demuestran a partir de los resultados de