Está en la página 1de 62

ESTADISTICA ESPAOLA

Vol. 36, Nrn. 137, 1994, pgs. 327 a 387

Estimacin robusta

por
RUBEN H. ZAMAR
University of British Columbia

RESUMEN
En este artcula se presentan algunos enfoques recientes de la
teora de estimacin robusta, particularmente resultados en el rea
de minimizacin del sesgo mximo. Se describen algunos estimadores robustos de regresin y se introduce la definicin de curva de
sesgo mximo. Se discute !a relacin entre esta curva y la sensitividad a errores groseros. Estos conceptos se ilustran en el caso de
modelos sencillos de posicin y dispersin.
Palabras clave: estimadores minimax, sesgo mximo, sensibilidad a
contaminacones.
C/asificacin AMS: 62Jxx, 62H12.

1.

INTRODUCCION

Una prctica muy comn en estadstica (tanto terica como aplicada) es suponer que los datos han sido generados por un mecanismo aleatorio y que ste
puede ser representado por un miembro F^ de la familia paramtrica de funciones de distribucin
^={F^:HE O}

[1]

E^.^EAE^I^TI(^^1 E^^Ei,1tic)I^

La caracterstica ms sobresaliente de estos modelos matemticos es la suposicin de que el mecanismo aleatorio que gener las observaciones es totalmente conocido a excepcin del parmetro desconocido e. Naturalmente, el
principal problema en estos casos es la estimacin de e usando un estimador 6
con buenas propiedades estadisticas: sesgo pequeo o nulo y varianza pequea. Un mtodo que, en general, satisface estos requerimientos es el mtodo de
mxima verosirnilitud. Muchos de los mtodos de estimacin usados en la prctica fueron derivados a partir de modelos paramtricos, notablemente modelos
normales o gaussianos. Adems, las prapiedades estadsticas de estos mtodos han sido estudiadas a la luz de tales modelos.
Desafortunadamente, ios mecanismos aleatorios que producen los datos en
la prctica muy raramente obedecen con exactitud a un modelo paramtrico. En
muchos casos, sin embargo, el modelo paramtrico provee una razonable aproximacin del mecanismo estocstico F que cantrola la generacin de las observaciones.
En resumen, la utilizacin del modelo [1 ] y, consecuentemente, el empleo de
^
estimadores de mxima verosimilitud 8 se justifica usualmente por los siguientes argumentos:
a)

EI modelo [1 ] se cumple aproximadamente.

b)

Las buenas propiedades del mtodo utilizado para estimar 9{mxima


verosimilitud) son continuas, de manera que, si el modelo es aproxima^
damente vlido, entonces en es aproximadamente ptimo.

Mientras que la propiedad (a ) es cierta con frecuencia, la propiedad {b } no


lo es en muchos casos que incluyen el importante modelo normal. En efecto,
puede demostrarse que la eficiencia de la media aritmtica X{el estimador ptimo bajo el modelo de pasicin normal} puede ser arbitrariamente prxima a
cero para distribuciones que son arbitrariamente prximas a la normaf. Si, por
ejemplo, tenemos veinte mediciones independientes X; = + E; , diecinueve de
las cuales son normales con desviacin tpica . 03 y una es un outlier x, y si el
promedio de las diecinueve observaciones normales es 1.0, entonces X=.95 +
+.05x ^^, si x-^ ^. Si, por ejempfo, x= 2.8, entonces X= 1.09, a pesar de
que, en este caso, las diecinueve observaciones normales estarn tpicamente
contenidas en el intervalo (0.91, 1.09). Adems, las densidades normales N(^, 6)
y .95N (1, 6} + .05N ( 2.8, 6) (a = . 03) son prcticamente indistinguibles,

EI ejemplo del prrafo anterior muestra que el estimador de mxima verosimilitud bajo el modelo normal ( en este caso, la media muestral) puede producir
estimaciones muy ineficientes si los datos son producidos por una distribucin
que es prxima, pero no exactamente igual, a la normal. La conclusin, en mi
opinin, es que el hecho de que el modelo normal es solamente una buena

E:ti^^fl?^^tAC'ION itOBt'S'fA

^?y

aproximacin del mecanismo aleatorio que gener las observaciones es algo


que debe tenerse en cuenta explcitamente en el momento de escoger el estimador n de .
Una manera de incorporar explcitamente ia cuestin de la naturaleza aproximada del modelo paramtrico F,^ es suponer que la distribucin F pertenece a la
familia ^^ definida como

.^E _ { (1 -- E) F^ + ^H : 8 E O}

[2)

donde o<^< 0.5 es fijo y H es arbitraria y desconocida. Esta familia de contaminacin


inicialmente propuesta por Tukey
es rnuy simple y, adems, re#leja fielmente situaciones en que la mayora de !as observaciones provienen de!
modelo [1 ], pero una pequea fraccin ^ de las observaciones son outlers generados po r H.
Por supuesto, hay otros tipos de entornos de F que podran usarse en lugar
de [2]. Por ejemplo, entornos basados en distancias entre dstrbuciones como
la distancia de variacin total o la distancia de Levy. Sin embargo, el entorno de
contaminacin [2] tiene la doble ventaja de ser simple y apropiado.
EI comportamiento de un estimador consistente 6 de e, bajo el modelo paramtrico^ Fe , puede medirse de forma natural en trminos de la varianza asinttica A V (e , Fg ). Por otro lado, cuand uno supone que la distribucin F es un ele^
mento de ^^, los estimadores 6 sern en generai asintticamente sesgados y,
por lo tanto, el sesgo asinttico es un aspecto importante a considerar. Otro aspecto importante es el hecho de que la distribucin F no est completamente
especificada, puesto que H es desconacida.
En lo que sigue supondremos que el es#imador 8 depende de los datos nicamente a travs de la distribucin ernp rica

Fn (z) =n 1 ^ bz,(z)

donde ^ Z (z )= 1 si cada elemento del vector z es menor o igual que el correspondent elemento del vector ^; , y b Z( z )= 0 en otro caso. Por lo tanto, 8n
,
puede escribirse corno

^^O

E^_^^1^^^[^)I^^T^^I(':1^ f^S1'A:^i^E.,1

Tambin supondremos que el funcional H(F^ ) admite una extensin natural


^
H(F), con F en un conjunto de distribuciones que contiene a la familia F. Finalmente, supondrernos que el funcional 8 (F) es Fisher consistente:
n

6(Fe)=8, b'6E O
A

y que e^ ( F^ ) es consistente:
^

lim ^ (F^ } _ 9 {F), a.s. ^F]


^
para toda F E F. . Como, en general, H( F)^ 6 cuando F^^F , deberemos pres^
tar especial atencin a la cuestin del sesgo asinttico de 8{F ).
A menudo, el espacio paramtrico O tiene ciertas propiedades de invarianza
(o equivarianza} que deben ser respetadas por la medida que se proponga para
evaluar el sesgo asinttico. Por ejemplo, en el caso del modelo simple de posicin y dispersin [^ _(, 6}J, las medidas del sesgo asinttico del estimador
{F ) de y del estimadar (F ) de 6 deben ser invariantes ante cambios de
posicin y escala. Por ejemplo, las medidas de sesgo

l (F)-l
6

Y
^s (F)
^
6

-1^

poseen las propiedades de invarianza deseadas. En general, el sesgo asinttico


del estimador 8(F) cuando F varia sobre .^t; , puede definirse coma
^
b^{F,e}=d[9((1 -^) F^+^H), 9]
donde d es una distancia que respeta las invariancias naturales del espacio O.
En este artculo nicamente consideraremos estimadores que tienen las propiedades de equivarianza requeridas por la naturaleza del espacio paramtrico.
Por ejemplo, slo trabajamos con estimadores de posicin que son equivariantes ante cambios de posicin y escala y con estimadores de dispersin que son
invariantes con respecto a cambios de posicin y equivariantes con respecto a
cambios de escala. En vista de las propiedades de invarianza de la distancia d y
de las propiedades de equivarianza de ios estimadores considerados en este ar-

F:^f1^1,^^c'!c)ti Kc)Bl':^ 1 :^

^^I

tculo, podemos concentrar nuestra atencin en un valor cannico Ho de H,


como, por ejemplo, H^ _(0, 1) en el caso de rnodelos de posicin y dispersin.
Ms precisamente:
^
b (F, 8) = d^ 8((1 -- E) FA + cH), 8]
^
= d[ 6((1 -- E} Feo + EH ), 80]
Por ejemplo, en ef caso de modelos de posicin y dispersin, los sesgos del
estimador ( F) de posicin y 6( F) de dispersin se reducen a

l (F)-l
^
=^(F)I
a
Y
^

6 (F)
^

,^

--1 (=^a(F)-1 ^

E6]

respectivamente.
Este trabajo est organizado como sigue. En la seccin 2 discutir los dos
principales aspectos de la teora de robustez: eficiencia y estabilidad. En esta
seccin tambin mencionar brevemente los diferentes enfoques utilizados para
medir la estabilidad de un estimador. En las secciones 3 y 4 describir dos irnportantes familias de estimadores robustos de regresin. En la seccin 5 ilustrar el clculo de la funcin de sesgo mximo y la derivacin de estimadores de
sesgo minimax en el casa del modelo simple de posicin. En la seccin 6 dar
algunas conclusiones.

2. DEFINICIONES DE ROBUSTEZ
Ahora pasaremos a consderar diferentes formas en que se puede medir ia
^

robustez del estimador 8 de 6.

Habiando en trminos generales y desde un punto de vista ampiio e infor^


mal, se puede decir que el estimador {o funcianal) 8 (Fn ) es robusto si su cornportamiento es relativamente bueno y estable cuando F vara sobre el entorno
^
^f del modelo paramtrico F^. En otras palabras, el estimador 6(F^ ) debe poseer las siguientes dos propiedades:
EF1ClENCIA: 6 (Fn ) se comporta bien cuando el modelo paramtrico central
F = F^ se satisface.

F^!i l A[)15.^ 1('r1 E-.^PA!^i()I^A

ESTAB/LIDAD: EI buen comportamiento de 6{F^ ) se preserva cuando F varia sobre _`^._ .

^
Para cumplir el requerimiento de eficiencia,
8{F ) debe ser comparabie con
^

el estimador de mxima verosimilitud ^(F^ ) cuando F= Fe. Ms precisamente:


^
1. 9(F} debe ser consistente en el sentido de Fisher

e(F^}=8,de
^
6{
F) debe ser asintticamente normal, con matriz de covarianzas C^( F) y
2.
traza { C ^( FH }} ^ 1+ b
traza { C ,^ ( F^ ) }

[7]

donde ^> 0 es un nmero pequeo (b = 0.05 y^= 0.10 son valores usuales
de s).
Notemos que la eficiencia asinttica de un estimador multivariante se puede
medir de manera natural en trminos de la traza de su matriz de covarianzas
asinttica, esta es, de su varianza asinttica generalizada. La formalizacin
del requerimiento de estabilidad ha dada lugar a varios en#oques en la teora de
robustez: Robustez Cualitativa, Robustez Cuantitativa y Robustez Infinitesimal.
Gada uno de estos enfoques ser brevemente discutido a continuacin.

Robustez Cualitativa
^
Este enfoque, iniciado par Hampel (1971), considera que el funcionai 9(F}
^
es estable {cualitativamente robusto) si 8 es continuo en una cierta manera {los
detalles tcnicos pueden encontrarse en la referencia). Robustez cualitativa es
una propiedad muy bsica y, por lo tanto, estimadores que no poseen esta propiedad pueden ser descartados desde el punto de vista de la robustez. Por otro
lado, esta teora no es completamente satisfactoria por cuanto no permite comparaciones dentro de la clase de estimadores que son cualitativamente robustos.

Robustez Cuantivativa
Este enfoque, originado por Huber ( 1964), intenta cuantificar la estabilidad
^
de 9(F). Esto puede ser hecho en trminos del sesgo asinttico mximo:
B ^ (E)=supbe{F,9)
FE 'tt.

E:S"T1!vfAClON RC)Bl!S"1^.A

o en trminos de la varianza asinttica generalizada mxima:


AV (^} = sup traza (C^ (F))
F E .`j F

EI punto de ruptura:

E*=sup{^:Be(
^
representa la mayor fraccin de contaminacin que el estimador e puede tolera^r
antes de camenzar a comportarse en forma totalmente aberrante. Para que ^
pueda ser considerado estable
cuantitativamente robusto
de acuerdo con
esta teor a, el sesgo mximo B' ^(^) y la varianza mxima AV ^ (^) deben ser relativamente pequeos. ^bsrvese que el requerimiento de que B^ (^) sea pequeo er^uivale a que la primera condicin de eficiencia la consistencia en el senn
sea relativarnente preservada cuando Fvatido de Fisher de 9 (b,^ (Fe , 8) = 0)
ra sobre ^^. Similarmente, el requerimiento de que AV ^(^) sea pequea es
equivalente a que la segunda condicin de eficiencia sea relativamente preservada cuando F vara sobre ^E.
Huber ( 1964) encantr los estimadores que minimizan B ^(E) y AV ^(^) en la
ciase de estimadores M de posicin y abri el camino para el desarrollo de la
teora de robustez cuantitativa. Como estos estimadores minimizan el sesgo
mximo y la varianza mxima, son Ilamados estimadores minimax.
^
En general, la desviacin tpica de un estimador 6^ es tpicamente de orden

/^, mientras que su sesgo asinttico, si existe, es de orden uno. Entances,


el sesgo asinttico mximo ser el trmino dominante del error cuadrtico medio
mximo cuando se permite sesgo asinttico bajo ^E. Es precisamente por esta
razn que Huber ( 1964), para poder derivar su famoso resultado sobre varianza
minimax, evit ia posibilidad de sesgo asinttico restringiendo la familia }^^ al
subconjunto de funciones simtricas.
Finalmente, como todos los estimadores que consideraremos en este trabajo
son equivariantes, no hay prdida de generalidad en suponer que 80 = 0. Entonces, el argumento 8 ser, de ahora en adelante, omitido en b y B. La distribucin bajo el modelo paramtrico central ser denotada Fo.

Robustez Infinitesimal
Una manera muy til de simplificar el estudio del sesgo mximo es aproximar linealmente B^ (^) cerca de cero:
B ^ (^) = B' ^ (0} ^ + o (^)
y concentrar la atencin en la cantidad B' (

F.S"T^,^1C)15^1^1C'A F-:tiE'ANOL^1

Sea bz la funcin de distribucin que asigna masa uno al punto z. La funcin


^
^

de infJuencia, IF (^ , z), y la sensibilidad a errores groseros, y(e), fueron definidas por Hampe! t 1974} como
^
lF {8 , z ) = lim
F --^o

^
^
8((1 --E) Fo+E^=)-6(Fo)
^

Y
^

y(e) = suP II ^F(e, z) II


z

respectivamente, suponiendo que ei lmite existe.


A pesar de ciertas diferencias formales descritas a continuacin, cuando y{8}
es finita (caso regular^ se cumple que

r (e) = B' ^ (o)


^
^as diferencias formales entre y(6) y B'^ (0) radican en: a) el orden en el que
se aplican la derivada y el supremo, y b) los conjuntos considerados para calcular el supremo. En e! caso de B',^ (o) el supremo se aplica primero y la diferenciacin despus, mientras que en el caso de y(9} Ca diferenciacin se apCica primero y el supremo despus. Con respecto a b), en el caso de B',^ {o) el supre^
mo se aplica sobre el entorno completo ^^, en el caso de y(9) el supremo es
aplicada sobre el sub-entorno incluyendo distribuciones de masa puntual nicamente.
Durante muchos aos, las propiedades de tener influencia limitada (y (8)
finita) y de ser robusto fueron consideradas como propiedades equivalentes.
Sin embargo, la influencia limitada no es una condicin necesaria ni suficiente
de robustez: existen estimadores robustos con influencia ilimitada y estimadores
no robustos con influencia limitada. Los estimadores MM y Tau de regresin
descritos en la seccin 3 son ejemplos de los primeros. A pesar de tener funcin
de influencia no acotada, estos estimadores son eficientes bajo el modelo normal y estables cuando este modelo no se cumple. EI alto punto de ruptura y la
eficiencia de estos estimadores es independiente del nmero de variables independientes y de su distribucin. Un ejemplo triviaC de estimadores no robustos
con influencia acotada lo ofrecen los estimadores M de posicin que usan la
desviacin tpica como estimador auxiliar de dispersin. Un ejemplo ms interesante lo ofrecen los est'rmadores M generalizados de regresin (GM) descritos
en la seccin 4, cuando el nmera de variables independientes es grande. Los

Es^r^irwAC^c^^N Kc^^^!s^r.A

335

estimadores GM tienen influencia acotada, pero Maronna, Bustos y Yohai


(1979) mostraron que el punto de ruptura de estos estimadores es menor o igual
que 1/^p , donde p es el nmero de variables independientes.

3.

ESTIMADORES QUE MINIMIZAN UNA FUNCION DE LOS RESIDUOS

Una buena parte de la teora de robustez se ocupa del problema de estimacin robusta en el modelo de regresin lineal. Existen muchas propuestas de estimadores robustos de regresin y en esta seccin nos ocuparemos slo de algunas de ellas: estimadores S, ^ y MM, definidos por Rousseeuw y Yohai (1984),
Yohai y Zamar (1988) y Yohai (1987}, respectivamente. Estos estimadores tienen la propiedad de minimizar una funcin objetivo que depende de los datos
nicamente a travs de los residuos. En la prxima seccin nos ocuparemos de
otra clase de estimadores de regresin Ilamados estimadores M generalizados.
Estos estimadores minimizan una funcin objetivo ms compleja que depende
de los datos a travs de Ios residuos y de las variables independientes.
Los estimadores S no pueden ser estables y eficientes al mismo tiempo,
pero tienen la importante ventaja de poder calcularse directamente a partir de
los datos sin necesidad de estimadores iniciales de regresin ni dispersin. Por
esta razn, los estimadores S son a menudo utilizados como estimadores iniciales en los algoritmos de clculo de estimadores robustos.
Los estimadores ^ y MM pueden cornbinar las propiedades de estabilidad y
eficiencia y se calculan a partir de estimadores S.
Para poder definir los estimadores S de regresin se definirn primero los
estimadores M de escala y dispersin.

Estimadores M de Escala
Huber (1964) defini los estimadores M de la escala de las observaciones
..., r^ como la solucin de la ecuacin

=b
La funcin x normalmente satisface las siguientes condiciones: i) x(y )= x(-y );
ii) x es no-decreciente en [0, ^}; iii) x es continua excepto en un nmero finito de
puntos, y iv} x(^) = 1. Por otro lado, la constante b se toma normalmente igual a
,
Fo x( Y), donde Fo es una distribucion especificada ( e.g. Fo (y) = 1- e-y }.

F^S^I^A[.)IS^^I.ICA ESF',=^Iti(}LA

Martin y Zamar {1989} mostrar-on que, cuando las observaciones r; son positivas,
Mediana {r; } I F ' (0.5)

es aproximadamente minimax entre ios estimadores M de escala. Observamos


que la mediana carresponde al caso en que la funcin ^ es del tipo 0-1 :
x(r )= 0,
= 1,

cuando y<_ a
[9]

cuando y > a

con a= F^ '(0.5). En efecto, cuando n es par y la funcin x es definida por [9J,


b=EFox(Y}=PF^{Y>F^' (.5)}=0.5
Y
1

^
^
{nmero de observaciones con r; > F^ ' (0.5}}
^x(r.lcs)=0.5

n ;^,

'

Esta ltima igualdad, evidentemente, se verifica si = Mediana {r; } l F^ ' (0.5}.


Un argumento similar combinado con una definicin ms amplia de estimadores
M de escata ( ver Huber, 1981) se aplica en el caso en que n es impar.

Estimadores 1'VI de Dispersin


Supongarnos ahora que (y; , x; ), con x; E RP, satisfacen el madelo
y;=g(x;, 8} +aE;
dande g es una funcin que podemos supaner conocida, por simplicidad. Por
ejemplo, g(x^ , 9} = x; ^ o g{x; , 9} = e X'^ ^ I{1 + e X "^ e}. EI parmetro c^ representa la dispersin de los residuos
r; (9) = y; - g (x; , 8},
n

i = 1, . . . , n

[11J
n

Si 6 es un estimador de 8, entonces r; = r; {8) - y; - g(x; , e) son los residuos estimados y el estimador M de dispersin se defne como la solucin s de la ecuacin
n ^ x ^ s / b

[12]

H^^rtM^^c^io^v ttc^Ht^s'r^t^

Martin y Zamar (1993) consideran el problema de estimacin minimax en la


clase de estimadores M de dispersin cuando g(x; , E^) es constante (modelo de
posicin y dispersin). La extensin de estos resultados al caso general podra
ser de cierto inters.

Estimadores S de Regresi^Sn
Sea r^ (t )= y; - g(x; , t), donde t E R P vara libremente, y sea S( t) el estimador M de escala de los nmeros r; (t), i= 1, ..., n. Esto es, S(t) es la solucin
en s de la ecuacin ^12] con r; = r; (t ). EI estimador S de regresin se define
^

ahora como el vector 8 que minimiza la escala S(t). Esto es, 8 satisface la desigualdad

^
S( t)> S {8 ),

para todo t E R p

Adems, el estimador S de dispersin, , se define simplemente como


[ 13]
Cuando la funcin x es de la forma [9] con a =^-' (3/4) y b= . 5, entonces
S (t) = Mediana {r; (t)}
y el estimador S de regresin en este caso minimiza la mediana ( en lugar de la
media) de los valores absolutos de los residuos. Un estimador muy parecido
que tiene la propiedad de minimizar la mediana del cuadrado de los residuos
fue definido por Rousseeuw ( 1984) y designado con las siglas LMS (least median f squares). '
EI ciculo de estimadores S en forma exacta es un problema numrico muy
complejo, puesto que uno debe encontrar el minimo global de una funcin no convexa. Rousseeuw y Leroy (1987) proponen un algoritmo basado en sub-muestrea
que praporciona una solucin aproximada en el caso del estimador LMS. En lugar de considerar todos los valores posibles de t, una se concentra en el conjunto finito t,, ..., tM de vectores que ajustan exactamente grupos de p+ 1 puntos
(entonces M= n! l[(p + 1)! ( n -- p-- 1)!]). Algoritmos anlogos tambin pueden
utilizarse para calcular aproximadamente estimadores S. Observemos que para
cafcular S(t^ ) debemos resolver la ecuacin no lineal [12] y, cuando M es grande, el tiempo computacional requerido puede ser prohibitivamente alto. Afortunadamente, S(t^ ) necesita ser calculado en promedio /og (M) veces, nicamente cuando
1

r; ( tk )

^ x * < b
s

[14]

H.^^t a^ is^r^c;^ r:s^AVC^i..a

dande
s* -- min (s^, ..., sk _^}
y s^ es la solucin de [12j con r, = r; {t^ ).

Estimadares Tau de Regresin


Desafortunadamente, los estimadores S de regresin no pueden ser simultneamente robustos y eficientes bajo modelos narmales. Si la funcin ^ se escoge de manera que b(x) = 1/2, el correspondiente estimador S ser robusto
(BP (x) = min {b (x), 1 -- b(x)}), pero la eficiencia bajo modelos normales ser
rnuy ba^ a. La nica manera de alcanzar alta eficiencia es usando una funcin ^
con b{^) grande (cerca de uno) y, por lo tanto, el correspondiente estimador no
ser robusto.

Los estimadores Tau de regresin (as como los estimadores MM de regresin) fueron definidos con el objeto de alcanzar eficiencia y robustez simultneamente. Sea S(t ) un estimador de escala de los residuos r; (t } y sea p una
funcin con !as mismas propiedades i)-iv} de x. E! estimador Tau de regresin
se define por !a propiedad de minimizar !a siguiente medida de la escala de !os
residuos r^ ( t }:

r; {t}
^
(t} = s^ (t} n^ P S t

(}

[15]

^.a idea intuitiva que motiv la definicin de estas estimadores es !a siguiente: supongamos que !a funcin p es aproximadamente cuadrtica cerca de cero.
Si fos residuos tipificados r; (t ) l S( t ) son relativamente pequeos, entonces
S^{ t) p{r; { ^t )! 5( t}) = r,? ( t) y!a medida de escala ^( t} no ser muy diferente
de la funcin cuadrtica ^ r;2 (t }. Por otro lado, si r; ( t )/ S(t } es grande, entances la influencia del punto i es reducida.

Por lo tanto, los estimadores Tau sern aproximadamente eficientes cuando


los datos son aproximadamente normaies y resistentes a la presencia de outlers, supuesto que !as funcianes ^ y p sean escogidas convenientemente. Por
ejemplo, si x y p son de la familia bi-cuadrada propuesta por Tukey, los valores
apropiados de las constantes ci y c2 de ^ y p para alcanzar punto de ruptura de
1/2 y 95lo de eficiencia san 1.^4 y 6.4, respectivamente.

ESTI^IA('1()N R()Bl'S"1`A

^i ^ y

Estimadores M de Regresin can Dispersin General


Sea r; (t ) definido como antes y sea ^s un estimador de la dispersin de los
residuos r; (^) (por ejemplo, [13]). EI estimador M de regresin con funcin de
prdida p(definida como en la seccin anterior) y estirnador de dispersin , se
define por la propiedad de minimizar en t
r; (t)
1
n ^P^ I

[16]

Cuando est dada por [13] se obtiene el estimador MM (estimador M de regresin combinado con un estimador M de dispersin). Yohai ( 1987) prob que en
este caso el punto de ruptura est completamente determinado por la eleccin
de la funcin x y que la eficiencia bajo errores normales est completamente
determinada por la eleccin de la funcin p. Por lo tanto, estos estimadores pueden ser simultneamente robustos y eficientes.
Si x y p son de la familia bi-cuadrada propuesta por Tukey, los valores apropiados de las constantes c1 y c2 de x y p para alcanzar punto de ruptura de 1/2
y 95% de eficiencia son 1.04 y 4.7, respectivamente.

Punto de Ruptura, Sensibilidad y Sesgo Mximo


Martin, Yohai y Zamar (1989) probaron que el estimador LMS es aproximadamente minimax entre todos los estimadores M de regresin can escala general. Yohai y Zamar (1993) probaron que esta propiedad minimax se extiende a la
clase de estimadores que dependen nicamente de los residuos (esto excluye
estimadores que reducen la influencia de puntos con alto leverage).

EI punto de ruptura de estos estimadores es independiente de la dimensin


p d e x.
La funcin de sesgo mximo B(E) de los estimadores de regresin con dispersin general slo se conoce para el caso de los estimadores S y cuando la
distribucin de x bajo el modelo central es elptica ( ver Martin, Yohai y Zamar,
1989). Yahai y Zamar ( 1993) muestran que
B(>~) =y^+ o(^}
en el caso de estimadores M de regresin con dispersin general. Este resultado no requiere la hiptesis de que x tiene distribucin elptica bajo el modelo
central.

Fs^rf^^^^s^ric^t^ t^s^,^NC^^..^

4.

ESTIMADQRES DE REGRESfON CON INFLUENCIA ACOTADA

Estos estimadores fueron introducidos con el objeto de limitar la influencia


no solamente de outliers, sino tambin de puntos con alto /everag^e. En general,
son definidos implicitamente por la ecuacin

1 ^ ^ r' (tk ) , (^ x. ^^ x.
n
'
'
s*

donde ^^ x ^^2 = x' ^ r' x y donde ^ es un estimador robusto de la matriz de covarianzas de x. La funci+n r^ (r, x} se supone: i) continua; ii} impar y no-decreciente en r; y iii) acotada, con sup r X r^ {r, x)= 1.
Todas las funciones ^ propuestas hasta ahora son de la forma
^ (r, x) = y! (rv(x)) w(x)
donde la funcin y^r es como las de los estimadores M de posicin. Los estimadores de influencia acotada se obtienen escogendo la funcin w o ia funcin v
con la prapiedad que sup w {x } ^( x^^ <^ o sup v (x ) ^^ x^(<^, Este es el caso
con los estirnadores propuestos por Mallows y por Andrews (ver Hill, 1977) que
tienen v (x )= 1 y w( x )= 1, respectivamente. Hill y Ryan (ver Hill, 1977) propusieron usar w{x )- v{x ), y finalmente Schweppe (ver Merril! y Schweppe, 1971 }
sugiri tomar v(x )= 1/ w(x ), con la idea de que los puntos con valores de (( x I I
grandes pero que satisfacen el modelo apropiadamente no vean su infiuencia limitada. Los estimadores propuestos por Huber (1973} tienen w(x )= v(x ) = 1, y
por lo tanto no tienen influencia acotada.

Estas estimadores son tambin Ilamados estimadores M generalizados (estimadores GM, usando las siglas en ingls} y se pueden calcular usando el mtodo de Newton y Raphson. Antes de poder calcular estos estimadores, sin embargo, debemos
contar con estimadores robustos de y de ^. La estimacin ron
busta de ^ irnplica problemas nurnricos muy serios que pueden resoiverse, al
menos aproximadarnente, usando mtodos de re-muestreo similares a!os descritos en la seccin anterior. ^a estimacin de , por otro lado, tiene que basar^
r;
{H)
y, por lo tanto, se requiere conse necesariamente en residuos estimados
^
tar con un estirnador robusto 8.
A diferencia de los estimadores de regresin descritos en la seccin anterior,
la eficiencia de los estimadores GM depende de la distribucin conjunta del vector de variables independientes x. Por ejemplo, estimadores ^M que en principio disfrutarian de una eficiencia del 95% cuando x tiene distribucin normal

f:S"i'IMAC`1ON ROHI.'STA

^41

multivariante pueden resultar muy ineficientes si la distribucin de x no es normal {ver Maronna, Bustos y Yahai, 1979). Notemos que mientras la hiptesis de
normalidad de los errores s^; bajo el modelo central puede parecer razonable, la
suposicin de que x es normal multivariante bajo el modelo central puede ser injustificada en muchos casos.

Punta de Ruptura, Sensibilidad y Sesgo Mximo


A diferencia de los estimadores de regresin descritos en la seccin anterior,
el punto de ruptura, la sensibilidad y la funcin de sesgo mximo de los estimadores GM depende de la dimensin del vector de variables independientes x
(ver Martin, Yohai y Zamar, 1989). A pesar de que, en general,
BGM (E) = ^^ ^ + O (E)

esto es, la funcin de sesgo mximo se comporta linealmente cerca de cero,


esta funcin (y el punto de ruptura) se deterioran rpidamente cuando la dimensin de x crece. Un punto de ruptura de 1/2 y un deteriora menor de la funcin
de sesgo mximo puede conseguirse calculando una sola etapa en el algoritrno
de Newton y Raphson, a partir de un estimador inicial 8 con punto de ruptura 1/2
y funcin de sesgo mximo de orden mayor o igual a 1/2 cerca de cero (ver
Simpson y Yohai, 1994). Estimadores GM calculados de esta forma han sido
propuestos recientemente por Simpson, Ruppert y Carroll (1992) y por Caakley
y Hettmansperger (1993).

5.

CALCULO DE LA FUNCION DE SESGO MAXIMO Y SUS DERIVADAS

En esta seccin ilustraremos el clculo de la funcin de sesgo mximo B{^)


en el caso sencillo del modelo de posicin pura (dispersin conocida). Tambin
mastraremos cmo se puede derivar el estimador M de posicin con sesgo minimax e ilustraremos la derivacin de aproximaciones lineales y cuadrticas para
B (E) .

Modelo de Posicin Pura


Este es un modelo muy simple y ser usado para ilustrar cmo obtener la
funcin B(^) y sus aproximaciones cerca de cero. EI modelo paramtrico central
est dado por

E^:S"iAUiS"1^IC`A f^Si'A!^f()1.r1

donde Fo est completamente especificada y es conocida (por ejemplo, F^ _


^ N (q,1)) y las observaciones Y,, ..., Y^ se supanen independientes e idnticamente distribuidas con distribucin F^^^.

Estimadores M
Los estimadores M de poscin fueron definidos por Huber (1964) como la
solucin de la ecuacin

dande yl es una funcin no decreciente, impar y acotada. Por ejemplo, la famosa funcin ^.^r de Huber:

si (y^<c

W H {Y ) = Y^
= signo (y } c,

si^yj>c

[^ 8]

donde c >_ Gl es una constante que puede tomarse igual a 1.345 si se desea una
eficiencia del 95% en el caso normal.

Sea
^^,(t, F) =-EF{yf(Y-t)}

[19]

Huber ( 1964, 1981) prueba que, si existe un nico punto ^{F) tal que la funcin
^.^, ( (F}, F} ! 0
entonces el estimadar M, = (F }, converge casi seguramente a (F}, esto es,
{Fn ) -^ ^ (F),

a.s. [F]

[2qj

Adems, si ^,^, (t, F) es cont^inuamente diferenciable en un entorno de (F} y si


^.^, ( (F), F) ^ q, entonces (F^ ) es asintticamente narmal con varianza asinttica
All(yf, F}=

EF { y^2 ( Y- (F)}}
^

[(d / dt) ^,^, ( (F), F)]2

{21 ]

ES'T'IMAC'IC.)l^ ROBUSTA

^4 ^

La funcin gw ( t)=^.^, ( t, Fo) juega un papel importante en el clculo de B^, (^).


Usando la simetra de Fo y y, se verifica fcilmente que g^, (t ) es impar, estrictamente creciente y g^, (t) > 0 para todo t> o. Adems,
^

9,^ ( t ) _ -EFo ^ ( Y - t ) _ --

lV (Y - t ) fo (Y ) dY

^
-0

4^(Y)[fo(Y-t)-fo(Y+t)^dY

donde [fo (y - t)- fo (y + t)] > O para todo par (y, t) con y> O y t> 0.
Sea F =(1 -^) Fo + E H. Por definicin de ( F),
^w({F)^ F)=(1 -E)gW((F))+E^,W(!^(F), H}=0
De aqu se sigue que

9',^((F))=_`[^/(1 -E)^^^,((F)^ H)=[^/(1 --E)^ EH^(Y--(F))

^[E/(1 -^)]E^,^(Y-(F))=[l(1 -^)lV^()


Usando la monotona de g^, (t } concluimos que el sesgo mximo del estimador M
de posicin con score yr,
B^, (E) = sup (F),
FE `ft.

satisface la ecuacin
9',^ (B^, (E)) _ [E / (1 -- ^)] ^ (^)

[22]

En la figura 1 presentamos las curvas de sesgo mximo de la mediana y del estimador de Huber con c= 1.345 y eficiencia del 95%. Observernos que la curva de
la mediana (lnea Ilena) es uniformemente menor que la del estirnador de Huber (lnea quebrada). En la seccin siguiente se muestra que, en realidad, la mediana es
el estimador minimax de posicin.

^4^

^STAE)tSTIC'A ^:SPA?^JC)LA

Figura 1
SESGO MAXIMO DE LA MEDIANA (inea iiena) Y DEL ESTIMADOR DE HUBER
CON o - 1 .345 {lnea quebrada)

2.5

2.0

1.0

^.5

fl.0
0.0

0.1

a.2

0.3

o.a

0.5

Epsilon

Estimador M de Posicin de Sesgo Minimax


Supongamos, sin p^rdida de generaiidad, que ^ (^) = 1. Se deduce fcilmente
que si
9'^^. (t) ^ 9',^, (t),

d t>_ 0

8,^^ {E) <_ Bw2{E}

b' ^ >_ 0

entonces

Puesto que la funcin de score de la mediana es y^Med;a ( t)= signo ( t) se sigue

inmediatamente que (usando que [fo (y- t)


gw ( t ) ^ g`^,^^;^^ (

- fo (y +

t}] ? 0}

t ) _ ^ _ [ ta (Y - t ) -- fo (Y + t ) ] dy = 2 Fo { t } -- 1

Por lo tanto,
B^ (^ C ^^Median

^ ^ ^ O
(^^

ES"T'IMA(^'IC}N ROBl`STA

^45

y la mediana minimiza el sesgo mximo (es minimax) en la clase de los M-estimadores de posicin.
Usando un mtodo de prueba muy ingenioso (que no requiere el clculo de
las funciones de sesgo mximo), Huber (1964) obtuvo un resultado an ms general: la mediana es minimax en la clase de todos los estimadores de posicin T
que tienen !a propiedad
T(Y^ +b, ..., Y^+b)= T(Y^, ..., Y^)+b
Desafortunadamente, el mtodo de Huber no se puede aplicar a otros modelos uniparamtricos (por ejernplo, escala o dispersin) ni multipararntricos
corno posicin multivariante y regresin. Sin embargo, el mtodo de prueba descrito aqu s puede aplicarse con xito en otros modelos uniparamtricos y multiparamtricos. Ver, por ejemplo, Martin y Zamar (1989, 1993a y 1993b) y Martin,
Yohai y Zamar (1989).

Sensibilidad a Contaminaciones y Aproxirnaciones de Segundo orden


Naturalmente, la funcin de sesgo mxirno B^, (^) puede aproximarse cerca
de cero usando, por ejemplo, una expansin de Taylor de segundo orden:
2

B^ (E) = Y; (W) + ^2 (^) ^ + o (E2)


2
Observando que g^, (t )_

^
^

[23^

^r (y ) fo ( y+ t) dy , se obtiene

^
9w(^)_

^ {Y ) f^ (Y ) dY

Y
^
9'';^ (^) =

^ (Y ) f^' (Y ) dy = 0

Diferenciando dos veces los dos lados de [23] con respecto a^ y poniendo ^= o,
obtenemos

9;^(^)

r:s^rA[^is^ric^A ^-.^^Ar^c^t.a

Y
Y^ _ !g W (p ) _

9W (0)

Por lo tanta, ^23] puede escribirse com


^
Bw tE} _ ^ ^

^ ^

^ ^ tY ) fo

^ ^ + ) + Q ^ 2)

(Y ) dY

EI factor

^ 4^ (Y } f (Y ) dY
se obtiene tambin como resultado dei siguiente procedimiento: primero se ca!cula e1 iimite

lF(y, yf) = lim


E--^o

,b({1 -) Fo+^Sy)

(donde Sy es una contaminacin de masa uno en y} y luegc^ se calcula el supremo


^
n
y* (8) = sup iF (y, 9)
Y

Hampel (1968) conjetur que

Be(}^y*
Noternos que debido al orden en que ei f imite y ei supremo se aplican en e1
ciculo de y*, en general,

Aunque no existe una prueba formal de este hecho, y* _^y1 en todas los casas
en que B^, (^) es aproximadamente lineal cerca de cero, esto es, cuanda

8,^ (^) = C ^ + o {^)

E:STIMAC'1ON kOHUS'TA

En la figura 2 comparamos las aproximaciones lineat (lnea de puntos) y cuadrtica ( lnea quebrada) en el caso del estirnador de Huber con c= 1.345. Observamos que la aproximacin lineal

B,^(^) -

c
2^^ (c)-1

es ampliamente superada por la aproximacin cuadrtica

B (E) ^
`^

2^(c)-1

^ (1 + ^)

Tambin notamos que la aproximacin cuadrtica es muy buena para valores


de ^ menores que .20.

Figura 2
APROXIMACION LINEAL ( lnea de puntos) Y CUADRATICA (lnea quebrada)
A LA FUNCION DE SESGO MAXIMO (lnea Ilena)
5

0
0.0

0.1

0.2

0.3
Epsilon

0.4

0.5

E^S'TAUIS`T'1C`A E5F'A!VC)I.A

fi.

COMENTARIt^S FINALES

Aunque ya han transcurrido treinta aos desde el inicio de fa teoria cuantitativa de robustez can el trabajo pionero de Huber (1964), esta teora no est
completada, ni mucho menos. Las curvas de sesgo mximo de estimadores robustos de regresin an no se conocen en la mayora de los casos irnpartantes
(por ejemplo, en el caso de los estimadores MM y T). En los pocos casos en que
esta curva se conoce (estimadores S y estimadores GM) las resultados son parcialmente satisfactorios, puesta que slo valen bajo condiciones restrictivas. En
el caso de los estimadares S debe asumirse que la distribucin conjunta de las
variables independientes es esfrica. En el caso de los estimadores GM debe
asumirse, adem^s, que la dispersin de los residuos y que la matriz de covarianzas de las variables independientes son conocidas. La funcin de sesgo mximo de estimadares robustos de la ordenada al Origen no se conoce an en
.
ningun caso.
C7tra cuestin importante es que la curva de sesgo mximo captura sbio uno
de los dos aspectos irnportantes del concepto de robustez, el de la estabilidad.
EI otro aspecto importante es el de la eficiencia bajo el modelo y en sus inmediaciones. Desde ese punto de vista, la teora de sesgo minimax sin condiciones
laterales de eficiencia est incompleta. Puede considerarse como una teora de
estabilidad pero no como una teora global de robustez.

REFERENCIAS
. (1993): A bounded influence, h'rgh
breakdown, efficient regression estimator, J. Amer. Statist. Assoc., 88, 872880.

CC}AKLEY, W. C., y HETTMANSPERGER, T. P

HAMPEL, F. R. {1968): Contributions to the theory of robust estimation, Ph. D.


thesis, University of Galifornia, Berkeley.
(1971 }: A general qualitative definition of robustness, Ann. Math. Statist.,
42, 1$87- ^1896.
(1974): The influence curve and its role in robust estimation, J. Amer.
Statist. Asscac., 69, 383-393.
Hi^^, R. W. (1977): Robust regression when there are outliers in the carriers,
Unpublished Ph. D. dissertation, Harvard University, Dept. of Statistics.

E^STIMAt'ION R(:)Bl.!STA

i49

HUBER, P. J. (1964}: Robust estirnation of a location parameter, Ann. Math.


Statist., 35, 73-101.
-- (1973) :Robust regression: Asymptotics, conjectures and Monte Carlo,
Ann. Statist., 1, 799-821.
-- (1981) : Robust Statistics, Wiley, New York.

LI, B., y ZAMAR, R. H. (1991): Min-max asymptotic variance when scale is unknown , Statist. and Probability Letters, 11, 139-145.
R. A. (1981): Robust M-estimators of multivariate location and scatter, Ann. Statist., 4, 51-67.

MARONNA ,

MARONNA, R. A.; BusTOS, o. H.., y YoHAI, V. J. (1979): Bias- and efficiencyrobustness of general M-estimators for regression with random carriers, en
T. Gasser y M. Rosemblat (eds.), Smoothing Techniques for Curve Estimation, Springer-Verlag, New York.
MARTIN ,

R. D.; YoHAI, V. J. , y ZAMAR , R. H. (1989): Min-max bias robust regression, Ann. Statst., 4, 1608-1630.

MARTIN, R. D., y ZAMAR, R. H. (1989): Asymptotically min-max bias-robust M-estimates for positive random variables, J. Am. Statist. Assoc., 17, 494-501.

-- (1993a): Efficiency-constrained bias-robust estimates of location, Ann.


Statist., 1, 338-354.
(1993b): Bias-robust estimates of scale, Ann. Statist., 2, 991-1017.
MERRILL ,

H. M.,

y SCHWEPPE ,

F. C. (1971): Bad data supression in power sys-

tem static state estimation, IEEE Trans. Power App. Syst., PAS-90, 27182725.

RoussEEUw, P. (1984): Least median of squares regression, J. Am. Statist.


Assoc., 79, 871-880.
RoussEEUw, P., y LEROY, A. M. (1987): Robust regression and outlier detection,
Wiley, New York.
RoussEEUw, P., y YoHAI, V. J. (1984): Robust regression by means S-estimators, en J. Franke, W. Hardle y R. D. Martin (eds.), Robust and Nonlinear
Time Series Analysis. Lectures Notes in Statistics, 26, Springer, New York,
256-272.
SIMPSON, D. G.; RUPPERT, D., y CARROLL, R. J

. (1992): On one-step GM estima-

tes and stability of inferences in linear regression, J. Am. Statist. Assoc.,

87, 439-450.
SIMPSaN, D. G., y YoHAI, V. J. (1993): Functional stability of one-step GM estimators in linear regression. Unpublished manuscript.

F^sr^[^is^r^c^A FsPAC^^.A

^5()

YoHA^, V. J. {1987): High breakdown point and high efficiency robust estimates
for regression, Ann. Statist., 15, 642-656.
YOHAI, V. J., y MARC}NNA ,

R. A. (1979) : Asymptotic behavior of M-estimators for

the linear model, Ann. Statist., 7, 258-268.


YOHAI, V. J., y ZAMAR ,

R. H. (1988): High breakdown point estimates of regres-

sion by means of the minimization of an efficient scale, J. Amer. Statist.


Assoc., 83, 406-414.
(1992}: Optimally bounding the gross error sensitivity of unbounded influence M-estimates of regression, Tech. Rep. 92-44, Departamento de Estadistica y Econometra, Unversidad Carlos 111, Madrid.
(1993}: t^A minirnax property af the least a-quantile estimates, Ann. Statst.,
21 , 1824-1842.
^AnnaR, R. H. {1992): Bias robust estimation in orthogonal regressian, Ann. of
Statist., 4, 1875-1888,

R4BUST ESTIMATION

SUMMARY
The present paper presents some recent approaches of the robust estimation theory, in particular the results in the area of maximum bias minimization. A description is made of some regression robust estimators and the definition of maximum bias curve is introduced, The relation between ths curve and the senstivity to gross
errors is discussed. These concepts are explained in the case of
simple position and dispersion models.
Key Words: minimax estirnators, maxirnum bias, sensitivity to pollutons.
AMS Classificatin: 62Jxx, 62H 12.

^^.5'fIMA('IOti ROBl SIA

CO MENTARIO S
ANTONIO CUEVAS
Universidad Autnoma de Madrid

La teora de la robustez ha conocido, al igual que otras muchas disciplinas


cientficas, una poca de auge seguida de un perodo de relativo estancarniento
que, con una visin positiva, podra considerarse como una crisis de madurez.
En la actualidad, la teora y la prctica de la estadstica robusta se desarrollan a
un buen ritmo.

Los trabajos de Rubn Zamar sobre sesgo minimax son un buen exponente
de esta recuperacin.
Es un honor para Estadistica Espaola contar con un artculo invitado de
este autor, componente destacado de la excelente escuela argentina de estadstica robusta creada en torno a Vctor Yohai (Graciela Boente, Oscar Bustos,
Nlida Ferretti, Ricardo Fraiman, Ricardo Maronna...).
Mi comentario est, inevitablemente, sesgado por mi experiencia personal
sobre el tema y se dirige hacia la fundamentacin materntica de los conceptos
de robustez, con mayor nfasis en algunas ideas que rne parecen especialrnente atractivas. Me interesa tambin destacar las relacianes de la estadstica robusta con otros campos de la investigacin estadstica o materntica, ya que, en
mi opinin, el valor de una teora est muy relacionado con su capacidad para
salir de s misma e interaccionar con otros temas.
En beneficio de una mayor claridad dividir mi discusin en apartados.

1.

Funcionales estadisticos

^os desarrollos tericos en estadstica robusta han contribuido a popularizar


entre los investigadores la nocin de estimador considerado como restriccin de

F.^r.>t^iti^ic^r^ ^^.^t}}^,!^t>i.f^

un funcional (definido sobre el espacio de funciones de distribucin) al conjunto


de las distribuciones empiricas. Esta idea no es nueva, ya que est implcita en
la nocin de consistencia propuesta por Fisher en los aos veinte (y mencionada por ^amar en la introduccin del artculo}; sus implicaciones estadisticas se
desarrallan con detalle por primera vez en el clsico trabajo de von Mises
(1947). Sin embargo, la explotacin sistemtica de este atractiva enfoque funcional^^ no se ha generalizado hasta los aos setenta, coincidiendo con el desarrollo de la estadstica robusta. As, la manera natural de definir y estudiar los Ly los M-estimadores es mediante funcionales estadsticos. Las propiedades de
difPrenciabilidad de estos funcionales proprcionan una metodologia general
para estudiar la distribucin asinttica de los estimadores asociadas [ver, por
ejemplo, Fernholz (1983}]. EI aspecto que me interesa destacar aqu es, no obstante, que la metodologa basada en la diferenciacin de funcionales ha demostrado ser til en otros desarrollos estadisticos, no directamente vincufados a la
robustez; por ejemplo, el trabajo de Parr (1985) proporciona una ele+gante y sencilla aplicacin al estudio de las condiciones de validez asinttica del bootstrap.
Gill (1989) utiliza mtodos de diferenciacin funcional en estimacin no paramtrica y, en particular, extiende a este cantexto el clsico mtodo delta para
obtener distribuciones asintticas de estimadores.

2.

Robustez cualitativa

Rubn Zamar menciona este concepto de manera muy esquemtica, ya que


est quiz un poco apartado de su linea expositiva general. Por mi parte, slo
quiero cornpletar y matizar con brevedad su comentario.
Como seala ^amar, en el caso de las estirnadares generados por un funcional, la continuidad de ste es la condicin suficiente natural para ia robustez cuaiitativa. Esto se sita en la linea, comentada en el punto anterior, de traduccin estadistica de propiedades analiticas del funcional. Un paso ms en esta direccin puede encontrarse en Cuevas y Ramo (1993}, donde se demuestra que la continuidad
uniforme (respecto a la distancia bounded Lipschitz) es una condicin suficiente
para la robustez cualitativa de ias aproximaciones bootstrap a la distribucin en el
muestreo: se trata, por tanto, de una aplicacin na pararntrica del concepto. En
este mismo trabajo pueden encontrarse algunas referencias interesantes sobre
otras extensiones de la nocin de robustez cualitativa. Por ejernplo, Boente et al.
(1987) estudian la robustez cualitativa en el caso de observaciones dependientes.
Respecto al significado de la robustez cualitativa, Huber (1981, p. 10) seala
que, desde un punto de vista matemtico, este concepto impone un requerimiento de continuidad anlogo a la nocin de estabilidad en un sistema controlado par una ecuacin difereneiai ordinaria. Se trata, por tanto, de una idea bsica muy arraigada en diferentes contextos.

F:ST'11^1A('IOti KC)F3l1S.i_i

^5 i

A propsito del comentario de Zamar ... esta teora (...) no permite comparaciones dentro de la clase de estimadores que son cualitativamente robustos,
quisiera matizar que, en cierto modo, el punto de ruptura [ver, por ejemplo, Huber (1981)] es una nocin complernentaria que cumple la funcin de cuantificar
la robustez. EI punto de ruptura es, en trminos intuitivos, !a mxima cantidad
de contaminacin en la distribucin subyacente que puede tolerar un estimador
de manera que todava proporcione alguna informacin sobre el parmetro de
inters. Creo que este concepto no ha sido an estudiado con la profundidad
que merece. Hay varias cuestiones, como la definicin de aproximaciones
rnuestrales satisfactorias o la extensin a diferentes contextas (incluyendo la inferencia bayesiana), que son an, bsicamente, problemas abiertos.

3.

La curva de influencia

Este es, sin duda, uno de los conceptos ms populares y fecundos dentro de
la teora de la robustez. De hecho, es el eje central del libro de Hampel et al.
(1987) sobre estadstica robusta. ^as observaciones que siguen pretenden simplemente completar los comentarios de Rubn Zamar sobre el tema.
Desde el punto de vista matemtico, la funcin de influencia es para un funcional estadstico lo que el vector gradiente es para una funcin real de n variables. La funcin de influencia proporciona el trmino lineal de los desarrollos de
Taylor de primer orden [ver Fernholz {1983)] que permiten probar la normalidad
asinttica para los estimadores definidos como restriccin de un funcional diferenciable. Coma consecuencia, la varianza asinttca aparece en estos casos
como la media del cuadrado de la funcin de influencia. Este hecho puede utilizarse para estimar la varianza asinttica, supuesto que se dispone de un estimador adecuado de la curva de influencia. EI estimador ms popular es la as
Ilamada curva de sensibilidad. Curiosamente, el estudio de sus propiedades
asintticas permanece casi indito; una referencia reciente sobre este tema es
Cuevas y Romo (1995).
Recordemos, por ltimo, que la curva de influencia tiene una interesante relacin con el mtodo de remuestreo denominado jackknife [ver Efron (1992)]; en
particular, se puede obtener una aproximacin muestral de la curva de influencia como subproducto de los clculos necesarios para obtener la versin jackknife de un estimador.

4.

Estirnadores de mnima distancia

Los ejemplos presentados en el artculo se centran en modelos de posicin/escala y regresin. En este tipo de modelos los estimadores considerados

E^^.:4^I ^1[)f:^^t^l(^.^ ^-.S(',^\ti'O1^,^

{principalrnente los de tipo M) ocupan, sin duda, un papel protaganista. Hay, sin
embargo, otras situacianes (por ejemplo, Ios modelos paramtricos de mixturas)
en que resulta til considerar !os estimadores Ilarrtados de mnima distancia
que, bajo condiciones bastante amplias, son robustos. EI trabajo de Parr y
Schucany (1980) es una referer^cia clsica sobre el tema.
La forma general de estos estimadores es:
^
8 = argmin (F,,, F^),

donde F^ es la distribucin emprica, F^ es el modelo terico y S es una medida


de discrepancia (no necesariamente una mtrica) entre funciones de distribu-

cin
Una idea bastante natural {aunque, sorprendentemente, no estudiada hasta
ahora) es considerar una versin suavizada de la anterior definicin en la que
FH es reemplazada par la densidad f^ (cuando esto tenga sentido} y F^ se reemplaza por un estimador no paramtrico (de tipo ncleo, por ejemplo) de fe. La
discrepancia b se cambiara entonces por una distancia natural (por ejemplo, L^
o L2) entre densidades. En Cao et a!. (1995) se analizan algunas aspectos tericos (consistencia, normalidad asinttica, robustez) y prc#icos (comparaciones
por simulacin} de esta modalidad de estimadores de mnima distancia. Los resultados son, en general, bastante alentadores.

Comentario final: un asunto de relaciones pbiicas


Ctuisiera concluir estas lneas con una reflexin acerca de un asunto que tiene, segn creo, cierta importancia prctica: la creciente disponibilidad de medios computacionales baratos y eficientes ha estimulado la aparicin de una amplia demanda de anlisis estadsticos por parte de un pblico usuario formado
mayoritariamente por no profesionales de la estadstica. Este pblico, a su vez,
contribuye a orientar la investigacin planteando sus propias demandas, na
siempre fciles de satisfacer. Una consecuencia de este hecho es que cualquier
teora estadstica que no consiga, en alguna medida razonable, comunicarse
can los usuarios yvender su producto est condenada a mantenerse en el
g^hetta de las revistas especializadas y, quiz, a desaparecer. No creo que sta
sea exactamente la situacin de la estadstica robusta, pero s considero que
los expertvs en este tema han tenido mucho ms xito en la elaboracin de una
teora slida y elegante que en facilitar su acceso al pblico usuario. Por ejemplo: hay actualmente centenares de estimadores robustos exhaustivamente estudiados en diferentes contextos, pero los especialistas no parecen ponerse de
acuerdo en seleccionar un reducido nmero de ellos para su implementacin en
!os paquetes estadsticos ms usuales. Hay, asimismo, algunos conceptos

t:ti'1'Iti1A(^1Oti ROfil'^"^ A

^55

como el de punto de ruptura o el de curva de influencia que tienen una gran potencialidad desde el punto de vista aplicado: una vez ms, su popularizacin dependera de su presencia en el software comercial. Se trata, en ltimo trmin,
de un problema de divulgacin que, por otra parte, no es exclusivo de la estadstica robusta.

Estoy convencido de que un investigador de la categora de Rubn Zamar


puede hacer aportaciones muy interesantes en este sentdo.

REFERENCIAS
Qualitative robustness for stochastic processes, Ann. Statist., 15, 1293-1312.

BOENTE, G.; FRAIMAN, R., y YOHAI, V. (1987):

CAO, R.; GUEVAS, A., y FRAIMAN, R. (1995}: <tMinimum distance density-based estimation^>, Comp. Statist. & Data Analysis (en prensa).
CuEVAs, A., y RoMO, J. (1993): pn robustness properties of bootstrap approx'rmations , J. Statist. P/ann. lnference, 37, 181-191.
-(1995): On the estimation af influence curve, Canadian J. Statist. (en prensa).
EFRON, B. {1992): Jackknife-after-bootstrap standard errors and influence functions , J. R. Statist. Soc. B, 54, 1, 83-127.

FERNHOLZ, L. T. (1983): Von Mises Calculus for Statistical Functionals, SpringerVerlag, New York.
GILL, R. D. (1989): Non- and semi-parametric maximum lkelihood estimators
and #he von Mises method (Part I}, Scand. J. Statist., 16, 97-128.
HAMPEL, F. R. (1971): A general qualitative definition of robustness, Ann.
Math. Stat., 42, 1887-1996.
I-iAMPEL, F. R.; RONCHETTI, E. M.; ROUSSEEUW, P. J., y STAHEL, W. A. (^ 987):

RO-

bust Statistics. The Approach Based on /nf/uence Functions, Wiley, New


York.
HusER, P. J. (1981) : Robust Statstics, Wiley, New York.
MIsES, R. von (1947): On the asymptotic dstributions of differentiable statistical
functions, Ann. Math. Statist., 18, 309-348.
PARR, W. C. (1985): The bootstrap: some sample theory and connectons with
robustness , Stat. Prob. Letters, 3, 97-100.
PARR, W. C., y SCHUCANY, W. R. (1980): Mnimum distance and robust estimation, J. Amer. Statist. Assoc., 75, 616-624.

^^ ^ E^

F-.^^r ,tii^r^^rrc^ ^^ r-tir^,^^^v^,r.^^

ALFCrNSO GOF^UALIZA
Universidad de Valladolid

Quisiera comenzar expresando mi reconocimiento al profesor Zamar por las


importantes aportaciones realizadas en ios ltimos aos al campo de la estimacin robusta, de las cuales una pequea muestra es objeto de estudio y discusin en la parte f'rnal de este artculo.
EI trabajo se estructura en tres partes. Una primera parte (secciones 1 y 2)
donde, de una manera sencilla y clara, se hace una introduccin a la teora de
la estimacin robusta, presentando las diferentes teoras existentes e incidiendo, sobre todo, en el compromiso estabilidad-eficiencia que representa y en las
ideas de invariancia presentes en todo problema de estimacin. Este tipo de introducciones pueden contribuir a paliar la escasez de referencias a la robustez
en los textos bsicos, donde cada vez se hace ms necesario introducir algunas
nociones como hace, por ejemplo, Pea (1991), con las limitaciones lgicas derivadas del tipo de lector a quien va dirigido.
La segunda parte (secciones 3 y^4) presenta, de una manera escalonada y
motivada, una serie de familias de es#imadores que estn mostrando un mejor
comportamiento en el intento de extender las ideas de robustez al contexto de
regresin y estimacin multivariante. Esta parte tiene, sobre todo, el mrito de
ayudar a los recin incorporados al estudio de la robustez a conducirse entre
una verdadera maraa de siglas.
En la tercera parte (seccin 5} es donde realmente se discuten recientes enfoques de la teora de la estimacin robusta, como se anuncia en el astract.
Mis comentarios se centrarn especialmente en esa parte del artculo.
Como los artcuios invitados que publica Estadstica Espao/a tienen un carcter eminentemente divulgativo y, en consecuencia, parte de sus lectores probablemente no sern grandes conocedores del desarrollo de la teora de la estimacin robusta, comenzar haciendo un breve recordatorio de las fases por las
que ha pasado dicho desarrollo que, de alguna manera, ser el hilo conductor
de mis comentarios.
EI desarrollo de la teora de la estimacin robusta est marcado, a mi juicio, por los importantes .altibajos que ha experimentado. P. H. Huber (1981)
recoge muy bien en el prlogo de su libro la desconfianza inicial por parte de
la comunidad de estadisticos tericos hasta que Ileg el reconocimiento {aos
65-75}, gracias, sobre todo, a las aportaciones de Huber (19f4) y Hampel

F:^"I^IMA('It)N R()K('tiTA

(1968, 1971, 1974), y el posterior intento de subirse al carro de la robustez


de buena parte de los estadsticos. La descon#ianza inicial se debi a la escasa seriedad que, desde el punto de vista materntico, parecan ofrecer las alternativas robustas, y por ah, precisamente, Ileg e! reconocimiento, gracias
al esfuerzo de Huber y Hampel por dar #orma matemtica a las ideas de robustez, especialmente en el contexto de localizacin univariante. Se haban
dado los primeros pasos, pero quedaba todo el camino por recorrer: sustituir
los abundantes resultados heursticos por teoremas, conectar rigurosamente
las distintas teoras, extender las ideas a otros contextos (regresin, estirnacin multivariante...), etc.
Lamentablemente, la subida masiva de estadsticos al carro de la robustez
no se tradujo, salvo excepciones, en avances significativos en Ios aspectos
mencionados, sino que, ms bien al contrario, se produjo una desviacn ^^peiigrosa hacia el anliss de datos (las publicacianes sobre robustez desaparecen
prcticamente de Annals of Statistics} sin un avance paralelo de la vertiente estadstico-matemtica de los problernas, lo que vuelve a suscitar recelos en la
comunidad de matemticos estadsticos.
Afortunadamente, en los ltimos aos ha vuelto a cobrar importancia el desarrollo estadstico-matemtico de la Estadstica Robusta, producindose notables avances. Entre los ms relevantes estn los conseguidos en la lnea de
trabajo a la que pertenece el profesor Zamar, y la seccin 5 de este artculo
muestra una pequea pincelada de sus logros. Esta lnea de trabajo reabre el
problema de la medicin de la robustez de estimadores a partir de la curva de
sesgo mximo y la obtencin de estimadores de sesgo minimax. Estos problemas estuvieron abandonados durante veinte aos, a raz de que Huber desestimara el probfema del sesgo mximo en favor del de la varianza por considerar este ltimo como un problema ms profundo. Huber resalvi el problema
del sesgo minimax en localizacin univariante con una demostracin ingeniosa y brilfante pero basada en argumentaciones geomtricas que no permiten
una extrapolacin a otros contextos. Adems, coma !a solucin era siempre la
mediana (para distintos tipos de entornos y para cualquier radio), Huber consider camo t<aburrido el problema del sesgo mximo y se pas a utilizar simplemente un resurnen grosero de fa curva de sesgo mximo como es el
punto de ruptura asinttico, que tiene su antecedente en la nocin anloga introducida por Hampel (1968, 1971). Incluso se establecen versiones muestrales de dicha nocin, cuyas conexones con las nociones poblacionaies nunca
se establecen de manera rigurosa y cuya utilidad real queda bas#an#e en entredicho a raz de algunas publicaciones como, por ejemplo, la de Hettmansperger y Sheater (1992).

^5x

E-:s r.^r^r^ i rc^.> E-.:^r^,>tic^i.,^

EI mtodo alternativo para tratar el problema del sesgo mximo que se recoge en este artculo, tiene la doble ventaja de ser extensible a otros conceptos y
de arrojar alguna luz sobre las relaciones entre las teoras minimax e infinitesima, por medio de la derivada de la curva de sesgo mximo y el supremo de la
funcin de influencia.
Existen otros enfoques, igualmente actuales, en la teora de la estimacin robusta, y se echa de menos siquiera una referencia a los misrnos en este artculo. Me refiero especialmente al artculo de Davies (1993) en ef que se defienden
posiciones de alguna manera encontradas con la lnea de trabajo minimax que
se discute en este artculo y se ofrecen vas alternativas. EI articulo de Davies
contiene, entre otras cosas, notas crticas sobre robustez y optimalidad, sobre el
uso de mtricas y entornos de contaminacin y sobre las distintas nociones de
punto de ruptura. Davies defiende que ia estabilidad de la inferencia no se consigue obteniendo funcionales ptimos sino construyendo funcionaies con propiedades especificadas. Tambin defiende que los estimadores ptimos son fronteras que delimitan la posible y no son utilizables para aplicaciones a datos reales, donde la nico razonable es utilizar estirnadores que sean un compromiso.
Asimismo critica ios entornos de contaminacin por violar el esp ritu de la robustez y, en su lugar, aboga por el uso de mtricas, lo que tambin serviria para reconducir a sus orgenes la nocin de punto de ruptura. Davies hace propuestas
de estimadores de dispersin y de regresin en la lnea de estimadores compromiso mencionada anteriormente.

Es de resear, no obstante, que las crticas a la teora minimax no son del


todo nuevas, como puede verse, por ejemplo, en Huber (1972) o en Hampel,
Ronchetti, Rousseeuw, Stahel (1986}.

REFERENCIAS
DaviES, P. L. (1993}: Aspects of Robust Linear Regression, Ann. Statist., 21 ,
4, 1843-1899.
HAMPE^, F. R. (1968}: Contributions to the theory of robust estimation, Ph. D.
Thesis, University of California, Berkeley.
(1971 }: A general qualitative definition of robustness, Ann. Math. Statist.,
42, 1887-1896.
(1974): The influence curve and its role in robust estimation, J. Am. Statist.
Assoc., 69, 383-393.

F:ST'1ti1AC'1c)N R()E3l'STA

HAMPEL, F. R.; RONCHETTI, E. M.; ROUSSEEUW, P. J., y STAHEL, W. A. (1986): RO-

bust Statistics: The approach based on inf/uence functions, Wiley, New York.
HETTMANSPERGER, T. P., y SHEATHER, S. J

. (1992): ^<A cautionary note On the

method of least median of squares , Americ. Statist., 46, 79-83.


HUBER, P. J. (1964): Robust estimation of a location parameters^, Ann. Math.
Statist., 35, 73-101.
-(1972}: Robust Statistics: A review, Ann. Math. Statist., 43, 1041-1067.
-(1981): Robust Statistics, Wiley, New York.
PEA ,

D.(1991) : Estadstica. Modelos y rntodos, vol . I, 2. ^ ed .

JULIAN DE LA HORRA
Universidad Autnoma de Madrid

Para m es un placer esta oportunidad que me brinda Estadstica Espaola


de poder contribuir con algunos comentarios al trabajo del profesor Zamar
sobre Estirnacin Robusta, que me ha parecido interesante por muchas conceptos.
EI trabajo del profesor Zamar se centra, particularmente, en resultados sobre
minimizacin del sesgo mximo. Es decir, estudia el problema que se plantea
cuando se trata de encontrar un estimador que <tminimice el rnximo sesgo
asinttico, lo cual es una aplicacin del principio minimax. Mi aportacin ir
dirigida a sealar la interesante aplicacin que tiene tambin el principio t<minimax en robustez bayesiana. Entre los dos enfoques hay semejanzas y diferencias que se pondrn de manifiesto a continuacin.
Wasserman (1989) estudi el problema que se plantea cuando se quiere encontrar una regin de confianza bayesiana y se tiene cierta incertidumbre sobre
la distribucin a priori; en concreto, se considera como clase de distribuciones a
prori la clase de ^-contaminacin alrededor de una distribucin a priori central.
Obsrvese que aqu la falta de seguridad radica en la distribucin a priori (no en
el modelo de muestreo), pero se formaliza de rnanera anloga (a travs de !a
clase de ^-contaminacin}. Una diferencia adicional es que Wasserman no tra-

^6C }

E^S^i AU1tiT1C'A E`iF'Ati()l.A

baja con estimadores puntuales, sino con regiones de confianza; en concreto,


considera la clase de regiones de confianza que tienen un contenido de probabifidad a posteriari (calculado a partir de la distribucin a priori central} fijo {digamos Y,^).
EI objetivo de Wasserman es encontrar la regin de confianza (dentro de la
clase indicada} que minimiza la mxima diferencia posible de contenido de
probabilidad a pQSterior (cuando la a prior recorre fa citada clase de ^-contaminacin). C}bsrvese el parafelismo con buscar el estimador que minimice el
mxima sesgo asinttico.
Sealemos, para acabar, que Wasserman prueba que la regin buscada es
la regin de mxima verosimilitud.
Este tipo de estudios ha sido continuado en De fa Horra y Fernn+dez
(1994a}, donde se consideran otras clases de regiones de confianza. En primer
lugar, se considera el conjunto de regianes de confianza con un contenido de
probabildad a posteriori entre dos valores fiijados, pasando despus a analizar
fa clase que parece ms natural: {a que incluye aquellas regiones de confianza
con un contenido de probabifidad a posteriori superior a un valor ^yo y con una
medida de Lebesgue inferior a un valor lo. Pero el objetivo es siempre el mismo:
minimizar la mxima diferencia posible de contenido de probabilidad a pvsterori. La solucin a estos problemas siempre est ligada a la nocin de regin
de mxima verosimilitud.
Posteriormente, en De la Horra y Fernndez (1994b) se estudian estos problemas en relacin con la existencia de parmetros perturbadores.
Espero que estos comentarios hayan servido para poner de manifiesto las
semejanzas que a veces hay entre enfoques originalmente muy diferentes.

REFERENCIAS EIV LA DISCUSION


C. (1994a): Bayesian analysis under s -contaminated priors: A trade-off between rabustness and precision, J. Statist. Plan.

DE LA HORRA, J., y FERNNDEZ ,

lnf., 38, 13-30.

(1994b}: Bayesian robustness of credibfe regions in the presence of nuisance parameters , Commun. Statist. -Theory Meth., 23, 689-699.
WASSERMAN, L. {1989) :A robust Bayesian interpretation of likelihood regions,
Ann. Statist., 17, 1387-1393.

EST'IMAC'It)N ROHl'S"I^A

ALFONS^ GARCIA PEREZ


Departamento de Estadstica
Facultad de Ciencias. UNED

EI trabajo del profesor Zamar recoge, de forma acertada, algunas lneas de


anlisis de la robustez de estimadores por punto T que dependen de la muestra a travs de la distribucin emprica F = 1/ n^;'` , bX; ; es decir, que pueden
ser expresados de la forma T^ = T(F ), con T algn funcional cuyo dominio no
slo es el espacio de las medidas empricas, sino que, de forrna habitual, suele
extenderse a(un subconjunto de) el espacio ^(X ) de todas las medidas de
probabilidad definidas sobre el espacio muestral X.
De las lneas de anlisis tratadas, el autor centra su trabajo, fundamentalmente, en la desarrollada por l y los profesores Martin y Yohai, la cual utiliza
como medida de la robustez de un estimador, bsicamente, la funcin de sesgo
mximo,
BT () = sup d [ T ((1 - ) Fe + H ), T (FA )]
H

= sup d [ T( G), 9^
G E iF

en donde
^^(Fe)={G^G=(1 -) F^+H, HE ^(X)}

es un entorno en el modefo de contaminacin.


Con dicha funcin de sesgo mximo, BT (), generalizacin de la definida por
Huber ( 1964), es posible analizar el va/or asinttico del estimador T(F }, en
funcin de la cantidad de contaminacin fijada, , permitiendo adems interesantes representaciones grficas, como la figura 2 del autor ( donde, por cierto,
cabe mencionar que la asntota vertical corresponde al punto de ruptura *).
Como bien dice el autor, habitualmente, esta funcin puede aproximarse linealmente cerca de cero de la forma
BT()=y*(T)+o()^y*{T)

siendo
y*(T)=sup^^/F(x; T)II
X
la sensibilidad a grandes errores definida por Hampel (1974).

C^:^`f A[)ISI'tC'A f-.5F':;ti()F_:^

No obstante, el anlisis de un estimador debe basarse no slo en un estudio


de su sesgo (asinttico}, sino tambin de su varianza (asinttica), V( T, F^ }. Parece, por tanto, razonable d+efinir una funcin de varianza mxma que fuera del
tipo
VT (^) = sup d [ V( T, G}, V( T, FQ }^
G E '^^

En esta situacin, sera razonable tratar de determinar tambin el ptimo en


el sentido minimax. Pero, probablemente, io ms interesante, en lnea con el
trabajo del autor aqu comentado, fuera aproximar linealmente dicha funcitn de
varianza mxima
mejor dicho, su logaritmo
por la sensibilidad al cambio-devarianza k*{ T)= k*( T, F^ ), concepto i ntroducido por Peter Rousseeuw (1981)
en su tesis doctoral y ms tarde generalizado por Collins (1976, 1977} y Collins
y Portnoy ( 1981).

Si esta idea #uera viable, permitira, posiblemente, una aproximacin del tipo
VT (E} ^ V ( T, FH ) exp {^ k * ( T, F,^ )}
es decir, que, en analoga con la aproximacin a la funcin de sesgo mximo,
fuera k* ( T) la pendiente de la tangente en cero, ahora de la funcin In VT {^),
funcin sta que probablemente deberia tener una asntota vertical en el, (Huber, 1981 }, punto de ruptura +de fa varianza (asnttica), ^**.

En esta situacin, entiendo que tambin sera viable una aproximacin cuadrtica a la funcin de varianza mxima, corno la que hace el profesor Zamar en
su artculo con funcin de sesgo mximo.
Respecto a las aproximaciones, suele tomarse como regla prctica en cuanto a la vatidez de la aproximacin lineal para ia funcin de sesgo mximo BT (^),
valores ^<_ ^* 1 2. ^,Qu ocurre con la aproximacin cuadrtica? ^Qu ocurriria
con las hipotticas aproximaciones a In VT (^)?
Todo esto en lo referente aentornos de contaminacin, pero ^se podrian
extender algunos resultados a verdaderos entornos en la topologia dbil, en la
direccin seguida por Rychlik y Zielinski o Riedel?
Otra cuestin que afecta no slo a este artculo, sino de forma bastante generalizada a la Estadstica Robusta, es la relacionada con la posibilidad de evitar resultados ( totalmente} asintticos, los cuales, en mi opinin, no son enterarnente satisfactorios. Estos, aunque simplifican notablemente el problema, en no
pocas ocasiones equiparan comportamientos de estimadores claramente diferentes cuando se emplean tamaos muestraies pequeos.

E-:S ( I;^1.^C'IC ^N ROt3l;S I:^

^ fa.i

Como la suposicin de tamaos muestrales finitos resulta en muchos casos


imposible, sugiero al autor la posibilidad de aproximar la distribucin del estimador T(F )(al menos, cuando ste sea un M-estimador) rnediante las denominadas small-sample asymptotic techniques (Field y Hampel, 1982), las cuales, utilizando palabras del propio Huber (1981, p. 48), ... parecen dar aproximaciones fantsticamente precisas hasta tamaos muestrales muy pequeos
(n=34}.
Mi ltimo comentario es de gratitud, primero, hacia el profesor Zamar por el
esfuerzo realizado al resumir de forma precisa y amena un tema tan fundamental y de tanta actualidad en la Estadstica corno es el de la robustez y, segundo,
al director de la Revista por haber conseguido la colaboracin de tan distinguido
especialista.

REFERENCIAS
COLLINS, J. R. (1960): Robust estimation fo a iocation parameter in the presence of asymmetry, Ann. Statis., 4, 68-85.
(1977): Upper bounds on asymptotic variances of M-estirnators of location, Ann. Statis., 5, 646-657.

J. R., y PORTNOY , S. L. (1981): Maximizing the variance of M -estimators using the generalized method of moment spaces, Ann. Statis., 9, 567-

COLLINS ,

577.
FIELD, C. A., y HAMPEL, F. R. (1982): Smali-sample asymptotic dis#ributions of
M-estimators of location, Biametrika, 69, 29-46.
HAMPEL, F. R. (1974): The influence curve and its role in robust estimation,
J. Am. Statist. Assoc., 69, 383-393.
HUBER, P. J. (1964): Robust estimation of a location parameter, Ann. Math.
Statis., 35, 73-101.
(1981) : Robust Statistics, Wiley.
RoussEEUw, P. J. (1981): New infinitesimal rnethods in robust statistics, tesis
doctoral, Vrije Universiteit, Bruselas, Blgica.

^f^

^-;^;"i A[^15"i^lc^r^ h^F?.^Nc ^1..^^

RICARDC^ A. MAR4NNA
Universidad Nacional de La Plata y CICPBA

E1 interesante artculo del profesor Zamar trata del modelo de posicin y escaia univariados y, en general, del modelo lineal con respuesta univariada. C^uisiera hacer aqu algunas consideraciones sobre el modelo lineal multivariado
Bx; + e; ,

ti- 1, ..., n}

[1]

donde y; E RQ, los e; E RQ son vectores i.i.d. con matriz de covarianzas ^, B E


RQ x p es la matriz de parmetros desconocidos, y los x; E Rp son, o bien fijos, o
b+en aleatorios i.i.d. e independientes de los e; .
En la teora clsica se supone que los e; son normales, con lo que el estimador de mnimas cuadrados (EMC) es el de mxima verosimilitud y resulta ptimo
no slo asintticamente, sino tambin para n finito. Bajo condiciones bastante
generales, el EMC es asintticamente normal con matriz de covarianzas

^ ^ (x^ x}-1

^2]

donde ^ es el producto de Kronecker y X E Rn X p es la matriz de las x; .


Perv cuando las observaciones (x; , y; ) pueden tener datos atpicos, el EMC
presenta todos los inconvenientes ya conocidos para el caso univariado, con el
agravante de que el carcter multidimensional de las y; puede hacer la deteccin
de observaciones atpicas an ms dificil. Sera entonces deseable obtener estimaores que tuvieran: 1} alta eficiencia para e normal; 2} punto de ruptura S* alto;
3) equivariancia para transformaciones lineales de las x; y de ias y; , y^} clculo
numrico factible. Si se quiere estirnar eficientemente todas las combinaciones lineales de los coeficientes B, la condicin 3) es necesaria para la ^}.
Como muestra Zamar en su artculo, se dispone de estimadores que cumplen las cuatro condiciones mencionadas para el caso q= 1; y, por lo tanto, sera naturaf pensar en estirnar cada fiia de B separadamente usanda un estimador robusto univariado. Pero este procedimiento no sera equivarian#e bajo
transforrnacones de las y, por lo que no sera eficiente para combinaciones lineales arbitrarias de B. Hace falta entonces otro enfoque.
En el caso q^ = 1, si bien la situacin no es sencilla, se han hecho al menos
considerables progresos y se cuenta con estimadores confiables; y se puede
encarar el problema de la optimalidad. En cambio, en el caso multivariado el terreno es prcticamente virgen. EI principal inters del caso multivariado est en
seemingly unrelas aplicaciones economtricas, en particular e1 modelo SUR

E:^"I'IMAC'1(3N R()B(_!S"T^,

3f^5

lated regressions (regresiones aparentemente no relacionadas); ver Koenker y


Portnoy (1990)
y Ecuaciones Simultneas (Maronna y Yohai, 1995a). Si bien
estos dos modelos contienen al modelo lineal multivariado como caso particuar,
preferimos limitarnos a ste para no complicar la exposicin.

Los M estimadores para este modelo son de 1a forma


n

^U^(d;)r;i0
i^ 1

^u^(d;)r; r;=n^
^-,

[4]

donde r; son los residuos:


r;=r; (B)=y;--Bx;

las d; son las distancias de Mahalanobis


=d;(B,^)=

(B)`^-^ r; (B)

C5]

y u1, u2 son funciones decrecientes.


Los M estimadores son asintticarnente normales, con matriz de covarianzas
de la forma (??}, pero con ^ reemplazada por una matriz S que tiene la forma de
la matriz de covarianzas de un M estimador de posicin multivariada. Si bien la
expresin general es complicada, para e; con distribucin simtrica se reduce a

S= D-' A(D-')'

[6]

con
D=2 Eu^ (d) ee' V-' + Eu^ (d) I

y
A= E u1 ( d) 2 e e'
donde d= e' V-' y V se defi ne como
V=Eu2(d)ee'
Pero el punto de ruptura de estos estimadores es 0, pues no tienen robustez
frente a x; atpicos.

^%^

F:^`I A[)Iti`i l(^A t^.S}^:^^()[_A

Notemos que, en el caso univariado, casi todos los mtodos de estimacin


se basan en minimizar una medida de la escala de los r; . EI EMC minimiza la
rnedia de los cuadrados, y los estimadores de tipo S o t minimizan una escala
robusta de los residuos. En el caso multivariado, si se conociera ^, se podra
obtener un estimador robusto minimizando una escala robusta s(d ) donde d=
_(B ,^) _{d,, ..., dn }. La forma de tener en cuenta tambin a^ la encontr
Lopuha^ (1992) en el caso particular de posicin y dispersin multivariadas, para
ef que defini T-estimadores. La extensin natural al caso general es la siguiente:
n

det ( ^) _

^ p2 (d;)}q = rnin
;= ^

[10]

bajo la condicin
n

^ p1 (d; ) = n
^_,

donde p, y p^ son funciones no decrecientes y acotadas con p; {0) = 0.


Eligiendo p^ adecuadamente, se puede obtener un punto de ruptura S* arbitrariamente alto (<_ 4.5). Se puede probar (Maronna y Yohai, 1995b} que estos
estimadores son asintticamente normales, con matriz de covarianzas de la
misma forma que los de un M estimador, donde las funciones u1 y u2 dependen
de p^ , p2 y la distribucin de e.

EI clculo numrico se puede realizar en forma aproximada usando las mismas ideas que en el caso univariado.

REFERENCIAS
KOENKER, R., y PoRTNOY, S. (1994): M Estimation of Multivariate Regressions,
Journa/ of the American Statistica/ Association, 85, 1060-1068.
LOPIJHA,4, H. (1992}: Estimation of Location and Covariance with High Breakdawn Point, tesis doctoral, Technische Universiteit Delft.
MARC}NNA ,

R. A., y YoHAi, V. J. (1995a): Robust Estimation for Simultaneous


Equations Models, presentado para publicacin.

(1995a}: Tau-estimators for Simultaneous Equations Models, trabajo en


preparaci+n.

.ifi7

F:S^^1^1^1A('I^)ti ROfil^ti"^fA

ELIAS MORENO
Universidad de Granada

JUAN ANTONIO CANO


Universidad de Murcia

Es un placer expresar nuestra felicitacin y agradecimiento al profesor Zamar por brindarnos este excelente artculo sobre Robustez Local de un procedimiento de estimacin 6(^), que con tanta claridad expone. G?uede tambin nuestro agradecimiento al profesor Daniel Pea, editor de Estadstica Espaola, por
brindarnos la oportunidad de comentar sobre este artculo.
No deja de ser curioso que la motivacin utilizada por el autor ( motivacin
que compartimos) se base en unas determinadas observaciones muestrales y
que, sin embargo, todo el desarrollo posterior dependa exclusivamente de la forma estructural del modefo considerado F^ ={F : F=(1 -^) Fo + F H, H(arbitraria)}
tales como
B^ {0) = lim sup [ 8 ((1 - ^) Fo + E H} - 6 (Fo )] / ^
F --^ 0

-EFo yr ( Y- B y^ ( E}) para el score y^.


Hay aspectos de la incertidumbre sobre 8 que la clase F^ trata de modelar
que no se hacen notar con este tipo de herramientas locales, pero que se advierten si adoptamos un punto de vista global y condicional de la inferencia.
Con esto queremos decir lo siguiente. Supongamos que estamos interesados en hacer inferencia sobre un cierto conjunto A de valores de 8(que pudiera
ser la hiptesis nula de un test), condicional a las observaciones x^, x2, ..., x^ .
Supongamos que las observaciones son i.i.d. segn f (x ^ 8) _(1 - c) fo (x ^ e) +
+^ q(x ^ 6), en donde fo est fijada, 0<^< 1, y q(x ^ E^) E Q; es decir, cada observacin x; proviene de fo (x ^ e) con probabilidad {1 -^) y de q(x ^ H) con probabilidad c. Q podra ser la banda

Qb={q(xl e) ^fo(xle)-b^q(xle)^f^(x^e)+s,s>o}
Q^ nos dice que la verosimilitud de 6 para el dato x; est prxima (^) a la dada
por el modelo base fo (x; ^ e).
Para las observaciones x=(x1, x2, ..., x ), la clase de verosimilitudes viene
dada por

^Eh ={f (x ^ e) : f(x ^ e} = n; f (x; ^ e), f(x; ^ ^) _( 1- ^) fo (x; ^

e) +^ q(x; ^ e), q E Q^ }

F-,ti I:^F)1`^ I I(^r1 F-.^F'AN()F...^1

;fa,?^

clase, por otro lado, bastante razonable y ms pequea que la considerada en


el artculo.

Supuesto que nuestra informacin a priori sobre 8 viene representada por


n(H), la robustez global a posteriori (o incertidumbre a posteriori) de nuestra inferencia vendra medida por
R{A j x}=

sup
f E `j.s

P^ {A ^ x}-

Pf (A ^ x)
inf
f E `^^_^

conPtn(A^x)=^Af(x^H)n(8)d8/jc,f(x^8)n{6)d8.
EI siguiente ejemplo muestra un resultado de este tipo y, aunque muy sirnplista, ilustra un problema de incremento de incertidumbre a posteriori a pesar
de que aurnente nuestra informacin muestral.

E^emplo
Sea el espacio rnuestral X={x^ , x2 } y el espacio paramtrico O={61, 82 }.
Supongamos rc (9; )= 0.5, i= 1, 2, y sea la funcin de probabilidad fo (x ^ 9) la
dada por los valores de la tabla ^.

Tabla 1
VALORES DE fo (x ^ 8)
x2
8^

0.37

0.63

62

0.38

0.62

Supongamos que estamos interesados en A={91 } y que hemos observado x1.


Entonces nuestra inferencia para el modelo base fo resulta P^^ (81 ^ x^ )= 0.49,
0
y para la clase ^^^ con ^= 0.2 y S= 0.1 obtenemos
inf
fE ^j21

Pf (H1 ^ x1 )= 0.47,

sup

Pf (81 ^ x1 )= 0.52

fE '^.21

La robustez en .`^21 de nuestra inferencia vale, pues, R(H1 ^ x1 )= 0.05.


Para la observacin muestral x=(x1, x1, x^ ), la probabilidad a posteriori
de H1 resulta Pf^ (8y ^ x1, x1, x1 ) = 0.48 y la robustez en la clase ^1,

^f^y

E^"1'I!^^1A('IOti ROHl'ti^I:l

R(e, ^ x1, x^ , x^ ) = 0.16, Es decir, al aumentar la informacin rnuestral el rango


de la probablidad a posteriori de e, aumenta de 0.05 a 0.16. Es claro que
R(82tx^)=0.05yqueR(82^x^,x^,x^)=0.16.

Es fcl probar que cualquiera que sea ^(0; )> o, i= 1, 2, hay sucesiones x^n ^
para las que
lim

inf

Pf (61^x^^^)=0, i=1,2

n-,^ fE %j21

lim
n --^ ^

sup
fE `J2

Pf (E^1 ^ X^^ ^)= 1,

i^ 1, 2

Esta falta de robustez a posteriori se debe a la no identificalidad de 8 por ,^2' .


Es claro que este problema es ms serio si G? es la clase de todas las medidas
de probabilidad.
Nos gustara or la opinin del profesor Zamar al respecto, la que de antemano agradecemos.

JOAQUIN MUOZ-GARCIA
Departamento de Estadstica e Investigacin Operativa
Universidad de Sevilla

Quisiera comenzar agradecindole al Director de la Revista la oportunidad


que me brinda de poder participar en el posible debate que surgir de los comentarios de este artculo sobre estirnacin robusta; en l se recopilan muchos
de los resultados obtenidos por H. R. Zamar sobre esta materia. Ello ya es motivo suficiente para felicitarnos por ia realizacin de este trabajo.
En 1971, Hampel propuso una definicin formal del concepto de robustez
que responda al concepto intuitivo de lo que los estadsticos entendan por estimador robusto y, aunque a la definicin dada no cabe plantearle objeciones
desde un punto de vista formal, es conveniente advertir la dificultad que tiene
decidir a partir de ella si un estimador es robusto o no. Esto hace que las investigaciones en robustez se dirijan principalmente a cuantificar la misma, tendiendo a utlzar estimadores cuantitativamente robustos, construidos mediante mtodos que minimicen el sesgo o/y la varianza asinttica.

Para estudiar la robustez se ha considerado en el artculo una familia de distribuciones definida en [2], la cual puede ser considerada simple para explicar
las observaciones muestrales, aunque no conviene olvidar que el estudio y la

t ti I^I>l^ ^ It

^ F.^I^,^^tic^l.^^

comprensin ^ie tales modelos son fundamentales para la explicacin de modelos ms complejos. N obstante, como es un modeio que trata de explicar las
posibles observaciones out/iers, es necesario traer a colacin la conjetura de
Anscombe (196Q) sobre la variabilidad propia del modelo poblacional inicial;
sta Ilevara posiblemente a perturbar la fraccin de contaminacin del modelo.
Este es un aspecto que en las Ilamadas tcnicas de acomodacin (estimacin
robusta} de outliers, segn la clasificacin propuesta por Barnett y Lewis (1994},
no suele considerarse tanto desde un punto de vista terico como prctic.
AI introducir los distintos tipos de robustez habra sido oportuno, en un trabajo de este tipo, recoger la definicin de punto de ruptura de un estimador y su
relacin con aquellas otras medidas que se introducen en torno a las distintas
ramas de la robustez, como indica el autor; asimismo, pienso que se deberia
haber empleado el trmno robustez global, como ya se indica en el trabajo
de nJlartin, Yohai y Zamar (1989).
En la estimacin robusta deben plantearse dos niveles de proteccin, la correspondiente al modelo pobfacional del que se ha extrado ia muestra, o ms
simplernente de la muestra en s, y la correspondiente a la tcnica estadistica
que se aplicar a los datos; esta apreciacin la hago desde la definicin de observacin outlier dada por Muoz-^arca, Moreno-Rebollo y Pascual-Acosta
(1990}: Un outlier es una observacin que siendo atpica y/o errnea se desva
rnarcadamente dei comportamiento general de los datos experimentales con
respecta al criterio por el que han de ser analizados. Y ella me Ileva a hacerme
algunas consideraciones dentro del problema de la estimacin robusta. Los das
niveles de proteccin pueden interaccionar o pueden enmascararse, pueden
perderse propiedades de optimalidad o de proteccin cuando los estimadores
obtenidos para un nivel son modificados para utilizarlos en el otro, etc. Cuestiones similares a stas me planteo con los ^11 estimadores, por el hecho de tener
una estimacin robusta (la varianza o la matriz de covarianzas} dentro de un esti mador robusto, y a las que aado el anlisis del posible efecto que pueden
presentar en los procesos de convergencia de estos estimadores robustos.

BIBLIO^GRAFIA
AtiscoMe^E, F. J. {1960}: Rejection of outliers, Technometrics, vol. 2, 123-147.
BARNETT, V., y LEwis, T. {1994}: Outliers n Statistical Data (3rd Edition), Ed.
John Wiley & Sons.

R. D.; YoHA^, V. J., y zAMAR , R. H. {1989}: Min-max bias robust regression^>, The Annals of Statisties, val. 17, 1608-1630.

MARTaN ,

MUOZ- C`
..aARCA, LJ.; MORENO-REBOLLO, J. L., ^/ PASCUAL-ACOSTA, A. (1 99O}: OUt-

liers: A formal approach, lnternational Statistical Review, vol. 58, 215-226.

E-:ti l 1ti1.^^('It)ti Et( )Eil !, E;>

MANUEL ANTONIO PRESEDO QUINDIMIL


Departamento de Estadstica e Investigacin Operativa
Universidad de Santiago de Compostela

Quisiera agradecer, en primer lugar, a Estadstica Espaola el ofrecirniento


para partcipar en esta discusin. Tambin quiero felicitar al profesor Zamar por
este artculo que, en mi opinin, trata con gran claridad un problema tan complejo y a la vez tan interesante como es el de la estimacin robusta, campo en
el que el autor posee una dilatada experiencia, como prueba la cantidad de trabajos publicados en los ltimos aos.

En particular, quisiera destacar la cuidada introduccin al problema de la estimacin robusta, presentada a lo largo de las dos primeras secciones de este
artculo, que permite que cualquier lector no iniciado en este tema pueda adquirir una idea clara acerca de lo que se pretende con su estudio, as como de los
distintos enfoques que se han venido desarrollando a lo largo de los ltimos
aos para el tratamiento de este problema.
En lo que sigue me voy a limitar a exponer un aspecto de la estimacin robusta que entiendo que debe ser tratado en esta discusin:
La idea de los modelos paramtricos corno aproximaciones de la realidad
justifica la bsqueda de estimadores que sean estables ante pequeas desviaciones del modelo supuesto. Aunque no existe un nico criterio de robustez,
la bsqueda de estimadores robustos trata de resolver un compromiso entre la
estabilidad y la eficiencia del estimador, lo cual introduce una notable complicac'rn en los mtodos desarrollados que dificulta su aplicacin en la prctica.
Dejando aparte el aspecto computacional de ios estimadores robustos (na
siempre fcil de resolver en la prctica), que slo puede abordarse con !a ayUda
del soporte informtico, para su clculo (como puede observarse en los distintos
casos tratados en las secciones 3 y 4 de este artculo) es necesario especificar
ciertas funciones y constantes que son elegidas por el interesado. As, para el
estimador de Huber, al que se refiere el autor en la seccin 5 de este artculo, el
valor de la constante c determina la eficiencia y la robustez del M estimador resultante y deber ser propuesta por el interesado jen Hampel (1986, p. 138)
puede verse una extensa tabla en la que se relacionan distintas rnedidas de robustez, incluida la sensibilidad mxima agross errors, y la eficiencia en el modelo normal del estimador de Huber para diferentes valores de la constante c].
Por lo anteriormente expuesto, sera deseable disponer de algn criterio objetivo (basado en la informacin muestral) para la eleccin de tales funciones y
constantes. Me gustara que el autor pudiera formularnos alguna indicacin sobre este aspecto que facilite la aplicacin en la prctica de los mtodos de estimacin robusta.

E.^ t^ ^r^l^, r t(':^ t-^E^:ti^v(>1-:^^

^7^

Por mi parte, nada ms. Espero que este breve comentario pueda contribuir
a completar esta discusin sbre el tema tratado en este artculo def profesor
Zamar, al cual reiter una vez ms mi feficitacin.

REFERENCIAS
HAMPE^, R. I'i.; RONCHETTI, E. M.; ROUSSEEUW, P. ^J., ^/ STAHEL, W. A. (1976}:

RO-

bust Statistics. The Approach Based on Inf/uence Functions, Wiley.

MANUEL DEL RIO


Departamenta de Estadistica e i. O.
Universidad Complutense, Madrid

Introduccin

Mis felicitaciones af profesor Zamar por esta interesante exposicin. Con


certeza, su visin de especiaiista en el problema de estimacin robusta en sesgo animar a 1os estudiosos y usuarios de las mtodos de regresin a incorporar a sus planteamientos habituales las ideas y mtodos expuestos, as eomo a
la consideracin de mtodos robustos, compensando el excesivo peso que se
suele dar al criterio de mnimos cuadrados. EI comentario intentar complementar, sin entrar en aspectos muy especficas o tcnicos, algunos de los temas expuestos en el trabajo, planteando finalmente algunas cuestiones relativas a aspectos de diagn+stico.
Como es sabido, existen dos planteamientos bsicos al tratar la robustez
frente ai sesgo cuando las distribuciones pertenecen a un entorno de cantaminacin: a) EI enfoque local, consistente en el estudio del sesgo causado por una
pequea proporcin ^ de contaminacin; est ligado al concepto de curva de influencia, introducido por Hampel (1974), que proporciona una aproximacin lineal viida para el sesgo producido por una contaminacin ^^ g. b) EI enfoque
g/obal, que atiende al sesgo causado tanto por valores pequeos como grandes
de ^. Dentro de l, una medida importante de la robustez (ligada al mximo sesgo asinttico} es el punto de ruptura
PR , in#roducido por Hampel (1971) y

^s^riti^f^c^ic^^rv Ko^^'^s^r;^

que permite controlar lo peor que puede ocurrir en entornos grandes . En Donoho y Huber (1983) puede encontrarse una defensa de la utilizacin de este
concepto (muestras finitas) que, por diferentes razones, no fue muy considerado
en los comienzos del estudio de los mtodos robustos.
En los ltimos a^ios se han presentado diversas propuestas de estimadores
con PR alto en modelos de posicin y de regresin; algunas de ellas han contado con la intervencin del profesor Zamar y han sido revisadas en su trabajo.
Aun a riesgo de reiterar alguna de las exposiciones, consideraremos inicialmente el desarrollo histrico de estos estimadores restringindonos al caso de modeios de regresin.

2.

Estimadores con punto de ruptura mximo

Comencemos recordando que tanto los M-estimadores de regresin como su


mejora mediante los GM-estimadores, diseados para controlar el efecto de regresores con alto potencial, no resuelven satisfactoriamente la cuestin de! PR.
La razn bsica reside en que ste decrece en modelos con gran nmero de regresores, justamente cuando existen ms posibilidades de casos con alto potencial.

EI primer estimador con PR mximo ( 50%) es el estimadar de medianas repetidas, Siegel {1982). Puede ser calculado explcitamente, si bien su obtencin
es costosa, pues precisa considerar todos los subconjuntos con p observaciones, siendo p el nmero de regresores. CJtro inconveniente reside en no ser
equivariante bajo transformac'rones lineales de los regresores.
Rousseeuw {1984} ntroduce el estmador consistente en minimizar la mediana
de los cuadrados de los residuos
least median of squares ( LMS) : med r,?.
Este estimador alcanza PR mximo y es equivariante; sin embargo, su eficiencia asinttica es baja debido a su lenta tasa de convergencia (n-'^3 }. Para solventar este inconveniente, Rousseeuw ( 1984) propone el estimador de mnima
suma truncada de cuadrados
least trimmed squares ( LTS) , consistente en
minimizar ^ ;'_ ^ r ^^ ; ? , donde r ^^ ; ,^ ^ < . . . ^ r ^^ : ^ ^ son los cuadrados ordenados
de los residuos. con PR mximo, su tasa de convergencia es la habitual ( n-'^2 ).
Sobre la eleccin ptima de h puede consultarse Rousseeuw y Leroy (1987, pginas 132-134}.

Notemos que la idea que subyace en la construccin de los dos ltimos estimadores es robustecer la medida de error del criterio mnirno-cuadrtico mediante una rnedida robusta de la dispersin de los residuos. Manteniendo este
planteamiento, Rousseeuw y Yohai (1984) consideran los S-estimadores de regresin, basados en minimizar un M-estimador de escaia para los residuos aso-

F^ F.^[)Iti F Ic':^^ F-:tiF',^^Jt ^l ,1

ciados al vector de regresin genrico ^3. Los S-estimadores pueden alcanzar un


PR mximo, si bien a costa de perder eficiencia, siendo su comportamiento
asinttico similar al de los M-estimadores de regresin.
Una completa exposicin de Ias propiedades de estos tres tipos de estimadores puede verse en Rousseeuw y ^eroy ( 1987, pp. 112-145), donde se incluye asimismo una discusin sobre su relacin con las tcnicas denominadas projection pursuit.
Con el objetivo de conseguir eficiencia alta para estimadores con punto de
ruptura alto, Yohai (1987) propone los denominados MM-estimadores. Se definen en tres etapas, las ds primeras buscan alcanzar un PR alto y la ltima obtener eficiencia. En primer lugar, se considera un estimador j3* con punto de
ruptura alto {p. ej., LMS o LTS); a continuacin, utilizando los residuos de este
ajuste, se obtiene un estimador de escala 6^ con PR = 50%; finalmente, se define e! MM-estimador de los parmetros de regresin como cualquier solucin
que minimice S(^i} _^ p{r; {^i} / 6 } y sa#isfaga S(^3} < S( ^3*), siendo p funcin
del tipo utilizado en S-estimacin. ^a ltima etapa permite alcanzar eficiencia
alta, pues la funcin p puede ser muy diferente de la usada para el estimador de
escaia c^ de 1a segunda etapa. Esta idea de combinar PR alto con eficiencia alta
es tambin utilizada por Yohai y Zamar ( 1988) para definir 1os ^-estirnadores de
regresin expuestos en el trabajo.
Apuntemos que la definicin de PR en regresin no lineal presenta dificultades relacionadas con su estabilidad frente a reparametrizaciones; en Stromberg
y Ruppert (1992) puede encontrarse una discusin de este problema junto con
una propuesta de solucin.
En relacin con el aspecto computacional, notemos que la mayora de las algoritmos para calcular estimadores de regresin con PR afto se basan en realizar ajustes minimo-cuadrticos en un nmero elevado de subconjuntos de p
puntos {ver Rousseeuw y Leroy, 1987, cap. 5}. AI ser este planteamiento impracticable en regresin no lineal, Stromberg ( 1993) ha considerado un nuevo
algoritmo {de hecho, una modificacin del conocido algoritmo PROGRESS) que
requiere un nmero de ajustes bajo. EI algori#mo se utiliza para calcular los estimadores LMS y MM, incluyndose resultados de simulacin que comparan el
comportamiento de ambos estimadores en tres modelos no lineales clsicos.
Tambin se presentan ejemplos mostrando cmo estos estimadores son tiles
para detectar observaciones anmalas en el caso no lineal.

3.

Estimadores con sesgo minimax

Tanto la funcin de influencia camo el PR pueden ser insuficientes para


describir adecuadamente el sesgo de un estimador. Para conseguir proteccin

r.s-rrtit^^c^r^^?v kc,Hi ^^; r :^

frente a distribucior^es en un entorno, puede ser ms adecuado trabajar directamente con el sesgo bajo contaminacin y utilizar el mximo sesgo asinttico
para fracciones de contaminacin inferiores al PR. Esto conduce a la bsqueda
de estimadores minimizando el mximo sesgo asinttico en un ^-entorno de
contaminacin. Recordemos, como hace el profesor Zamar, que esta idea ya
fue considerada por Huber, si bien esta aproximacin a la robustez global parece haber sido dejada de lado hasta hace unos aos; varios resultados e ideas
interesantes en problemas de localizacin y regresin se exponen en su trabajo. Sin entrar en detalles, revsaremos brevemente algunos resultados recientes obtenidos bajo este planteamiento en modelos de regresin.
En Martin, Yohai y Zamar (1989} se presentan estimadores robustos con
sesgo minimax para dos clases diferentes de estimadores de regresin: i) Mestimadores basados en funcones p acotadas y con estimador de escala general para los residuos (estos estimadores pueden ser considerados S-estimadores y tienen la misma tasa de convergencia que el estimador LMS); y ii) GM-estimadores con curva de influencia acotada. En particular, se rnuestra que para
la regresin simple a travs del origen (p - 1), el GM-estimador minimax es la
mediana de las pendientes ( y; l x^ ), siendo este estimador tambin minimax en
la clase de los estimadores equivariantes por transformaciones lineales. EI trabajo incluye una comparacin, para distintos valores de p, de los sesgos rninimax para los estimadores S, GM y LMS bajo el modelo normal multivariante.
En Zamar (1992) se consideran modelos de regresin con errares en !as variables. En este contexto, se analiza el comportamiento del mximo sesgo de
M-estimadores en entornos de ^-contaminacin con distribucin central Fo - N
(, E+ a2 /}, obtenindose el correspondiente estimador ptimo. Indiquemos
que los M-estimadores en el contexto citado fueron previamente consderados
por Zamar (1989).
Citemos, finalmente, el trabajo de Maronna y Yohai (1993), en donde se introduce y estudia un nuevo tipo de estimadores de regresin con robustez aita
respecto al sesgo (ver tambin Maronna y Yohai, 1991). Estos estimadores,
denominados por los autores P-estimadores, se construyen partiendo de un estimador robusto y equivariante por transformaciones iineales del parmetro de
regresin simple a travs del origen. A continuacin, se obtiene un ptirno al
considerar las regresiones simples de la respuesta frente a todas las proyecciones unidimensionales de los regresores. En particular, se prueba que utilizando como estimador inicial la mediana de las pendientes, el estimador resultante es robusto frente al sesgo, obtenindose una cota superior para su mximo sesgo.

E:S"TAUIti ^'1('A }^,SF'Ati()LA

4.

Diagnstico y regresin robusta

Las tcnicas de diagnstico, diseadas para un estudio crtico de distintos


aspectos del modela, as como de la influencia de los casos en el anlisis, tienen un gran inters en la valoracin a posteriorr del ajuste de un modelo a un
determinado conjunto de datos. Una revisin condensada de la numerosa li#eratura sobre estas tcnicas puede verse en Del Ro (1990}. Huber {1991) analiza
la relacin entre robustez y diagnstico, as como sus papeles complementarios
en el anlisis de regresin. Los dos volmenes donde se pubiica el ltimo trabajo citado cantienen interesantes aportaciones sobre diagnstica en/y regresin
robusta.
En el rnbito del presente comentario, indiquemos que los estimadores con
alto PR, particularmente e! estimador LMS, han sido utilizados en distintos contextos para identificar observaciones anmalas y revelar problemas de especificacin incorrecta o enmascaramiento que otras tcnicas pueden no detectar
(ver, por ejemplo, Atkinson, 1986, 1988; Rousseeuw y Van Zomeren, 1990;
Cook, Hawkins y Weisberg, 1992).
Los residuos son una herramienta bsica del diagnstico y su utilizacin ms
simple en ajustes mnimo-cuadrticos la constituyen los diversos grficos de residuos propuestos. Una cuestin importante es analizar si Ios grficos de residuos construidos a partir de un ajuste robusto tienen interpretaciones similares
a las de sus anlogos mnimo-cuadrticos. En McKean, Sheather y Hettmansperger {1993} se presenta un interesante estudio de las propiedades de los residuos y valores ajustados bajo el modelo correcto y modelos alternativos para M
y GM-estimadores. Sus conclusiones bsicas son las siguientes: la interpretacin en el caso de M-estimacin con funciones montonas es similar al caso mnimo-cuadrtico; la interpretacin para ^M-estimadores no es tan directa debido
a que la matriz de diseo est involucrada en la aproximacin de primer orden
que se utiliza en el trabajo; por otra parte, los resultados de simulacin muestran poca capacidad de los residuos para detectar no aleatoriedad.
^os dos prrafos anteriores conducen de modo natural a ias siguientes cuestiones. Primeramente, ^son tiles como elemento de diagnstico, en la lnea del
estimador LMS, los estimadores revisados en el trabajo, como los M-estimadores de escala, los S y i-estimadores y los dos tipos de estimadores de Martin
et al. {1989)? Su igual o mejor comportamiento terico hace suponer una respuesta esperanzadora. En segundo lugar, Lcmo obtener resultados sobre el
comportamiento de los residuos obtenidos tras ajustes que utilicen los ltimos
tres tipos de estimadores citados? Finalmente, y recordando el trabajo de Stromberg (1993) comentado anteriormente, ^,cul puede ser la utilidad de esos tres
estimadores para detectar observaciones anmalas en mod'eios de regresin lineal y no lineal?

#^S"I'IMAC'IC)N kO^3US'f^^A

REFERENCIAS ADICIONALES
ATKINSON ,

A. C. (1986): Masking unmasked, Biometrika, 73, 533-541.

(1988): t<Transformations unmasked, Technometrics, 30, 311-318.


COOK, R. D.; HAWKINS, D. M., y WEISBERG, S .

(1992): Comparison Of model


misspecification diagnostics using residuals from least median of squares
and least median of squares fits, J. Amer. Statist. Assoc., 87, 419-424.

DorvoHO, D. L., y HUBER, P. J. (1983): The notion of breakdown point, en


A Festchrift for E. Lehman, P. Bickel, K. Doksum y J. L. Hodges (eds.),
Wadsworth, Belmont, CA.
HAMPEL, F. R. (1971): A general qualitative definition of robustness, Ann.
Math. Stat., 42, 1887-1896.
HUBER, P. J. (199^ ): Between robustness and diagnostics, en Directions in
Robust Statistics and Diagnostics, Part l, W. Stahel y S. Weisberg (eds.),
Springer-Verlag, New York.
MARONNA, R. A., y YOHAI, V. (1991): Recent results on bias-robust regression
estimates, en Directions in Robust Statistics and Diagnostics, Part 1,
W. Stahel y S. Weisberg (eds.}, Springer-Veriag, New York.
-- (1993): Bias-robust estimates of regression based on projections, Ann.
Statist., 21, 965-990.
MCI'CEAN, J.; SHEATHER, S., y HETTMANSPERGER, T

. (1993): The use and interpre-

tation of residuals based on robust estimation, J. Amer. Statist. Assoc., 88,


1254-1263.
DEL Ro, M. (1990}: ^CDiagnstico en modelos de regresin, Rev. Real Acad.
Diencias Ex., Fs. y Nat., 84 ( 3), 521-524.

RoussEEUw, P. J., y YOHAI, V. (1984): Robust regression by means of S-estimators, en Robust and Nonlinear Time Series Ana/ysis, J. Franke, W. Hardle y
R. D. Martin {eds.), Springer-Verlag, New York.
RoussEEUw, P. J., y VAN ZOMEREN, B. C. (1990): Unmasking multivariate outliers and leverage points, J. Amer. Statist. Assoc., 85, 633-639.
SIEGEL, A. F. (1982): Robust regression using repeated medians, Biometrika,
69, 242-244.
STROMBERG, A. J. {1993): Computation of high breakdown nonlinear regression
parameters, J. Amer. Statist. Assoc., 88, 237-244.
STROMBERG ,

A. J., y RUPPERT, D. (1990): Breakdown in nonlinear regression,

J. Amer. Statist. Assoc., 87, 991-997.


ZAMAR, R. H. (1989): Robust estimation in the errors in variable models, Biometrika, 76, 149-160.

;^x

^^.ti^l -^C)t!i^t i( ^ ^ E^:^f':^^ ^ ti't ^ [_ ^^

SANTIAGO VELILLA (*}


Departamento de Estadstica y Econometria
Universidad Carlos III de Madrid

Agradezco, en primer lugar, a la Revista Estadstiea Espaala por la oportunidad de participar en la discusin del trabajo invitado Estimacin Robusta y,
por extensin, en un debate ampiio sobre las tcnicas de estimacin robustas.
EI articulo del profesor Zamar comienza con una motivacin sobre la necesidad
de introducir tcnicas robustas, el contexto en el que stas se han de construir y
la discusin de varios criterios de robustez. La segunda parte del artcula revisa
varias propuestas de estimadores robustos en regresin (estimadores M, S y i,
y estimadores con influencia acotada), para terminar con una presentacin de
resultados recientes sobre (a funcin de sesgo mximo y el clculo de estimadores con sesgo minimax. Mis comentarios se refieren tanto al artculo como a
cuestiones que creo de inters en un debate general sobre estimacin robusta,
y se dividen en tres apartados: 1) Motivacin y aspectos generales; 2) Eleccin
del criterio de robustez; y 3) Aspectos numricos.

Motivacin y aspectos generales


Es una idea clsica en robustez argumentar la insuficiencia de un modelo
central paramtrico {,^H }^ E ^ para explicar un conjunto de datos X; , i= 1, ..., n,
y proponer como alternativa el modelo de contaminacin de Tukey
^^_{F:F=(1-^)F^+H,OEO}

[1]

donde 0< E<.05 es fijo y H es arbitraria y desconocida. EI artculo ilustra una


aplicacin de [1 ] al caso de la media muestral X=^ X; / n, cuando se toma
i=1

como modelo central una N(, 6), H es N( + 6, a) y^_.05 ( = 1, 6= .03}. Es


inmediato que las propiedades de eficiencia de X se deterioran sustancialmente
en el paso de fo ^ N(, cs) a(1 -^) fo +^ f^ , donde f^ ^ N( + 6, a), pese a que,
como argumenta Zarnar, las densidades fo ^ N(, a) y(1 -^) fo +^ f1 son prcticamente indistinguibles. Por ejemplo, la distancia del supremo entre fo y f^ es trivialmente menor que 2^ / 6(2^)'^2. Sin embargo, creo que debera insistirse en
que esta deficiencia es un mero reflejo de la falta de continuidad (en cierto sentido) de X respecto a una medida de la distancia entre las posibles densidades
generadoras de los datos. Pese a que j ^ fo - f1 ^^^, es pequea, las densidades fo
y la mixtura (1 - c) fo +^ f^ producen, en general, conjuntos de datos muy diferen(*)

Trabajo financiado en parte por el proyecto PB93-0232 de la DGICYT.

f-:S"f Iti1At'1()!^ Kc)fil ti l;^

.^ 7 ^)

tes. Para ver esto, basta considerar el siguiente ejemplo. Sean {X; o, i= 1, ..., n}
datos de N(, 6) y sean {X; ^, i= 1, ..., n} datos de N( + 6, 6). Se definen
(

E;) X;o+^;X;^

[2]

donde los {E; } son variables que toman valores 0 y 1 con probabilidades 1-^ y
, respectivamente, y tales que las ternas (^; , X; a,X; ,) son i.i.d., donde, adems, ^; es independiente del par (X; o, X;1 ) . Es inmediato que los {X; } son una
muestra del modelo (1 - E) fo + c f1 . Para los casos ^_.05 y .10, = 1 y a=.03,
la tabla 1 recoge n= 30 datos simulados de fo ( Xo ), de f1 (X^ ) y de la mixtura
(1 - E) fo +^ f1 (XX^ , XX2 ) de acuerdo con la tcnica [2]. Es inmediato que las
columnas Xo y (XX1 , XX2 ) difieren en la aparicin de las observaciones anmalas 19 y(24, 27), respectivamente, que estn rnuy alejados de la media = 1
del modelo central. Los datos hablan por s solos de la necesidad de construir
un estimador T = T [X1 ,..., X ] para , alternativo a X y que sea menos sensible ante la aparicin de datos anmalos.
Otro punto de inters relativo al entorno [1 ] es la interpretacin del modelo
de perturbacin, en particular de la distribucin H responsable de las desviaciones dei modelo central, y la interpretacin de los resultados de un anlisis robusto o, en otras palabras, dado el valor observado de un estimador robusto
T = t = T [x1 ,..., xn ], qu parmetros se estn estimando. En el caso simple
en el que {^e }^ E ^ es un modeo de posicin en ^^, un estimador robusto natural
es med ( X;), que resulta ser un estimador de la posicin 9, libre del efecto de la
perturbacin H. Cuando la dimensin de los datos aurnenta, la respuesta, en rni
opinin, no es tan sencilla. En un problema de regresin en el que los datos z;
presentan una estructura natural de la forma z; _ (y; , x; )' donde y; es una respuesta escalar y x; es un vector de regresores, el significado del estimador depende de varios factores; entre otros, la eleccin de: a) ia distribucin marginal
Go (x ) de los regresores bajo el modelo central Fo (y , x); b) la distribucin condicionada Ho (y ^ x) en el modelo Fo (y , x ), y c) los anlogos G(x ) y H(y ^ x)
en la distribucin de perturbacin F(y , x). EI punto c) implica una caracterizacin de puntos anmalos tanto en el espacio de las variables {y; } como en el
espacio de los regresores {x; } que es siempre delicada, en particular en dimensin p >_ 3. Por ejemplo, la construccin de un M-estimador de regresin obtenido como solucin de una ecuacin de la forma
n

(1 /n).^,x; y^[(Y; -x; [3)/cs] =0

[3]

^=1

donde la funcin yr = p' y p(t )= t 2 / 2 (^ t ^

< c); p(t )= c ^ t ^(^ t ^> c), depende

crticamente de la eleccin de !a constante c> 0 que, irnplcitamente, caracteriza el urnbral a partir del cual los residuos r; (^i) = y; - x; R se consideran gran-

des en magnitud y su intervencin en la ecuacin de estimacin [3] se toma

ES)Al)Iti"II('.A ESPAtiO1.,^1

T^bl^ 1
MUESTRAS SIMULADAS DE TAMAO n= 30 DE LAS DENSIDADES
fo (Xo ), f^ (X^ } Y (1 - ^) fo + F f^ , DONDE fo ^- N (1, .03), f^ ^ N (7, .03}
Y^=.05(XX^)Y.10(XX2)
i

Xo

x,

1.0213

.9441

.9776

6.9824
7.0123
6.9799

4
5

.9588
.9627

^ . oso4

7
8
9
10

1.0013
1.0330
1.0352
1.0357

11

1.015$

12

1.0341

13
14

.9788
1.0463

15

1.0481

16
17
18

.9826
.9889
.9810

19

.9737

20
21
22
23
24
25
26

.9566
.9551
1.0035
1.0076
.9700
1.0179
.9949

27

.9875

28
29
30

1.0126
.96E6
.9987

7.0448
7.01 1 E

7.0590
7.0066
7.0324
7.0289
7.0087
7.031 1
6.9246
7.0359
6.9887
7.0156
7.0405
6.9660
7.071 1
6.9905
7.0163
6.991 1
6.9845
7.0030
7.0194

6.9439
6.9806
6.9996
6.9931
6.9857
6.9801

.0
.0
.0
.0
.0
.0
.0

.a

E2

X^C1

xx2

.0
.0
.0
.0

1.0213

1.0213

.9441

.9776
.9588

.9441
.9776
.9588

.o
.o
.o
.o
.o

.9627

.9627

1. 0604
1.0013
1.0330

1. a352

.0
.0

1.0357
1.0158

1.0604
1 .0013
1 .0330
1 .0352
1 .0357
1 .0158

.0
.0
.0
.0
.0

.o

1.0341

1.0341

.0

.a

.o

.9788
1.0463

.9788
1 .0463

.0

.0

1. 0481

1 .0481

.o

.o

.0
.0
1.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0
.0

.0
.0
.0
.0
.0
.0
.0
1.0
.0
.0
1.0
.0
.0

.9826
.9889

.9826
.9889
.9810

.9810

6.9905
.9566
.9551
1.0035
1.0076
.9700
1.0179
.9949
.9875

.9949
6.9996

1.o12s

1.0126

.9626
.9987

.9626
.9987

.9737

.9566
.9551
1.0035
1 .0076
7.0194
1.0179

constante e igual c. Una eleccin incorrecta de c puede ir en serio detrimento de


^
las propiedades de robustez e interpretabilidad del M-estimador [in obtenido al
solucionar [3].

FSTIti1AClON RUBI_-STA

2.

Eleccin del criterio de robustez

EI artculo del profesor Zamar se concentra en recientes trabajos sobre la


construccin de estimadores con sesgo minimax. Minimi2ar el sesgo asinttico
es una forma de paliar el efecto de la perturbacin en la estimacin, dado que el
sesgo asinttico se define como

IIT[F]-eIIM

[4]

donde M es una matriz definida positiva, elegida usando argumentos de invarianza, T[F ] es el funcional asociado a la definicin del estimador T [X^ ,...,
X ]= T[F ] como funcin de la distribucin emprica de los datos y ^ ^ a ^ ^M =
_{a' Ma )'^2 es la norma elptica asociada a M. Se observa que [4] involucra explcitamente que la convergencia de T[F,^ ] es hacia T[F ] que, para F general
en el entorno [1 ], ser diferente de 9 0, en otra ^ palabras, que los estimadores
T[F^ ] son inconsistentes para e pese a imponer la restriccin de consistencia
Fisher T [Fe ]= 8 en el modelo central. La curva de sesgo asinttico mximo
B{T, ^) =

suP
F E ^^.

II T[F] - 9 IiM

[5]

se relaciona tambin de forma inmediata con el punto de ruptura de T[F ][Martin, Yohai y Zamar ( 1989)]. La teora basada en la minimizacin de [5] conduce
a resultados interesantes, pero creo que debera complementarse con algn resultado de convergencia asinttica del tipo n 12 [T^ - 8] ^ Np [o, ^], donde p es
la dimensin del parrnetro e, que permitiera estudiar y comparar las eficiencias,
bajo el modelo central {^^ } e E o, de T^ con el estimador de mxima verosimilitud. Este parece ser el contexto de recientes investigaciones [Coakley y Hettmansperger ( 1993); Croux, Rousseeuw y Hssjer ( 1993)] en la bsqueda de estimadores de regresin eficientes y de punto de ruptura prximo a 1/2.

Aspectos numricos
Esta es una cuestin fundamental, puesto que la determinacin de los estimadores robustos depende siempre de tcnicas computacionales ms o menos
sofisticadas y, en ocasiones, de la minirnizacin de funciones no convexas con
mnimos locales. La complejidad del problema aumenta en dimensiones altas
(tanto en el nmero n de datos corno en la dimensin p del parmetro), como
ilustra un reciente trabajo de Woodruff y Rocke (1994). La elaboracin de algoritmos manejables, que implementen en la prctica la computacin explcita de
los diferentes tipos de estimadores propuestos, facilitara la comprensin y asimilacin de las tcnicas robustas por una audiencia mayor de estadsticos.

E,ti l.t[)1^ I I('t> F-tiF'Ati()1.,1

REFEREI^ICIAS ADICIONALES EN LA DISCUSION


. (1993): <^A Bounded Influence, High Breakdown, Efficient Regression Estimator, JASA, 88, 872-880.

COAKLEY, C., y HETTMANSPERGER, T

CROUx, C.; RoussEEUw, P., y Hc^ss^ER, O. (1993): Generalized S-Estimatars>^,


Report No. 93-a3, revised version, Dept. o# Mathematics & Computer Science,
University of Antwerp, Blgica.
WOODRUFF, D. L., y RocKE, D. M. (1994}: Computable Rabust Estimatian of
Multivariate Location and Shape in High Dimension Using Compound Estimators>^, JASA, 89, 888-89fi.

VICTOR J. YOHAI
Universidad de San Andrs y Universidad de Buenos Aires

Quisiera felicitar a Rubn Zamar por su excelente exposicin sobre los mtodos estadsticos robustos para los modelos de posicin y regresin.
En mi comentario me referir a otro enfoque para obtener estimadores con
buenas propiedades de robustez para problemas de regresin mltiple: las estimadores basados en proyecciones.
Sea z; _ ( y; , x; ), 1^ i<_ n, y E I^ , x; E I^.p una muestra correspondiente a un
modelo de regresin lineal; por lo tanto, se tiene

+ u;

[1]

Antes de definir el estimador basado en proyecciones, consideraremos las


transformaciones que dejan invariante el problema de regresin. Apliquemos la
siguiente transformacin a!os elementos de la muestra
= a y; + y' x; ,

z;*=(Y;*^x;*)^

^ ^i

donde A es una matriz de p x p no singular, y ^ I^^P y a E I^ . Luego es inmediato


que las z;* tambin satisfacen el modelo de regresin [1 ] con parmetro
8= A-1' {a 8 + ^y} y u;* = a u; . Por io tanto, resulta natural exigir que un estimador
^

6 satisfaga la siguiente propiedad

ESTIMAC'1ON ROBC'5^^1^^A

9(Z^*, ,..,Z)=A-''(a6(z^, ...,2)+Y)

[2]

Un estimador que satisface [2] se denomina equivariante.


Martin, Yohai y Zamar (1989) encontraron el estimador minimax en la ciase
de estimadores GM definidos por la ecuacin [17]. Este corresponde a la funcin
^(r,x)=signo(r)x.
Para el modelo de regresin univariada que pasa por el origen, es decir, cuando
p= 1, el estimador minmax GM puede expresarse como
Y;
, 1 <_ i <_ n
x;

mediana

[3]

Maronna y Yohai (1993) prueban que este estimador tambin es minimax en


la clase de todos los estimadores equivariantes. Vamos a generalizar este estimador para p > 1.
EI estimadvr dado por [3] tambin se puede definir por
^

r; (e)

mediana

x;

, 1 <_ i <_ n

Una forrna de generalizar esta ecuacin sera definir un estimador por


^

r; {e)
mediana

^, x, 1<_ i<_ n= 0
^

d^, E I^p

[4]

Esta ecuacin est expresando que se busca un valor 6 de tal manera que
los residuos r; (9) no tengan ninguna estructura de regresin con ninguna combinacin lineal ^.' x, y por lo tanto que, al aplicar el estimador ^de regresin dado
por [3], tomando como variable dependiente los residuos r; (9) y como variable
independiente las proyecciones ^' x; , ste da el valor cero.
Sin embargo, como en general^[4] no tendr solucin, se definir el estimador de proyeccin por aquel valor 9 para el cual esta ecuacin est ms prxima a ser satisfecha. EI significado exacto de la expresin ms prxima se
precisar a continuacin. Para esto definimos
n

A (^) = sup s (^,)


, E ]E8 ^

mediana

r; (e)
^,' x;

, 1 <i<_n

[5]

t-.S I Al)Iti"1 1{',3 ^-^51'r^Nt)L:^

donde s(^) es un estimador de la escala de las proyecciones ^.' x; y que puede


estar dado por

s (^.) = mediana {^ ^,' x, ^, ..., ^ ^,' x j^


EI propsito de utilizar esta escala en [5j es hacer que el estimador resulte equivari ante .

^
La ecuacin [4j puede ser escrita como A(8) = 0. Como, en general, esto no
es posible, Maronna y Yohai {1993) definen el estimador de proyeccin {estimador P) por
argmin ^ ^ ^R A (8)
^
Se puede demostrar que si 6 es el estimador P, entonces para todo otro esti^*

mador equivariante 6 se tiene que

8 ^ {} < 2 B ^- (E} + o (^)


donde o(^) /^---^ 0, y por lo tanto

B' ^ io) <- 2^' ' o)


EI punto de ruptura del estimador P es o.5. Su orden de consistencia es n'^2,
pero la distribucin asinttica no es normal.
Maronna y Yohai (1993} dan un algoritmo para computar el estimador de
proyeccin basado en submuestreo, similar al utilizado por Rousseeuw y Leroy
{1987) para estirnadores S, aunque de mayor compiejidad computacional. Si t
es el tiempo necesario para computar un estimador S, entonces el tiempo para
computar el estimador P es aproximadamente t log (t}.

Finalmente, compararemos los sesgos mximos y ia sensibilidad a errores


groseros para distintos estimadores. En 1a tabla 1, sacada de Simpson y Yohai
(1993), estn los sesgos mximos del estimador minimax GM. En la tabla 2 estn los sesgos del LMS y del estimador minimax S, que fueron obtenidos de
Martin, Yohai y Zamar (1989); y tambin los sesgos mximos del estimador P,
obtenidos de Maronna y Yohai {1993).
Observarnos que los P estimadores se comparan favorablemente respecto
del LMS y del estimador minimax S para todo p. Tambin resulta que el estimador P tiene menor sesgo que el minirnax GM para p? 4.
Usando ideas similares a las desarrolladas aqui, Maronna, Yohai y Stahel
(1992) definen estimadares de proyeccin equivariantes para matrices de covarianza.

F^^^r^^^^c^^^^^v K^^^^^^-^^.^
Tabla 1
MAXIMtJS SESGOS DEL ESTIMADOR GM MINIMAX
p

F=.05

F=.10

E=.15

e=.20

1
2

1.57
2.00

0.08
0.10

0.18
0.27

0.28
0.47

0.41
0.83

3
4
5
10
15

2.35
2.67
2.94
4.06
4.94

0.15
0.17
0.18
0.27
0.33

0.34
0.43
0.49
0.83
1.30

0.67
0.92
1.29
^
^

1.72
^
^
^
^

20

5.66

0.41

2.31

Tabla 2
MAXIMOS SESGOS DE ESTIMADORES S Y P
Todo p
y

E=.05

^=.10

^=.15

^=.20

Minimax

0.49

0.77

1.05

1.37

LMS

0.53

0.83

1.07

1.52

3.14

0.16

0.36

0.56

0.82

REFERENCiAS
(1992): BiaS-robust estimators of
multivariate scatter based on projections, Journal af Multivariate Ana/ysis,

MARONNA, R. A.; STAHEL, W. A`, y YOHAI, V. J .

42, 141-161.
MARONNA, R. A., y YoHAi, V. J. (1993): Bias-robust estimates of regression based on projections, Annals of Statistics, 21, 965-990.
MARTIN, R. D.; YOHAi, V. J., y ZAMAR, R. H. (1989): Min-max bias robust regression, The Anna/s of Statistics, 17, 1608-1630.

RoussEEUw, P. J., y LEROY, A. M. (1987}: Robust regression and outlier detection, Wiley, New York.
SIMPSON, D. G., y YoHAi, V. J. (1993): Functional stability of one-step GM-estimators in linear regression, Technical Report #71, Department of Statistics,
University of Illinois Urbana-Champaign.

.^?^fl

F;^T A)I^ C`FC A E.SPAtii.)t_A

CO NT ESTA C I O N
En primer lugar, quiero agradecer al profesor Daniel Pea y a la Revista Estadstica Espaola por esta oportunidad de discutir uno de mis temas favoritos:
estadstica robusta. Tambin quiero agradecer a los distinguidos comentaristas
por prestigiar rni contribucin con sus comentarios y sugerencias.
Mi trabajo no es una revisin de la teora de robustez, sino una introduccin
a ia misma. Consecuentemente, muchas cantribuciones importantes han sido
intencionaimente omitidas con el objetivo de simplificar la exposicin y resaltar
las ideas centrales. Algunas de esas omisiones fueron recogidas por los comentaristas en sus comentarios. EI profesor Victor J. Yohai describe una clase rnuy
interesante de estimadores Ilarnados estimadores de proyeccin, el profesor Ricardo Maronna resalta la importancia e inters de ciertos problemas multivariados, el profesor Manuel del Ro discute posibles aplicaciones de los mtodos robustos en problernas de deteccin de outliers, y los profesores Elas Moreno,
Juan Antonio Cano y Julin de la Horra enfatizan las posibles conecciones con
el rea de robustez bayesiana. La teoria de robustez presentada en mi articulo
est basada en el concepto de sesgo asinttico mximo y, por lo tanto, es de
naturaieza global. EI resuitado del ejemplo presentado por los profesores Moreno y Cano puede deberse a la alta proporcin de autliers en la muestra. Si las
probabilidades condicionales de x^ y x2 son apraximadamente iguales {bajo los
dos escenarios posibles), entonces muestras muy desequilibradas, como por
ejemplo x1 , x1 , x1 , ..., x1 , sern muy atpicas y el consecuente colapso de la inferencia basada en tales rnuestras no sera entonces sorprendente.
Otros comentaristas resaltan ciertos problemas que an subsisten y constituyen, en mi opinin, interesantes desafos. Los profesores Alfonso Garca Prez
y Santiago Velilla critican la naturaleza eminentemente asinttica de la teora de
robustez. Puesto que una teora basada en muestras finitas no ser factible en
el futuro previsible, creo que se deberia prestar mayor atencin al grado de uniformidad y a la velocidad de la convergencia de los estimadores robustos hacia
sus respectivos funcionales asintticos. Martin y Zamar {1993) es un modesto

^-;5"1"INIA('I()N R()KIJS 1 :1,

paso en esa direccin. Los profesores Joaqun Muoz Garca, Quindimif y Antonio Cuevas mencionan los problemas computacionales y la conveniencia de incluir mtodos robustos en paquetes estadsticos comerciales. Yo concuerdo plenamente con ellos.
EI interesante comentario del profesor Alfonso Gordaliza sita mi trabajo en
un contexto m^s amplio dentro de la teora de robustez y pone de relieve algunos aspectos que encontr muy interesantes.

También podría gustarte