Está en la página 1de 9

Modelo lineal generalizado

Informe 1

REGRESIÓN ROBUSTA

Luis Esteban Garcia Trujillo1,a , Wilmar Sepulveda Herrera1,b


1 Escuela de estadística, Facultad de Ingeniería, Universidad del Valle, Cali, Colombia

Resumen
Es usual en los libros encontrar apartados donde se menciona la regresión robusta como
método para corregir en algún grado el problema de los datos influyentes sin tener que elim-
inarlos. Sin embargo, según lo que se revisó en la literatura este tema es poco profundizado,
inclusive algunos de sus métodos no se encuentran implementados dentro de los Software es-
tadísticos que más se emplean. Aun así, la regresión robusta es una alternativa relevante
para solucionar el problema de estimación cuando existen datos influyentes, para ello se hace
una revisión de los principales métodos robustos, como alternativa para solucionar esta prob-
lemática se ajustan en un problema donde se contamina la base de datos a conveniencia y se
comparan con la estimación de mínimos cuadrados ordinarios.
Palabras clave: Regresión Robusta, valores atípicos, errores extremos, estimadores M, mín-
ima mediana de cuadrados.

1. Introducción
Los modelos lineales hacen parte de las técnicas estadísticas más implementadas y versátiles
debido a que se pueden adaptar a diferentes problemáticas que tienen muchas áreas de aplicación;
sin embargo, independientemente de la técnica de regresión, el método de mínimos cuadrados es el
más utilizado para realizar estimaciones, aunque dicho método es muy sensible a la presencia de
valores atípicos, multicolinealidad o la falta de normalidad (Alma 2011).
Por otro lado, Hampel, Ronchetti, Rousseeuw & Stahel (2011) mencionan que un método de
estimación estadístico es robusto si este proporciona información útil incluso considerando el caso
en que algunos de los supuestos (pueden ser todos) definidos en el modelo a estimar no se cumplan,
aun así, si se llegara a dar dicho caso lo que se hace es buscar mantener los modelos paramétricos
planteados en vez de desarrollar aproximaciones no paramétricas.
Basado en los anterior, la regresión robusta se enfoca especialmente en situaciones donde el tér-
mino error no cumple con el supuesto de normalidad generando una distribución de colas pesadas,
la cual da pie a errores más grandes (Draper & Smith 1998). De igual manera Seber & Lee (2003)
en su libro menciona que la estimación depende directamente de la distribución normal de los
errores, lo cual es fundamental para que las estimaciones sean eficientes e insesgadas. Sin embargo,
el proceso generador de datos es susceptible a la presencia de datos atípicos o errores extremos,
los cuales con su existencia conllevan primero, a que su distribución presente un comportamiento
de colas pesadas y segundo, a generar una influencia desproporcionada en el ajuste de la regre-
sión. Importante mencionar que dicha influencia sobre el ajuste es de gran impacto debido a que
fácilmente puede modificar la ecuación de la regresión como se ilustra en la Figura 1. Una forma
sencilla de controlar esta situación vista en la Figura 1, sería eliminar la observación A lo cual nos
brindaría una recta que se ajusta muy bien a los datos, sin embargo, descartar una observación
por el hecho de ver el modelo estadísticamente más agradable no es conveniente. Por lo regular,
los datos pueden ser eliminados o modificados cuando se tiene conocimiento del proceso generador
de datos y este proporciona información que puede servir como criterio para eliminar el punto
A, aun así, cuando es descartado con un fin completamente estadístico se estarían incurriendo en
problemas.
a Universidad del Valle. E-mail: luis.esteban.garcia@correounivalle.edu.co
b Universidad del Valle. E-mail: wilmar.sepulveda@correounivalle.edu.co

1
2 Luis Esteban Garcia Trujillo & Wilmar Sepulveda Herrera

Figure 1: Efecto de una observación influyente.

Bajo esta problemática, el método de mínimos cuadrados considera que todas las observaciones
tienen el mismo peso en la estimación de los parámetros, lo cual no es conveniente y se espera
que el método robusto permita utilizar ponderaciones desiguales en las mismas. Como solución,
se han desarrollado diversas técnicas estadísticas robustas de estimación que atenúan el efecto que
ejercen las observaciones muy influyentes, dentro de estas técnicas se encuentran los Estimadores
M (Huber 1981) y la Regresión por mínima mediana de cuadrados (Rousseeuw 1984). El propósito
de este estudio es presentar estos dos métodos de regresión robusta, compararlo con el método de
mínimos cuadrados ordinarios (MCO) mediante ejemplos prácticos y detallar su implementación
en el software R (R Core Team 2020).

2. Materiales y métodos
El modelo lineal clásico es dado por yi = β0 + xi1 β1 + ... + xip βp + ei , para i = 1, 2, ..., n, donde
p es el numero de variables y n es el número de individuos muestreados, el termino de error ei se
asume usualmente que sigue una distribución normal con media 0 y desviación estándar σ. Sea
x0i = (xi1 , ..., xip ) el vector fila de mediciones de covariables para el individuo i, ~y = (y1 , ..., yn )0 el
vector con las mediciones de la variable de respuesta para los n individuos y β~ = (β1 , ..., βp )0 el
vector de parámetros del modelo a ser estimado.
Con esta notación, el método de mínimos cuadrados ordinarios pretende encontrar el vector de
ˆ
parámetros β~ tal que

n 
X 2 n
X
min yi − x0i β~ = min e2i (1)
~
β ~
β
i=1 i=1

2.1. Estimadores M
Este enfoque tiene como punto de partida la función de densidad de yi :
!
1 yi − x0i β~
fi (yi ; β, σ) = f (2)
σ σ

La función anterior da pie a decir que σ es un parámetro de escala, al igual que x0i β es su parámetro
de localización. Visto de esta forma, por ejemplo si f es una función de densidad normal estándar,
entonces (2) representaría el modelo de regresión estándar junto con sus parámetros de localización
y escala.
Por lo cual para la estimación de los parámetros se calcula la log-verosimilitud
n
X
l(β, σ) = −nlogσ + ~
logf [(Yi − x0i β)/σ] (3)
i=1

Maestría en estadística: Modelo lineal generalizado


Regresion Robusta 3

Ahora, si definimos que ρ = −logf entonces (3) puede ser escrito como:
n
X
l(β, σ) = −nlogσ − ~
ρ[(Yi − x0i β)/σ] (4)
i=1

La estimación de β y σ se pueden obtener usando la máxima verosimilitud. Por lo cual se busca


minimizar
Xn
nlogs + ρ[ei (b)/s] (5)
i=1

en función de los estimadores b y s correspondientes, es decir, definir una clase de estimadores


robustos que logran minimizar la función ρ de los residuos, como

n
X n
X
min ρ[ei (b)/s] = min ~
ρ[(yi − x0i β)/s] (6)
β β
i=1 i=1

Posteriormente se realizan las derivadas parciales de ρ con respecto a β y s, se igualan a cero


lo que genera el sistema de ecuaciones:

n
X
ψ[ei (b)/s]xi = 0 (7)
i=1

n
X
ψ[ei (b)/s]ei (b) = ns (8)
i=1

Donde ψ = ρ0 .
Generalmente, bajo esta metodología se pueden definir una clase de estimadores robustos que
buscan minimizar una función ρ de los residuales. Si para este estudio, se mide el tamaño como
el residuo al cuadrado, entonces lo que se busca con ρ es reemplazar el cuadrado por alguna
otra función en los residuales que en cierta medida refleje el tamaño de estos de una manera
menos extrema. Además, esta función ρ debe ser simétrica. Por lo cual un estimador con estas
características se llama Estimador M, donde M hace referencia a máxima verosimilitud.

2.1.1. Caso 1: ρ(x) = 12 x2

Para este ρ se obtiene que ψ = x y por lo tanto se reduce a las ecuaciones normales de las cuales
~
β̂ puede ser estimado por medio de mínimo cuadrados, lo que a su vez proporciona la estimación
de máxima verosimilitud estándar

n
1 X ~ˆ 2
σ̂ 2 = ei (β) (9)
n i=1

2.1.2. Caso 2: ρ(x) = |x|

Para este caso se busca minimizar

n n
1X X
nlogs + |ei (b)| o en su defecto |ei (b)|
s i=1 i=1

Esta estimación que minimiza la suma de errores absolutos es llamada usualmente estimación
L1 , se caracteriza por tener doble densidad exponencial siendo esta más “picuda” en el centro y
con colas pesadas, la cual también guarda una estrecha relación con el Caso 1, pues esencialmente
por mínimos cuadrados es el problema asociado a la regresión L2 . A su vez L1 y L2 son casos
particulares de la regresión Lp en el que se busca minimizar Σni=1 |ei |p donde p está entre [1,2], con
la salvedad de que cuando p está entre (1,2) se requieren de técnicas de programación no lineal.

Maestría en estadística: Modelo lineal generalizado


4 Luis Esteban Garcia Trujillo & Wilmar Sepulveda Herrera

2.1.3. Otros casos

Por otro lado, cuando no se tiene en consideración una función f particular, la metodología
permite elegir ρ tal que deje hacer la estimación robusta para un ρ donde ψ = ρ0 sea acotado, es
debido a esto que se ajustan (7) y (8) a las ecuaciones de estimación

n
X
ψ[ei (b)/s]xi = 0 (10)
i=1
n
X
χ[ei (b)/s] = 0 (11)
i=1

Ahora χ puede ser elegido para robustecer la estimación de escala. Con la claridad de que no
es necesario que ψ y χ correspondan con la función de densidad f en (2).
También se tiene que el estimador M no necesariamente es invariante de escala, por lo cual
Montgomery, Peck & Vining (2012) proponen s como la mediana de la desviación absoluta: s =
mediana[ei − medianaei ]/0.6745. La constante 0.6745 hace que s se aproxime a un estimador
insesgado de σ cuando n es grande y los errores se distribuyen normal.
Ahora para estos casos la función ψ no es lineal, entonces se deben resolver las ecuaciones (10)
y (11) por medio de métodos iterativos. Aunque existan varias técnicas a implementar no lineales
de optimización, lo que usualmente se usa son los mínimos cuadrados reponderados iteractivos
(Beaton y Tukey (1974)).
Además en la Figura 3 se presentan varias funciones relacionadas con el criterio robusto que se
suelen usar.

Figure 2: Funciones de criterio robusto

En relación con todo lo definido anteriormente se llega a que la función ψ controla el factor de
ponderación o peso asignado a cada residual que por lo regular es llamada función de influencia.

2.2. Regresión por Mínima Mediana de Cuadrados


El método de la mínima mediana de cuadrados (LMedS) estima los parámetros resolviendo el
problema de optimización no lineal
 2 
~
x0i β = min medi e2i

min medi yi − (12)
~
β ~
β

Es decir, el estimador debe producir el valor más pequeño para la mediana de los residuos cuadrados
calculados para todo el conjunto de datos. La función objetivo (12) es difícil de minimizar puesto
que es una función multiextrema, es decir, se considera que tiene O(np ) mínimos locales. Por tanto,
debe resolverse mediante una búsqueda en el espacio de posibles estimaciones generadas a partir

Maestría en estadística: Modelo lineal generalizado


Regresion Robusta 5

de los datos. Dado que este espacio es demasiado grande, solo se puede analizar un subconjunto de
datos elegido al azar. El algoritmo que se describe a continuación para estimar de forma robusta
sigue el estructurado en Rousseeuw & Leroy (1987), que consiste en, dados n puntos mi = [xi , yi ]0

1 Elija m conjuntos aleatorios de puntos con tamaño p del conjunto de datos, donde p es el
número de parámetros en la ecuación que se está resolviendo.

2 Para cada subconjunto, use un método como MCO para encontrar una solución Pj para los
parámetros de ese conjunto de datos.
3 Para cada Pj , se puede determinar la mediana de los residuos al cuadrado, denotados por
Mj , con respecto a todo el conjunto de puntos.

Mj = med e2i (Pj , mi )

3. Ejercicio de aplicación
Para ilustrar los métodos antes mencionados, se trabaja con un conjunto de datos que contiene
el trabajo de un ingeniero químico que desea medir el contenido orgánico de cierto componente,
para ello usa dos métodos, un método económico por trituración y un método mas costoso por
extracción y pesaje, el experimento tiene el objetivo de determinar en que medida el contenido
ácido determinado por trituración (x) puede servir para estimar el contenido ácido determinado
por extracción (y) para ellos se tomó una muestra de tamaño 20. Este ejemplo es propuesto por
Daniel & Wood (1980) y trabajado con regresión robusta por Rousseeuw & Leroy (1987)
Con base en el problema propuesto, la ecuación (13) muestra el modelo de regresión a estimar

y = β0 + β1 x + e (13)

la Tabla 1 muestra los resultados de las estimaciones de los parámetros de los 3 estimadores
propuestos para 3 casos, datos completos, datos contaminados con un atípico y datos contaminados
con 4 atípicos, se observa cómo para datos completos los 3 métodos presentan estimaciones muy
similares, para los datos con un atípico cambian drásticamente las estimaciones con el método
MCO y para datos con 4 atípicos MCO y Estimador M (Huber) coinciden en las estimaciones de
los parámetros, pero Lmeds continua con una estimación similar que la de los primeros dos casos.

Table 1: Estimación de parámetros


Datos completos Datos contaminados (1) Datos contaminados (4)
Metodo βˆ0 βˆ1 βˆ0 βˆ1 βˆ0 βˆ1
MCO 35.45 0.32 58.94 0.08 62.74 0.04
Lmeds 35.72 0.31 36.31 0.31 35.02 0.32
Estimador M 35.45 0.32 36.49 0.31 62.74 0.04

La Figura 3.A muestra el gráfico de dispersión de los datos originales, la Figura 3.B muestra el
gráfico de dispersión de los datos después de ser contaminados por un valor atípico y la figura 3.C
muestra el gráfico con datos contaminados con 4 atípicos. En las 3 gráficas se muestran las rectas de
regresión estimadas con cada modelo, mínimos cuadrados ordinarios (MCO) en color rojo, Mínima
Mediana de Cuadrados (Lmeds) en verde y Estimador - M en azul. Con datos completos, los 3
métodos presentan estimaciones muy simulares donde las rectas de regresión parecen superponerse
(figura 3.A), en los datos contaminados con un atípico se observa como los métodos robustos siguen
el comportamiento de los datos "ignorando" el dato atípico en contraste con la estimación por MCO
que se deja llevar mucho por este valor extremo. Cuando los datos se contaminan con 4 valores
atípicos (20% del total), el método Estimador M parece que pierde sus propiedades robustas y
genera las mismas estimaciones que el MCO, mientras que el método Lmeds sigue siendo robusto
ante esta situación

Maestría en estadística: Modelo lineal generalizado


6 Luis Esteban Garcia Trujillo & Wilmar Sepulveda Herrera

90

90

90
80

80

80
Extraction

Extraction

Extraction
70

70

70
MCO MCO
60

60

60
LMeds LMeds
Estimador M Estimador M

MCO
50

50

50
LMeds
Estimador M
40

40

40
50 100 150 50 150 250 350 50 150 250 350

Trituración Trituración Trituración


(A) Dato completos (B) Dato contaminados (1) (C) Dato contaminados (4)

Figure 3: Gráfica de dispersión de los datos

4. Discusión y Conclusiones
Durante el trabajo se abarcó a los más importantes estimadores M y el LMedS como los
principales métodos que hacen parte de la gran variedad de opciones que tiene la regresión robusta,
además, el trabajo se elabora especialmente queriendo reflejar su utilidad práctica. Los grandes
estudios realizados con respecto a la regresión robusta comienzan a mitad del siglo XX, donde
sus investigaciones no tuvieron el impacto deseado como las otras técnicas de los modelos. En la
actualidad, muchos de estos métodos no hacen parte del menú de opciones de muchos Software
estadísticos, aún así es posible implementarlos programando el proceso “a mano”.
Consecuentemente, la regresión robusta no deja de ser un método interesante cuando se busca
hacer análisis de datos, debido al soporte que ellos presentan en presencia de observaciones muy
influyentes. Estratégicamente Montgomery et al. (2012) proponen siempre al momento de imple-
mentar un análisis por mínimos cuadrados ajustar paralelamente el modelo robusto; en caso de
que estos concuerdan como en la Figura 3.A, se recomendaría utilizar el realizado por mínimos
cuadrados, en caso de que no concuerden lo recomendable es hacer búsqueda de su causa.
Con respecto a los resultados obtenidos, se observa que el método LmedS es el que tiene
mas robustez ante la presencia de muchos datos atípicos, aunque aplicarlo en ese caso podría ser
peligroso, pues el método se ajusta en la región donde se concentra el 50% o más de los datos y
puede que ante muchos atípicos no queramos que esto suceda, por tanto se debe tener muy en claro
el camino que el investigador quiere seguir para así mismo seleccionar un método robusto.
Como trabajo futuro se puede investigar sobre el análisis de varianza realizada sobre estos
modelos de regresión robusta, ya que es natural pensar que los supuestos del modelo lineal clásico
no aplican en este tipo de modelos, además la varianza de los estimadores también difieren de los
modelos clásicos

References
Alma, Ö. G. (2011), ‘Comparison of robust regression methods in linear regression’, Int. J. Con-
temp. Math. Sciences 6(9), 409–421.

Daniel, C. & Wood, F. S. (1980), Fitting equations to data: computer analysis of multifactor data,
John Wiley & Sons, Inc.

Draper, N. R. & Smith, H. (1998), Applied regression analysis, Vol. 326, John Wiley & Sons.

Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J. & Stahel, W. A. (2011), Robust statistics: the
approach based on influence functions, Vol. 196, John Wiley & Sons.

Ho, K. & Naugher, J. (2000), ‘Outliers lie: An illustrative example of identifying outliers and
applying robust models’, Multiple linear regression viewpoints 26(2), 2–6.

Huber, P. J. (1981), Robust statistics, Wiley series in statistics.

Maestría en estadística: Modelo lineal generalizado


Regresion Robusta 7

Montgomery, D. C., Peck, E. A. & Vining, G. G. (2012), Introduction to linear regression analysis,
Wiley.
R Core Team (2020), R: A Language and Environment for Statistical Computing, R Foundation
for Statistical Computing, Vienna, Austria.
*https://www.R-project.org/
Rousseeuw, P. J. (1984), ‘Least median of squares regression’, Journal of the American statistical
association 79(388), 871–880.
Rousseeuw, P. J. & Leroy, A. M. (1987), Robust regression and outlier detection, Vol. 589, John
wiley & sons.
Seber, G. A. & Lee, A. J. (2003), Linear Regression Analysis, Second Edition, John Wiley & Sons.

Appendix A. anexo

0pt4pt
library ( MASS )
# Creamos funcion que calcule el m t o d o LmedS
lmeds <- function ( data ) {
c = combn ( 1 : nrow ( data ) , 3 , simplify = FALSE )
mj <- matrix ( 0 , length ( c ) , ncol ( data ))
for ( i in 1 : length ( c )) {
data _ m = data [ c [[ i ]] , ]
mod _ temp <- lm ( Tiration ~ Extraction , data = data _ m )
error 2 <-
( data $ Tiration - predict ( mod _ temp , newdata =
data . frame ( Extraction = data $ Extraction ))) ^ 2
mj [i , ] = c ( median ( error 2 ) , mod _ temp $ coefficients )
}
i = which ( mj [ , 1 ] == min ( mj [ , 1 ]))

return ( mj [ i [ 1 ] , ])
}

par ( mfrow = c ( 1 , 3 ))

data <- read . csv 2 ( " Datos . csv " , header = T )

# # Ajusto modelo con datos originales


plot (
data $ Extraction ,
data $ Tiration ,
pch = 2 0 ,
xlab = " T r i t u r a c i n " ,
ylab = " Extraction "
,
sub = " ( A ) ␣ Dato ␣ completos "
)
mod 1 <- lm ( Tiration ~ Extraction , data = data )
abline ( mod 1 , col = 2 )

mod 2 <- lmeds ( data )


abline ( a = mod 2 [ 2 ] , b = mod 2 [ 3 ] , col = 3 )

mod 3 <- rlm ( Tiration ~ Extraction , data = data )


abline ( mod 3 , col = 4 )

legend (
60,
55,
legend = c ( " MCO " , " LMeds " , " Estimador ␣ M " ) ,
col = c ( " red " , " green " , " blue " ) ,
lty = c ( 1 , 1 , 1 ) ,

Maestría en estadística: Modelo lineal generalizado


8 Luis Esteban Garcia Trujillo & Wilmar Sepulveda Herrera

cex = 0 . 8 ,
bty = " n "
)

# ## Contaminemos los datos


data _ cont <- data
data _ cont $ Extraction [ 6 ] = 3 7 0

# # Ajustando modelo con datos contaminados


plot (
data _ cont $ Extraction ,
data _ cont $ Tiration ,
pch = 2 0 ,
xlab = " T r i t u r a c i n " ,
ylab = " Extraction "
,
sub = " ( B ) ␣ Dato ␣ contaminados ␣ ( 1 ) "
)
mod 4 <- lm ( Tiration ~ Extraction , data = data _ cont )
abline ( mod 4 , col = 2 )

mod 5 <- lmeds ( data _ cont )

abline ( a = mod 5 [ 2 ] , b = mod 5 [ 3 ] , col = 3 )


mod 6 <- rlm ( Tiration ~ Extraction , data = data _ cont )
abline ( mod 6 , col = 4 )

legend (
110,
65,
legend = c ( " MCO " , " LMeds " , " Estimador ␣ M " ) ,
col = c ( " red " , " green " , " blue " ) ,
lty = c ( 1 , 1 , 1 ) ,
cex = 0 . 8 ,
bty = " n "
)

# ## Contaminemos los datos mas


data _ cont 2 <- data
data _ cont 2 $ Extraction [ c ( 6 , 2 , 3 , 4 )] = c ( 3 7 0 , 2 5 0 , 2 8 0 , 3 0 0 )
plot (
data _ cont 2 $ Extraction ,
data _ cont 2 $ Tiration ,
pch = 2 0 ,
xlab = " T r i t u r a c i n " ,
ylab = " Extraction "
,
sub = " ( C ) ␣ Dato ␣ contaminados ␣ ( 4 ) "
)

mod 7 <- lm ( Tiration ~ Extraction , data = data _ cont 2 )

abline ( mod 7 , col = 2 )

mod 8 <- lmeds ( data _ cont 2 )

abline ( a = mod 8 [ 2 ] , b = mod 8 [ 3 ] , col = 3 )


mod 9 <- rlm ( Tiration ~ Extraction , data = data _ cont 2 , method = " M " )
abline ( mod 9 , col = 4 )

legend (
110,
65,

Maestría en estadística: Modelo lineal generalizado


Regresion Robusta 9

legend = c ( " MCO " , " LMeds " , " Estimador ␣ M " ) ,
col = c ( " red " , " green " , " blue " ) ,
lty = c ( 1 , 1 , 1 ) ,
cex = 0 . 8 ,
bty = " n "
)

Appendix B. Datos originales

observation Extraction Tiration


1 1 123 76
2 2 109 70
3 3 62 55
4 4 104 71
5 5 57 55
6 6 37 48
7 7 44 50
8 8 100 66
9 9 16 41
10 10 28 43
11 11 138 82
12 12 105 68
13 13 159 88
14 14 75 58
15 15 88 64
16 16 164 88
17 17 169 89
18 18 167 88
19 19 149 84
20 20 167 88

Maestría en estadística: Modelo lineal generalizado

También podría gustarte