Está en la página 1de 13

Revista Colombiana de Estadstica

Volumen 27 No 2. P
ags. 109 a 121. Diciembre 2004

Un criterio para identificar datos atpicos


Alfredo Jime
nez Moscoso*
Jose

Resumen
En este artculo se presenta un metodo para determinar las observaciones
que son atpicas en un modelo de regresi
on lineal m
ultiple; estos datos
se estableceran de acuerdo al cambio que ejercen sobre la suma de los
cuadrados de residuales del modelo.
Palabras Claves: Modelos lineales, mnimos cuadrados, formas cuadr
aticas, observaciones atpicas, estadstica Qk .

Abstract
This paper present a method to determine the observations that are outliers in a model of multiple linear regression; these data will be established
according to the change that is presented on the sum of the squares of
residual of the model.
Key words: Linear models, Least squares, Quadratic forms, Outliers,
Qk Statistics.

1.

Introducci
on

Draper & John (1981) proponen una metodologa para detectar un grupo
de k observaciones atpicas, analoga a la propuesta de Bartlett (1937), citada
en Little & Rubin (1987), para estimar los parametros del modelo de regresion
lineal cuando existen observaciones faltantes en la variable respuesta. En el
* Profesor asistente, Universidad Nacional de Colombia, Departamento de Matem
aticas.
E-mail: josajimenezm@unal.edu.co

109

110

Jose A. Jimenez M.

planteamiento de Draper & John (1981) se considera el modelo de regresion


lineal m
ultiple:
Y = X

n1

+  ,

(1)

   


+ 1 ,

2

(2)

nr r1

n1

particionado de la siguiente manera:


  
Y1
X1
=
Y2
X2

I
0

donde Y1 es el bloque conformado por las observaciones consideradas atpicas.


Para el modelo (2) establecen las estimaciones de y mediante:
=(X20 X2 )1 X20 Y2 ,

= (I H11 )1 1 ,

donde Hij = Xi (X 0 X)1 Xj0 es una submatriz de la matriz

H = X(X 0 X)1 X 0 ,

para X =

 
X1
.
X2

La notaci
on de H y el nombre de matriz hat fue introducido por Tukey
(1977); por otra parte, el cambio en la suma de cuadrados de residuales lo
calculan usando la estadstica:
Qk =
01 (I H11 )1 1 ,

con k = dim (Y1 ) .

(3)

En resumen, el metodo descrito permite detectar el grupo de observaciones


atpicas en base al cambio en la suma de cuadrados de residuales, lo cual se
cuantifica con la estadstica Qk , es decir, mediante este procedimiento se selecciona el bloque Y1 que posee el Qk mas alto, como el bloque mas atpico, y
en muchos casos quedan datos atpicos dentro de un bloque y el metodo no los
identifica. En este artculo se muestra un criterio para identificar el bloque Y1
que contiene el grupo m
as grande de observaciones atpicas.

111

Un criterio para identificar datos atpicos

2.

Resultados b
asicos del ajuste del modelo de
regresi
on lineal m
ultiple

Mediante el metodo de estimacion mnimos cuadrados ordinarios (MCO)


se obtiene para el modelo dado en (1) los siguientes estimadores:
0
b = (X X)1 X 0 Y,
Yb = X = X(X 0 X)1 X 0 Y = HY,
b
 = Y Y = Y HY = (I H)Y,

(4)

SCE = b
 0b
 = [(I H)Y ] (I H)Y = Y 0 (I H)Y.
Observese que la matriz H determina muchos de los resultados de las estimaciones por MCO; por ejemplo, cuando premultiplica al vector de respuestas
Y se obtienen los valores predichos de la variable dependiente, por eso en la
literatura estadstica en algunos casos la denominan matriz de predicci
on, y a
la matriz I H la llaman matriz residual, puesto que al anteponersele a la
variable dependiente Y se obtienen los respectivos residuales.

2.1.

Propiedades de las componentes de la matriz H

En Hoaglin & Welsch (1978) se establece para la matriz H = [hij ] de tama


no
n n, las siguientes propiedades:
n
P
P 2
(a) hii =
h2ij = h2ii +
hij ya que Hes simetrica e idempotente.
j=1

j6=i

(b) 0 < hii 1,


si i = 1, 2, . . . , n.
(c) 0,5 hij 0,5,
para i 6= j.
(d) (1 hii )(1 hjj ) h2ij 0.
(e) hii hjj h2ij 0.
(f ) Si hii = 1, entonces hij = 0, para todo j 6= i.
Si la matriz X de tama
no n r es de rango r, entonces
n
n
n
P
P P
(g)
hii =
h2ij = r = tr(H),
(h)

i=1
n
P

i=1

hij =

i=1 j=1
n
P

hij = 1,

j=1

donde tr(H) denota la traza de la matriz H.


Dado que hij = xi (X 0 X)1 x0j , entonces hii esta determinado por la locali-

112

Jose A. Jimenez M.

zaci
on de xi en el espacio X, es decir, un valor peque
no (grande) de hii indica
que xi se encuentra cerca (lejos) de la masa de los otros puntos. Ademas,
sugieren que xi es un punto influyente si hii > 2r/n.

3.

C
alculo de la estadstica Qk

En Jimenez (2001b) se establece para la estadstica dada en (3), la siguiente


expresi
on:
Qk = SCE SCE = 2 0  0 (I H) ,
(5)
donde SCE es obtenida en terminos algebraicos como en (4) y SCE , representa la estimaci
on va mnimos cuadrados (EM C) de SCE sin el bloque Y1 de
observaciones. Adem
as, muestra que si el interes es minimizar la SCE , esto
se logra haciendo:
Qk
= 0,

lo cual equivalente a hacer:


b
 + (I H)b
= 0,

(6)

donde b
 es la estimaci
on va mnimos cuadrados (EM C) de  del modelo (1).
Al remplazar (6) en (5) se tiene:
Qk =
b0 (I H)b
=
b0
b
b0 Hb
.

(7)

Esta nueva expresi


on de Qk tiene la ventaja de que esta en terminos de la
estimaci
on del arbitrario, la cual para los objetivos de este trabajo es mas
atractiva, ya que se podr
a establecer su distribucion de probabilidad correspondiente.

4.

Distribuci
on de probabilidad de Qk
 

En Jimenez (2001a) al asumir la restriccion = 1 , se llega a:


0
  

0
0

b
Ik X1 (X2 X2 )1 X2 Y1

b= 1 =
,
0
Y2
0
0

(8)

donde Ik es la matriz identidad de tama


no k k, con k igual a la dimension
del bloque Y1 y Mij = Xi (X20 X2 )1 Xj0 .

113

Un criterio para identificar datos atpicos

Si se reemplaza (8) en el primer termino de la expresion (7) se obtiene




0
0
0
0
Ik
0 Ik X1 (X2 X2 )1 X2
0
0

b
b=Y
Y
X2 (X2 X2 )1 X1 0
0
0


0
Ik
M12
=Y
Y.
(9)
M21
M21 M12
Por otra parte, si se sustituye (8) en el segundo termino de la expresion (7)
y se emplean los resultados dados en Jimenez (2001a), se tiene que:


0
0
H11
H12 M12

b Hb
=Y
Y
H21 M21
H22 + M21 M12 M22




0
0
H11
H12
0
M12
=Y
Y Y
Y.
(10)
H21
H22
M21
M22 M21 M12
Finalmente, al sustituir (9) y (10) en la ecuacion (7), se obtiene que:
0

Qk =b
(I H)b





0
0
Ik
M12
H11
H12 M12
=Y
Y Y
Y
M21 M21 M12
H21 M21 H22 + M21 M12 M22




0
0
Ik
0
H11
H12
=Y
Y Y
Y
0
M22
H21
H22
0

=Y M Y Y HY = Y (M H) Y.

(11)

N
otese que la matriz (M H) es simetrica; ademas, es idempotente. Esto se
puede verificar de la siguiente manera:
(M H) (M H) =M 2 M H HM + H 2 ,
pero M 2 = M , ya que:


Ik
0
Ik
0 M22 0

 
0
I
= k
M22
0

 
0
I
= k
M22 M22
0


0
.
M22

Esto se tiene, ya que para i, j = 1, 2:


0

Mi2 M2j = [Xi (X2 X2 )1 X2 ][X2 (X2 X2 )1 Xj ] = Xi (X2 X2 )1 Xj = Mij ;


por otra parte, HM = H lo cual se puede verificar como sigue:


 
 

H11 H12 Ik
0
H11 H12 M22
H11 H12
=
=
.
H21 H22 0 M22
H21 H22 M22
H21 H22

114

Jose A. Jimenez M.

Aqu cabe notar que cuando X =


0

 
X1
es de rango completo, entonces:
X2
0

Hi2 M2j = [Xi (X X)1 X2 ][X2 (X2 X2 )1 Xj ] = Xi (X X)1 Xj = Hij ,


para i, j = 1, 2; adem
as, como las matrices H y M son simetricas se tiene que
H = (M H)t = HM . En consecuencia,
(M H) (M H) = M H.
Para establecer la distribucion de Qk , se presentan, sin demostracion, los teoremas 1 y 2, mencionados en Searle (1971).
Teorema 1. Si Y es un vector aleatorio de tama
no n 1, distribuido N (, V ),
donde es en si mismo un vector entonces:
E [Y 0 AY ] = tr(AV ) + 0 A

Var [Y 0 AY ] =2 tr(AV )2 + 40 AV A.
0

Teorema 2. Si Y N (, V ), entonces Y 0 AY 2(,) , con grados de libertad = (A) y par


ametro de no centralidad = 21 0 A, si y solo si AV es
idempotente.
Puesto que, bajo el supuesto de normalidad en los residuales se tiene que
Y N (X, 2 In ).

(12)

Como la expresi
on dada en (11) es una forma cuadratica se establecera a
continuaci
on la respectiva distribucion asociada. Por el teorema 1, se tiene que
" 0
#
n
h 0
io
0
Y (M H)Y
1
E
=
k

r
+
tr
(X
X
)
(X
X
)
,
2
2
2
2
2
#
" 0
n
h 0
io
0
Y (M H)Y
1
Var
=2
k

r
+
tr
(X
X
)
(X
X
)
,
2
2
2
2
2
donde r es el rango de la matriz X definida
el modelo (1).
h en
i Cuando esta
0
0
1
matriz es de rango completo se tiene que tr (X2 X2 ) (X2 X2 ) = r.
Utilizando el teorema 2, tambien se concluye que Qk / 2 tiene distribucion
ji-cuadrado central:
Qk
2() ,
(13)
2
h 0
i
0
donde = k r + tr (X2 X2 )1 (X2 X2 ) . Aqu el teorema 2 es aplicable ya
1
que 2 (M H) 2 In es una matriz idempotente.

115

Un criterio para identificar datos atpicos

5.

Metodologa para establecer datos atpicos


Dado que la estadstica Qk se puede obtener de la forma cuadratica:
0

Qk =
b (I H)b
,

(14)

al expresarla en terminos del vector de respuestas Y , queda como:






0
0
Ik
0
H11
H12
Qk =Y
Y Y
Y.
0
M22
H21
H22

(15)

 
Y1
, el bloque Y1 esta conformado
Y2
por las observaciones atpicas, dicho bloque afectara todas las EMC del modelo
dado en (1). Por otra parte, si se reescribe la expresion (5), se tiene que:
Si se considera que en la particion Y =

SCE = SCE + Qk ,
y dado que SCE puede expresarse en forma matricial como sigue


0
0
0
0

SCE = Y
Y = Y [In M ] Y ;
0
Ink M22

(16)

usando (12), se puede establecer que las expresiones,


SCE
2

SCE
,
2

(17)

tienen distribuci
on ji-cuadrado central. Luego, si se divide la ecuacion (13) por
cualquiera de las expresiones dadas en (17), se elimina el termino 2 y queda
el cociente entre dos formas cuadraticas que se distribuyen ji-cuadrado.
Por la teora estadstica se sabe que cuando se realiza el cociente entre dos
variables aleatorias independientes con distribucion ji-cuadrado y cada una se
divide por sus respectivos grados de libertad, se obtiene una nueva variable con
distribuci
on F .
Para llevar a cabo el cociente mencionado anteriormente se debe verificar
con cu
al de las distribuciones asociadas a las expresiones dadas en (17) la
distribuci
on de probabilidad expresada en (13) es independiente; para ello, se
enuncia sin demostraci
on el teorema 3, citado en Searle (1971).
Teorema 3. Cuando Y N (, V ), las formas cuadraticas Y 0 AY y Y 0 BY ,
est
an distribuidas independientemente si y solo si AV B = 0.

116

Jose A. Jimenez M.

Veamos si las distribuciones asociadas a Qk y SCE son independientes. Si


se retoman las ecuaciones dadas en (11) y (4), se tiene por el teorema 3 que
Qk y SCE no son independientes, pues,
(M H)( 2 In )(In H) = 2 (M H)(In H)
= 2 [M M H H + H 2 ] = 2 (M H) 6= 0;
en la u
ltima ecuaci
on se tuvo en cuenta que H es idempotente y que M H = H.
De manera an
aloga, se verifica si son independientes las distribuciones de
probabilidad de Qk y SCE ; de las ecuaciones (11) y (16) utilizando el teorema
3, se concluye que son independientes, ya que:
(M H)( 2 In ) (In M ) = 2 (M H) (In M )


= 2 M M 2 H + HM = 0.
En esta u
ltima expresi
on se utilizaron los resultados: M H = H y M 2 = M .
La media y varianza de la SCE se obtienen por el teorema 1, como sigue:
#
0
n
h 0
io
0
Y (In M ) Y
1
=
n

tr
(X
X
)
(X
X
)
,
E
2 2
2 2
2
" 0
#
n
h 0
io
0
Y (In M ) Y
1
V ar
=2
n

tr
(X
X
)
(X
X
)
.
2
2
2
2
2
"

Como la media y la varianza de la distribucion 2 son y 2 respectivamente, se


 0

deduce que Y (In M ) Y / 2 tiene distribucion ji-cuadrado central. Se llega
1
a la misma conclusi
on, ya que 2 (In M ) 2 In es idempotente, utilizando el

teorema 2. As pues,
0

Y (In M ) Y
2 ,
2

(18)

 0

0
con = nktr (X2 X2 )1 (X2 X2 ) . Cuando la matriz X es de rango completo
 0

0
se tiene que tr (X2 X2 )1 (X2 X2 ) = r.
Como las distribuciones de probabilidad asociadas a las expresiones (15) y
(16) son independientes, al hacer el cociente entre las relaciones (13) y (18),

117

Un criterio para identificar datos atpicos

dividiendo cada una por sus correspondientes grados de libertad, se llega a:


Qk
nrk
b(I H)b

k 2
=
,

SCE
k
SCE
(n r k) 2


nrk
Qk
F(k,nrk) .
k
SCE
Estos resultados se pueden resumir en los siguientes teoremas.
Teorema 4. Si en un modelo de regresion lineal m
ultiple particionado como:
   
 
Y1
X1

=
+ 1 ,
Y2
X2
2
se elimina el bloque Y1 de dimension k, entonces el cambio que se presenta en
la SCE se calcula mediante la expresion:
(Y1 ) =

b0 [In H]
b
1
,
2
k
S(Y1 )

(19)

SCE
es la estimacion usual de 2 , despues de eliminar
nkr
 
0
0

b
las observaciones del bloque Y1 , y
b = 1 , con
b1 = Y1 +X1 (X2 X2 )1 X2 Y2 .
0
2
donde S(Y
=
b2 =
1)

Teorema 5. En un modelo de regresion lineal m


ultiple Y = X + , bajo el
supuesto de que  N (0, 2 In ), se tiene que:
(Y1 ) F(k,nrk) ,

con

k = dimension del bloque Y1 ,


r = rango de la matriz X.

En este caso, se clasifica como atpico al bloque Y1 de observaciones, si con un


nivel de significancia se satisface que:
(Y1 ) > F(k,nrk,/2) .

6.

(20)

Ejemplo

En la Tabla 1, se considera el conjunto de 21 observaciones (x, y), dado por


Mickey, Dunn & Clark (1967).
Para este conjunto de datos, se presentan los siguientes resultados:

118

Jose A. Jimenez M.

Tabla 1: Datos de Mickey, Dunn, and Clark (1967)


Obs.

1
2
3
4
5
6
7

15
26
10
9
15
20
18

95
71
83
91
102
87
93

Obs.

8
9
10
11
12
13
14

11
8
20
7
9
10
11

100
104
94
113
96
83
84

Obs.

15
16
17
18
19
20
21

11
10
12
42
17
11
10

102
100
105
57
121
86
100

1. La estimaci
on del modelo de regresion lineal, con las 21 observaciones.
2. Los elementos de la diagonal de la matriz H, las estimaciones de los i y
al eliminar el i-esimo dato se establecen la estadstica Q1 , la distancia de
Cook y la estadstica (i) con su p-valor correspondiente.
3. La estimaci
on del modelo de regresion lineal, despues de eliminar la observaci
on influyente determinada mediante distancia de Cook.
4. La estimaci
on del modelo de regresion lineal, sin la observacion que se
considera influyente por la estadstica (i) .
1. An
alisis de varianza para el conjunto completo de datos:
Fuente de
variaci
on

Grados
libertad

Suma de
cuadrados

Cuadrados
Medios

Valor crtico
de F

Regresi
on
Residuos
Total

1
19
20

1604,0809
2308,5858
3912,6667

1604,0809
121,5045

13,2018

0,00177

Coeficiente de determinacion R2 = 0,409971261:

Intercepto
Variable X

Coeficientes

Error tpico

Estadstico t

109,8738
-1,1270

5,0678
0,3102

21,6808
-3,6334

119

Un criterio para identificar datos atpicos

2. Compendio de estadsticas:
Obs.
Elim.

hii

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

0,0479
0,1545
0,0628
0,0705
0,0479
0,0726
0,0580
0,0567
0,0799
0,0726
0,0908
0,0705
0,0628
0,0567
0,0567
0,0628
0,0521
0,6516
0,0531
0,0567
0,0628

bi

Qk

Di

(k=1)

(100Di )

-2,1332
11,3214
16,6498
9,3936
-9,4856
0,3602
-3,6220
-2,6746
-3,4148
-7,1879
-12,1145
4,0141
16,6498
14,2866
-4,7948
-1,4896
-9,1255
15,9026
-31,9816
12,1664
-1,4896

4,333
108,370
259,803
82,015
85,664
0,120
12,358
6,748
10,729
47,914
133,443
14,976
259,803
192,540
21,687
2,080
78,936
88,105
968,562
139,634
2,080

0,09
8,15
7,17
2,56
1,77
0,00
0,31
0,17
0,38
1,54
5,48
0,47
7,17
4,76
0,54
0,06
1,79
67,81
22,33
3,45
0,06

Valor hii > 4/21 |i | j


para todoj
Inusual

el m
as
grande

Di > 0, 5

(i)

pvalor

0,0338
0,8866
2,2826
0,6630
0,6937
0,0009
0,0969
0,0528
0,0840
0,3815
1,1043
0,1175
2,2826
1,6378
0,1707
0,0162
0,6373
0,7142
13,0103
1,1588
0,0162

0,8561
0,3589
0,1482
0,4261
0,4158
0,9759
0,7592
0,8209
0,7752
0,5445
0,3072
0,7357
0,1482
0,2169
0,6844
0,9000
0,4351
0,4091
0,0020
0,2959
0,9000
p<
(=5 %)

De los resultados anteriores se tiene que:


a) La observaci
on que se clasifica como influyente, usando la estadstica
propuesta por Cook, coincide con la que se detecta con el criterio
para el elemento hii .
b) Los otros metodos detectan la misma observacion como atpica cuando se elimina una sola observacion, pero cuando se eliminan dos
o m
as observaciones el procedimiento mas formal es el del p-valor
asociado a la estadstica (Y1 ) .

120

Jose A. Jimenez M.

3. Cuando se elimina la observacion 18, se obtiene:


Fuente de Grados Suma de Cuadrados
variaci
on libertad cuadrados
medios
Regresi
on
Residuos
Total

1
18
19

280,5195
2220,4805
2501

280,5195
123,3600

Valor crtico
de F

2,27399

0,1489

Coeficiente de determinacion R2 = 0,112162.


Cambio en la suma de los residuales Qk = 88,10525836.
Coeficientes
Intercepto
Variable X

105,62987
-0,77922

Error tpico Estadstico t


7,1619276
0,516733

14,7488045
-1,5079754

La distancia de Cook nos indico que la pareja (42, 57) era la que mas
afectaba la EM C de los parametros, pero al eliminarla el modelo obtenido
fue m
as deficiente que el modelo completo. Por lo tanto, la observacion
es solamente influencial pero no es atpica.
4. Eliminando la observacion 19 que detecto (i) como atpica, se tiene:
Fuente de Grados Suma de Cuadrados
variaci
on libertad cuadrados
medios
Regresi
on
Residuos
Total

1
18
19

1788,17619
1340,02381
3128,2

Valor crtico
de F

1788,17619 24,01985
74,44577

0,0001151

Coeficiente de determinacion R2 = 0, 57163103.


Cambio en la suma de los residuales Qk = 968, 5619674.
Coeficientes
Intercepto
Variable X

109,30468
-1,19331

Error tpico Estadstico t


3,96996
0,24348

27,5329
-4,9010

El modelo que se obtiene al eliminar la pareja (17, 121) es mejor que el modelo
completo, pues el nuevo coeficiente de determinacion es superior al del modelo
inicial. El valor crtico de la F es tambien inferior al valor crtico que se determin
o en el an
alisis de varianza del modelo inicial y, ademas, el cuadrado medio
del error (CM E) fue menor que el CM E del modelo completo. Aunque dicha
observaci
on es atpica, no es influyente en la estimacion de los parametros del
modelo.

Un criterio para identificar datos atpicos

7.

121

Conclusiones

La metodologa aqu presentada permite detectar en un grupo de observaciones la observaci


on m
as atpica, es decir, el dato mas influyente sobre el
cambio en la suma de cuadrados de los residuales. Ademas, este procedimiento
proporciona una manera de cuantificar el impacto de cada observacion sobre la
suma de cuadrados de los residuales, pues empleando la distribucion F -central
este metodo permite asignarle un p-valor a cada influencia; de esta manera se
obtiene un criterio m
as exacto que el usado tradicionalmente.

Bibliografa
Bartlett, M. S. (1937), Some examples of statistical methods of research in
agriculture and applied botany, Journal of the Royal Statistical Society
B4, 137170.
Draper, N. R. & John, J. A. (1981), Influential observations and outliers in
regression, Technometrics 23(1), 2126.
Hoaglin, D. C. & Welsch, R. E. (1978), The hat matrix in regression and
anova, The American Statistician 32(1), 1722.
Jimenez, J. A. (2001a), Una generalizacion de la estadstica de Cook, Revista
Colombiana de Estadstica 24(2), 111120.
Jimenez, J. A. (2001b), Una maximizacion de la estadstica Qk , Revista
Colombiana de Estadstica 24(1), 4557.
Little, R. J. & Rubin, D. B. (1987), Statistical Analysis With Missing Data,
John Wiley & Sons.
Mickey, M. R., Dunn, O. J. & Clark, V. (1967), Note on the use of stepwise regression in detecting outliers, Computers and Biomedical Research,
1, 105111.
Searle, S. (1971), Linear Models, John Wiley & Sons.
Tukey, J. W. (1977), Exploratory Data Analysis, Addison Wesley.