Está en la página 1de 9

ESTADISTICA II SEMESTRE - EAPE-FCM.

UNNMSM

UNIDAD TEMATICA 4: RECTA RESISTENTE


ANLISIS EXPLORATORIO DE DATOS, Y VERSUS X
Introduccin
Para ajustar una linea recta de la forma y = a + bx a un conjunto de datos (xi; yi); i = 1,, n, se han
desarrollado varios mtodos a lo largo de la historia. La regresin por mnimos cuadrados que hemos
explicado es el mtodo ms conocido y ms ampliamente utilizado. Es un mtodo que involucra
clculos algebraicamente simples, y requiere nicamente una derivacin matemtica sencilla. Pero,
la recta de regresin mnimo-cuadrtica no es resistente. Un solo dato atpico "outlier puede tomar
fcilmente el control de la recta ajustada y conducirnos a conclusiones engaosas sobre la relacin
entre X e Y.
La recta resistente de los tres grupos evita esta dificultad. Esta recta es muy til en el anlisis
exploratorio de los datos y-versus-x.
Del libro clsico Understanding Robust and Exploratory Data Analysis de Hoaglin, Mosteller y
Tukey , se expondr el mtodo de los tres grupos para ajustar una recta resistente.
Recta resistente de los tres grupos
Formacin de los tres grupos:
Dado (xi, y i) , i= 1, , n, se empieza por ordenar los valores x de manera que x 1

x2

xn.

sobre estos valores ordenados, se divide los n puntos (x i; yi) en tres grupos: un grupo
izquierdo (o superior), un grupo central y un grupo derecho (o inferior), del mismo tamao
como sea posible.
El nmero de puntos (xi, y i) en cada uno de los tres grupos depende residuo de la divisin de
n por 3:
Grupo
Superior
Central
inferior

n=3k
K
K
k

n=3k+1
K
K+1
k

n=3k+2
K+1
K
K+1

Denotamos con:
Xs Ys, Xc Yc y Xi Yi
a cada uno de los tres grupos de pares de (X,Y), superior, central e inferior respectivamente.
Se calcula la mediana de cada grupo que los representaremos por:
,
,
Este sistema de determinacin de los puntos centrales de cada grupo es el que da resistencia
a la recta construida. Cuanto mayor es el nmero de puntos observados en cada grupo, la
mediana proporciona la resistencia a los valores influyentes de x, y o ambos.

Clculo de la Pendiente (b) y el nivel (0 intercepcin) (a)

Profesoras.: Ana Mara Crdenas Rojas, Justa Caridad Huaroto Sumari, Ilse Janine
Villavicencio Ramrez

ESTADISTICA II SEMESTRE - EAPE-FCM.UNNMSM

Ahora utilizaremos los puntos centrales (medianas de X e Y) para calcular la pendiente b y la


ordenada en el origen o nivel o intercepcin a de la recta y = a+bx que ajusta los valores
observados y permite la prediccin de los valores de y i a partir de los xi observados y cualquier otro
valor apropiado de x. En este sentido, la pendiente b nos dice cuantas unidades de y cambian por una
unidad de x.

Se halla la pendiente b 0 y el nivel a 0 de la recta inicial Y0 = a 0 + b0(x Donde: b 0 = (

)/(

a0 = 1/3 (((

- b0(

)
-

))+

+(

- b0(

)))

Como los puntos centrales estn basados en la mediana, a0 y b0 son resistentes.


El ajuste de una recta en trminos de pendiente e intercepcin (nivel) es convencional. La
intercepcin, que da el valor de y cuando x = 0, puede ser determinada de forma imprecisa,
especialmente cuando los valores de x estn todos muy alejados del cero y cuando el cero es un valor
sin sentido en el rango de las x. Ajustar la recta en trminos de pendiente y un valor central de las x,
como la mediana o
, es mucho ms til. Nosotros escogeremos
por conveniencia, entonces
la recta inicial es y= a 0 + b0(x -

); esta recta se toma como punto de partida para ajustar una

mejor con iteraciones sucesivas.


Ajuste de los residuos e iteraciones
Una vez que hemos obtenido la pendiente y el nivel de la recta inicial ajustada, el siguiente paso es
calcular los residuos iniciales para cada punto:
ri 0 = yi -[a 0+ b0(xi )]

Los grficos de los residuos son muy tiles en la evaluacin del ajuste y para descubrir
patrones de comportamiento inesperados.
Si sustituimos los valores originales de y por los residuos, es decir, si utilizamos (xi, ri) en
lugar de (xi, yi), i = 1 ,, n y repetimos el proceso de ajuste, entonces llegaremos a un
ajuste cero.
Para una lnea recta esto significa que, con los puntos (xi; ri); i = 1,, n como datos,
obtendremos una pendiente cero y un nivel cero. En otras palabras, los residuos no
contienen ms aportacin a la recta ajustada, entonces el modelo es el adecuado, es decir toda
la relacin lineal contenida en los datos est contenida en el modelo. Una importante
caracterstica de los procedimientos resistentes es que habitualmente requieren iteraciones y
ese es el caso de la recta resistente de los tres grupos.
En concreto, utilizaremos los residuos iniciales ri 0 = yi -[a 0+ b0(xi )]
i = 1,, n en lugar de los yi y repetiremos los pasos del proceso de ajuste. Como el conjunto
de las xi no ha cambiado, los tres grupos y las medianas de las x en los puntos centrales sern
los mismos.

Profesoras.: Ana Mara Crdenas Rojas, Justa Caridad Huaroto Sumari, Ilse Janine
Villavicencio Ramrez

ESTADISTICA II SEMESTRE - EAPE-FCM.UNNMSM

El ajuste a una recta de los residuos obtenidos a partir de la recta inicial da unos valores d
para la pendiente y g para el nivel, obteniendo la estimacin para la recta con pendiente b 1
= b0 + d1 y nivel a1 = a0 + g 1
~
Con esta nueva estimacin para la recta Y1 = a 1 + b1(x - Xc ) , se vuelve a calcular los
residuales para ver si su pendiente es ahora prxima a cero.
Y as continuamos en cada iteracin, obteniendo la nueva pendiente b adicionando la
pendiente de los residuos d a la pendiente anterior; y el nuevo nivel adicionando el nivel
de los residuales g al nivel anterior, es decir:
b1 = b0 +d 1, b2 = b1 + d 2,, bj = bj-1 + d j, ..
a1 = a0 + g 1, a2= a1 + g 2, , aj = aj-1 + g j,
Si concluida la i-sima iteracin encontramos que al calcular la pendiente de los residuos
dj es bastante cercana a cero entonces concluimos el algoritmo y habremos llegado al ajuste
deseado y hallado la recta resistente adecuada.
En la prctica se contina con las iteraciones hasta que el ajuste de la pendiente sea
suficientemente pequeo en magnitud ( del 1% al 0.01% del tamao de b 0)
Las iteraciones son normalmente pocas y los clculos no muy largos.
Cuando se tiene dos pendientes residuales di-1 y d i una con signo positivo y la otra con signo
negativo, sabemos que la pendiente correcta est entre ellas , y se estima la nueva pendiente
d i+1; y si los residuos de la recta ajustada con pendiente d i+1 tiene pendiente cero, hemos
llegado al ajuste deseado. Y la recta final ajustada tendr pendiente b j+1 y nivel a j+1

Ejemplo.- Se tiene la edad dada en meses y la altura dada en centmetros de 18 nios de una escuela
particular, y se desea predecir la altura.
Grfico 1

160.0

150.0

140.0

110

120

130

140

edad(meses)_nios

Observe el grfico y comente.


Profesoras.: Ana Mara Crdenas Rojas, Justa Caridad Huaroto Sumari, Ilse Janine
Villavicencio Ramrez

ESTADISTICA II SEMESTRE - EAPE-FCM.UNNMSM

En la siguiente tabla se muestra los datos ( xi,yi) y los residuales ri luego del ajuste de la recta en cada
iteracin.
En la parte inferior de la tabla se muestra los clculos para obtener la pendiente y el nivel en cada iteracin.
NOTA: en la mayora de los casos se ha tratado de aproximar a 4 decimales y por ello posiblemente exista problemas de redondeo.

Nio

altura (Y)

edad(X)

residuo inicial r0

resid. r1

resid.r2

137.6

109

0.7133

-0.4391

-0.3257

147.8

113

8.9396

8.0691

8.1573

136.8

115

-3.0470

-3.7765

-3.7009

140.7

116

0.3596

-0.2993

-0.2300

132.7

119

-9.1203

-9.5677

-9.5173

145.4

120

3.0865

2.7095

2.7536

135

121

-7.8069

-8.1133

-8.0755

133

124

-11.2868

-11.3817

-11.3628

148.5

126

3.2267

3.2727

3.2790

10

148.3

129

1.5468

1.8043

1.7917

11

147.5

130

0.2535

0.5815

0.5626

12

148.8

133

0.0736

0.6131

0.5753

13

133.2

134

-16.0198

-15.4097

-15.4538

14

148.7

135

-1.0130

-0.3325

-0.3829

15

152

137

1.3004

2.1219

2.0589

16

150.6

139

-1.0862

-0.1237

-0.1993

17

165.3

141

12.6272

13.7307

13.6425

18

149.9

142

-3.2661

-2.0921

-2.1866

SOLUCION:

Recta inicial
ajustada

Recta inicial Yo Y0 = 146.0133 + 0.4933( X - 127.5)


bo
0.4933
146.013
ao
Profesoras.:
Ana Mara Crdenas Rojas, Justa Caridad Huaroto Sumari, Ilse Janine
3
Villavicencio Ramrez

ESTADISTICA II SEMESTRE - EAPE-FCM.UNNMSM

Se muestra los Y est., residuos y edad correspondientes:


Yest0
136.8
9
138.8
6
139.8
5
140.3
4
141.8
2
142.3
1
142.8
1
144.2
9
145.2
7
146.7
5
147.2
5
148.7
3
149.2
2
149.7
1
150.7
0
151.6
9
152.6
7
153.1
7

ro
0.7133
8.9396
-3.0470
0.3596
-9.1203
3.0865
-7.8069
-11.2868
3.2267
1.5468
0.2535
0.0736
-16.0198
-1.0130
1.3004
-1.0862
12.6272
-3.2661

edad(X)

Yest1
138.0
4
139.7
3
140.5
8
141.0
0
142.2
7
142.6
9

109
113
115
116
119
120
121

143.11
144.3
8
145.2
3
146.5
0
146.9
2
148.1
9
148.6
1
149.0
3
149.8
8
150.7
2
151.5
7
151.9
9

124
126
129
130
133
134
135
137
139
141
142

r1

edad(X)

-0.4391
8.0691
-3.7765
-0.2993
-9.5677
2.7095
-8.1133
-11.3817
3.2727
1.8043
0.5815
0.6131
-15.4097
-0.3325
2.1219
-0.1237
13.7307
-2.0921

109
113
115
116
119
120
121
124
126
129
130
133
134
135
137
139
141
142

Yest2
137.9
3
139.6
4
140.5
0
140.9
3
142.2
2
142.6
5
143.0
8
144.3
6
145.2
2
146.5
1
146.9
4
148.2
2
148.6
5
149.0
8
149.9
4
150.8
0
151.6
6
152.0
9

r2

edad(X)

-0.3257

109

8.1573

113

-3.7009

115

-0.2300

116

-9.5173

119

2.7536

120

-8.0755

121

-11.3628

124

3.2790

126

1.7917

129

0.5626

130

0.5753

133

-15.4538

134

-0.3829

135

2.0589

137

-0.1993

139

13.6425

141

-2.1866

142

Medianas de Y , X y de los residuales en cada grupo:


Mediana Y

Mediana X

mediana ro

mediana r1

mediana r2

superior

139.15

115.5

0.5365

-0.3692

-0.2779

Centro

147.9

127.5

0.1635

0.5973

0.5690

inferior

150.25

138

-1.0496

-0.2281

-0.2911

Profesoras.: Ana Mara Crdenas Rojas, Justa Caridad Huaroto Sumari, Ilse Janine
Villavicencio Ramrez

ESTADISTICA II SEMESTRE - EAPE-FCM.UNNMSM

Clc
ulo
de la
pend
iente
d y
Resultados
de las iteraciones
el
halladas hasta obtener la ecuacin
de lanivel
recta resistente:
o
Partiendo
de la recta inicial:
inter
Yo cept
= 146,0133+ 0,4933(X-127,5)
o g
en
las
Iteracin 1:
recta
s b1 = b0 + d1= 0.4933+(-0.0705) = 0.4228
pendiente
ajust
adas
nivel a1
=ao + g1 = 146.0133+(-0.1518) = 145.8615
(r ,
x) 145,8615+ 0,4228(XY1 =
127,5)
Clculo de la nueva pendiente b y
elIteracin
nuevo nivel o 2:
intercepto a en
cada iteracin para obtener la recta
pendiente
b2= b1 +d2 = 0.4228 +0.0063= 0.4291
resistente.
nivel a2= a1 +g2=145.8615+0.00315=145.86465

b2 = b 1 + d 2

Y2 = 145,8647+ 0,4291(X-127,5)
Iteracin 3:
pendiente b3 = b2+ d3= 0.4291+(-0.00058852) = 0.4228

b3 = b 2

+ d3
a 2 = a1 + g2
a 3 = a2 + g3

nivel a3 =a2 + g3 = 145.86465+0.00313296 = 145.867783


Y3 = 145,8678+ 0,4285(X-127,5)
Hemos llegado a la ltima iteracin?

Grfico 2

Ser Y3 la recta resistente final ajustada?. Por qu?

Para evaluar el modelo


presentamos el grfico de resduos:
edad Versus r 1
edad Versus r 2

Grfico 3

Residuos r 1 versus edad, despus del


Profesoras.: Ana Mara Crdenas Rojas, Justa Caridad Huaroto Sumari, Ilse Janine
ajuste de la recta
Villavicencio Ramrez

ESTADISTICA II SEMESTRE - EAPE-FCM.UNNMSM

Residuos r 2 versus edad, despus del ajuste por la recta resistente.


En general podemos decir que el grfico es bastante satisfactorio, los puntos que corresponden a los
nios con los nmeros 13 y 17 se apartan mucho y son atpicos; y los puntos que corresponden a los
nios con los nmeros 5, 7 y 8 toman valores negativos muy bajos para nios que tienen alrededor de
120 meses. Se observa que los dos puntos correspondientes a los nios 13 y 17 han tenido muy poco
efecto en el ajuste de los datos.
Si ajustamos una recta por el mtodo de mnimos cuadrados corre mucho ms riesgo de dejarse
influenciar por estos puntos.
Salida del SPSS para el ajuste mnimo cuadrtico

Mode
l
1

R
R Square
Change

R
Square
F
Change

Adjusted R
Square

Std. Error of the


Estimate

df1

.608(a)

.369

.330

df2

Change Statistics
Sig. F
R Square
Change
Change

F
Change

df
1

7.0286

.369

9.369

16

F
9.369

Sig.
.007(a)

df2
.
007

a Predictors: (Constant), edad(meses)_nios


b Dependent Variable: altura(cms)-nios
ANOVA(b)
Sum of
Squares
df
Regression
462.834
1
Residual
790.431
16
Total
1253.264
17
a Predictors: (Constant), edad(meses)_nios
b Dependent Variable: altura(cms)-nios
Model
1

Mean Square
462.834
49.402

Coefficients(a)
Unstandardized
Coefficients
Model
1

B
79.696
.511
a Dependent Variable: altura(cms)-nios
(Constant)
edad(meses)_nios

Std. Error
21.251
.167

Standardized
Coefficients
Beta
.608

Sig.

B
3.750
3.061

Std. Error
.002
.007

La recta de regresin mnimo cuadrtica es: Y = 79.695 + 0.511 X , la cual tambin se puede expresar como: Y= 144.8475+0.511(X127.5).Se observa que los puntos 5,7,8 y 17 han empinado un poco la recta.
Grfico 4

Profesoras.: Ana Mara Crdenas Rojas, Justa Caridad Huaroto Sumari, Ilse Janine
Villavicencio Ramrez

ESTADISTICA II SEMESTRE - EAPE-FCM.UNNMSM

10.00000

0.00000

-10.00000

110

120

130

140

edad(meses)_nios

Observando los grficos 4 y 3, aunque son bastante similares, el grfico 4 nos da la sensacin de una
ligera tendencia negativa , en este caso debemos prestar ms atencin a la variabilidad de los
residuos que a la diferencia de las pendientes.
En resumen , hemos podido apreciar cmo algunos datos pueden afectar a la recta mnimo cuadrtica
mucho ms que la recta resistente; en el caso que los datos estn razonablemente bien dispuestos las
dos rectas son parecidas.
Eliminando el dato 17 , hallemos la recta mnimo cuadrtica.
Se presenta el listado segn el SPSS
Model Summary(b)
Model
R
R Square
1
.533(a)
.284
a Predictors: (Constant), edad_17
b Dependent Variable: altura_17

Adjusted R
Square
.236

Std. Error of
the Estimate
6.16841

ANOVA(b)
Sum of
Squares
Regression
226.391
Residual
570.740
Total
797.131
a Predictors: (Constant), edad_17
b Dependent Variable: altura_17
Model
1

df
1
15
16

Mean Square
226.391
38.049

F
5.950

Sig.
.028(a)

Sig.

B
4.826
2.439

Std. Error
.000
.028

Coefficients(a)
Unstandardized
Coefficients
Model
1

B
95.293
.381
a Dependent Variable: altura_17
(Constant)
edad_17

Std. Error
19.747
.156

Standardized
Coefficients
Beta
.533

Profesoras.: Ana Mara Crdenas Rojas, Justa Caridad Huaroto Sumari, Ilse Janine
Villavicencio Ramrez

ESTADISTICA II SEMESTRE - EAPE-FCM.UNNMSM

La recta de regresin mnimo cuadrtica es: Y = 95.293 + 0.38 X, la cual tambin se puede expresar como: Y= 143.7437+0.38 (X127.5). Se observa que la pendiente est ms prxima a la pendiente de la recta Y 3
Grfico 5
10.00000

5.00000

0.00000

-5.00000

-10. 00000

135.00000

140.00000

145.00000

150.00000

Unstandardized Predicted Value

Grfico 6
10.00000

5.00000

0.00000

-5.00000

-10.00000

110.00

120.00

130.00

140.00

edad_17

El grfico 6 difiere del grfico 4 Por qu?

Profesoras.: Ana Mara Crdenas Rojas, Justa Caridad Huaroto Sumari, Ilse Janine
Villavicencio Ramrez

También podría gustarte