Está en la página 1de 18

CUARTA TAREA ANALISIS

DE REGRESION
Profesor: Jose Alberto Vargas.
Estudiantes:
Ana Mara Mondragon Moreno
Cod: 163056
Andres Felipe Calderon Castro
Cod: 25141155
Juan Sebastian Marn Rodrguez
Cod: 163047
5 de junio de 2015

Problema 12.3
Los estimadores M funcionan mal cuando hay valores atpicos en X, ya que en su proceso iterativo de selecci
on
toma como punto de partida los estimadores por mnimos cuadrados ordinarios que tambien son afectados por
los valores atpicos en X. Esto se debe a que los valores atpicos en X pueden incluso cambiar el signo de los
betas al intentar minimizar los errores al cuadrado. Diferente de los valores atpicos en Y que nos generan es
un desplazamiento de la recta de regresi
on.
Ejemplo :
X
1
2
3
3
4
5
5
6
7
15

Y
2
5
3
6
7
6
10
9
11
5

Con mnimos cuadrados ordinarios se obtienen los siguientes resultados:


Coeficientes
Interceptos
x

Estimado
5.4233
0.1915

Error estandar
1.6001
0.2533

Valor t
3.389
0.756

Pr( > |t|)


0.00951***
0.471333 ***

Residual standard error: 2,986 on 8 degrees of freedom


Multiple R-squared: 0,06668, Adjusted R-squared: 0,04999
F-statistic: 0,5715 on 1 and 8 DF, p-value: 0,4713
Mientras que con estimadores M se obtiene:
C
odigo en R:

Call:
rlm(f ormula = Y -X , data = Datos, psi= psi . huber)
coverged in 1 iterations
Interceptos
5.4233261

X
0.1615047

degrees of freedom: 10 total;8 residual; Scale estimate: 4.02


C
odigo en R:
Call:
rlm(f ormula = Y -X , data = Datos, psi= psi . bisquare)
coverged in 3 iterations
Interceptos
5.4185336

X
0.1890752

degrees of freedom: 10 total;8 residual; Scale estimate: 4.03


Con esto se puede observar que los estimadores M no genera resultados satisfactorios cuando hay presencia de
valores atpicos en el eje X.

Problema 12.4
Consideremos el siguiente conjunto de datos:
X
1
2
3
3
4
5
5
6
7
15

W
10
12
15
57
16
20
21
19
16
14

Y
2
5
3
6
7
6
10
9
11
5

Con mnimos cuadrados ordinarios se obtendra:


Coeficientes
Interceptos
W
X

Estimado
4.60431
0.03659
0.20863

Error estandar
2.43682
0.07864
0.26924

Valor t
1.889
0.465
0.775

Pr( > |t|)


0.01
0.656
0.464

Residual standard error: 3,143 on 7 degrees of freedom


Multiple R-squared: 0,09466, Adjusted R-squared: 0,164
F-statistic: 0,366 on 2 and 7 DF, p-value: 0,706
Mientras que con estimadores M se obtiene:
C
odigo en R:
Call:
rlm(f ormula = Y -X + W , data = Datos, psi= psi . huber)
coverged in 1 iterations
2

Interceptos
4.60430853

X
0.20862516

W
0.03658516

degrees of freedom: 10 total;7 residual; Scale estimate: 3.88


C
odigo en R:
Call:
rlm(f ormula = Y -X+ W , data = Datos, psi= psi . bisquare)
coverged in 3 iterations
Interceptos
4.60430853

X
0.20862516

W
0.03658516

degrees of freedom: 10 total;7 residual; Scale estimate: 4.03


Al hacer la comparaci
on entre los mnimos cuadrados ordinarios y los estimadores M se puede apreciar la poca
2
diferencia entre las estimaciones. Ahora, partiendo del mal ajuste de los MCO cuyo R2 es de 0,095, su Radj
que
incluso da negativo y la significancia global del modelo a traves de la prueba de hipotesis:
H0 :1 =2 =0 vs H1 :i 6=0 Para al menos un i.
Se aprecia que no es posible rechazar H0 , por lo que el modelo no es significativo. Luego, los estimadores M
tampoco producen resultados satisfactorios.

Problema 12.7
La Winsorizaci
on se podra aplicar a un problema de regresion considerando su aplicacion en los residuales del
modelo:

1.
La winsorizaci
on se podra aplicar a un problema de regresion considerando su aplicacion en los residuales del
modelo:

2.
Se redefine el residual menor e1 y el residual mayor en de tal organizacion dandoles, respectivamente, el valor
m
as peque
no y m
as grande del listado de residuales sin tenerlos (a e1 y en ) en cuenta. Con esto, e2 =e1 y en1
= en

3.
La minimizaci
on del nuevo conjunto de residuales dara probablemente un mejor ajuste que el ofrecido por la
regresi
on usual por MCO.

Problema 12.11
Trabajando con un a=5 para trazar la funci
on psi de de bipeso de Tukey y con un a=1.339 para la funci
on de
onda de Andrews, se nota que ambas funciones mantienen comportamientos oscilantes, sin embargo, es facil ver
importantes diferencias como que solo la funcion psi de bipeso de Tukey puede generar valores superiores a 1 o
inferiores a -1, mientras, por la funci
on seno que involucra la de Andrews, los resultados de esta u
ltima no pasa
de -1 y 1. As mismo, la velocidad de oscilaci
on u onda- es superior en la psi de Tukey.
3

Figura 1: Funci
on bipeso de Tukey y Funcion onda de Andrews

Problema 12.12
a)
Valores atpicos en el espacio X: Para los datos en X, podemos observar dos datos que son demasiado altos
comparados con los dem
as. El dato 1 y el 2 con valores de 90, 6 y 87, 8 respectivamente.

Figura 2: Grafica Q-Q para x


Valores atpicos en el espacio Y : Para los datos en de la variable Costo(Y ), podemos observar dos datos
atpicos, estos son el 15 y el 18 con valores de 5428 y 5551 respectivamente.

Figura 3: Grafica Q-Q para y


Valores atpicos de la regresi
on: Los valores atpicos de la regresion son el 19, 13, 2 y 1, ya que cambian
por completo el modelo de ajuste de mnimos cuadrados, haciendo que esta sea erronea para los demas datos.

Figura 4: Nube de puntos x-y

Valores atpicos en los espacios X y Y : No hay datos atpicos que sean outliers al simultaneamente en X
como en Y .
Valor atpico residual: Los datos que presentan altos valores en sus residuales estudentizados, como podemos
ver en la tabla son el 19, 18 y 15. Por otro lado, los que presentan un gran valor en su residual son estos mismos
datos.

Figura 5: Residuales
Si observamos mediante el criterio de los valores Hat, podemos apreciar que los datos con mayores Hatvalues
son 1, 2, 13 y 17. Adem
as coinciden con los valores atpicos en la regresion.
Tabla de atpicos:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

Costo.y
2449
2248
3545
794
1619
2079
918
1231
3641
4314
2628
3989
2308
376
5428
2786
2497
5551
5208

Peso.x
90.6
87.8
38.6
28.6
28.9
23.3
21.1
17.5
27.6
39.2
34.9
46.6
80.9
14.6
48.1
38.1
73.2
40.8
44.6

Distancia de Cook
1.160155e-01
1.312146e-01
7.795240e-03
5.906877e-02
1.758440e-02
4.988106e-03
6.642082e-02
4.831427e-02
2.015087e-02
2.968205e-02
7.807716e-05
1.531828e-02
6.591938e-02
1.570857e-01
8.037951e-02
1.850534e-05
2.157110e-02
9.222055e-02
6.692648e-02

hatvalues
0.28079522
0.25451653
0.05501408
0.07514845
0.07424613
0.09413189
0.10370316
0.12150557
0.07828945
0.05445796
0.06007438
0.05366748
0.19661906
0.13777863
0.05487570
0.05553390
0.14353257
0.05333579
0.05277405

rstudent
-0.76131958
-0.87046231
0.50604478
-1.22326201
-0.65087850
-0.30144788
-1.07650709
-0.82807964
0.67778177
1.01622314
-0.04795632
0.72466006
-0.72359792
-1.44652461
1.76433317
0.02434004
-0.49599842
1.95344078
1.62274814

b)

Figura 6: Ajuste con mnimos cuadrados ordinarios

Coeficientes
Interceptos
x

Estimado
2219.03
13.88

Error estandar
779.09
15.91

Valor t
2.848
0.872

Pr( > |t|)


0.0111*
0.3952

Residual standard error: 1571 on 17 degrees of freedom


Multiple R-squared: 0,04284, Adjusted R-squared: 0,01346
F-statistic: 0,7609 on 1 and 17 DF, p-value: 0,3952
2
El modelo no es satisfactorio ya que al observar el R2 es extremadamente bajo, e incluso el Radj
es negativo,
adem
as, como se puede apreciar en la gr
afica, la recta de regresion de MCO se deja influenciar demasiado por
el cl
uster de datos atpicos.

c)

Figura 7: Ajuste con estimadores M


C
odigo en R:
Call:
rlm(f ormula = Y -X , data = Airf orce, psi= psi . bisquare)
coverged in 4 iterations
Interceptos
2201.73074

X
12.710181

degrees of freedom: 19 total;17 residual; Scale estimate: 1610


El ajuste sigue siendo malo, debido a los datos atpicos que se presentan en el eje X. Y como los estimadores
M toman como punto de partida los MCO, se dejan influenciar por el cluster de datos atpicos en X.

d)

Figura 8: Ajuste con mnima mediana de cuadrados


C
odigo en R:
Call:
lqs.f ormula(f ormula = Y -X , data = Airf orce, method=lms)
Interceptos
-1979.7

X
146.8

Scale estimates 896,7 909,0


El ajuste es satisfactorio, aunque para valores peque
nos de X no tenga sentido la regresion (Costos negativos).
La diferencia es que la mnima mediana de cuadrados no se deja afectar tanto por los valores atpicos.

e)
Para este conjunto de datos se deben elegir estimadores con un punto de quiebre alto, ya que no se dejan afectar
tanto por los cl
uster de datos atpicos.

Problema 12.13
Con mnimos cuadrados ordinarios se tiene:
Coeficientes
Interceptos
X1
X2

Estimado
2.341231
1.615907
0.014385

Error estandar
1.096730
0.170735
0.003613

Valor t
2.135
9.464
3.981

Pr( > |t|)


0.044170*
3.25e-09
0.000631

Residual standard error: 3,259 on 22 degrees of freedom


Multiple R-squared: 0,9596, Adjusted R-squared: 0,9559
F-statistic: 261,2 on 2 and 22 DF, p-value: 4,687e 19

10

Mientras por otro lado, con estimadores M se obtiene:


C
odigo en R:
Call:
rlm(f ormula = Y -X1 +X2 , data = Datos, psi= psi.huber)
coverged in 11 iterations
Interceptos
3.46962725

X1
1.4658185

X2
0.01460906

degrees of freedom: 25 total;22 residual; Scale estimate: 1,54


Con mnimos cuadrados recortados obtiene:
C
odigo en R:
Call:
lqs.f ormula(f ormula = Y -X1 +X2 , data = Datos, method=lts)
Interceptos
3.36352

X1
1.27693

X2
0.01953

Scale estimates 1,356 1,301


Comparando los mnimos cuadrados recortados tanto con los mnimos cuadrados ordinarios y los estimadores
M , la diferencia no es tan importante, especialmente frente a los estimadores M . Podemos observar que la
estimaci
on de X2 es similar con los tres metodos, y la diferencia mas significativa se encuentra con respecto a
X1 .

Problema 12.16
Un estimador de punto de quiebre alto puede ser de mucha utilidad en la primera etapa de un proceso de
regresi
on robusta compuesta, ya que no se deja influenciar tan facil por los datos atpicos e incluso por cl
uster
de datos atpicos, cosa que sucede en el momento de usar MCO o estimadores M, por lo que nos dara un buen
punto de partida. En la segunda etapa, se usan estimadores de influencia limitada, con el fin de mantener la
propiedad de punto de quiebre alto de los estimadores iniciales.

11

Problema 14.1
a)

Figura 9: Gr
afica de lnea ajustada Regresion Logstica.
Coeficientes
Termino constante
X

coef
6.07
-0.01770

EE del coef
2.11
0.00608

VIF
1.00

Ecuaci
on de regresi
on :

exp(6, 07 0, 01770x)
(1 + exp(6, 07 0, 01770x))

(1)

b)
Tabla de desviaciones:
Fuente
Regresi
on
x
Error
Total

GL
1
1
23
24

Desv. ajust.
14.25
14.25
20,36
34,62

Media ajust.
14.2537
14.2537
0,8854

Chi-cuadrada
14.25
14.25

Valor p
0.000
0.000

Deviance : 20,36
D
20, 36
=
= 0,8852
(2)
(n p)
(25 2)
2
Conclusi
on: Teniendo en cuenta que la desviacion distribuye X,(np)
con una confianza del 95 %, entonces
2
como D=20,36 X0,05,23 = 35,172 se peude concluir que se tiene un buen modelo. Por otra parte, Como el
D
valor de (np)
es cercano a uno, se puede decir que el modelo es bueno.
12

c)
Interpretaci
on de beta:
OR = 0, 9825
Interpretaci
on: Por cada unidad de aumento en la velocidad del blanco, el decrecimiento estimado de la probabilidad de exito es de 0, 0175.

d)
Incluyendo el termino cuadr
atico
Ecuaci
on de regresi
on

exp(6, 19 0, 0185x + 0, 000001x2 )


(1 + exp(6, 19 0, 0185x + 0, 000001x2))

(3)

Tabla de desviaciones :
Fuente
Regresi
on
x
x2
Error
Total

GL
2
1
1
22
24

Desv. ajust.
14.2539
0,1132
0,0002
20,3635
34,6173

Media ajust.
7.12694
0,11315
0,00019
0.92561

Chi-cuadrada
14.25
0,11
0,00

Valor p
0.001
0,737
0,989

Conclusi
on: Al comparar las desviaci
on del modelo inicial (tem a) y el que incluye la variable cuadr
atica,
podemos observar que la diferencia es muy peque
na, por lo que podemos concluir que no es necesario incluir el
termino cuadr
atico de la velocidad del blanco.

13

Problema 14.2
a)

Figura 10: Gr
afica de lnea ajustada Regresion Logstica.
Coeficientes
Termino constante
X

coef
-8.74
0.000201

EE del coef
4.44
0.000101

VIF
1.00

Ecuaci
on de regresi
on:

exp(8, 74 + 0, 000201x)
(1 + exp(8, 74 + 0, 000201x))

(4)

b)
Tabla de desviaciones :
Fuente
Regresi
on
x
Error
Total

GL
1
1
18
19

Desv. ajust.
5,091
5,091
22,435
27,526

Media ajust.
5,091
5,091
1,246

Chi-cuadrada
5,09
5,09

Valor p
0,024
0,024

Deviance: 22, 435


D
22,435
=
= 1,2458
(n p)
(20 2)
Conclusi
on:

14

(5)

2
Teniendo en cuenta que la desviaci
on distribuye X,(np)
con una confianza del 95 %, entonces como D=22,435
D
2
es
X0,05,18 = 28,869 se puede concluir que se tiene un buen modelo. Por otra parte, Como el valor de (np)
cercano a uno, se puede decir que el modelo es adecuado.

c)
x

Relaci
on de probabilidades
1,0002

IC de 0.95
(1,0000. 1,0004)

Raz
on Odds:
OR = 1, 0002
El incremento estimado de la probabilidad de exito es de 0, 0002, cuando incrementa una unidad el ingreso de
una familia.

d)
Tabla de desviaciones :
Fuente
Regresi
on
x
x2
Error
Total

GL
2
1
1
17
19

Desv. ajust.
6,199
1,284
1,109
21,326
27,526

Coeficientes
Termino constante
X
x2

Media ajust.
3,100
1,284
1,109
1,254

coef
-69,7
0,00290
-0,000000

Chi-cuadrada
6,20
1,28
1,11

EE del coef
61,1
0,00268
0,000000

Valor p
0,045
0,257
0,292

VIF
759,05
759,05

Ecuaci
on de regresi
on:

exp(6, 97 + 0, 00290x 0, 00000002X 2 )


(1 + exp(6, 97 + 0, 00290x 0, 00000002X 2 ))

(6)

El valor de la desviaci
on en este modelo es de 27, 526 que comparado con el modelo inicial (tem a ) no difiere, por
lo que podemos decir que no es necesario introducir el valor de los ingresos de una familia de forma cuadr
atica.

Problema 14.4
a)
Coeficientes
Termino constante
X

coef
-2,0848
0,13573

EE del coef
0,0804
0,00496

VIF
1,00

Ecuaci
on de regresi
on:

P (1) =

exp(2, 0848 + 0, 13573x)


(1 + exp(2, 0848 + 0, 13573x))

15

(7)

b)
Tabla de desviaciones :
Fuente
Regresi
on
x
x2
Error
Total

GL
1
1
1
9
10

Desv. ajust.
870,925
870,925
1,109
0,294
871,220

Media ajust.
870,925
870,925
1,109
0,033

Chi-cuadrada
870,93
870,93
1,11

Valor p
0,000
0,000
0,292

Deviance: 0, 294
0, 294
D
=
= 0, 0326
(n p)
(11 2)

(8)

2
Teniendo en cuenta que la desviaci
on distribuye X,(np)
con una confianza del 95 %, entonces como D=0,294
D
2
es
X0,05,9 = 16, 91 se peude concluir que se tiene un buen modelo.Por otra parte, Como el valor de (np)
cercano a uno, se puede decir que el modelo es bueno.

c)

Figura 11: Gr
afica de lnea ajustada Regresion Logstica

d)
Coeficientes
Termino constante
X
X2

coef
-2,074
0,1341
0,000055
16

EE del coef
0,185
0,0267
0,000871

VIF
28,93
28,93

Ecuaci
on de regresi
on:

P (1) =

exp(2, 074 + 0, 1341x + 0, 000055x2 )


(1 + exp(2, 074 + 0, 1341x + 0, 000055x2 ))

(9)

Tabla de desviaciones :
Fuente
Regresi
on
x
x2
Error
Total

GL
2
1
1
8
10

Desv. ajust.
870,929
25,682
0,004
0,290
871,220

Media ajust.
435,465
25,682
0,004
0,036

Chi-cuadrada
870,93
25,68
0,00

Valor p
0,000
0,000
0,950

La desviaci
on en este modelo que incluye la variable descuento de forma cuadratica es igual a la del modelo
inicial (tem a), por lo que se puede concluir que no es necesario introducir dicha variable.

e)

Figura 12: Estimacion con la variable cuadratica

Se puede apreciar entonces, que la gr


afica con los datos cuadraticos, no ajusta mejor a los datos. Esto
lo podemos
conclur adem
as, porque en el modelo que incluye dicha variable, su coeficiente es muy peque
no, muy cercano
a cero.

f)
Zwald =

j
ES(j )

17

(10)

Termino constante
X
X2

coef
-2,074
0,1341
0,000055

EE del coef
0,185
0,0267
0,000871

Wald
-11.2108
5,022471
0,0631458

Como la estadstica de Wald distribuye normal, podemos observar que la constante es termino de la regresi
on
menos significante. Por otro lado el termino x es muy significante, mientras que el termino cuadratico no tiene
tanta significancia como el descuento del bono (x).

g)
j Z/2 Sj betaj j + Z/2 Sj

X
X2

(11)

IC de 95 %
(0,081956. 0,1863)
(-0,00170. 0,001878)

El coeficiente de la variable x (Descuento del bono) esta entre 0, 081956,0, 1863 con una confianza del 95 %. Por
otro lado la variable de forma cuadr
atica est
a entre los valores -0,00170. 0,001878 con una confianza del 95 %.

18

También podría gustarte