Está en la página 1de 9

UNIVERSIDAD NACIONAL DE INGENIERIA

FACULTAD DE INGENIERIA ECONOMICA Y CIENCIAS SOCIALES

ESCUELA PROFESIONAL DE INGENIERIA ESTADISTICA

TRABAJO DE ANALISIS DE REGRESION

PROFESORA: AMELIDA PINEDO

ALUMNO: ELVIS ARROYO ROJAS


PROBLEMA PLANTEADO
La siguiente tabla presenta el rendimiento de gasolina por milla en 25
automóviles (Fuente Motor Trend, 1975)
Indice Automovil y x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
1 Apollo 18,9 350 165 260 8 2,56 4 3 200,3 69,9 3910
2 Nova 20 250 105 185 8,25 2,73 1 3 196,7 72,2 3510
3 Monarch 18,25 351 143 255 8 3 2 3 199,9 74 3890
4 Duster 20,07 225 95 170 8,4 2,76 1 3 194,1 71,8 3365
5 Jenson 11,2 440 215 330 8,2 2,88 4 3 184,5 69 4215
6 Skyhawk 22,12 231 110 175 8 2,56 2 3 179,3 65,4 3020
7 Scirocco 34,7 89,7 70 81 8,2 3,9 2 4 155,7 64 1905
8 CorollaS 30,4 96,9 75 83 9 4,3 2 5 165,2 65 2320
9 Camaro 16,5 350 155 250 8,5 3,08 4 3 195,4 74,4 3885
10 Datsun 36,5 85,3 80 83 8,5 3,89 2 4 160,6 62,2 2009
11 Capri 21,5 171 109 146 8,2 3,22 2 4 170,4 66,9 2655
12 Pacer 19,7 258 110 195 8 3,08 1 3 171,5 77 3375
13 Granada 17,8 302 129 220 8 3 2 3 199,9 74 3890
14 ElDorado 14,39 500 190 360 8,5 2,73 4 3 224,1 79,8 5290
15 Imperial 14,89 440 215 330 8,2 2,71 4 3 231 79,7 5185
16 NovaLN 17,8 350 155 250 8,5 3,08 4 3 196,7 72,2 3910
17 Starfire 23,54 231 110 175 8 2,56 2 3 179,3 65,4 3050
18 Cordoba 21,47 360 180 290 8,4 2,45 2 3 214,2 76,3 4250
19 TransAM 16,59 400 185 205 7,6 3,08 4 3 196 73 3850
20 CorollaE 31,9 96,9 75 83 9 4,3 2 5 165,2 61,8 2275
21 MarkIV 13,27 460 223 366 8 3 4 3 228 79,8 5430
22 CelicaGT 23,9 133,6 96 120 8,4 3,91 2 5 171,5 63,4 2535
23 ChargerS 19,73 318 140 255 8,5 2,71 2 3 215,3 76,3 4370
24 Cougar 13,9 351 148 243 8 3,25 2 3 215,5 78,5 4540
25 Corvette 16,5 350 165 255 8,5 2,73 4 3 185,2 69 3660
Donde
Y=Millas/galón

X1: Cilindraje (pulgadas cubicas) X8: Longitud total (pulgadas)

X2: Caballos de fuerza (pie-lb) X9: Ancho (pulgadas)

X3: Torca (pie-lb) X10: Peso (lb)

X4: Razon de Compresión

X5: Razon del eje trasero

X6: Carburador (gargantas)

X7: Num de velocidad de transmisión


A) MOSTRAR EL MODELO, VERIFICAR SUS HIPÓTESIS MEDIANTE GRÁFICOS E
INTERPRETAR SUS RESULTADOS
Con el programa SPSS obtenemos los siguientes estimadores de los coeficientes de regresión

a
Coeficientes

Coeficientes

Coeficientes no estandarizados tipificados

Modelo B Error típ. Beta t Sig.

1 (Constante) -17,315 30,977 -,559 ,585

x1 -,050 ,035 -,935 -1,412 ,180

x2 ,028 ,066 ,196 ,422 ,680

x3 ,056 ,051 ,727 1,089 ,295

x4 1,607 2,977 ,079 ,540 ,598

x5 4,979 3,447 ,411 1,445 ,171

x6 ,498 1,334 ,085 ,374 ,714

x7 -3,301 2,897 -,352 -1,139 ,274

x8 ,285 ,143 ,938 1,987 ,067

x9 ,095 ,366 ,084 ,260 ,798

x10 -,012 ,007 -1,818 -1,739 ,104

a. Variable dependiente: y

El modelo es el siguiente
Y=-17,315 - 0,05X1 + 0,028X2 +0,056X3 + 1,607X4 + 4,979X5 + 0,498X6 -
3,301X7+0,285X8 + 0,095X9 - 0,012X10
Donde

Y=Millas/galón

X1: Cilindraje (pulgadas cubicas) X8: Longitud total (pulgadas)

X2: Caballos de fuerza (pie-lb) X9: Ancho (pulgadas)

X3: Torca (pie-lb) X10: Peso (lb)

X4: Razón de Compresión

X5: Razón del eje trasero

X6: Carburador (gargantas)

X7: Num de velocidad de transmisión


Minitab nos muestra los siguientes gráficos de residuales

Residual Plots for C2


Normal Probability Plot Versus Fits
99
4
90
2

Residual
Percent

50
0

10 -2

1 -4
-5,0 -2,5 0,0 2,5 5,0 10 15 20 25 30
Residual Fitted Value

Histogram Versus Order


4,8 4

3,6
Frequency

2
Residual

2,4 0

1,2 -2

0,0 -4
-4 -2 0 2 4 2 4 6 8 10 12 14 16 18 20 22 24
Residual Observation Order

De acuerdo a la grafica de probabilidad normal podríamos decir que

Los residuales siguen una distribución normal. Lo cual se comprueba con la prueba de
Kolgomorov smirnov contrastando la hipótesis nula de que los residuales se distribuyen
normalmente dado que el p value 0,867 es mayor que 0,05.

No está muy clara la homocedasticidad de los residuales en el grafico 2.

Se observa en la cuarta grafica que los puntos están dispersos de manera aleatoria y que no hay
presencia de rachas con lo que se podría decir que son independientes.

B) SEGÚN EL ANALIS GRAFICO DE LOS RESIDUALES ¿SE REQUIERE UN


ANALISIS DE INFLUENCIA? ¿POR QUÉ?
Según las graficas nos muestran que habría datos atípicos (valores mayores a 30 millas por
galón) que podrían influir en el modelo además la mayor parte de las observaciones se
encuentra concentrada hasta valores de 25 millas por galón por lo que se recomienda realizar un
análisis de influencia para saber si influyen o no en la predicción de los coeficientes de regresión
y la matriz de covarianza.
C) UTILICE EL ANALISIS DE RESIDUALES PARA CALCULAR LOS RESIDUOS
ESTANDARIZADOS E INTERPRETE SUS RESULTADOS.
Si esta normalmente distribuido (como lo es en nuestro caso) es de esperarse que el 95% de
estos residuos se encontrara en el rango de (-1,96, 1,96) lo cual permite identificar fácilmente
casos de residuos grandes.

En nuestro caso los valores son inferiores a estos el error estandarizado mas lato lo tiene

1,60113 que pertenece a la observación 14 que pertenece al automóvil El Dorado el cual está
inflado respecto a las demás, podría ser una observación atípica.

D) SEGÚN LA PARTE C REALICE UN ANALISIS DE INFLUENCIA PARA


DETECTAR SI EXISTEN PUNTOS DE BALANCEO.
Teniendo en cuenta el punto de corte 2p/n

P=11

n=25

2p/n=0,88

Solo hay un punto de balanceo la observación 19 (H19;19=0,905) es mayor a 0,88

Este valor corresponde a un valor muy diferente de la mayoría

E) ANALICE E INTERPRETE LA INFLUENCIA EN LOS COEFICIENTES DE


REGRESION EN LOS VALORES AJUSTADOS Y SOBRE LA PRECISION DE LOS
ESTIMADORES

Usamos DFFITS para ver que observación es significativa (Valores ajustados)

El valor critico de |DFFITS|=2√ = 1,26491106

Donde k=10 n=25

La observación 5 (Jenson) es influyente dado que |DFFITS5| =|-1,96219|>1,26491106

La observación 12 (Pacer) también es influyente dado que |DFFITS12 |=3,56996>1,26491106

La observación 14(El dorado) es influyente dado que | DFFITS14|=3,68265> 1,26491106


La observación 18(Córdova) es influyente dado que | DFFITS18|=2,31112 >1,26491106

La observación 19(TransAM) es influyente dado que | DFFITS19|=5,89241>1,26491106

La observación 22(Celica GT) es influyente dado que | DFFITS22|=|-1,49427|>1,26491106

Usamos DFBETAS para ver la influencia en los coeficientes de regresión

El valor critico de DFBETAS= 2/√ =0,4 Según los valores obtenidos


1,80958 -0,001 -0,00534 0,00313 -0,31487 -0,23364 0,17749 0,17699 0,00649 0,00485 -0,0002
0,22256 -0,00206 -0,00005 0,00286 -0,17792 0,05401 0,13986 0,07884 -0,0043 0,01894 -4E-05
-
1,91115 -0,01026 0,01255 0,01576 0,49099 -0,90009 0,25142 -0,02466 -0,0461 0,00977 0,00247
2,54911 -0,00132 -0,00275 0,01011 -0,82137 0,25956 0,21234 0,44458 -0,0009 0,02917 -0,0006
-17,4173 -0,00483 -0,04043 0,00007 -1,19914 -1,70843 1,29507 1,25335 0,08899 0,32869 -0,0024
-
4,48762 -0,00083 -0,00241 0,00121 -0,13623 -0,22615 0,01968 -0,00025 -0,0056 -0,03418 0,00047
0,16336 -0,00649 -0,01228 0,02552 -1,19816 1,26538 0,39903 -0,58961 0,04346 0,09435 -0,0028
-
-1,44461 0,00031 0,00082 0,00214 0,16325 -0,06051 0,00072 0,08996 -0,0044 0,007 0,00017
- -
16,84835 0,00003 0,0132 0,00905 -0,77218 -0,09421 0,80717 0,51599 -0,0177 -0,2055 0,00225
-
-2,41184 -0,01524 0,02714 0,00787 0,57427 2,31268 0,10772 -2,42233 0,0412 -0,08612 -0,001
- -
-1,12503 0,0084 -0,00651 0,00462 0,9241 2,12495 0,33988 -1,75393 0,02485 -0,1959 0,00059
-
8,34422 -0,01788 0,00489 0,01333 -0,46002 -2,78211 0,07135 1,3511 -0,298 0,62861 0,0054
-
-2,55018 -0,00013 0,00519 0,00144 0,27822 -0,24188 0,00862 0,11325 -0,0029 0,0173 -0,0001
-9,89193 0,04737 -0,12674 0,02526 -0,24602 -1,53845 0,78361 3,8203 -0,0052 0,07719 -0,0011
-
-1,42455 -0,00367 0,00625 0,00249 0,02841 -0,20586 0,0764 0,04469 -0,0007 0,0199 0,00026
- -
4,13719 -0,00059 0,00736 0,00249 -0,45326 -0,45949 0,27883 0,61057 -0,0107 -0,00369 0,00044
-
16,54 -0,00417 -0,00724 0,00696 -0,41508 -0,83668 0,07819 -0,02513 -0,0297 -0,12613 0,00219
-
-43,2657 0,00833 0,073 0,02075 2,08468 -0,64636 1,34575 0,51749 0,14345 0,24925 -0,0089
- -
-4,95982 0,0799 0,10233 0,16023 -0,63621 -1,51214 0,54864 1,37988 0,01726 0,13821 -0,001
- -
-1,6856 0,00405 0,00235 0,00917 0,75969 0,36439 0,22296 -0,01201 -0,0078 -0,09454 0,00103
2,33153 -0,00547 0,00219 0,00287 -0,27348 0,22995 0,04865 -0,12199 -0,0043 -0,01201 0,00052
- -
-8,45925 -0,00676 0,02255 0,01347 2,01766 1,15771 0,03158 -2,95712 -0,017 0,00256 0,00077
- -
-1,09574 -0,00269 0,00133 0,00241 0,26799 -0,14325 0,00354 -0,10794 -0,0031 -0,00709 0,00054
-6,24262 0,00004 -0,0002 0,01202 0,37565 -1,59876 0,34339 0,9809 0,00322 0,11587 -0,0021
-
1,63084 -0,00021 -0,00366 0,00392 -0,68776 0,44461 0,12329 0,13348 0,01807 -0,004 -0,0003
La observación 5 (jenson) , 18 (Córdoba )y 19 (trans AM) influye sobre el B4 B5 B6 y B7

La observación 12 (Pacer) tiene influencia en el B4 B5 B7 B9 y B12

La observación 14 (El Dorado) tiene influencia sobre el B5 B6 B7

La observación 22 (Celica G )tiene influencia en B4 B5 y B7

DCOOK nos indica la precisión de los estimadores

Y el punto crítico es Fk;n-k=2,5437

Las observaciones 1;3;5;6:8;15;20;21;23 tienen un Dcook superior a 2,5437

Son consideradas influyentes.

F) SEGÚN SU RESPUESTA EN EL PUNTO B REALICE UN ANÁLISIS DE


RESIDUOS RETIRANDO LAS OBSERVACIONES QUE PODRÍA HABER
ENCONTRADO EN E

Se retira la observación 14 12 5 y 22

Residual Plots for C1


Normal Probability Plot Versus Fits
99
2
90
1
Residual
Percent

50 0

-1
10
-2
1
-3,0 -1,5 0,0 1,5 3,0 15 20 25 30 35
Residual Fitted Value

Histogram Versus Order


6,0
2

4,5 1
Frequency

Residual

3,0 0

-1
1,5
-2
0,0
-2 -1 0 1 2 2 4 6 8 10 12 14 16 18 20
Residual Observation Order
La normalidad es mas clara en este caso se puede observar aun presencia de Outsiders pero
estos no influyen en nuestro modelo. No hay presencia de rachas por lo que se podría decir que
son independientes los residuos.

H)USE EL METODO DE STEPWISE

Y=B0
X1 entra al modelo correlacion máxima con y

Fx1=SSR(X1)/CMR(X2)=837,171/8,510=98,377>F0,05;1;23=4,27

Ninguna otra variable entra al modelo ya que sus correlaciones parciales no superan al punto de
corte.

Con lo cual nuestro modelo final es

Y=34,364- 0,048x1

H)CALCULAR LA ESTADISTICA APROPIADA


PRESS(X1)=244,486

PRESS X1;….;X10)=866,357

PRESS X1;….;X10 > PRESS(X1)=

El modelo de mejor predicción es Y=34,364- 0,048x1

I) CON EL MODELO ENCONTRADO EN G USE UNA VARIABLE QUE USTED


CREA CONVENIENTE DE MANERA QUE TEGA UN MODELO SOBRE
DEFINIFO

La nueva variable a introducir es x6 ya que entre x1 y x6 tienen el menor Cp de


Mallow -1,4 además de el mayor coeficiente de determinación 82,9 con lo cual
nuestro modelo seria Y=33,499- 0,054x1+ 1,078x6
Mallows C C C C C C C C 1
Vars R-Sq R-Sq(adj) Cp S 2 3 4 5 6 7 8 9 0
1 81,1 80,2 -1,5 2,9172 X
1 75,3 74,2 4,4 3,3315 X
1 67,8 66,4 12,1 3,8052 X
1 57,5 55,6 22,7 4,3693 X
2 82,9 81,3 -1,4 2,8337 X X
2 82,1 80,4 -0,6 2,9024 X X
2 82,0 80,4 -0,5 2,9072 X X
2 81,9 80,2 -0,4 2,9189 X X

También podría gustarte