Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Petro Leo Estad
Petro Leo Estad
TP N
REGRESION MULTIPLE
Grupo:
- Cuneo Federico
- Carrillo Santiago
- Scoponi Agustn Guido
-1-
Introduccin:
Vamos a estimar la produccin de gasolina como una funcin de las propiedades de
destilacin de cierto tipo de petrleo crudo. Se utilizaran cuatro variables de prediccin
las cuales fueron dadas por una empresa ya que se piensa que son las que tienen mayor
influencia en el proceso.
Los primeros dos miden la gravedad y la presin de vapor del petrleo crudo. El punto de 10%
ASTM es la temperatura para la cual se ha evaporado cierta cantidad de lquido, y el punto final
para la gasolina es la temperatura para la cual se ha evaporado todo el lquido.
Se realizara un estudio para ver que tambin describen este modelo, observar si hay
alguna relacin entre las variables y si la encontramos eliminarla para evitar la
colinealidad.
Nos ayudaremos con el programa ETS el cual esta preparado para analizar regresiones.
A continuacin se exponen los datos que nos fueron dados para realizar este anlisis.
-2-
X1
X2
X3
X4
6,9
38,4
6,1
220
235
14,4
40,3
4,8
231
307
7,4
40
6,1
217
212
8,5
31,8
0,2
316
365
40,8
3,5
210
218
2,8
41,3
1,8
267
235
38,1
1,2
274
285
12,2
50,8
8,6
190
205
10
32,2
5,2
236
267
15,2
38,4
6,1
220
300
26,8
40,3
4,8
231
367
14
32,2
2,4
284
351
14,7
31,8
0,2
316
379
6,4
41,3
1,8
267
275
17,6
38,1
1,2
274
365
22,3
50,8
8,6
190
375
24,8
32,2
5,2
236
360
26
38,4
6,1
220
365
34,9
40,3
4,8
231
395
18,2
40
6,1
217
272
23,2
32,2
2,4
284
424
18
31,8
0,2
316
428
13,1
40,8
3,5
210
273
16,1
41,3
1,8
267
358
32,1
38,1
1,2
274
444
34,7
50,8
8,6
190
345
31,7
32,2
5,2
236
402
33,6
38,4
6,1
220
410
30,4
40
6,1
217
340
26,6
40,8
3,5
210
347
27,8
41,3
1,8
267
416
45,7
50,8
8,6
190
407
-3-
-4-
Una vez hecho esto se correr el programa y con este obtendremos la matriz de
correlaciones.
Y tambin nos proporcionara los distintos tipos de modelos que se pueden armar
mediante las cuatro variables predictorias. Mediante diferentes tipos de
-5-
Nos ayudaremos con diferentes indicadores para poder elegir el modelo que mas se
ajuste a nuestro problema.
Matriz de correlacin:
-6-
Como dijimos antes vamos a utilizar esta matriz. En esta los elementos Rij son los
coeficientes de correlacin entre las variables X1, X2, X3 y X4. Cualquier Rij elevado
en valor absoluto (0.9 o superior) de un elemento no diagonal de esta matriz, ser una
indicacin de que las variables involucradas superponen informacin y por lo tanto, una
de ellas podra eliminarse.
El determinante de la matriz de correlaciones cumple con:
0 < DET < 1
Corresponde 0 a multicolinealidad perfecta y 1 a la ausencia absoluta de
multicolinealidad, denominada ortogonalidad, que solo se presenta en experimentos
diseados.
Los valores del DET cercanos a 0 son indicaciones de multicolinealidad en un grado
que puede ser severo. El umbral es DET < 0.1 , sospecharemos que hay
multicolinealidad es nuestros datos, mayor cuando mas cercano a 0 este dicho indicador
PRESS
VIF:
-7-
Factor de inflacin de varianza (VIF). (VIF del ingles, variance inflation factors). Este
factor se usa para revisar los problemas de multicolinealidad , es decir, cuando las
variables regresoras estn altamente correlacionadas entre si.
CP:
Parsimonia:
En la seleccin del mejor modelo de Regresin Mltiple deber tener importancia
prioritaria la sencillez del mismo, dada por el menor numero de variables explicativas, o
sea parmetros desconocidos.
Anlisis:
-8-
Una vez presentados los criterios a utilizar y cargados los datos al programa nos
disponemos a realizar el anlisis.
Primero vamos a analizar el problema con todas las variables explicativas , esto nos da
15 modelos posibles que podran explicar y hasta predecir el problema. Procedemos a
revisar los modelos mediante los criterios ya explicados.
1)Primero ponemos para que nos ordene los modelos que tengan un mayor R2 .
Vemos que los primeros cuatro modelos estn con un R2 ajustado cercano a 0.9 y eso
nos dice que el modelo es explicativo. El modelo que se encuentra primero E3;E4 se
podra llegar a decir que es explicativo y predictivo por su cercano valor a 0.9 pero lo
consideraremos como explicativo solamente para ser mas rigurosos con en anlisis.
Por lo tanto se observa que aplicando el criterio de R2 ajustado solo modelos se
podran considerar cuatro modelos se podran considerar.
2) Procedemos a poner en orden decreciente el CP/P.
Recordando que los modelos con CP/P que son mas grande que el valor 1 no son
buenos modelos, se ve que esos cuatros modelos cumplen con este criterio. Son los
mismos cuatro que cumplan con el criterio de R2 ajustado .
-9-
3) Aplicamos el criterio del DET. Descartaremos los modelos que tengan un DET< 0.1.
El programa viene con un opcin para poder descartar los modelos que cumplen con esa
condicin ahorrndonos tiempo a nosotros.
Como se puede observar de los 15 modelos iniciales quedan 13 modelos. Y uno de los
modelos que se descarto fue E1;E2;E3;E4 el cual segn los otros criterios era
aceptable para este no.
Despus de estos procesos nos estamos quedando con tres modelos :
- 10 -
Se puede observar que ningn modelo fue descartado del anlisis, asi que el criterio no
nos ayudo.
5) Criterio PRESS. El PRESS es una poderosa herramienta , vamos a ordenar los
modelos de menor a mayor y nos quedaremos con los que tengan el menor PRESS.
Observamos que los modelos E3;E4 y E2;E3;E4 son los que menor PRESS tienen.
Podramos decir que el modelo E3;E4 es mejor que el modelo E2;E3;E4 pero para
no cometer errores vamos a tomarlo en cuenta.
Tambin podramos fijarnos si los modelos E3 ; E4 por si solos pueden servirnos,
uno busca siempre tener la menor cantidad de variables y que mejor que poder explicar
y hasta predecir con un modelo con usa sola variable.
Empezamos con E3 :
Hacemos que el problema realice los clculos para este modelo:
- 11 -
Nos encontramos con un R2 ajustado muy bajo este modelo no es explicativo y mucho
menos predictivo. Queda totalmente descartado.
- 12 -
Podemos observar que el valor de es superior al 0,50 y por definicin podramos decir
que el modelo es explicativo. Pero no lo vamos a tomar ya que supera el valor de 0.50 y
los otros modelos analizados anteriormente casi son modelos predictivos lo cual nos
dejara tener mucha mas informacin.
Finalizacin:
- 13 -
Pasaremos a revisar los dos modelos que quedaron como candidatos para explicar el
problema. Empezaremos con el modelo E2;E3;E4.
En este modelo quedo descartada la variable X1 la cual media la gravedad del petrleo
crudo. La cual depende de la variable X3 ya que la gravedad medida en grados API
depende del tipo de crudo (liviano, medio, pesado).
Se observa que los coeficientes son b2=0.135 , b3=-0.177, b4=0.147. Pero notamos que
el b2 es no significativo tiene un alfa=0.83 por lo que queda descartado del modelo.
Quedndonos que b3 y b4. Ahora analicemos que nos dicen estos valores:
1) El valor de b3=-0,1769. O sea por cada grado F adicional en que aumenta 10%
ASTM de la gasolina, se estima que la produccin de petrleo crudo disminuye en
0,1769. Esto nos indica que tendramos que cambiar el punto donde se extrae la muestra
para intentar mejorar la produccin.
2) El valor de b4=0.1471 nos dice que estos nos favorece para la produccin del
combustible. O sea por cada grado F adicional en que aumenta el punto final ATSM de
la gasolina, se estima que la produccin de petrleo crudo aumenta en 0,1471. Esto lo
podemos dejar asi ya que nos favorece.
- 14 -
- 15 -
Supuestos:
- 16 -
1) V i = 2
Mediante el Excel realizamos un diagrama de dispersin y con l, nos ayudamos para
ver si encontrbamos heterocedasticidad.
E
22,24
20,82
22,55
13,79
23,32
18,07
17,42
25,52
20,49
21,87
20,39
15,98
12,63
17,9
16,68
24,49
20
21,4
20,1
22,04
15,26
12,01
23,03
17,43
15,83
23,24
19,77
21,07
21,46
22,26
16,86
22,13
-15,34
-6,42
-15,15
-5,29
-15,32
-15,27
-12,42
-13,32
-10,49
-6,67
6,41
-1,98
2,07
-11,5
0,92
-2,19
4,8
4,6
14,8
-3,84
7,94
5,99
-9,93
-1,33
16,27
11,46
11,93
12,53
8,94
4,34
10,94
23,57
Y vs E
30
25
20
15
10
Y
5
0
-5 0
10
15
20
-10
-15
-20
E
- 17 -
25
30
2) i independientes
Uno de los supuestos bsicos del modelo de regresin lineal es el de independencia
entre los residuos. El estadstico de Durbin-Watson proporciona informacin sobre el
grado de independencia existente entre ellos:
Nuevamente con ayuda del Excel calculamos el valor del estadstico y el mismo nos da
un valor de d= 0,71724478. Como el mismo es mayor que 0 y menor que 4 como se pide,
quedando demostrado este supuesto.
- 18 -
Tiene el R ms alto y el valor de Lver mas bajo. Y es el nico que pasa la prueba de
Kolmorov-Smirnov que el programa Movac utiliza para verificar.
Con todo lo anteriormente dicho, el grafico y al ver que pasa todas las dems pruebas
podemos confirmar que los residuos siguen una distribucin Normal.
4) E i = 0
Este queda demostrado por los dems supuestos.
Por lo tanto podemos afirmar que los supuestos se cumplen y que podemos realizar la
regresin para este modelo.
- 19 -
Conclusin
Como dijimos nos quedaremos con el modelo E3;E4 el cual tiene las variables X3,X4.
El modelo tiene menor nmero de variables , la mitad de las que se tena al comenzar,
siendo ms sencillo que el modelo completo(Principio de Parsimonia).
Los valores de b3=-01857 y b4=0.1477 con valores de alfa=0 para ambos casos
diciendo que son valores significativos.
Nos queda como ecuacin : Y=14.9997-0.1857 * X3 + 0.1447 * X4 .
El modelo es explicativo y no es predictivo.
En un futuro se podran buscar diferentes puntos de extraccin para intentar mejorar la
produccin de combustible.
- 20 -