Está en la página 1de 20

ESTADISTICA TECNICA SUPERIOR

TP N

REGRESION MULTIPLE

Grupo:
- Cuneo Federico
- Carrillo Santiago
- Scoponi Agustn Guido

-1-

Introduccin:
Vamos a estimar la produccin de gasolina como una funcin de las propiedades de
destilacin de cierto tipo de petrleo crudo. Se utilizaran cuatro variables de prediccin
las cuales fueron dadas por una empresa ya que se piensa que son las que tienen mayor
influencia en el proceso.

X1: La gravedad del petrleo crudo , 0API


X2: La presin de vapor del petrleo crudo, Psi
X3: El punto de 10% ASTM para el petrleo crudo, 0F
X4: El punto final ASTM para la gasolina , 0F.

A continuacin se describen las variables de prediccin y sus parmetros. Lo primero


que aclararemos es que ASTM es un organismo de normalizacin de los Estados
Unidos de Amrica.

Los primeros dos miden la gravedad y la presin de vapor del petrleo crudo. El punto de 10%
ASTM es la temperatura para la cual se ha evaporado cierta cantidad de lquido, y el punto final
para la gasolina es la temperatura para la cual se ha evaporado todo el lquido.

Se realizara un estudio para ver que tambin describen este modelo, observar si hay
alguna relacin entre las variables y si la encontramos eliminarla para evitar la
colinealidad.
Nos ayudaremos con el programa ETS el cual esta preparado para analizar regresiones.

A continuacin se exponen los datos que nos fueron dados para realizar este anlisis.

-2-

X1

X2

X3

X4

6,9

38,4

6,1

220

235

14,4

40,3

4,8

231

307

7,4

40

6,1

217

212

8,5

31,8

0,2

316

365

40,8

3,5

210

218

2,8

41,3

1,8

267

235

38,1

1,2

274

285

12,2

50,8

8,6

190

205

10

32,2

5,2

236

267

15,2

38,4

6,1

220

300

26,8

40,3

4,8

231

367

14

32,2

2,4

284

351

14,7

31,8

0,2

316

379

6,4

41,3

1,8

267

275

17,6

38,1

1,2

274

365

22,3

50,8

8,6

190

375

24,8

32,2

5,2

236

360

26

38,4

6,1

220

365

34,9

40,3

4,8

231

395

18,2

40

6,1

217

272

23,2

32,2

2,4

284

424

18

31,8

0,2

316

428

13,1

40,8

3,5

210

273

16,1

41,3

1,8

267

358

32,1

38,1

1,2

274

444

34,7

50,8

8,6

190

345

31,7

32,2

5,2

236

402

33,6

38,4

6,1

220

410

30,4

40

6,1

217

340

26,6

40,8

3,5

210

347

27,8

41,3

1,8

267

416

45,7

50,8

8,6

190

407

-3-

Comienzo del anlisis:

Cargamos los datos proporcionados al ETS.

-4-

Una vez hecho esto se correr el programa y con este obtendremos la matriz de
correlaciones.

Y tambin nos proporcionara los distintos tipos de modelos que se pueden armar
mediante las cuatro variables predictorias. Mediante diferentes tipos de

-5-

Nos ayudaremos con diferentes indicadores para poder elegir el modelo que mas se
ajuste a nuestro problema.

Criterios estadsticos a utilizar en el anlisis:


Coeficiente de determinacin mltiple, R2, y R2 ajustado, son algunas medidas
habituales en el anlisis de regresin, denotando el porcentaje de varianza justificado
por las variables independientes. El R2 ajustado tiene en cuenta el tamao del conjunto
de datos, y su valor es ligeramente inferior al de su correspondiente R2
El R2 es un criterio de valoracin de la capacidad de explicacin de los modelos de
regresin, y representa el porcentaje de la varianza justificado por la variable
independiente Si todas las observaciones estn en la lnea de regresin, el valor de R2 es
1, y si no hay relacin lineal entre las variables dependiente e independiente, el valor de
R2 es 0. El coeficiente R2 es una medida de la relacin lineal entre dos variables. A
medida que su valor es mayor, el ajuste de la recta a los datos es mejor, puesto que la
variacin explicada es mayor; as, el desajuste provocado por la sustitucin de los
valores observados por los predichos es menor.
Se toma por lo general que:
R2 0.90 podremos decir que el modelo es predictivo y explicativo
0.5 R2 < 0.90 podremos decir que el modelo es explicativo.
Si el R2 es menor que 0.50 el modelo ser descartado.
Uno trata de buscar que los modelos sean predictivos y explicativos.

Matriz de correlacin:

-6-

Como dijimos antes vamos a utilizar esta matriz. En esta los elementos Rij son los
coeficientes de correlacin entre las variables X1, X2, X3 y X4. Cualquier Rij elevado
en valor absoluto (0.9 o superior) de un elemento no diagonal de esta matriz, ser una
indicacin de que las variables involucradas superponen informacin y por lo tanto, una
de ellas podra eliminarse.
El determinante de la matriz de correlaciones cumple con:
0 < DET < 1
Corresponde 0 a multicolinealidad perfecta y 1 a la ausencia absoluta de
multicolinealidad, denominada ortogonalidad, que solo se presenta en experimentos
diseados.
Los valores del DET cercanos a 0 son indicaciones de multicolinealidad en un grado
que puede ser severo. El umbral es DET < 0.1 , sospecharemos que hay
multicolinealidad es nuestros datos, mayor cuando mas cercano a 0 este dicho indicador

PRESS

La sigla PRESS significa prediction sum of squares, o sea suma de cuadrados de


prediccin y es una medida de la capacidad predictiva del modelo. Obviamente a menor
PRESS, el modeleo dar mejores pronsticos.
Para que los clculos del PRESS sean ms sencillos se utilizan los residuos de este, que
estn directamente relacionados con los residuos ordinarios.

VIF:

-7-

Factor de inflacin de varianza (VIF). (VIF del ingles, variance inflation factors). Este
factor se usa para revisar los problemas de multicolinealidad , es decir, cuando las
variables regresoras estn altamente correlacionadas entre si.

Si un R2i es alto, significa que la variable Xi provoca multicolinealidad pues est


relacionada linealmente con otras y esto redunda en un VIF alto. Si un VIF es mayor
que 10 (o sea R2i 0,9) implica que la variable correspondiente es perturbadora en lo que
a la multicolinealidad respecta. Si hay una o mas variables con VIF mayores que 10,
convendr eliminar la que tiene el VIF mayor y ver si asi se resuelve el problema de la
multicolinealidad.

CP:

Para modelos completo, con las K variables explicativas , el CP es igual a P. Para un


modelo incompleto, pero que puede ser optimo , el CP ser distinto de P, por lo general ,
mayor. Ahora , si el CP es mucho mayor que P, tomndose como umbral a 5P, entonces
significa que el modelo esta muy incompleto y que hay informacin esencial contenida
en variables del sistema no incluidas en el modelo.
El CP puede ser til para descartar modelos pobres. Por ejemplo , cuando tenemos
muchas variables explicativas, podemos simplificar el anlisis , descartando todos los
modelos cuyos CP sea muy elevado.
Nostros usaremos CP/P y si CP/P > > > 1 diremos que el modelo no es bueno.

Parsimonia:
En la seleccin del mejor modelo de Regresin Mltiple deber tener importancia
prioritaria la sencillez del mismo, dada por el menor numero de variables explicativas, o
sea parmetros desconocidos.

Anlisis:

-8-

Una vez presentados los criterios a utilizar y cargados los datos al programa nos
disponemos a realizar el anlisis.
Primero vamos a analizar el problema con todas las variables explicativas , esto nos da
15 modelos posibles que podran explicar y hasta predecir el problema. Procedemos a
revisar los modelos mediante los criterios ya explicados.
1)Primero ponemos para que nos ordene los modelos que tengan un mayor R2 .

Vemos que los primeros cuatro modelos estn con un R2 ajustado cercano a 0.9 y eso
nos dice que el modelo es explicativo. El modelo que se encuentra primero E3;E4 se
podra llegar a decir que es explicativo y predictivo por su cercano valor a 0.9 pero lo
consideraremos como explicativo solamente para ser mas rigurosos con en anlisis.
Por lo tanto se observa que aplicando el criterio de R2 ajustado solo modelos se
podran considerar cuatro modelos se podran considerar.
2) Procedemos a poner en orden decreciente el CP/P.

Recordando que los modelos con CP/P que son mas grande que el valor 1 no son
buenos modelos, se ve que esos cuatros modelos cumplen con este criterio. Son los
mismos cuatro que cumplan con el criterio de R2 ajustado .

-9-

3) Aplicamos el criterio del DET. Descartaremos los modelos que tengan un DET< 0.1.
El programa viene con un opcin para poder descartar los modelos que cumplen con esa
condicin ahorrndonos tiempo a nosotros.

Como se puede observar de los 15 modelos iniciales quedan 13 modelos. Y uno de los
modelos que se descarto fue E1;E2;E3;E4 el cual segn los otros criterios era
aceptable para este no.
Despus de estos procesos nos estamos quedando con tres modelos :

4) Utilizaremos el criterio del VIF.Vamos a pedir que el VIF>10.

- 10 -

Se puede observar que ningn modelo fue descartado del anlisis, asi que el criterio no
nos ayudo.
5) Criterio PRESS. El PRESS es una poderosa herramienta , vamos a ordenar los
modelos de menor a mayor y nos quedaremos con los que tengan el menor PRESS.

Observamos que los modelos E3;E4 y E2;E3;E4 son los que menor PRESS tienen.
Podramos decir que el modelo E3;E4 es mejor que el modelo E2;E3;E4 pero para
no cometer errores vamos a tomarlo en cuenta.
Tambin podramos fijarnos si los modelos E3 ; E4 por si solos pueden servirnos,
uno busca siempre tener la menor cantidad de variables y que mejor que poder explicar
y hasta predecir con un modelo con usa sola variable.
Empezamos con E3 :
Hacemos que el problema realice los clculos para este modelo:

- 11 -

Nos encontramos con un R2 ajustado muy bajo este modelo no es explicativo y mucho
menos predictivo. Queda totalmente descartado.

- 12 -

Vemos que pasa con E4 :

Podemos observar que el valor de es superior al 0,50 y por definicin podramos decir
que el modelo es explicativo. Pero no lo vamos a tomar ya que supera el valor de 0.50 y
los otros modelos analizados anteriormente casi son modelos predictivos lo cual nos
dejara tener mucha mas informacin.

Finalizacin:

- 13 -

Pasaremos a revisar los dos modelos que quedaron como candidatos para explicar el
problema. Empezaremos con el modelo E2;E3;E4.

En este modelo quedo descartada la variable X1 la cual media la gravedad del petrleo
crudo. La cual depende de la variable X3 ya que la gravedad medida en grados API
depende del tipo de crudo (liviano, medio, pesado).
Se observa que los coeficientes son b2=0.135 , b3=-0.177, b4=0.147. Pero notamos que
el b2 es no significativo tiene un alfa=0.83 por lo que queda descartado del modelo.
Quedndonos que b3 y b4. Ahora analicemos que nos dicen estos valores:
1) El valor de b3=-0,1769. O sea por cada grado F adicional en que aumenta 10%
ASTM de la gasolina, se estima que la produccin de petrleo crudo disminuye en
0,1769. Esto nos indica que tendramos que cambiar el punto donde se extrae la muestra
para intentar mejorar la produccin.

2) El valor de b4=0.1471 nos dice que estos nos favorece para la produccin del
combustible. O sea por cada grado F adicional en que aumenta el punto final ATSM de
la gasolina, se estima que la produccin de petrleo crudo aumenta en 0,1471. Esto lo
podemos dejar asi ya que nos favorece.

- 14 -

El otro modelo E3;E4 tiene el mismo anlisis que el anterior.

Lo que podemos observar es que el b3 es un poco mayor en valor absoluto lo que


empeorara la muestra de combustible final pero no es muy grande asi que no nos
vamos a preocupar.
Con lo que nos quedaramos con este modelo para explicar el problema.

- 15 -

Supuestos:

La ecuacin terica seria


Y= 0 + 3 X3 + 4 X4 +
Y= variables aleatoria la cual se trata de explicar.
X= variables explicativas. Usadas para explicar la variables y
= ruido o error
El ruido o error toma en cuenta todos los errores que no tuvimos en cuenta.
Ahora que nosotros tenemos el modelo para nuestro caso por ultimo y para que este se
pueda utilizar tendremos que ver si verifica cuatros supuestos.

- 16 -

1) V i = 2
Mediante el Excel realizamos un diagrama de dispersin y con l, nos ayudamos para
ver si encontrbamos heterocedasticidad.
E
22,24
20,82
22,55
13,79
23,32
18,07
17,42
25,52
20,49
21,87
20,39
15,98
12,63
17,9
16,68
24,49
20
21,4
20,1
22,04
15,26
12,01
23,03
17,43
15,83
23,24
19,77
21,07
21,46
22,26
16,86
22,13

-15,34
-6,42
-15,15
-5,29
-15,32
-15,27
-12,42
-13,32
-10,49
-6,67
6,41
-1,98
2,07
-11,5
0,92
-2,19
4,8
4,6
14,8
-3,84
7,94
5,99
-9,93
-1,33
16,27
11,46
11,93
12,53
8,94
4,34
10,94
23,57

Y vs E
30
25
20
15
10
Y

5
0
-5 0

10

15

20

-10
-15
-20
E

No se nota nada raro en el diagrama que de indicios de heterocedasticidad como una


especie de embudo o alguna forma rara. Por lo tanto podemos decir que es
homocedastica cumpliendo con el supuesto.

- 17 -

25

30

2) i independientes
Uno de los supuestos bsicos del modelo de regresin lineal es el de independencia
entre los residuos. El estadstico de Durbin-Watson proporciona informacin sobre el
grado de independencia existente entre ellos:

Nuevamente con ayuda del Excel calculamos el valor del estadstico y el mismo nos da
un valor de d= 0,71724478. Como el mismo es mayor que 0 y menor que 4 como se pide,
quedando demostrado este supuesto.

3) i deben seguir una distribucin Normal.


Mediante el programa Movac vamos a demostrar que los residuos siguen una
distribucin Normal.
Cargamos los datos en el mismo

- 18 -

Vemos que los mismo se ajustan bien a la distribucin Normal.

Tiene el R ms alto y el valor de Lver mas bajo. Y es el nico que pasa la prueba de
Kolmorov-Smirnov que el programa Movac utiliza para verificar.

Con todo lo anteriormente dicho, el grafico y al ver que pasa todas las dems pruebas
podemos confirmar que los residuos siguen una distribucin Normal.

4) E i = 0
Este queda demostrado por los dems supuestos.

Por lo tanto podemos afirmar que los supuestos se cumplen y que podemos realizar la
regresin para este modelo.

- 19 -

Conclusin
Como dijimos nos quedaremos con el modelo E3;E4 el cual tiene las variables X3,X4.
El modelo tiene menor nmero de variables , la mitad de las que se tena al comenzar,
siendo ms sencillo que el modelo completo(Principio de Parsimonia).
Los valores de b3=-01857 y b4=0.1477 con valores de alfa=0 para ambos casos
diciendo que son valores significativos.
Nos queda como ecuacin : Y=14.9997-0.1857 * X3 + 0.1447 * X4 .
El modelo es explicativo y no es predictivo.
En un futuro se podran buscar diferentes puntos de extraccin para intentar mejorar la
produccin de combustible.

- 20 -

También podría gustarte