Está en la página 1de 44

Escuela Superior Politcnica del Litoral

Materia de Graduacin: Regresin Lineal Avanzada

Construccin de Software para


Regresin: El Caso de Seleccin de
Modelos y Pruebas de Homocedasticidad
Previa a la obtencin del Ttulo de:
INGENIERO EN ESTADSTICA INFORMTICA

Graduandos:
Macas Cabrera Sindy Victoria
Pincay Chiquito Csar Alfonso

RLA

Contenido
Introduccin
1.
2.
3.
4.

Modelos de Regresin
Seleccin de Variables de Prediccin
Acerca de ERLA
Validacin del Modelo en el Software ERLA

Conclusiones y Recomendaciones

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

Introduccin

Anlisis de Regresin.
Medidas de bondad de Ajuste
Desarrollo de ERLA.

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

Modelos de Regresin
Regresin Polinmica
se tiene una variable dependiente y una variable de
explicacin, que se relacionan por un modelo polinmico.
y = 0 + 1 x 2 + 2 x 3 +

Regresin Lineal Simple


En este caso se tiene una variable independiente, una
variable dependiente y una relacin rectilnea entre ellos.
y = 0 + 1 x +
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

viene

Modelos de Regresin

Regresin Lineal Mltiple


Para este caso se tiene a una variable dependiente
y varias variables de explicacin o independientes.

yi = 0 + 1x i1+ 2 x i 2+ L + p-1x i p-1+ i, i = 1, 2, 3, K , n

Supuestos:
i j

i= j

Cov i , j =

Mayo 31 de 2012

i 0

: N 0, 2

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

viene

Modelos de Regresin

Representacin Matricial del Modelo de


Regresin Lineal Mltiple
El modelo yi = 0 + 1x i1+ 2 x i 2+para
L +i=1,
i
n, con p
p-1x i 2,
p-1+3,,
parmetros (p-1) variables de explicacin, se lo puede
representar matricialmente de la siguiente manera:

y1 1
y 1
2
M M

yn 1
Mayo 31 de 2012

x11
x21
M
xn1

x12 K
x22 K
MK
xn 2 K

x1 p 1
x2 p 1
M

xn p 1

0

1
M

p 1

1

2
M

n

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

Y X

viene

Modelos de Regresin

Donde:
El vector de observaciones Y R n
La matriz de diseo X M nxp
El vector de parmetros R
El vector de errores R n
p

Adems hay tener en cuenta que:


Y X X ya que 0

La Matriz de Varianzas y Covarianzas del Error es: 2 I

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

Estimacin de los Parmetros


De acuerdo con el modelo Y X y las
condiciones previamente mencionadas, se
2

I son parmetros

tiene el vector
y

desconocidos
pero
estadsticamente
estimables.
Como mtodos de estimacin de parmetros se
identifican: Mnimos Cuadrados y Mxima
Verosimilitud.
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

Estimacin de los
Parmetros

viene

Estimacin por Mnimos Cuadrados


Este es un mtodo de ajuste de curvas que a
principios del siglo XIX sugiri el matemtico
francs Adrien Legendre.
n

S(0 , 1 ,K , p-1 ) yi i
i 1

2
i

yi - 0 - 1x i 1- K - p-1x i p-1

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

Estimacin de los
Parmetros

viene

Aplicando el criterio de las derivadas


S(0 ,1 , K , p-1 )
0
S(0 ,1 , K , p-1 )
1
M
S(0 ,1 , K , p-1 )
p-1

Mayo 31 de 2012

0
0

XT Y = (XT X)-1 b
b = (X T X) -1 X T Y

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

10

Estimacin de los
Parmetros

viene

Estimacin por Mxima Verosimilitud


Este mtodo se basa, en la distribucin del
error. De acuerdo a lneas previas se dijo que
el error tiene distribucin Normal, por lo que
Y
la distribucin de
es tambin Normal:
i

Yi : N 0 + 1 x i1 ++ 1 x i p 1 , 2

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

11

Estimacin de los
Parmetros

viene

La expresin de la funcin de densidad


conjunta para el vector

y1

y
Y = 2
M

y n

es la siguiente:

y1
n
2
1

n

x
i 0 1 i p1 i p1
y 2
1
2 2 i1

f Y = f
= f(yi ) =
exp
n
M i=1
2 2
2



y n

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

12

Estimacin de los
Parmetros

viene

Basados a la expresin anterior se tiene que la


funcin de verosimilitud en forma matricial y
2

,
en termino de los parmetros
es la
siguiente:
L Y; , =

Mayo 31 de 2012

2 Y X
1
exp 2
2
1

Y X

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

13

Estimacin de los
Parmetros

viene

Por lo que los betas por estimacin de mxima


verosimilitud se los define como sigue:
b0

1
1
= X T X XT Y =
M

b
p 1

Cuya matriz de varianzas y covarianzas es:


X X
2

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

14

Matriz HAT
La Matriz Hat, H, relaciona los valores
ajustados con los valores observados , lo cual
indica la influencia que cada valor observado
tiene sobre cada valor ajustado.
Pues bien, suponiendo un modelo de regresin
lineal, se tiene que:
= Xb
Y

= X(X T X)-1 X T Y
Y

H = X X X XT
T

-1

= HY
Y
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

15

Anlisis de Varianza
Tabla Anova

EnMCR
vista de que
F
MCE distribucin
tiene
F p 1, n p
1 100%
,con de confianza se
debe rechazar H0 a favor
de H1, si el estadstico F0
es mayor que el percentil
de
1 con
100
F ,
p 1
grados
de libertad
en el
numerador y
grados de libertad en el
n p
denominador.
1

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

16

Anlisis de Varianza
Tabla Anova en forma Matricial:

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

17

Seleccin de variables de
prediccin
Se supone que el nmero de variables explicativas
que pueden haber en el modelo es (p -1), el nmero
de observaciones es n; y, si se ajusta un modelo de
regresin lineal con estas variables explicativas, el
nmero de parmetros del modelo es p. Entonces
se definen las siguientes medidas de bondad de
ajuste:

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

18

viene Seleccin

de variables de

prediccin

Coeficiente de Determinacin (R2)


R2-Ajustado
2
Varianza Residual ( s R )
Estadstico de Mallows
Criterio de Informacin de Akaike (AIC)
Suma de Cuadrados de Prediccin (PRESS)

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

19

viene Seleccin

de variables de

prediccin
Coeficiente de
Determinacin (R2)
n

SCR
2
R

SCT

y y

y y

i 1
n
i 1

Mayo 31 de 2012

R2-Ajustado

2
R adj

n
1
2

yi yi

n p 1 i=1
= 1
1 n
2
yi y

n 1 i=1

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

20

viene Seleccin

de variables de

prediccin
2
R
adj

en trminos del Coeficiente de


Determinacin R2
n 1

2
R adj = 1
1 R2

n p 1

Dicha expresin en trminos de varianzas se


tiene que:
2
R adj

Mayo 31 de 2012

s2
s2
= 1
= 1 2
SCT
sy
(n 1)
Seleccin de Modelos y Pruebas de Homocedasticidad
Macas S. , Pincay C.

21

viene Seleccin

de variables de

prediccin
2
R
noadj

La ecuacin anterior muestra que


aumenta necesariamente con una variable de
explicacin ms.
Si no hay mejora en R2adj por la adicin de
(n 1)
una variable, que El trmino n p 1 en
2
R
realidad baja
por esta razn este
adj el
indicador es una mejor medida que R2 para la
seleccin del modelo
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

22

viene Seleccin

de variables de

prediccin
2
R

Varianza Residual ( s )
1
2
sR =
n p+1

1
2
ei =

n p+1
i=1

El criterio de minimizar
la varianza residual es
equivalente al criterio de
maximizar el coeficiente
de
determinacin
ajustado.
Mayo 31 de 2012

yi y i = MCE
2

i=1

La varianza residual no se la
considera como un indicador de
seleccin de modelos, sino ms
bien como una gua para as
determinar cul de los indicadores
es el que ms conviene en el
estudio de Regresin.

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

23

viene Seleccin

de variables de

prediccin
Estadstico de Mallows
Este criterio toma en cuenta la Media Cuadrtica
del Error, es decir la varianza del error en la
seleccin del modelo, lo que conlleva a que si se
omite una variable explicativa importante que
influya en la prediccin, los estimadores de los
coeficientes de regresin seran sesgados, es decir
E i i lo cual indica que el objetivo de este
indicador es minimizar la MCE.
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

24

viene Seleccin

de variables de

prediccin
Estadstico de Mallows
CP de Mallows est definido como:

Cp =

SCR p
2

n 2 p

s
El valor en el que el Cp es el mejor es cuando
este se aproxima al nmero de parmetros.

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

25

viene Seleccin

de variables de

prediccin
Criterio de Informacin Akaike (AIC)

SCE p
AIC p = n ln
+ 2 p+1
n

Este criterio es similar al Cp una medida de bondad


de ajuste, pero el AIC considera la funcin
verosimilitud.
Seleccionamos el modelo que tenga el menor valor
de AIC.
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

26

viene Seleccin

de variables de

prediccin
Suma de Cuadrados de Prediccin (PRESS)
Supongamos que hay p parmetros en el modelo y que
tenemos n observaciones disponibles para estimar los
parmetros del modelo, en cada paso se deja de lado la isima observacin del conjunto de datos y se calculan todas
las regresiones posibles; se calcula la prediccin y el residual
correspondiente para la observacin que no fue incluida, el
cual es llamado el residual PRESS.
n

PRESS e2i
i 1

Mayo 31 de 2012

ei
PRESS

h
i 1
ii
n

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

27

Acerca de ERLA
ERLA es un software desarrollado para ser
implementado en Microsoft Windows, para el
cual se utiliz Visual Basic.NET y Matlab.
La utilizacin bsica de estos dos programas
es Visual Basic.NET para la presentacin de la
interfaces de interaccin con el usuario y
Matlab para el desarrollo de las funciones
matemticas y estadsticas.
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

28

Acerca de ERLA
MATLAB(Laboratorio de Matrices)
Command Window.- Es la
ventana de comandos para
interactuar.
Command History.- Contiene
el registro de los comandos
que han sido ingresados.
Workspace.-Contiene
la
descripcin de las variables
usadas en cada seccin.

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

29

Acerca de ERLA
Se presenta el algoritmo utilizado para construir la Funcin
Regresin Lineal :
function R1=RegressionCoefficients(y,MX)
%El primer argumento debe ser la variable a
ser explicada
%El segundo argumento debe ser la matriz
con variables de explicacin
%Devuelve una matriz con las inferencias
sobre los betas
paramat long g;
d=size(MX);
n=d(1);
p=d(2)+1;
j=ones(n,1);
X=[j,MX];
I=eye(n);
J=ones(n);
Mayo 31 de 2012

A=inv(X'*X);
H=X*A*X';
SCE=y'*(I-H)*y;
MCE=SCE/(n-p);
b=A*X'*y;
Sb=MCE*A;
R1=zeros(p,4);
para i=1:p
R1(i,1)=b(i);
R1(i,2)=sqrt(Sb(i,i));
R1(i,3)=R1(i,1)/R1(i,2);
R1(i,4)=abs(R1(i,3));
R1(i,4)=tcdf(R1(i,4),n-p);
R1(i,4)=(1-R1(i,4))*2;
fin

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

30

Acerca de ERLA
Se presenta el algoritmo utilizado para el calculo de los
indicadores de calidad del modelo :
funcin M=modelosR2(y,MX)
t1=size(MX);
v=t1(2);
SCT=R2Ajustado2_SCT(y,MX);
para i=1:v
c(i)=nchoosek(v,i);
fin
p=1;
i=1;
k=c(1);
t=0;
si v==1
M(t+1)=R2 Ajustado2(y,MX,SCT);
M=M';
Si no
mientras i<v

Mayo 31 de 2012

cc=1;
vr=combinacion(v,i,'c');
para j=p:k
M(j)=R2 Ajustado2(y,MX(:,vr(cc,:)),SCT);
t=j;
cc=cc+1;
fin
p=t+1;
i=i+1;
k=t+c(i);
fin
vr=combinator(v,v,'c');
M(t+1)=R2 Ajustado2(y,MX,SCT);
M=M';
Fin

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

31

Acerca de ERLA
Conexin entre VISUAL BASIC.NET y MATLAB

La conexin entre estos dos programas


comienza en Matlab con la creacin de las
libreras respectivas, ya que sta es la base para
la creacin de las funciones que proporcionaran
los resultados esperados. Para ello inicialmente
se crean funciones, se comprueba los resultados
de las funciones creadas para luego crear
libreras (archivos *.dll).
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

32

Acerca de ERLA
Ya desde Visual
Basic.NET, se aade una
referencia hacia la
librera principal de
Matlab MWArray.dll,
para con esto poder
acceder a las funciones
creadas en Matlab
convertidas en libreras.
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

33

Acerca de ERLA

El proyecto desarrollado en Visual Studio.NET se lo


compila para luego poder tener un archivo
ejecutable (*.exe), con el cual este software podr
ser instalado en sistemas operativos Windows.

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

34

Validacin del Modelo en el


Software ERLA
Se considera el caso de una Central Elctrica. Las variables
que se consideran son:

C: Costo en dlares
D: Fecha de expedicin permiso de construccin
T1: Tiempo entre la solicitud de permiso y la expedicin o permiso
T2: Tiempo entre la emisin de la licencia de funcionamiento y permiso de
construccin
S: Capacidad de Energa neta de la planta
PR: Existencia previa de un reactor en el mismo sitio.
NE: Planta construida en la regin noreste
CT: Uso de la torre de enfriamiento
BW: Sistema de suministro de vapor nuclear
N: Nmero acumulado de plantas de energa
PT: Llave de plantas

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

35

viene Validacin

del Modelo
en el Software ERLA

De acuerdo con la ejecucin de ERLA,


basados en el ejemplo antes mencionado se
determin el valor del R2 Ajustado, Cp
Mallows, Akaike y PRESS de las 1024
combinaciones de las 10 variables de
explicacin (11 parmetros).

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

36

viene Validacin

del Modelo
en el Software ERLA

Resultados:
#
R2 Ajustado Cp Mallows
Parmetros
0.4364
2
55.91
0.6314
3
27.04
0.7326
4
13.16
0.7814
5
7.29
0.7980
6
6.05
0.8068
7
5.97
0.8065
8
7.04
0.8149
9
8.49
0.8072
10
9.05
0.7985
11
11.00
Mayo 31 de 2012

AIC

PRESS

-78.68
-91.36
-100.75
-106.36
-108.10
-108.77
-108.03
-108.81
-106.93
-105.014

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

4.38
2.76
1.81
1.60
1.60
1.67
1.75
1.91
2.05
2.32

# Variables
Explicativas
1
2
3
4
5
6
7
8
9
10
37

viene Validacin

del Modelo
en el Software ERLA
Resultados:
R2 Ajustado: 8 V.E. (0.8149)
Cp Mallows: 5 V.E. (6.0500)
AIC:
8 V.E. (-108.81)
PRESS:
4 V.E. ( 1.6000)
C=-11.68 + 0.24 D + 0.006T2 + 0.001S
- 0.11 PR + 0.26 NE + 0.11 CT - 0.01 N - 0.21 PT

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

38

viene Validacin

del Modelo
en el Software ERLA

Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

39

CONCLUSIONES
Las tecnologas de la informacin (TI) ofrecen
grandes posibilidades al mundo de la educacin.
Pueden facilitar el aprendizaje de conceptos y
materias, ayudar a resolver problemas y contribuir
a desarrollar las habilidades cognitivas.

Se enuncian las principales conclusiones


derivadas del Trabajo Especial de Grado expuesto:
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

40

CONCLUSIONES
Existen numerosas tcnicas para la construccin de un software
estadstico, por lo que es importante escoger y determinar las que
mejor se adapten al contexto y a las necesidades.
Microsoft Visual Studio 8.0 permiti el desarrollo de un software
con una interface amigable con el usuario la cual satisface el
requerimiento de ser apto para fines educativos; adems de que
el usuario final fue un programa computacional con
caractersticas profesionales y que permiten su fcil
entendimiento, entre las cuales se pueden mencionar cuadros de
dialogo, consejos como ayuda. Men emergente para el manejo
de resultados, etc.
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

41

CONCLUSIONES
Si bien hay en el mercado diversas opciones de software estadsticos,
su utilizacin se limita en gran parte a la parte bsica de la tcnica de
regresin, por lo que es importante fomentar a ERLA en su
desarrollo e implementacin para que se incremente su uso en las
aulas de clase, as como en los diferentes niveles de investigacin.
El desarrollo de un software estadstico incluye profesionales y/o
expertos, por lo que a una primera instancia fue necesario considerar
un nmero de graduandos, en el proceso para determinar, de manera
ms completa, los aspectos que influyen en el proceso de
construccin y aprendizaje, para as lograr un mejor desarrollo y uso
de ERLA.
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

42

CONCLUSIONES
El presente Reporte Especial de Grado puede servir de
base para su expansin y adaptacin a otros tpicos o
temas y/o para futuros proyectos en sta y otras reas de
conocimiento.
Todo sistema de software depende del apoyo que reciba,
de Entidades ya sean Pblicas o Privadas; y de la
utilizacin del mismo, por lo que el xito de este proyecto
depende del uso, impulso y aplicacin de la Escuela
Superior Politcnica del Litoral ESPOL y profesionales.
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

43

RECOMENDACIONES
Disminuir la incertidumbre en la administracin del
software en los distintos mdulos, usando el manual
de usuario.
Elaborar mdulos de estadsticas, donde los usuarios
pueden consultar el rendimiento del Software
(individual o por seccin) y los usuarios puedan
consultar su rendimiento de forma personal o global
con respecto al Software.
Mayo 31 de 2012

Seleccin de Modelos y Pruebas de Homocedasticidad


Macas S. , Pincay C.

44