Está en la página 1de 44

Escuela Superior Politcnica del Litoral

Materia de Graduacin: Regresin Lineal Avanzada

Construccin de Software para


Regresin: El Caso de Seleccin de
Modelos y Pruebas de Homocedasticidad

Previa a la obtencin del Ttulo de:


INGENIERO EN ESTADSTICA INFORMTICA

Graduandos:
Macas Cabrera Sindy Victoria
Pincay Chiquito Csar Alfonso

RLA
Contenido

Introduccin
1. Modelos de Regresin
2. Seleccin de Variables de Prediccin
3. Acerca de ERLA
4. Validacin del Modelo en el Software ERLA
Conclusiones y Recomendaciones

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 2
Macas S. , Pincay C.
Introduccin

Anlisis de Regresin.
Medidas de bondad de Ajuste
Desarrollo de ERLA.

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 3
Macas S. , Pincay C.
Modelos de Regresin

Regresin Polinmica
se tiene una variable dependiente y una variable de
explicacin, que se relacionan por un modelo polinmico.

y = 0 + 1 x 2 + 2 x 3 +

Regresin Lineal Simple


En este caso se tiene una variable independiente, una
variable dependiente y una relacin rectilnea entre ellos.

y = 0 + 1 x +

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 4
Macas S. , Pincay C.
viene Modelos de Regresin

Regresin Lineal Mltiple


Para este caso se tiene a una variable dependiente
y varias variables de explicacin o independientes.
yi = 0 + 1x i1+ 2 x i 2+ L + p-1x i p-1+ i, i = 1, 2, 3, K , n
Supuestos:
0 i j
Cov i , j = i 0 : N 0, 2
2
i= j

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 5
Macas S. , Pincay C.
viene Modelos de Regresin

Representacin Matricial del Modelo de


Regresin Lineal Mltiple
El modelo yi = 0 + 1x i1+ 2 x i 2+para
L +i=1,
p-1x i 2, i
p-1+3,, n, con p
parmetros (p-1) variables de explicacin, se lo puede
representar matricialmente de la siguiente manera:

y1 1 x11 x12 K x1 p 1 0 1
y 1 x21 x22 K x2 p 1
2 1 2
M M M MK M M M Y X

yn 1 xn1 xn 2 K xn p 1 p 1 n
Seleccin de Modelos y Pruebas de Homocedasticidad
Mayo 31 de 2012 6
Macas S. , Pincay C.
viene Modelos de Regresin

Donde:
El vector de observaciones Y R n
La matriz de diseo X M nxp
p
El vector de parmetros R
El vector de errores R n
Adems hay tener en cuenta que:
Y X X ya que 0
La Matriz de Varianzas y Covarianzas del Error es: 2 I

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 7
Macas S. , Pincay C.
Estimacin de los Parmetros

De acuerdo con el modelo Y X y las


condiciones previamente mencionadas, se
tiene el vector y 2
I son parmetros
desconocidos pero estadsticamente
estimables.
Como mtodos de estimacin de parmetros se
identifican: Mnimos Cuadrados y Mxima
Verosimilitud.

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 8
Macas S. , Pincay C.
Estimacin de los
viene
Parmetros

Estimacin por Mnimos Cuadrados


Este es un mtodo de ajuste de curvas que a
principios del siglo XIX sugiri el matemtico
francs Adrien Legendre.
n
S(0 , 1 ,K , p-1 ) yi i
2 2
i
i 1

yi - 0 - 1x i 1- K - p-1x i p-1
2

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 9
Macas S. , Pincay C.
Estimacin de los
viene
Parmetros

Aplicando el criterio de las derivadas


S(0 ,1 , K , p-1 )
0
0
S(0 ,1 , K , p-1 ) XT Y = (XT X)-1 b
0
1
b = (X T X) -1 X T Y
M
S(0 ,1 , K , p-1 )
0
p-1

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 10
Macas S. , Pincay C.
Estimacin de los
viene
Parmetros

Estimacin por Mxima Verosimilitud


Este mtodo se basa, en la distribucin del
error. De acuerdo a lneas previas se dijo que
el error tiene distribucin Normal, por lo que
la distribucin deY es tambin Normal:
i

Yi : N 0 + 1 x i1 ++ 1 x i p 1 , 2

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 11
Macas S. , Pincay C.
Estimacin de los
viene
Parmetros

La expresin de la funcin de densidad


y1

y
conjunta para el vector Y = 2
M
es la siguiente:

y n
y1
1
n

i 0 1 i p1 i p1
2

y 2 n
1 y x K x
f Y = f = f(yi ) = exp 2 2 i1

M i=1

n

2 2 2

y n

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 12
Macas S. , Pincay C.
Estimacin de los
viene
Parmetros

Basados a la expresin anterior se tiene que la


funcin de verosimilitud en forma matricial y
2
en termino de los parmetros , es la
siguiente:
2 Y X Y X
1 T
1
L Y; , = exp 2
2

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 13
Macas S. , Pincay C.
Estimacin de los
viene
Parmetros

Por lo que los betas por estimacin de mxima


verosimilitud se los define como sigue:
b0

b
= X T X XT Y =
1 1

M


b
p 1
Cuya matriz de varianzas y covarianzas es:
X X
2 T 1
b

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 14
Macas S. , Pincay C.
Matriz HAT

La Matriz Hat, H, relaciona los valores


ajustados con los valores observados , lo cual
indica la influencia que cada valor observado
tiene sobre cada valor ajustado.
Pues bien, suponiendo un modelo de regresin
lineal, se tiene que:
= Xb H = X X X XT
-1
Y = X(X T X)-1 X T Y
Y T

= HY
Y

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 15
Macas S. , Pincay C.
Anlisis de Varianza

EnMCR vista de que


Tabla Anova F
tiene
MCE distribucin
F p 1, n p 1 100%
,con de confianza se
debe rechazar H0 a favor
de H1, si el estadstico F0
es mayor que el percentil
de 1 con 100
F ,
grados
1 2 p 1
de libertad
1 en el
numerador y
grados de libertad en el
n p
2
denominador.

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 16
Macas S. , Pincay C.
Anlisis de Varianza

Tabla Anova en forma Matricial:

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 17
Macas S. , Pincay C.
Seleccin de variables de
prediccin

Se supone que el nmero de variables explicativas


que pueden haber en el modelo es (p -1), el nmero
de observaciones es n; y, si se ajusta un modelo de
regresin lineal con estas variables explicativas, el
nmero de parmetros del modelo es p. Entonces
se definen las siguientes medidas de bondad de
ajuste:

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 18
Macas S. , Pincay C.
viene Seleccin de variables de
prediccin

Coeficiente de Determinacin (R2)


R2-Ajustado
2
Varianza Residual ( s R )
Estadstico de Mallows
Criterio de Informacin de Akaike (AIC)
Suma de Cuadrados de Prediccin (PRESS)

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 19
Macas S. , Pincay C.
viene Seleccin de variables de
prediccin

Coeficiente de R2-Ajustado
Determinacin (R2)
n n
1
y y yi yi
2 2

SCR i
n p 1 i=1
R
2
i 1
n
2
R adj = 1
SCT 1 n
y y yi y
2 2
i
i 1 n 1 i=1

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 20
Macas S. , Pincay C.
viene Seleccin de variables de
prediccin
2
adj
R en trminos del Coeficiente de
Determinacin R2
n 1
R adj = 1
2

n p 1
1 R2

Dicha expresin en trminos de varianzas se


tiene que:
s2 s2
2
R adj = 1 = 1 2
SCT sy
(n 1)

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 21
Macas S. , Pincay C.
viene Seleccin de variables de
prediccin

2
La ecuacin anterior muestra que R
noadj
aumenta necesariamente con una variable de
explicacin ms.
Si no hay mejora en R2adj por la adicin de
(n 1)
una variable, que El trmino n p 1 en
2
R
realidad baja
adj el por esta razn este
indicador es una mejor medida que R2 para la
seleccin del modelo
Seleccin de Modelos y Pruebas de Homocedasticidad
Mayo 31 de 2012 22
Macas S. , Pincay C.
viene Seleccin de variables de
prediccin
2
Varianza Residual ( s ) R
n n
1 1
yi y i = MCE
2 2 2
sR = ei =
n p+1 i=1 n p+1 i=1

El criterio de minimizar La varianza residual no se la


la varianza residual es considera como un indicador de
equivalente al criterio de seleccin de modelos, sino ms
maximizar el coeficiente bien como una gua para as
de determinacin determinar cul de los indicadores
ajustado. es el que ms conviene en el
estudio de Regresin.
Seleccin de Modelos y Pruebas de Homocedasticidad
Mayo 31 de 2012 23
Macas S. , Pincay C.
viene Seleccin de variables de
prediccin
Estadstico de Mallows
Este criterio toma en cuenta la Media Cuadrtica
del Error, es decir la varianza del error en la
seleccin del modelo, lo que conlleva a que si se
omite una variable explicativa importante que
influya en la prediccin, los estimadores de los
coeficientes de regresin seran sesgados, es decir
E i i lo cual indica que el objetivo de este
indicador es minimizar la MCE.
Seleccin de Modelos y Pruebas de Homocedasticidad
Mayo 31 de 2012 24
Macas S. , Pincay C.
viene Seleccin de variables de
prediccin

Estadstico de Mallows
CP de Mallows est definido como:
SCR p
Cp = 2
n 2 p
s
El valor en el que el Cp es el mejor es cuando
este se aproxima al nmero de parmetros.

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 25
Macas S. , Pincay C.
viene Seleccin de variables de
prediccin
Criterio de Informacin Akaike (AIC)
SCE p
AIC p = n ln + 2 p+1
n
Este criterio es similar al Cp una medida de bondad
de ajuste, pero el AIC considera la funcin
verosimilitud.
Seleccionamos el modelo que tenga el menor valor
de AIC.
Seleccin de Modelos y Pruebas de Homocedasticidad
Mayo 31 de 2012 26
Macas S. , Pincay C.
viene Seleccin de variables de
prediccin

Suma de Cuadrados de Prediccin (PRESS)


Supongamos que hay p parmetros en el modelo y que
tenemos n observaciones disponibles para estimar los
parmetros del modelo, en cada paso se deja de lado la i-
sima observacin del conjunto de datos y se calculan todas
las regresiones posibles; se calcula la prediccin y el residual
correspondiente para la observacin que no fue incluida, el
cual es llamado el residual PRESS.

2
n n

ei
PRESS e2i PRESS
1 h

i 1 ii
i 1

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 27
Macas S. , Pincay C.
Acerca de ERLA

ERLA es un software desarrollado para ser


implementado en Microsoft Windows, para el
cual se utiliz Visual Basic.NET y Matlab.
La utilizacin bsica de estos dos programas
es Visual Basic.NET para la presentacin de la
interfaces de interaccin con el usuario y
Matlab para el desarrollo de las funciones
matemticas y estadsticas.

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 28
Macas S. , Pincay C.
Acerca de ERLA

MATLAB(Laboratorio de Matrices)
Command Window.- Es la
ventana de comandos para
interactuar.

Command History.- Contiene


el registro de los comandos
que han sido ingresados.

Workspace.-Contiene la
descripcin de las variables
usadas en cada seccin.

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 29
Macas S. , Pincay C.
Acerca de ERLA

Se presenta el algoritmo utilizado para construir la Funcin


Regresin Lineal :
function R1=RegressionCoefficients(y,MX) A=inv(X'*X);
%El primer argumento debe ser la variable a H=X*A*X';
ser explicada SCE=y'*(I-H)*y;
%El segundo argumento debe ser la matriz MCE=SCE/(n-p);
con variables de explicacin b=A*X'*y;
%Devuelve una matriz con las inferencias Sb=MCE*A;
sobre los betas R1=zeros(p,4);
paramat long g; para i=1:p
d=size(MX); R1(i,1)=b(i);
n=d(1); R1(i,2)=sqrt(Sb(i,i));
p=d(2)+1; R1(i,3)=R1(i,1)/R1(i,2);
j=ones(n,1); R1(i,4)=abs(R1(i,3));
X=[j,MX]; R1(i,4)=tcdf(R1(i,4),n-p);
I=eye(n); R1(i,4)=(1-R1(i,4))*2;
J=ones(n); fin

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 30
Macas S. , Pincay C.
Acerca de ERLA

Se presenta el algoritmo utilizado para el calculo de los


indicadores de calidad del modelo :
funcin M=modelosR2(y,MX) cc=1;
t1=size(MX); vr=combinacion(v,i,'c');
v=t1(2); para j=p:k
SCT=R2Ajustado2_SCT(y,MX); M(j)=R2 Ajustado2(y,MX(:,vr(cc,:)),SCT);
para i=1:v t=j;
c(i)=nchoosek(v,i); cc=cc+1;
fin fin
p=1; p=t+1;
i=1; i=i+1;
k=c(1); k=t+c(i);
t=0; fin
si v==1 vr=combinator(v,v,'c');
M(t+1)=R2 Ajustado2(y,MX,SCT); M(t+1)=R2 Ajustado2(y,MX,SCT);
M=M'; M=M';
Si no Fin
mientras i<v

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 31
Macas S. , Pincay C.
Acerca de ERLA

Conexin entre VISUAL BASIC.NET y MATLAB


La conexin entre estos dos programas
comienza en Matlab con la creacin de las
libreras respectivas, ya que sta es la base para
la creacin de las funciones que proporcionaran
los resultados esperados. Para ello inicialmente
se crean funciones, se comprueba los resultados
de las funciones creadas para luego crear
libreras (archivos *.dll).
Seleccin de Modelos y Pruebas de Homocedasticidad
Mayo 31 de 2012 32
Macas S. , Pincay C.
Acerca de ERLA

Ya desde Visual
Basic.NET, se aade una
referencia hacia la
librera principal de
Matlab MWArray.dll,
para con esto poder
acceder a las funciones
creadas en Matlab
convertidas en libreras.

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 33
Macas S. , Pincay C.
Acerca de ERLA

El proyecto desarrollado en Visual Studio.NET se lo


compila para luego poder tener un archivo
ejecutable (*.exe), con el cual este software podr
ser instalado en sistemas operativos Windows.

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 34
Macas S. , Pincay C.
Validacin del Modelo en el
Software ERLA
Se considera el caso de una Central Elctrica. Las variables
que se consideran son:
C: Costo en dlares
D: Fecha de expedicin permiso de construccin
T1: Tiempo entre la solicitud de permiso y la expedicin o permiso
T2: Tiempo entre la emisin de la licencia de funcionamiento y permiso de
construccin
S: Capacidad de Energa neta de la planta
PR: Existencia previa de un reactor en el mismo sitio.
NE: Planta construida en la regin noreste
CT: Uso de la torre de enfriamiento
BW: Sistema de suministro de vapor nuclear
N: Nmero acumulado de plantas de energa
PT: Llave de plantas

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 35
Macas S. , Pincay C.
viene Validacindel Modelo
en el Software ERLA

De acuerdo con la ejecucin de ERLA,


basados en el ejemplo antes mencionado se
determin el valor del R2 Ajustado, Cp
Mallows, Akaike y PRESS de las 1024
combinaciones de las 10 variables de
explicacin (11 parmetros).

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 36
Macas S. , Pincay C.
viene Validacindel Modelo
en el Software ERLA

Resultados:
# # Variables
R2 Ajustado Cp Mallows AIC PRESS
Parmetros Explicativas
2 0.4364 55.91 -78.68 4.38 1
3 0.6314 27.04 -91.36 2.76 2
4 0.7326 13.16 -100.75 1.81 3
5 0.7814 7.29 -106.36 1.60 4
6 0.7980 6.05 -108.10 1.60 5
7 0.8068 5.97 -108.77 1.67 6
8 0.8065 7.04 -108.03 1.75 7
9 0.8149 8.49 -108.81 1.91 8
10 0.8072 9.05 -106.93 2.05 9
11 0.7985 11.00 -105.014 2.32 10

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 37
Macas S. , Pincay C.
viene Validacin
del Modelo
en el Software ERLA

Resultados:
R2 Ajustado: 8 V.E. (0.8149)
Cp Mallows: 5 V.E. (6.0500)
AIC: 8 V.E. (-108.81)
PRESS: 4 V.E. ( 1.6000)
C=-11.68 + 0.24 D + 0.006T2 + 0.001S
- 0.11 PR + 0.26 NE + 0.11 CT - 0.01 N - 0.21 PT

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 38
Macas S. , Pincay C.
viene Validacin
del Modelo
en el Software ERLA

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 39
Macas S. , Pincay C.
CONCLUSIONES

Las tecnologas de la informacin (TI) ofrecen


grandes posibilidades al mundo de la educacin.
Pueden facilitar el aprendizaje de conceptos y
materias, ayudar a resolver problemas y contribuir
a desarrollar las habilidades cognitivas.

Se enuncian las principales conclusiones


derivadas del Trabajo Especial de Grado expuesto:

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 40
Macas S. , Pincay C.
CONCLUSIONES

Existen numerosas tcnicas para la construccin de un software


estadstico, por lo que es importante escoger y determinar las que
mejor se adapten al contexto y a las necesidades.

Microsoft Visual Studio 8.0 permiti el desarrollo de un software


con una interface amigable con el usuario la cual satisface el
requerimiento de ser apto para fines educativos; adems de que
el usuario final fue un programa computacional con
caractersticas profesionales y que permiten su fcil
entendimiento, entre las cuales se pueden mencionar cuadros de
dialogo, consejos como ayuda. Men emergente para el manejo
de resultados, etc.
Seleccin de Modelos y Pruebas de Homocedasticidad
Mayo 31 de 2012 41
Macas S. , Pincay C.
CONCLUSIONES

Si bien hay en el mercado diversas opciones de software estadsticos,


su utilizacin se limita en gran parte a la parte bsica de la tcnica de
regresin, por lo que es importante fomentar a ERLA en su
desarrollo e implementacin para que se incremente su uso en las
aulas de clase, as como en los diferentes niveles de investigacin.

El desarrollo de un software estadstico incluye profesionales y/o


expertos, por lo que a una primera instancia fue necesario considerar
un nmero de graduandos, en el proceso para determinar, de manera
ms completa, los aspectos que influyen en el proceso de
construccin y aprendizaje, para as lograr un mejor desarrollo y uso
de ERLA.

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 42
Macas S. , Pincay C.
CONCLUSIONES

El presente Reporte Especial de Grado puede servir de


base para su expansin y adaptacin a otros tpicos o
temas y/o para futuros proyectos en sta y otras reas de
conocimiento.

Todo sistema de software depende del apoyo que reciba,


de Entidades ya sean Pblicas o Privadas; y de la
utilizacin del mismo, por lo que el xito de este proyecto
depende del uso, impulso y aplicacin de la Escuela
Superior Politcnica del Litoral ESPOL y profesionales.

Seleccin de Modelos y Pruebas de Homocedasticidad


Mayo 31 de 2012 43
Macas S. , Pincay C.
RECOMENDACIONES

Disminuir la incertidumbre en la administracin del


software en los distintos mdulos, usando el manual
de usuario.

Elaborar mdulos de estadsticas, donde los usuarios


pueden consultar el rendimiento del Software
(individual o por seccin) y los usuarios puedan
consultar su rendimiento de forma personal o global
con respecto al Software.
Seleccin de Modelos y Pruebas de Homocedasticidad
Mayo 31 de 2012 44
Macas S. , Pincay C.

También podría gustarte