Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ndice de contenido
ndice de ilustraciones ................................................................................................... 7
1. INTRODUCCION ................................................................................................... 11
2. ANALISIS DE REGRESION................................................................................. 13
2.1 Regresin lineal .................................................................................................................................13
2.1.1 Regresin lineal mltiple en notacin matricial ..........................................................................14
2.1.2 Calidad del ajuste y su medicin .................................................................................................15
2.2 Regresin no lineal ............................................................................................................................18
2.3 Colinealidad entre variables independientes...................................................................................20
2.3.1 Principales tcnicas de deteccin.................................................................................................20
2.3.1.1 Diagramas de dispersin ......................................................................................................20
2.3.1.2 Mtodo del factor de inflacin de la varianza ......................................................................22
2.3.1.3 Matriz de correlaciones........................................................................................................23
2.3.1.4 Anlisis del autosistema.......................................................................................................24
2.3.2 Tcnicas de correccin ................................................................................................................28
2.3.2.1 Eliminacin de variables del anlisis ...................................................................................29
2.3.2.2 Componentes principales .....................................................................................................29
2.3.2.3 La tcnica "Ridge Regression".............................................................................................29
2.4 Exploracin de regresin sesgada ....................................................................................................31
2.4.1 Primera solucin ..........................................................................................................................31
2.4.2 Solucin dual ...............................................................................................................................33
2.4.3 La tcnica "Kernel Ridge Regression".........................................................................................34
2.4.4 Estandarizacin de datos para la regresin sesgada.....................................................................37
2.4.5 Ejemplo de aplicacin mediante regresin mltiple ....................................................................39
2.4.6 Eleccin del factor de regularizacin...........................................................................................43
2.4.6.1 Uso de trazas de regresin sesgada ......................................................................................43
2.4.6.2 Mtodo del punto fijo...........................................................................................................45
2.4.6.3 Mtodo iterativo...................................................................................................................46
2.4.6.4 Validacin cruzada ..............................................................................................................47
4. CONCLUSIONES ................................................................................................... 54
5. MOTIVACION Y TRABAJOS FUTUROS.......................................................... 57
REFERENCIAS Y BIBLIOGRAFIA....................................................................... 59
Autorizacin de difusin. ............................................................................................ 61
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA
ndice de ilustraciones
Fig. 1. Variable Y en funcin de X........................................................................................... 13
Fig. 2. Ajuste por mnimos cuadrados. .................................................................................. 13
Fig. 3. Ilustracin grfica de la medicin del ajuste. ............................................................ 16
Fig. 4. Anlisis de la Varianza (ANOVA)................................................................................. 16
Fig. 5. Funciones de ajuste polinomiales y sobreajuste...................................................... 18
Fig. 6. Diagramas de dispersin. ............................................................................................ 21
Fig. 7. Factor de inflacin de la varianza. .............................................................................. 22
Fig. 8. Matriz de correlacin. ................................................................................................... 24
Fig. 9. Transformacin de las variables originales en componentes. ................................ 24
Fig. 10. ACP a partir de la Matriz de correlacin................................................................... 26
Fig. 11. ACP a partir de las variables originales. .................................................................. 27
Fig. 12. Transformacin ortogonal de datos originales. ...................................................... 28
Fig. 13. Agregacin de un sesgo a MCO................................................................................ 30
Fig. 14. Efecto de la regularizacin. ....................................................................................... 32
Fig. 15. Sub-regularizacin y sobre-regularizacin. ............................................................. 33
Fig. 16. Idea bsica de los mtodos Kernel........................................................................... 35
Fig. 17. Regresin con kernel RBF-Gaussiano para diferentes valores de sigma............ 36
Fig. 18. Ridge Regression (Primera solucin) con datos sin normalizar. .......................... 40
Fig. 19. Ridge Regression (Primera solucin) con datos centrados. ................................. 40
Fig. 20. Kernel Ridge Regression (polinomial grado 2) con datos centrados. .................. 42
Fig. 21. Kernel Ridge Regression (sigmoide) con datos centrados. .................................. 43
Fig. 22. Datos sobre la economa francesa. .......................................................................... 44
Fig. 23. Trazas RR para diferentes escalas. .......................................................................... 44
Fig. 24. Eleccin de k (mtodo del punto fijo)....................................................................... 45
Fig. 25. Coeficientes de regresin para la variable IMPORT (mtodo del punto fijo). ...... 46
Fig. 26. Eleccin de k (mtodo iterativo). .............................................................................. 47
Fig. 27. Coeficientes de regresin para la variable IMPORT (mtodo iterativo)................ 47
Fig. 28. Precisin en la prediccin de la serie temporal dependiente para el conjunto de
prueba utilizando un kernel lineal.................................................................................. 51
Fig. 29. Precisin en la prediccin de la serie temporal dependiente para el conjunto de
prueba utilizando un kernel polinomial de grado 2. .................................................... 51
Fig. 30. Precisin en la prediccin de la serie temporal dependiente para el conjunto de
prueba utilizando un kernel mediante la tangente hiperblica. ................................. 52
Fig. 31. Stellerator TJ-II (CIEMAT)........................................................................................... 57
10
1. INTRODUCCION
El anlisis de regresin es una tcnica estadstica para estudiar la relacin entre
variables. El trmino regresin fue introducido por Francis Galton [Galton, 1886] . Su
trabajo se centr en la descripcin de los rasgos fsicos de los descendientes (variable
A) a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a
partir de ms de mil registros de grupos familiares, se lleg a la conclusin de que los
padres muy altos tenan una tendencia a tener hijos que heredaban parte de esta altura,
pero que revelaban tambin una tendencia a regresar a la media. Galton generaliz esta
tendencia bajo la "ley de la regresin universal": Cada peculiaridad en un hombre es
compartida por sus descendientes, pero en media, en un grado menor..
Tanto en el caso de dos variables (regresin simple) como en el caso de ms de dos
variables (regresin mltiple), el anlisis puede utilizarse para explorar y cuantificar la
relacin entre una variable llamada dependiente o criterio (Y) y una o ms variables
llamadas independientes, predictoras o regresoras (X1, X2, , Xn), as como para
desarrollar una ecuacin lineal con fines predictivos. En problemas de regresin se
dispone de una serie de datos de entrenamiento que representan las entradas y las
correspondientes salidas de un sistema lineal o no lineal. El objetivo de la regresin es
descubrir la relacin funcional entre la entrada y la salida de este sistema, para poder
as predecir la salida del sistema cuando se le presenta un dato de entrada nuevo.
Tradicionalmente se emplea la tcnica de mnimos cuadrados ordinarios (MCO) como
mtodo bsico de regresin, la cual encuentra problemas cuando las variables
independientes presentan multicolinealidad (cuando una variable independiente puede
ser explicada como una combinacin lineal o correlacin de una u otras variables
independientes). Este efecto provoca frecuentemente elevados errores puntuales en las
predicciones, lo que conduce a generar modelos predictivos con muy poco poder
explicativo y de difcil interpretacin en las salidas correspondientes a entradas
similares que deberan tambin predecir salidas similares. El procedimiento de eliminar
variables correlacionadas del anlisis puede ser aceptado por reduccionista y como un
modo de simplificar el modelo generado (computacionalmente ms eficiente); sin
embargo este medio reduce la carga de datos de entrada inicial al sistema y esto lo
puede convertir en una tcnica que genere un modelo con menor poder predictivo
(reducindose la tasa de acierto global en las salidas a predecir). Para resolver el
problema anterior se propuso la metodologa denominada Ridge Regression (RR) o
regresin sesgada. Este mtodo consiste en agregar un parmetro sesgado a los
estimadores de mnimos cuadrados ordinarios con la finalidad de reducir el error
estndar de stos que se comete a la hora de predecir el valor de la variable
dependiente. Pero esta no es la nica ventaja que ofrece este procedimiento; RR nos
ofrece dos modalidades de cmputo diferentes (solucin primal y dual) que podemos
utilizar dependiendo de si la dimensin del espacio de caractersticas (el nmero de
variables independientes utilizadas) es menor o mayor que el nmero total de ejemplos
de entrenamiento que se quieren aproximar, consiguiendo as un gasto computacional
mas razonable y menos costoso que el obtenido por el mtodo tradicional de regresin
utilizando MCO. Pero esto no es todo, la versin dual del procedimiento RR permite
realizar regresin no lineal mediante la construccin de una funcin de regresin lineal
en un espacio de caractersticas de ms alta dimensin (comnmente conocidas como
funciones kernel); dichas funciones permiten obtener resultados sorprendentes en
problemas no lineales utilizando solamente operaciones algebraicas sencillas. A esta
variante regularizada de la regresin utilizando funciones kernel se le denomina
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA
11
12
2. ANALISIS DE REGRESION
En un anlisis de regresin simple existe
una variable respuesta o dependiente (y) y
una variable explicativa o independiente
(x). El propsito es obtener una funcin
sencilla de la variable explicativa, que sea
capaz de describir lo ms ajustadamente
posible la variacin de la variable
dependiente. La variable explicativa puede
estar formada por un vector de una sola
caracterstica o puede ser un conjunto de n
caractersticas, atributos o dimensiones
(regresin mltiple). La regresin se
utiliza para predecir una medida
basndonos en el conocimiento de otra y
Fig. 1. Variable Y en funcin de X.
la intencin final es que dado un vector de
entrada xl+1 se persigue predecir un valor de salida yl+1 a partir de una funcin generada
mediante la supervisin previamente observada de un conjunto de entrenamiento inicial
de ejemplos (xi, yi), i=1l (Fig. 1) [NIST, 2003].
13
residual o residuos. Para estimar los parmetros de la funcin se utiliza el ajuste por
mnimos cuadrados (Fig. 2) [NIST, 2003]. Es decir, se trata de encontrar la funcin en
la cual la suma de los cuadrados de las diferencias entre los valores observados y
esperados sea menor. Sin embargo, con este tipo de estrategia es necesario que los
residuos o errores estn distribuidos normalmente y que varen de modo similar a lo
largo de todo el rango de valores de la variable dependiente. Estas suposiciones pueden
comprobarse examinando la distribucin de los residuos y su relacin con la variable
dependiente.
Cuando la variable dependiente es cuantitativa y la relacin entre ambas variables sigue
una lnea recta, la funcin es del tipo yi = w0 + w1 xi , en donde wo es el intercepto o
valor del punto de corte de la lnea de regresin con el eje de la variable dependiente y
w1 es la pendiente o coeficiente de regresin. Pero en el supuesto de que tengamos n
dimensiones y por tanto un caso de regresin mltiple la funcin de prediccin ser la
siguiente:
yi = X i w = wo + w1 xi ,1 + w2 xi ,2 ++ wn xi ,n
E ( w) = ( yi - X i w)
(1.1)
w ( y
X i w) 2 = 0
2X
T
i
( yi X i w ) = 0
X iT X i w = X iT yi
i
i
w = (XTX ) XT y
-1
14
y1
x10
x20
y2
y=
, X =
xl 0
yl
x11 x1n
x21 x2 n
, w=
xl1 xln
w0
w1
wn
( y y)
( y y )
( y y )
Donde SST (Sum Squared Total) es el sumatorio de los cuadrados de las diferencias de
la variable respuesta Y respecto de su media. SSR (Sum Squared Regression) representa
la suma de los cuadrados de las diferencias de la variable predictiva Y respecto a la
media de la variable observada Y, finalmente SSE (Sum Squared Errors) es el
sumatorio de los cuadrados de los residuales (los errores observados entre las variables
Y e Y ). Una relacin fundamental entre estas variables es la siguiente:
SST = SSR + SSE
15
Una vez introducidas las variables que hacen referencia a la suma de cuadrados, es
necesario continuar con las variables que utilizan la media cuadrtica, habitualmente
utilizadas por el anlisis de la varianza (ANOVA) en regresin mltiple. Est tcnica
estudia la igualdad de las medias para diferentes muestras poblacionales bajo la
hiptesis de que stas deben coincidir y por tanto el anlisis de varianza sirve para
comparar si los valores de un conjunto de datos numricos son significativamente
distintos a los valores de otro o ms conjuntos de datos. No obstante la utilidad
importante en un anlisis de regresin respecto al anlisis ANOVA son las variables
medias cuadrticas que se utilizan frecuentemente como medida de comparacin de los
errores que se producen en los ajustes de regresin.
En la siguiente ilustracin se puede observar la tabla resultante de un anlisis ANOVA
y sus equivalencias entre variables:
Fuente
Suma de cuadrados
Media cuadrtica
Cociente F
Regresin
SSR
MSR = SSR / n
F = MSR / MSE
Residuales
SSE
MSE = SSE / l
Dnde MSE (Mean Square Error) es la media del cuadrado debido al error de los
residuales y MSR (Mean Square Regression) es la media del cuadrado debido a la
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA
16
17
18
19
20
21
22
S xy =
( x x)( y y)
i =1
23
24
C1 C 2
C1
C2
Cn
1 0
0 2
0 0
Cn
Los elementos que no estn en la diagonal son ceros debido a que los componentes
principales son ortogonales. Los elementos que estn en la diagonal se conocen con el
sobrenombre de eigenvalues o autovalores, de tal forma que cada autovalor j es la
varianza de cada variable ortogonal Cj, y cumple la propiedad 1 2...n, debido a
que el primer componente principal tiene la varianza ms grande y el ltimo
componente principal la varianza ms pequea. Los coeficientes involucrados en la
creacin de cada Cj son conocidos como eigenvectors o autovectores y estn asociados
con el j-simo autovalor j.
Para construir esta transformacin lineal debe construirse primero la matriz de
coeficientes de correlacin. Debido a la simetra de esta matriz existe una base
completa de vectores propios de la misma. La transformacin que lleva de las antiguas
coordenadas a las coordenadas de la nueva base es precisamente la transformacin
lineal necesaria para reducir la dimensionalidad de datos. Adems las coordenadas en la
nueva base dan la composicin en factores subyacentes de los datos iniciales. Una de
las ventajas del ACP para reducir la dimensionalidad de un grupo de datos, es que
retiene aquellas caractersticas del conjunto de datos que contribuyen ms a su
varianza.
La funcin de Matlab pcacov nos devuelve el ACP a partir de la matriz de correlacin
(para datos normalizados) o a partir de la matriz de covarianza para datos no escalados.
Si aplicamos esta funcin dndole como entrada la matriz de correlacin generada en el
apartado anterior obtenemos los resultados mostrados en la Fig.10.
25
29.68%
16.11%
0
0
1.6265
0.8903
0
0
0
0
0.4832
Segn [Chatterjee, 2006] , si alguno de los , son exactamente igual a cero existe una
relacin perfectamente lineal entre las variables originales y por tanto es un caso
extremo de colinealidad. Si uno de los autovalores es mucho ms pequeo que los
dems (y cercano a cero), la colinealidad tambin se hace presente pero en menor
grado. En la matriz de correlacin de los componentes principales podemos observar
como el menor valor de no est muy cerca de cero pero si es mucho menor que los
otros dos, sobre todo del mayor autovalor, lo que indica algo de colinealidad existe
entre las variables X2 y X3.
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA
26
C1 = 0.7071X 1 + 0.7071X 2
C = 0.7071X 0.7071X
2
y a la matriz de correlacin:
0
1.8413
0.1587
0
En dicha matriz podemos observar como 2 = 0.16 es un valor muy prximo a 0 y muy
distante del primer autovalor, lo cual denota que existe colinealidad como ya sabamos
previamente.
Adems en la matriz observaciones_en_espacio_ACP obtenemos los coeficientes
principales (C1,C2) para cada punto correspondiente con el de las variables originales
(X1,X2). Si generamos un diagrama de dispersin tanto para las variables originales
como para los coeficientes principales obtenemos la siguiente figura:
27
En la Fig. 12 podemos observar como a partir de unas variables con una relacin
bastante lineal las podemos transformar en otras variables con ausencia de toda relacin
entre ellas, reflejado en el valor del factor de inflacin de la varianza que es igual a la
unidad.
[Belsley, 1980] propuso un ndice denominado nmero de condicin , el cual est
basado en la relacin entre el mximo autovalor de la matriz de correlacin y el
mnimo, tal como se indica a continuacin:
max
min
El nmero de condicin siempre ser ms grande de 1. Para valores de < 2.26 puede
ser ignorado, para valores 2.26 < < 3.16 existe una colinealidad dbil. Para valores
3.16 < < 5.48 se califica como moderada, para 5.48 < < 10 se considera fuerte y
para > 10 se considera muy fuerte.
Si calculamos el nmero de condicin para los dos ltimos ejemplos que hemos
mostrado en el estudio de componentes principales obtenemos = 1.83 y = 3.41. Lo
cual indica en el primer caso que la colinealidad existente puede ser despreciable y que
para el segundo caso tenemos una colinealidad moderada.
28
29
Si procedemos de esa forma a partir de la frmula (1.1) que define el mtodo de MCO,
el procedimiento RR no es ms que una ligera modificacin (adiccin de un trmino
constante a cada coeficiente o factor de regularizacin k) de dicha ecuacin:
F ( w) = k w + ( yi - X i w)
2
(1.1)
30
F
=0
w
2
(k w ) +
w
2kw +
w ( y
X i w) 2 = 0
2X
T
i
( yi X i w ) = 0
X iT X i w + kw = X iT yi
i
i
(X
X + kI n ) w = X T y
w = ( X T X + kI n ) X T y
1
la matriz ( X T X + k I n )
sabemos que existe un k (de hecho, un intervalo de valores de k), mejorando el error
del estimador MCO. El inconveniente reside en la eleccin de k que no debe ser de
modo intuitivo, ya que si este valor es muy grande, se produce una sobreregularizacin [Ramos, 2007], la cual puede originar prdida de informacin
importante, y si k resulta pequeo, se produce una sub-regularizacin, que puede
provocar que la solucin no sea robusta, es decir, que sea sensible a errores en los datos
(k=0 supone volver a un estimador MCO). Los procedimientos o tcnicas de eleccin
de este factor de regularizacin se discutirn ms adelante.
Al igual que ocurra con el mtodo de MCO donde w es funcin lineal del vector de la
variable respuesta dependiente (y), solucionar la ecuacin anterior para los coeficientes
w implica entonces solucionar un sistema de ecuaciones lineales con n ecuaciones y n
incgnitas. Por tanto, la complejidad computacional de esta tarea resulta (n3)
operaciones. Una vez que tenemos los coeficientes de regresin w, la funcin de
prediccin de un nuevo vector de entrada x ser,
n
y ( x) = xw = wi ( x)i
i =1
31
32
independientemente del ajuste que realicemos, los datos siempre se ajustarn a una
lnea horizontal.
Cuando seleccionamos un factor de k muy pequeo, perdemos robustez, el error
obtenido para cada tipo de ajuste es ms variable, pero nos acercamos otra vez al ajuste
de MCO y por tanto con sensibilidad a errores en los datos y a posibles efectos
perjudiciales si las variables independientes estn correlacionadas.
w = ( X T X + kI n ) X T y
1
(X
X + kI n ) w = X T y
X T Xw + kw = X T y
kw = X T y X T Xw = X T ( y Xw)
w = k 1 X T ( y Xw) = X T
33
= k 1 ( y Xw)
k = y Xw
k = y XX T
k + XX T = y
y = ( kI l + XX T )
= ( XX T + kI l ) 1 y
= (G + kI l ) 1 y
La matriz G = XXT se le conoce como "Gram matrix". Esta matriz G y la matriz (G +
kIl) tiene dimensiones (l x l). Los parmetros son conocidos como "dual variables" o
variables duales y resolver implica resolver l ecuaciones lineales con l incgnitas, una
tarea de complejidad (l3), como se muestra en la funcin de prediccin a partir de estas
variables, que viene dada por:
y = Xw = XX T = XX T (G + kI l ) 1 y
Para predecir un nuevo punto o vector x, implica complejidad computacional (nl), ya
que los coeficientes w son una combinacin lineal de los puntos de entrenamiento XT.
w = X T
l
w = i xi
i =1
y( x ) = x w = x
i =1
i =1
j =1
i xi = i ( xi ) j ( x) j
34
w = ( X )T
w = ( X )T ( K + kI l ) 1 y
Y la funcin de prediccin resultante a partir de estos coeficientes w quedara:
y = ( X ) w = ( X ) ( X )T ( K + kI l )1 y
y = z ( K + kI l ) 1 y
Es de sealar que si utilizamos un kernel lineal, entonces z = K, por lo que esto
correspondera a utilizar una solucin dual de RR, no obstante podemos probar y jugar
con diferentes kernels K (polinomial, funcin de base radial, tangente hiperblica, etc.)
junto con diferentes parmetros de regularizacin k con el objetivo de encontrar el
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA
35
y ( ( x )) = ( x ) w = ( x ) i ( xi ) = i ( ( xi )) j ( ( x )) j
i =1
i =1
j =1
xu
K = exp
Fig. 17. Regresin con kernel RBF-Gaussiano para diferentes valores de sigma.
36
X xj
X j X j = j
Yy
Y Y =
j =
( xij x j ) 2
i =1
n 1
Y =
(y
i =1
y )2
n 1
37
Y = 1 X 1 + + n X n
Yy
= 1
X 1 x1
X n xn
+ + n
( X xn )
Y ( X 1 x1 )
+ + n Y n
1
n
X n Y xn
X x
Y = y + 1 Y 1 1 Y 1 + + n Y n
1
n
X x
X x
Y = y + 1 Y 1 1 Y 1 + + n Y n n Y n
1
1
n
n
n x
X
X
Y = y j Y j + 1 Y 1 + + n Y n
j
1
n
j =1
Y = y + 1
resultando,
Y = w0 + w1 X 1 + + wn X n
para todo,
wj = Y
j
w0 = y w j x j
j =1
Z y = 1 Z1 + + n Z n
De tal forma que a cada variable original de datos Z j , Z y le corresponde una
transformacin de media cero y longitudes la unidad segn:
X xj
X j Z j = j
Lj
Yy
Y Z y =
Ly
y donde Lj y Ly son respectivamente:
Lj =
( xij x j ) 2
i =1
Ly =
(y
i =1
y )2
38
Z y = 1 Z1 + + n Z n
X xn
Yy
X x
= 1 1 1 + + n n
Ly
L1
Ln
...
resultando,
Y = w0 + w1 X 1 + + wn X n
para todo,
L
w j = y j
L
j
w0 = y w j x j
j =1
Es obvio que si solamente deseamos centrar los datos, nuestras variables originales
quedaran de la siguiente manera:
Y = w0 + w1 X 1 + + wn X n para todo,
wj = j
n
w0 = y w j x j
j =1
39
Fig. 18. Ridge Regression (Primera solucin) con datos sin normalizar.
Como observamos en la Fig. 18, el ajuste para los datos de entrenamiento mediante la
primera
solucin
expuesta
en
pasos
anteriores
para
RR
1
T
T
(coeficientes w = ( X X + kI ) X y y funcin predictiva Y = Xw ) parece comportarse
n
bastante bien, pero no es tan ptimo cuando intentamos aproximar las 97 observaciones
del conjunto de validacin, obteniendo aqu en trminos de MSE un valor muy alto.
Procediendo como lo discutido en el apartado de la normalizacin de datos, el modelo
puede ser mejorado aadindole un trmino independiente a la ecuacin y por tanto
transformando X e Y en otras variables, resultado de substraer el valor de sus medias.
Observamos en la Fig. 19, como tanto para los datos de entrenamiento como para el
conjunto de validacin se ha conseguido reducir drsticamente el valor del error en el
ajuste, incluso manteniendo el mismo factor de regularizacin k. La centralizacin de
los datos origina una agrupacin de los mismos en torno a su media con lo que
disminuye su dispersin mejorando el ajuste de mnimos cuadrados. Cuando
trabajamos con coeficientes normalizados podemos definir nuevas predicciones
trabajando con estos coeficientes, pero los datos tambin tienen que estar procesados
(centrados sobre su media) de la forma Ypred2=Xtest2*w2 + b; donde b resulta el
40
Procedemos de la misma manera para el clculo de los alfas y w's mediante la versin
dual (G tiene dimensiones 100 x 100):
% Model: Dual solution with bias
time2 = cputime;
% Gram matrix
G = Xtrain2*Xtrain2';
% Dual variables
alpha = inv(G+L*I2)*Ytrain2;
w3 = Xtrain2'*alpha;
elapsedTime2 = cputime - time2
elapsedTime1
elapsedTime2
PC Lenovo ThinkStation
1.0156
4.687500e-002
0.0936
0
Como se puede observar, al ser el nmero de dimensiones mucho mayor que el nmero
de observaciones (n >> l), resulta ms eficiente computacionalmente hablando utilizar
la versin dual de RR para el clculo de los coeficientes de regresin.
Pongamos ahora algn ejemplo con la tcnica KRR. La fortaleza de esta tcnica de
regresin es la posibilidad de utilizar funciones Kernel que nos permiten construir una
funcin de regresin lineal en un espacio de caractersticas de ms alta dimensin (lo
que equivale a una regresin no lineal en el espacio de entrada).
Utilicemos un kernel polinomial de grado 2 de la forma:
K ( x, y ) = (( xi y ) + 1)2
Como se puede observar en la Fig. 20, el uso de un kernel polinomial mejora
notablemente el ajuste sobre los datos de entrenamiento. Pero este sobreajuste impide
41
generalizar bien sobre los datos de validacin, obteniendo peores resultados que los
conseguidos con RR para el mismo factor de regularizacin k = 10.
Fig. 20. Kernel Ridge Regression (polinomial grado 2) con datos centrados.
Probemos ahora con un kernel de tipo sigmoide o tambin conocido como tangente
hiperblica.
K ( x, y ) = tanh( ( xi y ) + c)
El kernel mediante la tangente hiperblica se conoce tambin como 'kernel sigmoide' o
como 'kernel perceptron multicapa' y procede del campo de las redes neuronales.
Hay dos parmetros que son ajustables en esta funcin, el trmino y la constante c.
El valor que se le suele asignar a es 1/n, siendo n la dimensin de los datos que se
estn tratando [Souza, 2010].
El resultado de ajustar mediante un kernel de tipo sigmoide, el ejemplo que estamos
tratando con parmetros = 1/525, c = 1 es el siguiente:
42
43
44
donde 1 (0), , n (0) son los coeficientes de regresin transformados cuando k=0
SSE(i )
(estimadores de MCO) y 2 ( i ) =
, la varianza de los residuales (errores), siendo
l n2
2 (0) , la correspondiente varianza cuando el parmetro de regularizacin k=0.
45
Fig. 25. Coeficientes de regresin para la variable IMPORT (mtodo del punto fijo).
n (0)
2
j =1
(k1 )
Repetir este proceso hasta que k j +1 k j , o sea, hasta que las diferencias
encontradas para valores de k sucesivos sean casi despreciables.
Nuevamente en esta aproximacin aparece la subjetividad de lo que se considera
despreciable para las diferencias de k consecutivos, adems se supone que a partir del k
obtenido por el mtodo del punto fijo, los valores de k sern muy parecidos debido a la
influencia de la varianza en los residuales, que va a ser tambin muy similar.
Si aplicamos estos clculos, tomando como condicin de parada k j +1 k j 0.0001 ,
obtenemos los siguientes parmetros y coeficientes:
46
47
( y
CV(t ) =
i =1 j =1
y [j i ] ) 2
para t valores de k
Entonces el mejor modelo (el mejor factor de regularizacin k por validacin cruzada)
es aquel k que tiene el error de validacin cruzada promedio ms pequeo:
k = arg mn CV
En principio, calcular CV(k) para un valor de k requerira llevar a cabo l regresiones,
excluyendo cada vez una observacin distinta.
48
3. PREDICCION
LINEALES
DE
SERIES
TEMPORALES
NO
49
ello utilizaremos la tcnica RR para obviar si existen relaciones lineales entre las 525
variables independientes. Como hemos demostrado en apartados anteriores, dicha
tcnica mitiga los efectos perjudiciales de las colinealidades mediante la introduccin
de un sesgo o factor de regularizacin.
- Al ser el nmero de dimensiones mucho ms elevado que el nmero de observaciones
(525>>197), utilizaremos la versin dual de RR para el clculo de los coeficientes de
regresin y para obtener el error del ajuste final, como hemos demostrado en apartados
anteriores que es mucho ms eficiente en trminos de clculo y de computacin.
- Utilizaremos KRR porque no sabemos si los datos de entrenamiento muestran
relaciones no lineales entre sus variables independientes. Dicha tcnica, como tambin
hemos visto, obtiene una solucin ms ptima al movernos a un espacio de
caractersticas lineal a partir del espacio de entrada no lineal. Adems utilizaremos
diferentes funciones kernel (lineal, polinomial grado 2 y tangente hiperblica), para
comparar cual obtiene mejores resultados en la precisin del ajuste.
- En la eleccin del factor de regularizacin descartaremos las trazas RR debido
tambin al elevado nmero de dimensiones del problema a tratar. Resultara muy
engorroso pintar 525 trazas de las variables para un intervalo de factores de regresin.
Por ello utilizaremos la validacin cruzada para obtener el factor de regularizacin ms
ptimo. En este caso el que obtenga la serie temporal ms similar a una de referencia
(el error del ajuste promedio ms pequeo para un rango de factores de regularizacin).
Lineal
Kernel
Polinomial
grado2
Tangente
hiperb.
Adiccin
ruido
gaussiano
dbil
Adiccin
ruido
gaussiano
elevado
MSE
MSE
MSE
MSE
MSE
MSE
(datos
de
entrenamiento)
(datos
de
prueba)
(datos
de
entrenamiento)
(datos
de
prueba)
(datos
de
entrenamiento)
(datos
de
prueba)
0.149
0.509
1.594
1.970
17.610
12.156
0.0
1.801
0.0
3.7860
2.550
16.967
3.465
3.219
4.645
3.416
35.616
12.631
50
Hay que recalcar que aunque se consiguen errores en los ajustes casi nulos en los datos
de entrenamiento utilizando el kernel polinomial tanto en los datos originales como en
los datos con ruido gaussiano dbil, al utilizar ese mismo modelo para la prediccin de
los datos de prueba, obtenemos peores resultados que con el kernel lineal. Esto es
debido a que el kernel polinomial sobre ajusta excesivamente los datos de
entrenamiento y el modelo obtenido no es capaz de generalizar bien para los datos de
prueba.
El kernel mediante la tangente hiperblica obtiene peores resultados, no obstante se
observa que en los datos aadiendo elevado ruido gaussiano, se acercan los resultados a
los obtenidos mediante el kernel lineal, siendo mejores y superando los conseguidos
por el kernel polinomial para dicho caso.
En la Fig. 28 podemos observar como la prediccin de la serie temporal del conjunto de
prueba en los datos brutos originales, el error en el ajuste es casi mnimo,
reproduciendo casi en su conjunto la serie temporal observada original de dicho
conjunto.
Fig. 28. Precisin en la prediccin de la serie temporal dependiente para el conjunto de prueba utilizando un
kernel lineal.
Fig. 29. Precisin en la prediccin de la serie temporal dependiente para el conjunto de prueba utilizando un
kernel polinomial de grado 2.
51
Finalmente para el caso del kernel mediante la tangente hiperblica (Fig. 30),
comprobamos como los resultados son an peores, siendo ms imprecisa la
reproduccin en la prediccin de la serie temporal observada.
Fig. 30. Precisin en la prediccin de la serie temporal dependiente para el conjunto de prueba utilizando un
kernel mediante la tangente hiperblica.
52
53
4. CONCLUSIONES
En este trabajo se han descrito diferentes tcnicas de regresin que se engloban dentro
de la analtica predictiva de datos. El anlisis predictivo de datos es muy til para
estudiar y ajustar de manera eficiente el comportamiento de un sistema dinmico lineal
o no lineal a partir de las medidas discretas de sus variables. Por tanto, el objetivo
principal de un modelo de regresin generado a partir de un anlisis predictivo es
obtener una ecuacin matemtica que nos permita "predecir" con el mnimo error
posible el valor de una variable dependiente Y una vez conocidos los valores de X1, X2 ..
Xn o variables independientes predictoras. Dicha ecuacin servir como modelo o
funcin de aproximacin para la prediccin de futuras observaciones.
Cuando las variables predictoras estn muy correlacionadas, los coeficientes de
regresin resultantes de un ajuste por mnimos cuadrados ordinarios (MCO) pueden
llegar a ser muy errticos e imprecisos, debido a los efectos desastrosos que la
multicolinealidad tiene sobre su varianza. Estos coeficientes originan predicciones
errneas a la hora de vaticinar nuevas respuestas correspondientes a entradas similares
que deberan pronosticar salidas similares. La tcnica Ridge Regression (RR) trata estas
colinealidades minimizando el problema al contraer los coeficientes de regresin de
MCO mediante la introduccin de un sesgo, logrando coeficientes ajustados con menor
varianza, dando estabilidad as a la prediccin del modelo y solucionando dicho
problema. En este trabajo se ha estudiado tambin las diferentes modalidades que
existen para obtener y elegir un sesgo o factor de regularizacin ptimo (aquel que
obtenga predicciones con el mnimo error posible entre lo observado y lo esperado).
Los mtodos kernel (ampliamente utilizadas en las mquinas de aprendizaje
supervisado) han demostrado ser tcnicas muy eficaces en la resolucin de problemas
no lineales. Si los datos de entrenamiento (las variables independientes) muestran
relaciones no lineales, la tcnica RR ser incapaz de modelarlas adecuadamente con un
error mnimo aceptable (el sesgo introducido en RR ayuda pero a veces tambin resulta
insuficiente). Sin embargo, una solucin no lineal puede ser tratada y formulada
movindonos a un espacio de caractersticas lineal a partir del espacio de entrada no
lineal. Kernel Ridge Regression (KRR) es una tcnica que encuentra y realiza un
mapeo de los datos de entrada (considerados no lineales) en un espacio de
caractersticas de ms alta dimensin (donde corresponden a un modelo
aproximadamente lineal) obteniendo errores en el ajuste mucho menores con un gasto
computacional razonable, lo cual puede posibilitar su implementacin en tareas de
tiempo real. No obstante, se ha visto como estas funciones conllevan algunos
inconvenientes. Como se ha podido comprobar, el sobre-ajuste a un conjunto de
entrenamiento puede provocar no saber generalizar adecuadamente cuando se usa el
modelo para un conjunto de prueba diferente.
Finalmente, se han aplicado estas tcnicas predictivas a diferentes series temporales no
linales. Para ello se compararon los resultados en presencia de dos tipos de intensidades
de ruido gaussiano aadido, con los resultados obtenidos en ausencia de ruido (datos
brutos originales), concluyendo que el uso del kernel lineal mediante la solucin dual
de RR es el que mejor rendimiento proporciona en trminos de mnimo error en el
54
55
56
57
58
REFERENCIAS Y BIBLIOGRAFIA
[Akdeniz, 2001] Akdeniz, F. 2001. "The examination and analysis of residuals for
some biased estimators in linear regression". Communications in
Statistics: Theory and Methods. 30. 1171-1183.
[Belsley, 1980] Belsley, D. Kuth, E. Welsh, R. 1980. Regression diagnostics.
Identifying influential data and sources of collinearity". New York,
John Wiley & Sons, Inc.
[Chatterjee, 2006] Chatterjee, S. Hadi, A. 2006. Regression analysis by example.
Fourth Edition. Wiley-Interscience. ISBN: 100471746967
[Galton, 1886] Galton, Francis. 1886. Regression towards mediocrity in hereditary
stature. Journal of the Anthropological Institute. 15. 246-263.
[Garca, 2006] Garca, Jorge. et al. 2006. "Efectos de la colinealidad en el modelado de
la regresin y su solucin". Cultura Cientfica y Tecnolgica. 16. 23-34
[GEA, 2006] Grupo de Estadstica Aplicada. 2006. Universidad de Salamanca.
Regresin y correlacin. Introduccin a la Estadstica.
http://biplot.usal.es/problemas/libro/index.html
[Hoerl y Kennard, 1970] Hoerl, Arthur E. Kennard, Robert W." Ridge Regression:
Applications to Nonorthogonal Problems". Technometrics,
Vol. 12, No. 1. (Feb., 1970), pp. 69-82.
[Hoerl y Kennard, 1976] Hoerl, A. E.,R. W. Kennard. 1976. "Ridge Regression
Iterative
Estimation
of
the
Biased
Parameter".
Communication in statistics, A5(1), 77-88.
[Hoerl, Kennard y Baldwin, 1975] Hoerl, A.E., Kennard, R.W., and Baldwin, K.F.
(1975), Ridge regression: some simulations,
Communications in Statistics, 4, 105-123.
[Mason, 1991] Mason, C. Perreault, W. 1991. "Collinearity, power and interpretation of
multiple regression analysis". Journal of marketing Research. 28. 268220.
[NIST, 2003] NIST/SEMATECH 2003. e-Handbook of Statistical Methods,
http://www.itl.nist.gov/div898/handbook/
[Nez, 2005] Nez, V. Tussell, F. 2005. "Regresin y Anlisis de Varianza".
http://www.et.bs.ehu.es/~etptupaf/nuevo/ficheros/estad3/reg.pdf
[Pasha, 2004] Pasha, G.R. Shah, Ali. 2004. Application of ridge regression to
multicollinear data. Journal of Research (Science), Bahauddin Zakariya
University, Multan, Pakistan. 15. 97-106. ISSN 1021-1012.
59
[Ramos, 2007] Ramos, C. Martnez, M. Sanchs, J. Salcedo, J.V. 2007. "LQR Robusto
mendiante incertidumbre acotada en los datos". Revista Iberoamericana
de Automtica e Informtica Industrial. 4. 61-72.
[Shawe-Taylor, 2004] Shawe-Taylor, J. Cristianini, N. 2004. "Kernel Methods for
Pattern Analysis". Cambridge University Press. ISBN: 978-0521-81397-6.
[Souza, 2010] Souza, Cesar. 2010. Kernel Functions for Machine Learning
Applications. http://crsouza.blogspot.com/2010/03/kernel-functionsfor-machine-learning.html
[Thibaux, 2008] Thibaux, Romain. 2008. "Regression". Computer Science 294,
Practical
Machine
Learning.
http://www.cs.berkeley.edu/~pliang/cs294spring08/lectures/regression/
[TJ-II] http://fudaqs2.ciemat.es/TJ2WEB/indexGAD.jsp
[Wang, 1994] Wang, S. and Akabay, C. 1994. "Autocorrelation: problems and solution
in regression analysis". The Journal of Business and Forecasting
Methods and Systems. 13. 18-26.
[Zhang, 2009] Zhang, Jian. 2009. Risk Minimization. Statistical Learning Theory.
http://www.stat.purdue.edu/~jianzhan/STAT598Y/NOTES/slt02.pdf
60
Autorizacin de difusin.
El abajo firmante, matriculado en el Master en Investigacin en Informtica de la
Facultad de Informtica, autoriza a la Universidad Complutense de Madrid (UCM) a
difundir y utilizar con fines acadmicos, no comerciales y mencionando expresamente
a su autor el presente Trabajo Fin de Mster: ANALISIS PREDICTIVO DE DATOS
MEDIANTE TECNICAS DE REGRESION ESTADISTICA, realizado durante el curso
acadmico 2009-2010 bajo la direccin de MATILDE SANTOS PEAS [y con la
colaboracin externa de direccin de JESUS A. VEGA SANCHEZ] en el Departamento
de Arquitectura de Computadores y Automtica, y a la Biblioteca de la UCM a
depositarlo en el Archivo Institucional E-Prints Complutense con el objeto de
incrementar la difusin, uso e impacto del trabajo en Internet y garantizar su
preservacin y acceso a largo plazo.
61