P. 1
Analisis Predictivo de Datos

Analisis Predictivo de Datos

|Views: 78|Likes:
Publicado porRuben Goethe

More info:

Published by: Ruben Goethe on Sep 22, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

11/15/2012

pdf

text

original

Proyecto Fin de Master en Ingeniería Informática para la Industria.

Master en Investigación en Informática.
Facultad de Informática.
Universidad Complutense de Madrid.




















ANALISIS PREDICTIVO DE DATOS MEDIANTE
TECNICAS DE REGRESION ESTADISTICA


















Autor: Augusto Pereira González
Director: Matilde Santos Peñas
Colaborador externo de dirección: Jesús A. Vega Sánchez
Curso académico: 2009-2010
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

2

















































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

3

PREDICTIVE DATA ANALYSIS BY MEANS OF STATISTICAL REGRESSION
TECHNIQUES

Abstract:

Statistical regression is one of the most widely used technique to find a variable that is
function of one or more explanatory variables; however, usually it's used the 'Ordinary
Least Square' technique (OLS), but it faces problems when the variables have
multicollinearity (linear relation between them). This work describes the troubles of
collinearity, the effects on the models achieved and discusses the main diagnostic
techniques to solving them and preventing them. 'Ridge Regression' and 'Kernel Ridge
Regression' are the most commonly used procedures to mitigate its effects. These can
be implemented through different modes of computation, allowing us to quantify and to
adjust the results in predictions from the initial conditions of the input data (number of
observations and number of dimensions of the variables to be treated).
Finally, experimental results are provided by applying the previous techniques and by
comparing the accurate on the predictions for different data sets.

Keywords: Predictive Data Analysis, Statistical Regression, Ridge Regression.


ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE
REGRESION ESTADISTICA

Resumen:

La regresión estadística es una de las técnicas mas empleadas cuando se busca
determinar una variable respuesta en función de una o más variables explicativas; sin
embargo, tradicionalmente se emplea la técnica de mínimos cuadrados ordinarios
(MCO), la cual enfrenta problemas cuando las variables explicativas presentan
multicolinealidad (relación lineal entre ellas). En este trabajo se describe el problema
de la colinealidad, sus efectos en los modelos generados y se discuten las principales
técnicas de diagnóstico y prevención. Las variantes de regresión sesgada ('Ridge
Regression' y 'Kernel Ridge Regression') son los procedimientos más empleados para
mitigar dicho efecto. Éstas pueden ser aplicadas mediante diferentes modalidades de
cómputo, permitiéndonos cuantificar y ajustar los resultados en las predicciones a partir
de las condiciones iniciales de los datos de entrada (número de observaciones y número
de dimensiones de las variables a tratar).
Finalmente se muestran y aportan resultados experimentales mediante la aplicación de
las técnicas analizadas, comparando las precisiones en las predicciones para diferentes
conjuntos de datos.


Palabras clave: Análisis predictivo, regresión estadística, regresión sesgada.




MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

4

















































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

5
Índice de contenido
Índice de ilustraciones ................................................................................................... 7
1. INTRODUCCION................................................................................................... 11
2. ANALISIS DE REGRESION................................................................................. 13
2.1 Regresión lineal .................................................................................................................................13
2.1.1 Regresión lineal múltiple en notación matricial ..........................................................................14
2.1.2 Calidad del ajuste y su medición .................................................................................................15
2.2 Regresión no lineal ............................................................................................................................18
2.3 Colinealidad entre variables independientes...................................................................................20
2.3.1 Principales técnicas de detección.................................................................................................20
2.3.1.1 Diagramas de dispersión......................................................................................................20
2.3.1.2 Método del factor de inflación de la varianza......................................................................22
2.3.1.3 Matriz de correlaciones........................................................................................................23
2.3.1.4 Análisis del autosistema.......................................................................................................24
2.3.2 Técnicas de corrección ................................................................................................................28
2.3.2.1 Eliminación de variables del análisis ...................................................................................29
2.3.2.2 Componentes principales .....................................................................................................29
2.3.2.3 La técnica "Ridge Regression".............................................................................................29
2.4 Exploración de regresión sesgada ....................................................................................................31
2.4.1 Primera solución..........................................................................................................................31
2.4.2 Solución dual ...............................................................................................................................33
2.4.3 La técnica "Kernel Ridge Regression".........................................................................................34
2.4.4 Estandarización de datos para la regresión sesgada. ....................................................................37
2.4.5 Ejemplo de aplicación mediante regresión múltiple ....................................................................39
2.4.6 Elección del factor de regularización...........................................................................................43
2.4.6.1 Uso de trazas de regresión sesgada ......................................................................................43
2.4.6.2 Método del punto fijo...........................................................................................................45
2.4.6.3 Método iterativo...................................................................................................................46
2.4.6.4 Validación cruzada ..............................................................................................................47
3. PREDICCION DE SERIES TEMPORALES NO LINEALES .......................... 49
3.1 Precisión en la predicción de series temporales sometidas a ruidos en los datos.........................49
3.2. Analítica predictiva en series temporales sometidas a ruido gaussiano continuo.......................49
3.2.1 Supuestos de partida para el análisis............................................................................................49
3.2.2 Resultados finales obtenidos........................................................................................................50
4. CONCLUSIONES ................................................................................................... 54
5. MOTIVACION Y TRABAJOS FUTUROS.......................................................... 57
REFERENCIAS Y BIBLIOGRAFIA....................................................................... 59
Autorización de difusión. ............................................................................................ 61
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

6





































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

7
Índice de ilustraciones

Fig. 1. Variable Y en función de X........................................................................................... 13
Fig. 2. Ajuste por mínimos cuadrados. .................................................................................. 13
Fig. 3. Ilustración gráfica de la medición del ajuste. ............................................................ 16
Fig. 4. Análisis de la Varianza (ANOVA)................................................................................. 16
Fig. 5. Funciones de ajuste polinomiales y sobreajuste. ..................................................... 18
Fig. 6. Diagramas de dispersión. ............................................................................................ 21
Fig. 7. Factor de inflación de la varianza. .............................................................................. 22
Fig. 8. Matriz de correlación. ................................................................................................... 24
Fig. 9. Transformación de las variables originales en componentes. ................................ 24
Fig. 10. ACP a partir de la Matriz de correlación................................................................... 26
Fig. 11. ACP a partir de las variables originales. .................................................................. 27
Fig. 12. Transformación ortogonal de datos originales. ...................................................... 28
Fig. 13. Agregación de un sesgo a MCO................................................................................ 30
Fig. 14. Efecto de la regularización. ....................................................................................... 32
Fig. 15. Sub-regularización y sobre-regularización. ............................................................. 33
Fig. 16. Idea básica de los métodos Kernel. .......................................................................... 35
Fig. 17. Regresión con kernel RBF-Gaussiano para diferentes valores de sigma. ........... 36
Fig. 18. Ridge Regression (Primera solución) con datos sin normalizar. .......................... 40
Fig. 19. Ridge Regression (Primera solución) con datos centrados. ................................. 40
Fig. 20. Kernel Ridge Regression (polinomial grado 2) con datos centrados. .................. 42
Fig. 21. Kernel Ridge Regression (sigmoide) con datos centrados. .................................. 43
Fig. 22. Datos sobre la economía francesa. .......................................................................... 44
Fig. 23. Trazas RR para diferentes escalas. .......................................................................... 44
Fig. 24. Elección de k (método del punto fijo)....................................................................... 45
Fig. 25. Coeficientes de regresión para la variable IMPORT (método del punto fijo). ...... 46
Fig. 26. Elección de k (método iterativo). .............................................................................. 47
Fig. 27. Coeficientes de regresión para la variable IMPORT (método iterativo)................ 47
Fig. 28. Precisión en la predicción de la serie temporal dependiente para el conjunto de
prueba utilizando un kernel lineal.................................................................................. 51
Fig. 29. Precisión en la predicción de la serie temporal dependiente para el conjunto de
prueba utilizando un kernel polinomial de grado 2. .................................................... 51
Fig. 30. Precisión en la predicción de la serie temporal dependiente para el conjunto de
prueba utilizando un kernel mediante la tangente hiperbólica. ................................. 52
Fig. 31. Stellerator TJ-II (CIEMAT)........................................................................................... 57


















MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

8

















































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

9










”If your experiment needs statistics [i.e., inference],
you ought to have done a better experiment.”

(Ernest Rutherford)
Nobel Prize in Chemistry in 1908



With high dimensionality,
complex regularities,
weak prior knowledge and large data sets,
… Can one always do a better experiment?

(Bernhard Schölkopf)
Empirical Inference Department
Max Planck Institute for Biological Cybernetics
Tübingen, Germany



“The brain is nothing but a statistical decision organ”

(Horace B. Barlow)
Australia Prize in Sensory perception theme in 1993


















MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

10

















































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

11
1. INTRODUCCION

El análisis de regresión es una técnica estadística para estudiar la relación entre
variables. El término regresión fue introducido por Francis Galton [Galton, 1886] . Su
trabajo se centró en la descripción de los rasgos físicos de los descendientes (variable
A) a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a
partir de más de mil registros de grupos familiares, se llegó a la conclusión de que los
padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura,
pero que revelaban también una tendencia a regresar a la media. Galton generalizó esta
tendencia bajo la "ley de la regresión universal": «Cada peculiaridad en un hombre es
compartida por sus descendientes, pero en media, en un grado menor.».
Tanto en el caso de dos variables (regresión simple) como en el caso de más de dos
variables (regresión múltiple), el análisis puede utilizarse para explorar y cuantificar la
relación entre una variable llamada dependiente o criterio (Y) y una o más variables
llamadas independientes, predictoras o regresoras (X
1
, X
2
, …, X
n
), así como para
desarrollar una ecuación lineal con fines predictivos. En problemas de regresión se
dispone de una serie de datos de entrenamiento que representan las entradas y las
correspondientes salidas de un sistema lineal o no lineal. El objetivo de la regresión es
descubrir la relación funcional entre la entrada y la salida de este sistema, para poder
así predecir la salida del sistema cuando se le presenta un dato de entrada nuevo.
Tradicionalmente se emplea la técnica de mínimos cuadrados ordinarios (MCO) como
método básico de regresión, la cual encuentra problemas cuando las variables
independientes presentan multicolinealidad (cuando una variable independiente puede
ser explicada como una combinación lineal o correlación de una u otras variables
independientes). Este efecto provoca frecuentemente elevados errores puntuales en las
predicciones, lo que conduce a generar modelos predictivos con muy poco poder
explicativo y de difícil interpretación en las salidas correspondientes a entradas
similares que deberían también predecir salidas similares. El procedimiento de eliminar
variables correlacionadas del análisis puede ser aceptado por reduccionista y como un
modo de simplificar el modelo generado (computacionalmente más eficiente); sin
embargo este medio reduce la carga de datos de entrada inicial al sistema y esto lo
puede convertir en una técnica que genere un modelo con menor poder predictivo
(reduciéndose la tasa de acierto global en las salidas a predecir). Para resolver el
problema anterior se propuso la metodología denominada ‘Ridge Regression’ (RR) o
regresión sesgada. Este método consiste en agregar un parámetro sesgado a los
estimadores de mínimos cuadrados ordinarios con la finalidad de reducir el error
estándar de éstos que se comete a la hora de predecir el valor de la variable
dependiente. Pero esta no es la única ventaja que ofrece este procedimiento; RR nos
ofrece dos modalidades de cómputo diferentes (solución primal y dual) que podemos
utilizar dependiendo de si la dimensión del espacio de características (el número de
variables independientes utilizadas) es menor o mayor que el número total de ejemplos
de entrenamiento que se quieren aproximar, consiguiendo así un gasto computacional
mas razonable y menos costoso que el obtenido por el método tradicional de regresión
utilizando MCO. Pero esto no es todo, la versión dual del procedimiento RR permite
realizar regresión no lineal mediante la construcción de una función de regresión lineal
en un espacio de características de más alta dimensión (comúnmente conocidas como
funciones kernel); dichas funciones permiten obtener resultados sorprendentes en
problemas no lineales utilizando solamente operaciones algebraicas sencillas. A esta
variante regularizada de la regresión utilizando funciones kernel se le denomina
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

12
‘Kernel Ridge Regression’ (KRR) y es computacionalmente muy efectiva incluso
cuando el número de dimensiones del sistema de entrada es muy elevado.
En este trabajo se quiere analizar la regresión y sobre todo sus variantes RR y KRR
como métodos de aproximación en el ámbito del procesado de señales y la posibilidad
de implementarla como funciones kernel para ser capaz de resolver así problemas no
lineales de manera eficiente y rápida, independientemente de la dimensionalidad tanto
del número de características a utilizar como del número de ejemplos de entrenamiento
a tratar.
La primera parte de la memoria consiste en un estudio de la literatura sobre la RR y su
implementación en algoritmos mediante métodos kernel, la segunda parte se enfoca
más en las aplicaciones de estas técnicas al procesado de señales y a la precisión en la
predicción de series temporales no lineales.





































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

13
2. ANALISIS DE REGRESION

En un análisis de regresión simple existe
una variable respuesta o dependiente (y) y
una variable explicativa o independiente
(x). El propósito es obtener una función
sencilla de la variable explicativa, que sea
capaz de describir lo más ajustadamente
posible la variación de la variable
dependiente. La variable explicativa puede
estar formada por un vector de una sola
característica o puede ser un conjunto de n
características, atributos o dimensiones
(regresión múltiple). La regresión se
utiliza para predecir una medida
basándonos en el conocimiento de otra y
la intención final es que dado un vector de
entrada x
l+1
se persigue predecir un valor de salida y
l+1
a partir de una función generada
mediante la supervisión previamente observada de un conjunto de entrenamiento inicial
de ejemplos (x
i
, y
i
), i=1…l (Fig. 1) [NIST, 2003].

2.1 Regresión lineal

Como los valores observados de la variable dependiente difieren generalmente de los
que predice la función, ésta posee un error. La función más eficaz es aquella que
describe la variable dependiente con el menor error posible o, dicho en otras palabras,
con la menor diferencia entre los valores observados y predichos. La diferencia entre
los valores observados y predichos (el error de la función) se denomina variación


Fig. 1. Variable Y en función de X.


Fig. 2. Ajuste por mínimos cuadrados.

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

14
residual o residuos. Para estimar los parámetros de la función se utiliza el ajuste por
mínimos cuadrados (Fig. 2) [NIST, 2003]. Es decir, se trata de encontrar la función en
la cual la suma de los cuadrados de las diferencias entre los valores observados y
esperados sea menor. Sin embargo, con este tipo de estrategia es necesario que los
residuos o errores estén distribuidos normalmente y que varíen de modo similar a lo
largo de todo el rango de valores de la variable dependiente. Estas suposiciones pueden
comprobarse examinando la distribución de los residuos y su relación con la variable
dependiente.
Cuando la variable dependiente es cuantitativa y la relación entre ambas variables sigue
una línea recta, la función es del tipo
0 1
ˆ
i i
y w w x = + , en donde w
o
es el intercepto o
valor del punto de corte de la línea de regresión con el eje de la variable dependiente y
w
1
es la pendiente o coeficiente de regresión. Pero en el supuesto de que tengamos n
dimensiones y por tanto un caso de regresión múltiple la función de predicción será la
siguiente:

1 ,1 2 ,2 ,
ˆ
i i o i i n i n
y X w w w x w x w x = = + + +…+



2.1.1 Regresión lineal múltiple en notación matricial

Encontrar la función en la cual la suma de los cuadrados de las diferencias entre los
valores observados y esperados sea menor corresponde a encontrar los coeficientes de
regresión w para los cuales la función por la cual determinamos dicho error sea un error
mínimo, o dicho de otra forma, corresponde a diferenciar la ecuación,

2
( ) ( - )
i i
i
E w y X w =

(1.1)


1 2
2
Dados ejemplos de entrada ( , ) para 1 ,
donde ( ( ) ( ) ( )) con funciones definidas,
0 ( ) 0 2 ( ) 0

i i
i i i d i
T
i i i i i
i i
T
i i i
i
l x y i l
X f x f x f x d
E
y X w X y X w
w w
X X w X
= …
=
∂ ∂
= ⇒ − = ⇒ − =
∂ ∂
| |
⇒ =
|
\ ¹
∑ ∑


T
i
i
y



Dejando las ecuaciones y los sistemas de ecuaciones lineales e introduciendo una
notación plenamente matricial [Thibaux, 2008], podemos continuar la expresión de la
siguiente forma:

( )
-1
=
T T
w X X X y

y observamos que la matriz de coeficientes de regresión w es función lineal de la matriz
de datos observados y, asumiendo que (X
T
X) tiene inversa para todo,

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

15
1
10 11 1 0
20 21 2 1 2
0 1


= , = , =


n
n
n l l ln l
y x x x w
x x x w y
y X w
w x x x y
… ( ( (
( ( (

( ( (
( ( (
( ( (

(
¸ ¸ ¸ ¸ ¸ ¸
⋮ ⋮ ⋮ ⋮ ⋮




2.1.2 Calidad del ajuste y su medición

Después de haber ajustado un modelo es importante contar con ciertos valores que nos
ofrezcan información de cómo de importante es dicho ajuste con respecto a los datos.
Como veremos más adelante, al analizar la correlación existente entre las variables
independientes, existen muchos términos cuantitativos que nos dan información muy
valiosa respecto a dicha medición. No obstante, una vez obtenidos los coeficientes de
MCO, [Chatterjee, 2006] sugiere el cálculo de las siguientes cantidades:

( )
( )
( )
2
2
2
SST =
ˆ SSR =
ˆ SSE =
i
i
i i
y y
y y
y y








Donde SST (Sum Squared Total) es el sumatorio de los cuadrados de las diferencias de
la variable respuesta Y respecto de su media. SSR (Sum Squared Regression) representa
la suma de los cuadrados de las diferencias de la variable predictiva
ˆ
Y respecto a la
media de la variable observada Y, finalmente SSE (Sum Squared Errors) es el
sumatorio de los cuadrados de los residuales (los errores observados entre las variables
Y e
ˆ
Y ). Una relación fundamental entre estas variables es la siguiente:

SST = SSR SSE +

Tomando valores ficticios para y, ˆ y e y , en la Fig. 3 se representan e ilustran
gráficamente las relaciones existentes entre ellas.

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

16




















Una vez introducidas las variables que hacen referencia a la suma de cuadrados, es
necesario continuar con las variables que utilizan la media cuadrática, habitualmente
utilizadas por el análisis de la varianza (ANOVA) en regresión múltiple. Está técnica
estudia la igualdad de las medias para diferentes muestras poblacionales bajo la
hipótesis de que éstas deben coincidir y por tanto el análisis de varianza sirve para
comparar si los valores de un conjunto de datos numéricos son significativamente
distintos a los valores de otro o más conjuntos de datos. No obstante la utilidad
importante en un análisis de regresión respecto al análisis ANOVA son las variables
medias cuadráticas que se utilizan frecuentemente como medida de comparación de los
errores que se producen en los ajustes de regresión.
En la siguiente ilustración se puede observar la tabla resultante de un análisis ANOVA
y sus equivalencias entre variables:


Dónde MSE (Mean Square Error) es la media del cuadrado debido al error de los
residuales y MSR (Mean Square Regression) es la media del cuadrado debido a la


Fig. 3. Ilustración gráfica de la medición del ajuste.



Fuente

Suma de cuadrados

Media cuadrática

Cociente F

Regresión

SSR

MSR = SSR / n

F = MSR / MSE

Residuales

SSE

MSE = SSE / l

Fig. 4. Análisis de la Varianza (ANOVA).

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

17
regresión. El factor F es el cociente entre MSR y MSE y es la prueba de significación
final en un análisis ANOVA.
MSE representa la medición de comparación más común utilizada en los ajustes de
regresión y es la que normalmente utilizaremos en los cálculos siguientes a realizar.













































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

18
2.2 Regresión no lineal

Si la relación no es lineal, pueden transformarse los valores de una o ambas variables
para intentar linealizarla. Si no es posible convertir la relación en lineal, puede
comprobarse el grado de ajuste de una función polinomial más compleja. La función
polinomial más sencilla es la cuadrática
2
0 1 1 2 2
y w w x w x = + + que describe una
parábola, pero puede usarse una función cúbica u otra de un orden aun mayor (orden k)
capaz de conseguir un ajuste casi perfecto a los datos.


( )
2
1 2
2
ˆ
para 1, , , ,
k
i i o i i k i
k
i i i i
y X w w w x w x w x
X x x x
= = + + +…+
= …


Las fronteras de decisión no lineales permiten representar conceptos más complejos al
ajustarse más a los datos, no obstante este sobreajuste implica también inconvenientes,
instancias de entrenamiento ruidosas (outliers) son también sobreajustadas,
desplazando estas fronteras hacia esas instancias equivocadas y ocasionando así
confundir al sistema de predicción a la hora de predecir nuevas entradas [Zhang,
2009]. Este sobreajuste (overfitting) es un problema muy común y produce un modelo
que no es capaz de generalizar. Normalmente, fronteras de decisión muy complejas
producen sobreajuste, no funcionando adecuadamente con nuevas instancias.
La regresión lineal suele conseguir fronteras de decisión más correctas y menos
artificiales que la regresión no lineal. A pesar de producir mayores errores con los
ejemplos de entrenamiento, tiene mayor capacidad de generalización y se comporta
mejor ante nuevos ejemplos a predecir.


Fig. 5. Funciones de ajuste polinomiales y sobreajuste.

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

19

En la (Fig. 5) podemos observar el efecto de una regresión no lineal sobreajustada. Con
un polinomio de grado 11 conseguimos ajustar muy bien los datos de entrenamiento.
No obstante la presencia de un outlier en los datos de entrenamiento originó el
desplazamiento de la frontera de decisión hacia dicho punto, aproximando una nueva
instancia de prueba (el punto azul) como menor error en un polinomio de grado 11
cuando el ajuste con los polinomios de grado 2 y de grado 4 le asignan un error mucho
mayor que cualquiera de los datos de entrenamiento. Cuanto mayor es el grado del
polinomio mejor ajustaremos nuestros datos de entrenamiento, pero tenemos que estar
plenamente seguros que nuestros datos de partida no tienen errores, cosa que
prácticamente es difícil de encontrar en la práctica cuando se trabajan con datos reales
suministrados por los sistemas de adquisición que conllevan errores implícitos no solo
en sus sistemas de medida sino en las interferencias externas a las que están expuestos.




































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

20
2.3 Colinealidad entre variables independientes

Una de las principales premisas a tener en cuenta en el modelado de regresión es que
las variables independientes no posean ningún tipo de dependencia lineal entre ellas.
Cuando una variable independiente posee alta correlación con otra ú otras ó puede ser
explicada como una combinación lineal de alguna de ellas, se dice que el conjunto de
datos presenta el fenómeno denominado multicolinealidad [García, 2006].
Según [Akdeniz, 2001], cuando se emplean los mínimos cuadrados ordinarios en la
estimación de los parámetros de regresión y existe el problema de multicolinealidad en
las variables independientes, se pueden observar problemas de inestabilidad de los
mismos, signos incorrectos en los parámetros y frecuentemente elevados errores
estándar, lo que conduce a generar modelos con muy poco poder explicativo o de difícil
interpretación. Éste fenómeno debe ser investigado antes de generar un modelo de
regresión, ya que puede generar errores en los pronósticos y dificultar la interpretación
de la importancia de cada una de las variables independientes en el modelo.

2.3.1 Principales técnicas de detección

Las principales técnicas para poder detectar estas colinealidades son las siguientes:

2.3.1.1 Diagramas de dispersión

Si se representa cada par de variables independientes (x
i,1
,x
i,2
) … (x
i,1
,x
i,n
), en unos ejes
cartesianos diferentes para cada par, obtendremos tantos diagramas de dispersión o
nube de puntos como n-1 características o variables independientes existan para una
única variable x
i,1
. Con esta representación conseguiremos visualizar la variable
independiente x
i,1
con respecto a todas las demás variables independientes. De esa
forma, podremos obtener una primera idea acerca de la forma estructural que toma esta
variable x
i,1
respecto a las demás y si realmente existe una relación morfológica entre
ellas. Esa nube de puntos entre variables la podemos clasificar bien sea como una
dependencia funcional perfecta o una dependencia estocástica con un cierto grado de
dependencia [GEA, 2006].
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

21

En el primer caso (Fig. 6) tenemos una dependencia funcional completa y la relación
atiende matemáticamente a una expresión del tipo x
i,1
= f(x
i,2
) sin ningún margen de
error y morfológicamente el ajuste puede ser perfectamente lineal o perfectamente no
lineal (curvilíneo o polinomial). Esto provoca que la Matriz X
T
X tenga determinante 0,
y sea singular (no invertible) y en consecuencia no podríamos obtener el estimador
MCO. Sin embargo, lo que suele ocurrir casi siempre, es que no se consigue un ajuste
tan sumamente perfecto y entonces hablamos de dependencia estocástica entre
variables con un determinado grado de relación (la no correlación de dos variables es
un proceso idílico, que sólo se podría encontrar en condiciones de laboratorio), las
relaciones y las dependencias entre las variables suelen ser menos rigurosas y aunque
las tendencias estructurales también suelen ser lineales o no lineales siempre suele
existir un error implícito en el ajuste para cada valor que toman las variables tratadas
con respecto a su valor real.

Aunque la colinealidad existente entre dos variables independientes no sea exactamente
perfecta pero sí casi perfecta, provoca que su determinante sea casi singular y su
inversa sea casi infinito, o por lo menos un valor muy elevado que origine que los
coeficientes MCO resultantes sean también muy elevados. En esta situación surgen
problemas de precisión en la estimación de los coeficientes, ya que los algoritmos de
inversión de matrices pierden precisión al tener que dividir por un número muy
pequeño, siendo además inestables.
1
0
T
T
X X
X X
⇒ ≈ ∞ ≃


Fig. 6. Diagramas de dispersión.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

22
Si se trata de buscar alguna relación entre variables independientes es preferible que
exista una total ausencia de relación entre ellas o por lo menos una relación no muy
alta, cada una de las variables debe aportar por sí misma poder explicativo hacia la
variable dependiente y no tener que ser función de ninguna de las variables
independientes.



2.3.1.2 Método del factor de inflación de la varianza

Según [Wang, 1994], la principal consecuencia de las altas colinealidades entre las
variables independientes es la siguiente.
En un modelo de dos variables, el error estándar de los coeficientes estimados es muy
grande; esto es debido a que al coeficiente de variación tiene un factor de la forma 1/(1-
r
2
) denominado FIV (factor de inflación de la varianza), donde r es el coeficiente de
correlación de Pearson r = S
xy

x
σ
y
(un índice que mide la relación lineal entre dos
variables aleatorias cuantitativas y su valor está en el intervalo [-1,1]), S
xy
es la
covarianza de las dos variables, y σ
x,
σ
y
las desviaciones típicas de las distribuciones
marginales. El signo de esta covarianza nos determinará el tipo de pendiente de la
relación lineal (pendiente positiva o negativa).
A diferencia de la covarianza,


Fig. 7. Factor de inflación de la varianza.

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

23
1
( )( )
l
i i
i
xy
x x y y
S
n
=
− −
=



cuyo término expresa la variación o dispersión conjunta de dos variables x e y que
tienen la misma escala de medida, la correlación de Pearson tiene aún más valor
añadido debido a que es independiente de la escala de medida de las variables. La
medida más comúnmente utilizada para medir el ajuste de la recta de regresión es este
coeficiente de correlación (también se le conoce como medida de bondad de ajuste).
Cuando r=0 no existe colinealidad, las variables independientes son ortogonales y su
FIV es igual a 1 (pero esto no necesariamente implica que las variables sean
independientes, pueden existir todavía relaciones no lineales entre las dos variables). A
medida que el valor de r se incrementa en valor absoluto, es decir, existe una
correlación negativa o positiva entre las variables, el FIV también se incrementa, ya
que el denominador tiende a cero a medida que r tiende a uno (correlación perfecta).
Algunos autores recomiendan que los FIV sean menores a 10, de lo contrario se
concluye que existe multicolinealidad. En la Fig. 7 podemos observar como el FIV es
igual a la unidad cuando no existe ninguna relación ó cuando la relación existente es no
lineal (curvilinea).


2.3.1.3 Matriz de correlaciones

Una forma muy práctica de determinar el grado de colinealidad es la construcción de
una matriz de correlación. Las variables se colocan en filas y en columnas y sus
intercepciones deben presentar el coeficiente de regresión lineal de Pearson.
Inicialmente se puede construir también una matriz de correlación con la covarianza en
sus intercepciones, no obstante como ya se comentó anteriormente no suele ser de gran
utilidad cuando las variables tienen diferente escala de medida. Asimismo, es de gran
utilidad la construcción de una tercera matriz con los diagramas de dispersión de los
datos para comprobar visualmente la lejanía o cercanía de dichos datos sobre la
tendencia lineal que llegaran a mostrar (Fig. 8). [Mason, 1991] recomienda que sea
eliminada una de las variables que tenga un coeficiente de correlación mayor a 0.8 con
otras.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

24



2.3.1.4 Análisis del autosistema

También conocido como Análisis de Componentes Principales (ACP). Es una técnica
proveniente del análisis exploratorio de datos cuyo objetivo es la síntesis de la
información, o reducción
de la dimensión (número
de variables). Es decir,
ante una tabla de datos con
muchas variables (Fig. 9),
el objetivo será reducirlas
a un menor número de
variables transformadas
perdiendo la menor
cantidad de información
posible. Esta aproximación se basa en el hecho de que cualquier conjunto de n variables
(X
1
, ..., X
n
) pueden ser transformadas a un conjunto de n variables ortogonales (y por
tanto independientes entre sí, sin ninguna relación). Las nuevas variables ortogonales
son conocidas como componentes principales (C
1
, ..., C
n
). Cada variable C
j
es una
combinación lineal de las variables
1 2
, ,...,
n
X X X
ɶ ɶ ɶ
(las variables originales
normalizadas) de la forma:

1 1 2 2
... , 1,...,
j j j nj n
C v X v X v X j n = + + + =
ɶ ɶ ɶ


Estos nuevos componentes principales o factores son calculados como una
combinación lineal de las variables originales normalizadas, y además serán
linealmente independientes entre sí. Técnicamente, el ACP busca la proyección según
la cual los datos queden mejor representados en términos de mínimos cuadrados y
construye una transformación lineal que escoge un nuevo sistema de coordenadas para
el conjunto original de datos en el cual la varianza de mayor tamaño del conjunto de


Fig. 8. Matriz de correlación.

11 12 1 11 12 1
21 22 2 21 22 2
1 2 1 2
100% de la informaci n 80% 16%





n n
n n
l l ln l l ln
ó
X X X C C C
X X X C C C
X X X C C C
… … ( (
( (
… …
( (

( (
( (
… …
¸ ¸ ¸ ¸
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
0.02%

Fig. 9. Transformación de las variables originales en componentes.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

25
datos es capturada en el primer eje (llamado el Primer Componente Principal), la
segunda varianza más grande es el segundo eje, y así sucesivamente. La elección de los
factores se realiza de tal forma que el primero recoja la mayor proporción posible de la
variabilidad original; el segundo factor debe recoger la máxima variabilidad posible no
recogida por el primero, y así sucesivamente. Del total de factores se elegirán aquéllos
que recojan el porcentaje de variabilidad que se considere suficiente. A éstos se les
denominará componentes principales.
La matriz de correlación de los componentes principales resultantes es de la forma:

1 2
1 1
2 2
C C C
0 0
0 0
0 0
n
n n
C
C
C
λ
λ
λ
| |
|
|
|
|
\ ¹



⋮ ⋮ ⋱ ⋮ ⋮



Los elementos que no están en la diagonal son ceros debido a que los componentes
principales son ortogonales. Los elementos que están en la diagonal se conocen con el
sobrenombre de eigenvalues o autovalores, de tal forma que cada autovalor λ
j
es la
varianza de cada variable ortogonal C
j
, y cumple la propiedad λ
1
≥ λ
2
≥...≥λ
n
, debido a
que el primer componente principal tiene la varianza más grande y el último
componente principal la varianza más pequeña. Los coeficientes involucrados en la
creación de cada C
j
son conocidos como eigenvectors o autovectores y están asociados
con el j-ésimo autovalor λ
j.


Para construir esta transformación lineal debe construirse primero la matriz de
coeficientes de correlación. Debido a la simetría de esta matriz existe una base
completa de vectores propios de la misma. La transformación que lleva de las antiguas
coordenadas a las coordenadas de la nueva base es precisamente la transformación
lineal necesaria para reducir la dimensionalidad de datos. Además las coordenadas en la
nueva base dan la composición en factores subyacentes de los datos iniciales. Una de
las ventajas del ACP para reducir la dimensionalidad de un grupo de datos, es que
retiene aquellas características del conjunto de datos que contribuyen más a su
varianza.

La función de Matlab pcacov nos devuelve el ACP a partir de la matriz de correlación
(para datos normalizados) o a partir de la matriz de covarianza para datos no escalados.
Si aplicamos esta función dándole como entrada la matriz de correlación generada en el
apartado anterior obtenemos los resultados mostrados en la Fig.10.

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

26


Los componentes principales correspondientes a los datos originales X
1
, X
2
, X
3

obtenidos a partir de la matriz de correlación anterior son:

1 1 2 3
2 1 2 3
1 1 2 3
0.3938 0.6383 0.6614
0.9132 0.3540 0.2021
0.1051 0.6836 0.7223
54.22% 29.68% 16.11%
C X X X
C X X X
C X X X
= − − −
= − −
= − − +
ɶ ɶ ɶ
ɶ ɶ ɶ
ɶ ɶ ɶ

Observamos también que la variable
1
X
ɶ
es la que más contribuye a la varianza total con
un 54.22% de ella y por tanto es el componente principal del nuevo conjunto de
variables, seguida de la variables
2
X
ɶ
con un 29.68%.
La matriz de correlación correspondiente a estas nuevas variables es:

1.6265 0 0
0 0.8903 0
0 0 0.4832
| |
|
|
|
\ ¹


Según [Chatterjee, 2006] , si alguno de los λ, son exactamente igual a cero existe una
relación perfectamente lineal entre las variables originales y por tanto es un caso
extremo de colinealidad. Si uno de los autovalores es mucho más pequeño que los
demás (y cercano a cero), la colinealidad también se hace presente pero en menor
grado. En la matriz de correlación de los componentes principales podemos observar
como el menor valor de λ no está muy cerca de cero pero si es mucho menor que los
otros dos, sobre todo del mayor autovalor, lo que indica algo de colinealidad existe
entre las variables X
2
y X
3
.


Fig. 10. ACP a partir de la Matriz de correlación.

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

27

Si quisiéramos obtener los componentes principales a partir de la matriz de datos
original sin tener que calcular las matrices de covarianzas y de correlaciones
utilizaremos la función de Matlab princomp. En el ejemplo siguiente aplicamos dicha
función a los datos que presentamos en el apartado 2.1.4.2 y en concreto a los datos que
representaban una relación estocástica lineal no perfecta, obteniendo los siguientes
resultados.



Que corresponden a las ecuaciones transformadas:

1 1 2
2 1 2
0.7071 0.7071
0.7071 0.7071
C X X
C X X
= +
= −
ɶ ɶ
ɶ ɶ


y a la matriz de correlación:

1.8413 0
0 0.1587
| |
|
\ ¹


En dicha matriz podemos observar como λ
2
= 0.16 es un valor muy próximo a 0 y muy
distante del primer autovalor, lo cual denota que existe colinealidad como ya sabíamos
previamente.
Además en la matriz observaciones_en_espacio_ACP obtenemos los coeficientes
principales (C
1
,C
2
) para cada punto correspondiente con el de las variables originales
(X
1
,X
2
). Si generamos un diagrama de dispersión tanto para las variables originales
como para los coeficientes principales obtenemos la siguiente figura:



Fig. 11. ACP a partir de las variables originales.

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

28

En la Fig. 12 podemos observar como a partir de unas variables con una relación
bastante lineal las podemos transformar en otras variables con ausencia de toda relación
entre ellas, reflejado en el valor del factor de inflación de la varianza que es igual a la
unidad.

[Belsley, 1980] propuso un índice denominado número de condición η, el cual está
basado en la relación entre el máximo autovalor de la matriz de correlación y el
mínimo, tal como se indica a continuación:

max
min
λ
η
λ
=

El número de condición siempre será más grande de 1. Para valores de η < 2.26 puede
ser ignorado, para valores 2.26 < η < 3.16 existe una colinealidad débil. Para valores
3.16 < η < 5.48 se califica como moderada, para 5.48 < η < 10 se considera fuerte y
para η > 10 se considera muy fuerte.

Si calculamos el número de condición para los dos últimos ejemplos que hemos
mostrado en el estudio de componentes principales obtenemos η = 1.83 y η = 3.41. Lo
cual indica en el primer caso que la colinealidad existente puede ser despreciable y que
para el segundo caso tenemos una colinealidad moderada.



2.3.2 Técnicas de corrección

Se han planteado técnicas y algoritmos para corregir la colinealidad en los datos; sin
embargo, algunos procedimientos funcionan en un modelo, mientras que en otros no.


Fig. 12. Transformación ortogonal de datos originales.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

29

2.3.2.1 Eliminación de variables del análisis

Es la solución más cómoda ya que únicamente hay que eliminar aquellos predictores
correlacionados con otros a partir de una detección previa de ellos. Los estimadores que
resultan tienen una varianza de error menor. Este enfoque es aceptado por ser
reduccionista y simplificar el modelo, sin embargo reduce el rango de la matriz de
información de variables independientes y esto lo puede convertir en una técnica que
genere un modelo con menor poder explicativo ante nuevas entradas.

2.3.2.2 Componentes principales

El análisis de componentes principales visto anteriormente no solo sirve como método
para conocer si una variable independiente está correlacionada con otra u otras
variables independientes. El espacio ortogonal de variables transformadas cumple la
condición de que son independientes entre sí y por tanto carecen de colinealidad entre
ellas. Por tanto se puede trabajar en este espacio con dichas variables utilizando MCO
con total seguridad de que no observaremos problemas de inestabilidad en los
coeficientes obtenidos, signos incorrectos en dichos coeficientes, ni elevados errores
estándar en el ajuste.

2.3.2.3 La técnica "Ridge Regression"

Cuando las variables predictoras están muy correlacionadas, los coeficientes de
regresión resultantes de un ajuste por MCO pueden llegar a ser muy erráticos e
imprecisos, debido a los efectos desastrosos que la multicolinealidad tiene sobre su
varianza. Estos coeficientes originan predicciones erróneas a la hora de vaticinar
nuevas respuestas correspondientes a entradas similares que deberían pronosticar
salidas similares. Esto es así, como hemos visto, debido a la inversión de la matriz
singular X
T
X (singular debido a las colinealidades). Afortunadamente, la técnica Ridge
Regression (RR) [Hoerl y Kennard, 1970], es un método que trata estas
colinealidades minimizando el problema al contraer los coeficientes w de MCO,
logrando coeficientes ajustados con menor varianza, dando estabilidad así a la
predicción del modelo y solucionando dicho problema. La matriz X
T
X es reemplazada
por otra matriz numéricamente más estable debido a la agregación (suma) de un sesgo
con la finalidad de reducir el error estándar de éstos (Fig. 13) [Shawe-Taylor, 2004].

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

30

Si procedemos de esa forma a partir de la fórmula (1.1) que define el método de MCO,
el procedimiento RR no es más que una ligera modificación (adicción de un término
constante a cada coeficiente o factor de regularización k) de dicha ecuación:

2 2
( ) ( - )
i i
i
F w k w y X w = +

(1.1)





























Fig. 13. Agregación de un sesgo a MCO.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

31
2.4 Exploración de regresión sesgada

A la técnica RR también se le conoce como 'regresión de cresta' o 'regresión sesgada'.
Veamos las dos modalidades de cómputo con las que contamos para poder realizar este
tipo de regresión.


2.4.1 Primera solución

Encontrar la función en la cual la suma de los cuadrados de las diferencias junto con el
sesgo para los valores observados y esperados sea menor, corresponderá a encontrar los
coeficientes de regresión w para los cuales la función por la cual determinamos dicho
error, sea un error mínimo, o dicho de otra forma, corresponde a diferenciar la ecuación
(1.2) en w.

( )
2
2
0 ( ) + ( ) 0
2 + 2 ( ) 0



i i
i
T
i i i
i
T T
i i i i
i i
T T
n
F
k w y X w
w w w
kw X y X w
X X w kw X y
X X kI w X y
∂ ∂ ∂
= ⇒ − =
∂ ∂ ∂
⇒ − =
| |
⇒ + =
|
\ ¹
⇒ + = ⇒


∑ ∑
( )
1

T T
n
w X X kI X y

= +


I
n
corresponde a la matriz identidad de dimensiones (n x n) y como podemos observar
la matriz
( )
1
I
T
n
X X k

+ es siempre invertible si k > 0. Como veremos más adelante,
sabemos que existe un k (de hecho, un intervalo de valores de k), mejorando el error
del estimador MCO. El inconveniente reside en la elección de k que no debe ser de
modo intuitivo, ya que si este valor es muy grande, se produce una sobre-
regularización [Ramos, 2007], la cual puede originar pérdida de información
importante, y si k resulta pequeño, se produce una sub-regularización, que puede
provocar que la solución no sea robusta, es decir, que sea sensible a errores en los datos
(k=0 supone volver a un estimador MCO). Los procedimientos o técnicas de elección
de este factor de regularización se discutirán más adelante.
Al igual que ocurría con el método de MCO donde w es función lineal del vector de la
variable respuesta dependiente (y), solucionar la ecuación anterior para los coeficientes
w implica entonces solucionar un sistema de ecuaciones lineales con n ecuaciones y n
incógnitas. Por tanto, la complejidad computacional de esta tarea resulta (n
3
)
operaciones. Una vez que tenemos los coeficientes de regresión w, la función de
predicción de un nuevo vector de entrada x será,
=1
ˆ( ) = = ( )
n
i i
i
y x xw w x



MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

32
con complejidad computacional (n) operaciones.


En la (Fig. 14) se puede observar el efecto de regularización que provoca la regresión
sesgada sobre la regresión clásica, independientemente de utilizar un ajuste lineal o no
lineal. Efectivamente, el ajuste mediante regresión por MCO consigue el menor error
de ajuste frente a RR, lógico debido a que solamente tenemos una única variable
independiente para la variable explicativa y por lo tanto no existen colinealidades y
como comentamos en apartados anteriores, RR mejora en términos del error del ajuste
cuando existen variables independientes correlacionadas entre sí, cuando esto no es así,
MCO es el mejor ajuste con el mínimo error que se puede realizar.
No obstante e independientemente de que en este ejemplo no se pueda distinguir
perfectamente toda la fortaleza de RR, sí podemos observar como la varianza global del
error que se produce para los dos tipos de regresión es menor en el ejemplo de RR que
en el ejemplo de la regresión clásica, independientemente incluso del orden del
polinomio que utilicemos para hacer el ajuste. Esto quiere decir que RR juega un papel
muy importante a la hora de regularizar y homogeneizar el ajuste final, haciéndolo más
robusto, menos variante y por tanto más sensible a errores en los datos y posibles
outliers que se pudieran presentar.

Los efectos de una mala elección del factor k, se discuten en los ejemplos siguientes.
Cuando escogemos un factor de k muy grande producimos una sobre-regularización
con una varianza global del error casi inapreciable porque prácticamente e


Fig. 14. Efecto de la regularización.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

33
independientemente del ajuste que realicemos, los datos siempre se ajustarán a una
línea horizontal.

Cuando seleccionamos un factor de k muy pequeño, perdemos robustez, el error
obtenido para cada tipo de ajuste es más variable, pero nos acercamos otra vez al ajuste
de MCO y por tanto con sensibilidad a errores en los datos y a posibles efectos
perjudiciales si las variables independientes están correlacionadas.




2.4.2 Solución dual

A partir de la solución anterior para los coeficientes de regresión w, podemos deducir lo
siguiente:
( )
( )
1
1
( )
( )
T T
n
T T
n
T T
T T T
T T
w X X kI X y
X X kI w X y
X Xw kw X y
kw X y X Xw X y Xw
w k X y Xw X α


= +
+ =
+ =
= − = −
= − =



Fig. 15. Sub-regularización y sobre-regularización.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

34

Donde el término α matemáticamente significa:

1
1
1
( )
( )
( )
( )
T
T
T
l
T
l
l
k y Xw
k y Xw
k y XX
k XX y
y kI XX
XX kI y
G kI y
α
α
α α
α α
α
α
α



= −
= −
= −
+ =
= +
= +
= +


La matriz G = XX
T
se le conoce como "Gram matrix". Esta matriz G y la matriz (G +
kI
l
) tiene dimensiones (l x l). Los parámetros α son conocidos como "dual variables" o
variables duales y resolver α implica resolver l ecuaciones lineales con l incógnitas, una
tarea de complejidad (l
3
), como se muestra en la función de predicción a partir de estas
variables, que viene dada por:

1
ˆ = = = ( )
T T
l
y Xw XX XX G kI y α

+

Para predecir un nuevo punto o vector x, implica complejidad computacional (nl), ya
que los coeficientes w son una combinación lineal de los puntos de entrenamiento X
T
.

1
1 1 1
ˆ( ) ( ) ( )
T
l
i i
i
l l n
i i i i j j
i i j
w X
w x
y x x w x x x x
α
α
α α
=
= = =
=
=
| |
= = =
|
\ ¹

∑ ∑ ∑


Si la dimensión n del espacio de características es mayor que el número l de ejemplos
de entrenamiento, es mejor y más eficiente resolver el sistema por este segundo método
(dual) en vez del primer método (primal) ya que éste último implica resolver la matriz
(X
T
X + kI
n
), que es de dimensiones (n x n). La evaluación de la función predictiva es,
sin embargo, siempre más costosa la solución dual, debido a que comporta (nl)
operaciones, frente a (n) operaciones que conlleva la primera solución.


2.4.3 La técnica "Kernel Ridge Regression"

Si los datos de entrenamiento (las variables independientes) muestran relaciones no
lineales, las técnicas de regresión anteriores serán incapaces de modelarlas
adecuadamente con un error mínimo aceptable (el sesgo introducido en RR ayuda pero
a veces también resulta insuficiente). Sin embargo, una solución no lineal puede ser
tratada y formulada moviéndonos a un espacio de características lineales a partir del
espacio de entrada no lineal. Kernel Ridge Regression (KRR) es una técnica que
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

35
encuentra y realiza un mapeo de los datos de entrada (considerados no lineales) en un
espacio de características de más alta dimensión (donde corresponden a un modelo
aproximadamente lineal) obteniendo errores de ajuste mucho menores que los
conseguidos en el espacio de entrada inicial, y conservando la eficiencia del factor de
regularización k utilizada en la técnica RR.
La idea básica de KRR consiste en realizar un mapeo de los datos de entrenamiento x
∈ X, a un espacio de mayor dimensión F a través de un mapeo no lineal Φ(x) : X → F
, donde podemos realizar una regresión lineal.


A partir de esto, la matriz G utilizada en la versión dual de la técnica RR se transforma
en una matriz o kernel K de productos escalares para valores transformados de X. Esta
es la ventaja de la aproximación dual de RR, se puede reemplazar la matriz G mediante
cualquier matriz kernelizada K, para el caso que nos ocupa de un kernel lineal:

( ) ( )
T T
G XX K X X φ φ = → =

Dicho kernel K sigue manteniendo dimensiones (l x l), y por tanto complejidad
operacional (l
3
).

Para el cálculo de los coeficientes de regresión w se procederá como sigue:

1
( )
( ) ( )
T
T
l
w X
w X K kI y
φ α
φ

=
= +


Y la función de predicción resultante a partir de estos coeficientes w quedaría:

1
1
ˆ ( ) ( ) ( ) ( )
ˆ ( )
T
l
l
y X w X X K kI y
y z K kI y
φ φ φ


= = +
= +


Es de señalar que si utilizamos un kernel lineal, entonces z = K, por lo que esto
correspondería a utilizar una solución dual de RR, no obstante podemos probar y jugar
con diferentes kernels K (polinomial, función de base radial, tangente hiperbólica, etc.)
junto con diferentes parámetros de regularización k con el objetivo de encontrar el


Fig. 16. Idea básica de los métodos Kernel.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

36
mejor modelo explicativo en ese espacio de características y poder aplicarlo
posteriormente a las aproximaciones a realizar para nuevos ejemplos de entrada.

En la predicción de un nuevo punto ϕ(x) se sigue conservando la misma complejidad de
cómputo (nl) que el conseguido mediante la técnica RR, como se muestra a
continuación:

1 1 1
ˆ( ( )) ( ) ( ) ( ) ( ( )) ( ( ))
l l n
i i i i j j
i i j
y x x w x x x x φ φ φ α φ α φ φ
= = =
| |
= = =
|
\ ¹
∑ ∑ ∑


En la figura siguiente (Fig. 17) se puede observar un ajuste de regresión utilizando un
kernel RBF (Radial Basis Function) de tipo Gaussiano, de forma que:

2
exp
x u
K
σ
| |

= − |
|
\ ¹



Modificando el valor de la dispersión σ en la función Gaussiana, se puede observar
como podemos alcanzar un ajuste casi perfecto (MSE ≈ 0) sobre los datos de
entrenamiento (para valores de σ inferiores a 0.2).




Fig. 17. Regresión con kernel RBF-Gaussiano para diferentes valores de sigma.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

37
2.4.4 Estandarización de datos para la regresión sesgada.

Si ajustamos un modelo del tipo:

0 1 1 n n
Y w w X w X = + + + …

Necesitaremos centrar (ya que aparece un término constante) y/o escalar las variables
que integran dicha ecuación. Una variable centrada se obtiene restando a cada
observación la media de todas las observaciones para cada variable. Por ejemplo la
variable respuesta centrada ( ) Y y − y la variable predictora j-ésima centrada
( )
j j
X x − .
Las variables centradas también pueden ser escaladas, existiendo dos tipos principales
de escalado en los datos, el escalado de longitud unidad y la estandarización.
Generalmente, tanto el escalado de longitud unidad como la estandarización (escalado
mediante la desviación estándar) se utiliza, como veremos en el apartado siguiente,
para poder comparar los coeficientes w entre sí (en la misma escala) para diferentes
valores de k. El centrado, ayuda a agrupar los datos y por ello disminuir la dispersión
de los mismos con efectos beneficiosos en la reducción del error del ajuste para
aproximar nuevos datos de prueba. No está demasiado claro y por tanto es una fuente
de controversia, según [Pasha, 2004], que sea necesario estandarizar las variables a la
hora de realizar ajustes de regresión. No se trata que las variables sean esencialmente
similares en sus rangos (da igual que un conjunto de variables de temperatura estén en
o
C o en
o
F) sino más bien que sean independientes, no correlacionadas y con bastante
poder explicativo.

Un modelo de ecuación de regresión en términos de variables estandarizadas es del
tipo:
1 1 n n
Y X X θ θ = + +
ɶ ɶ ɶ


De tal forma que a cada variable original de datos
j
X
ɶ
, Y
ɶ
le corresponde una
transformación por estandarización de media cero y desviación estándar la unidad:

j j
j j
j
Y
X x
X X
Y y
Y Y
σ
σ

→ =

→ =
ɶ
ɶ

y donde σ
j
y σ
Y
son respectivamente:

2 2
1 1
( ) ( )

1 1
n n
ij j i
i i
j Y
x x y y
n n
σ σ
= =
− −
= =
− −
∑ ∑



Procediendo a despejar dichas transformaciones en la ecuación de variables
transformadas tendremos:
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

38

1 1
1 1
1
1
1 1
1
1
1 1 1 1
1
1 1 1 1
1 1
1 1
1
1
( ) ( )
resultand
n n
n n
n
Y n
Y n n Y
n
n
n Y n n Y n Y Y
n
n Y n n Y n Y Y
n n
n
j Y j
n Y n Y
j
j n
Y X X
X x X x Y y
X x X x
Y y
X x X x
Y y
X x X x
Y y
x
X X
Y y
θ θ
θ θ
σ σ σ
σ σ
θ θ
σ σ
θ σ θ σ θ σ θ σ
σ σ
θ σ θ σ θ σ θ σ
σ σ σ σ
θ σ
θ σ θ σ
σ σ σ
=
= + +
− − −
= + +
− −
= + + +
− −
= + + +
= + − + + −
= − + + +

ɶ ɶ ɶ






0 1 1
0
1
o,

para todo,
n n
Y
j j
j
n
j j
j
Y w w X w X
w
w y w x
σ
θ
σ
=
= + + +
| |
=
|
\ ¹
= −




Si la normalización que utilizamos es el escalado de longitud unidad, el modelo de
ecuación de regresión en términos de estas variables transformadas será del tipo:

1 1 y n n
Z Z Z θ θ = + +
ɶ ɶ ɶ


De tal forma que a cada variable original de datos
j
Z
ɶ
,
y
Z
ɶ
le corresponde una
transformación de media cero y longitudes la unidad según:

j j
j j
j
y
y
X x
X Z
L
Y y
Y Z
L

→ =

→ =
ɶ
ɶ

y donde L
j
y L
y
son respectivamente:

2 2
1 1
( ) ( )
n n
j ij j y i
i i
L x x L y y
= =
= − = −
∑ ∑

Como se indica en la formulación anterior, la cantidad L
y
se refiere a la longitud de la
variable centrada Y y − . Similarmente, L
j
mide la longitud de la variable
j j
X x − .
Procediendo a despejar dichas transformaciones en la ecuación de variables
transformadas de la misma forma que hicimos con la estandarización, tendremos:
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

39

1 1
1 1
1
1
0 1 1
0
1
...
resultando,

para todo,
y n n
n n
n
y n
n n
y
j j
j
n
j j
j
Z Z Z
X x X x Y y
L L L
Y w w X w X
L
w
L
w y w x
θ θ
θ θ
θ
=
= + +
− − −
= + +
= + + +
| |
=
|
\ ¹
= −

ɶ ɶ ɶ





Es obvio que si solamente deseamos centrar los datos, nuestras variables originales
quedarían de la siguiente manera:

0 1 1
0
1
para todo,
n n
j j
n
j j
j
Y w w X w X
w
w y w x
θ
=
= + + +
=
= −







2.4.5 Ejemplo de aplicación mediante regresión múltiple

Veamos algún ejemplo donde pongamos en práctica la formulación anterior. Para ello,
hacemos uso de una base de datos llamada Aqua-all.txt obtenida desde la dirección
web: http://www.rpi.edu/~bennek/class/mds/Aqua-all.txt, que es una versión reducida
de variables (solamente 525 variables independientes), a su vez extraída de la dirección
web: http://www.pharmacy.arizona.edu/outreach/aquasol/ y donde se almacena una
extensa recopilación y un gran repositorio de datos con información que tratan temas
farmacológicos de solubilidad en agua para compuestos orgánicos.
Nuestra matriz de datos original se compone de 525 variables descriptoras
independientes que definen una variable respuesta dependiente, para un total de 197
registros u observaciones. Es de señalar el elevado número de dimensiones con los que
se va a trabajar, a priori no sabemos si esas variables tienen alguna correlación entre
ellas, no obstante como vamos a utilizar la técnica RR mitigamos cualquier efecto
perjudicial que estas correlaciones pudieran tener sobre los resultados.
Separaremos 100 registros para definir el conjunto de entrenamiento y el resto (97
registros) para definir el conjunto de prueba o de test.

Veamos que sucede si no realizamos ninguna transformación de los datos originales.

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

40


Como observamos en la Fig. 18, el ajuste para los datos de entrenamiento mediante la
primera solución expuesta en pasos anteriores para RR
(coeficientes
( )
1
T T
n
w X X kI X y

= + y función predictiva
ˆ
= Y Xw) parece comportarse
bastante bien, pero no es tan óptimo cuando intentamos aproximar las 97 observaciones
del conjunto de validación, obteniendo aquí en términos de MSE un valor muy alto.
Procediendo como lo discutido en el apartado de la normalización de datos, el modelo
puede ser mejorado añadiéndole un término independiente a la ecuación y por tanto
transformando X e Y en otras variables, resultado de substraer el valor de sus medias.




Observamos en la Fig. 19, como tanto para los datos de entrenamiento como para el
conjunto de validación se ha conseguido reducir drásticamente el valor del error en el
ajuste, incluso manteniendo el mismo factor de regularización k. La centralización de
los datos origina una agrupación de los mismos en torno a su media con lo que
disminuye su dispersión mejorando el ajuste de mínimos cuadrados. Cuando
trabajamos con coeficientes normalizados podemos definir nuevas predicciones
trabajando con estos coeficientes, pero los datos también tienen que estar procesados
(centrados sobre su media) de la forma Ypred2=Xtest2*w2 + b; donde b resulta el


Fig. 18. Ridge Regression (Primera solución) con datos sin normalizar.


Fig. 19. Ridge Regression (Primera solución) con datos centrados.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

41
término independiente (en este caso es igual a la media de la variable dependiente
original y). Estos mismos resultados pueden ser obtenidos si de-normalizamos los
coeficientes procesados y trabajamos con las variables originales, de la forma
Ypred3=Xtest*w2 + (b-mean(X)*w2).

Otra comprobación importante que podemos realizar es el cálculo del tiempo de
cómputo al utilizar la primera solución de RR frente a la versión dual de dicha técnica.
En el primer caso, calculamos el tiempo empleado en obtener la matriz de coeficientes
w a partir de la matriz Xtrain2'*Xtrain2 de dimensiones (525x525) de la siguiente
manera:

% Model: Primal solution with bias
time1 = cputime;
w2 = inv(Xtrain2'*Xtrain2+ L*I)*(Xtrain2'*Ytrain2);
elapsedTime1 = cputime - time1

Procedemos de la misma manera para el cálculo de los alfas y w's mediante la versión
dual (G tiene dimensiones 100 x 100):

% Model: Dual solution with bias
time2 = cputime;
% Gram matrix
G = Xtrain2*Xtrain2';
% Dual variables
alpha = inv(G+L*I2)*Ytrain2;
w3 = Xtrain2'*alpha;
elapsedTime2 = cputime - time2

La tabla de tiempos en 2 ordenadores diferentes es la siguiente:

Laptop Medion Akoya
Intel Atom 1.6 GHz
1Gb RAM
PC Lenovo ThinkStation
Intel Core i5 3.33 GHz
8 Gb RAM
elapsedTime1
1.0156 0.0936
elapsedTime2
4.687500e-002 0

Como se puede observar, al ser el número de dimensiones mucho mayor que el número
de observaciones (n >> l), resulta más eficiente computacionalmente hablando utilizar
la versión dual de RR para el cálculo de los coeficientes de regresión.

Pongamos ahora algún ejemplo con la técnica KRR. La fortaleza de esta técnica de
regresión es la posibilidad de utilizar funciones Kernel que nos permiten construir una
función de regresión lineal en un espacio de características de más alta dimensión (lo
que equivale a una regresión no lineal en el espacio de entrada).
Utilicemos un kernel polinomial de grado 2 de la forma:

2
( , ) (( ) 1) K x y x y = + i

Como se puede observar en la Fig. 20, el uso de un kernel polinomial mejora
notablemente el ajuste sobre los datos de entrenamiento. Pero este sobreajuste impide
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

42
generalizar bien sobre los datos de validación, obteniendo peores resultados que los
conseguidos con RR para el mismo factor de regularización k = 10.



Probemos ahora con un kernel de tipo sigmoide o también conocido como tangente
hiperbólica.

( , ) tanh( ( ) ) K x y x y c η = + i

El kernel mediante la tangente hiperbólica se conoce también como 'kernel sigmoide' o
como 'kernel perceptron multicapa' y procede del campo de las redes neuronales.
Hay dos parámetros que son ajustables en esta función, el término η y la constante c.
El valor que se le suele asignar a η es 1/n, siendo n la dimensión de los datos que se
están tratando [Souza, 2010].

El resultado de ajustar mediante un kernel de tipo sigmoide, el ejemplo que estamos
tratando con parámetros η = 1/525, c = 1 es el siguiente:



Fig. 20. Kernel Ridge Regression (polinomial grado 2) con datos centrados.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

43

Donde comprobamos (Fig. 21) que no generaliza bien ni para el conjunto de
entrenamiento, ni para el conjunto de validación.

Todavía no hemos aprovechado toda la potencia que nos brindan las técnicas RR.
Todos estos ejemplos los hemos calculado fijando el término del factor de
regularización k a un valor arbitrario de 10. Evidentemente, si modificamos este
valor, los resultados también se verán modificados.


2.4.6 Elección del factor de regularización

Sabemos que existe un factor de regularización k (de hecho, un intervalo de valores de
k) mejorando el MSE del estimador MCO; pero nada en la discusión anterior nos
permite decidir cuál es su valor. Al ser k un parámetro que introduce un sesgo en los
estimadores, es deseable seleccionar el valor más pequeño de k por el cual se
estabilizan los coeficientes de regresión. En la práctica, se recurre a alguna o varias de
las siguientes soluciones [Núñez, 2005]:


2.4.6.1 Uso de trazas de regresión sesgada

Es una aproximación gráfica y por lo tanto debe ser vista como una técnica exploratoria
de datos visual. Se prueban diversos valores de k representándose las diferentes
estimaciones del vector de coeficientes w (trazas RR); se retiene entonces aquel valor
de k a partir del cual se estabilizan las estimaciones. La idea es intuitivamente
atrayente: pequeños incrementos de k partiendo de cero (MCO) tienen habitualmente
un efecto drástico sobre w, al coste de introducir algún sesgo. Incrementaremos k por
tanto hasta que parezca que su influencia sobre w se atenúa (hasta que las trazas RR
sean casi horizontales). El decidir dónde ocurre esto es, no obstante, bastante subjetivo.


Fig. 21. Kernel Ridge Regression (sigmoide) con datos centrados.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

44
Siguiendo las recomendaciones del "statistics toolbox" de Matlab para su función
ridge, a la hora de realizar
trazas RR es conveniente
utilizar los coeficientes de
regresión normalizados o
transformados θ en lugar
de los correspondientes
originales w, para que
aparezcan gráficamente en
la misma escala. No
obstante, dependiendo de
que normalización
utilicemos, obtendremos
unas trazas u otras, eso sí,
todas para valores de k
entre cero y uno,
(0<=k<=1).
Para mostrar el ejemplo de trazas RR haremos uso de un conjunto de datos extraídos
desde [Chatterjee, 2006] sobre variables de producción y consumo de la economía
francesa (Fig. 22), éstas son por orden, el año, las importaciones, la producción
doméstica, los productos almacenados y el consumo doméstico.

Si realizamos las trazas RR con la variable IMPORT como variable dependiente, para
los dos tipos de normalización explicados en apartados anteriores obtenemos las dos
gráficas de la Fig. 23. Como se puede comprobar en la primera gráfica (los datos
tienen media cero y desviación típica la unidad), las variables DOPROD y CONSUM
mantienen una correlación entre ellas. Dicha correlación se estabiliza a medida que
aumentamos el sesgo por medio del parámetro k. Visualmente podemos establecer
dicha estabilización a partir de un valor de k = 0.2. Para valores superiores a 0.2 los
coeficientes parecen mantener ya una constante bastante lineal y su varianza
disminuye.
En la gráfica de la derecha, representamos los coeficientes normalizados utilizando el
escalado de longitud unidad explicado también en apartados anteriores. Como se puede
observar, los coeficientes se muestran estables para valores de k a partir de 0.04 - 0.05.



Fig. 22. Datos sobre la economía francesa.


Fig. 23. Trazas RR para diferentes escalas.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

45


2.4.6.2 Método del punto fijo

En el trabajo [Hoerl, Kennard y Baldwin, 1975], se sugirió calcular matemáticamente
el parámetro k de la forma:
2
2
1
(0)
(0)
n
j
j
n
k
σ
θ
=
=
(
¸ ¸



donde
1
(0), , (0)
n
θ θ … son los coeficientes de regresión transformados cuando k=0
(estimadores de MCO) y
( ) 2
( )
2
i
i
SSE
l n
σ =
− −
, la varianza de los residuales (errores), siendo
2
(0) σ , la correspondiente varianza cuando el parámetro de regularización k=0.

En la Fig. 24 podemos observar el punto de corte de la estimación del parámetro k con
la traza de los coeficientes y en la tabla de la Fig. 25 observamos el valor de esos
coeficientes para dichos puntos de corte junto con sus valores originales (de-
normalizados), después de aplicar las correspondientes operaciones siguiendo las
fórmulas del apartado 2.4.4.


Fig. 24. Elección de k (método del punto fijo).
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

46


2.4.6.3 Método iterativo

Hoerl y Kennard un año después (1976) [Hoerl y Kennard, 1976], propusieron un
procedimiento repetitivo y más complejo para seleccionar el valor de k.

Comenzar calculando k
0,
siendo este valor el parámetro k que se obtiene
haciendo uso del método anterior (método del punto fijo).
Posteriormente, utilizar k
0
para calcular
2
1
2
0
1
(0)
( )
n
j
j
n
k
k
σ
θ
=
=
(
¸ ¸


Entonces, usar k
1
para calcular
2
2
2
1
1
(0)
( )
n
j
j
n
k
k
σ
θ
=
=
(
¸ ¸


Repetir este proceso hasta que
1 j j
k k
+
≃ , o sea, hasta que las diferencias
encontradas para valores de k sucesivos sean casi despreciables.

Nuevamente en esta aproximación aparece la subjetividad de lo que se considera
despreciable para las diferencias de k consecutivos, además se supone que a partir del k
obtenido por el método del punto fijo, los valores de k serán muy parecidos debido a la
influencia de la varianza en los residuales, que va a ser también muy similar.
Si aplicamos estos cálculos, tomando como condición de parada
1
0.0001
j j
k k
+
− ≤ ,
obtenemos los siguientes parámetros y coeficientes:



Fig. 25. Coeficientes de regresión para la variable IMPORT (método del punto fijo).
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

47




2.4.6.4 Validación cruzada

La idea es también muy simple, aunque computacionalmente algo laborioso. Se estima
el error de predicción dividiendo al azar el conjunto de datos en varias partes. En cada
paso una de las partes se convierte en una muestra de prueba que sirve para validar el
modelo y las restantes partes constituyen lo que es llamado una muestra de
entrenamiento que sirve para construir el modelo.


Fig. 26. Elección de k (método iterativo).


Fig. 27. Coeficientes de regresión para la variable IMPORT (método iterativo).
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

48
Si por ejemplo, se usasen 10 partes, se llamaría una “10 fold cross-validation” , por lo
general se usa 1 parte y en ese caso es llamado el método “leave-one-out” (dejar uno
afuera).
Sea
[ ]
ˆ
j
i
y

el valor predicho (la predicción que hacemos de la observación y
j
) para la j-
ésima observación usando una línea de regresión que ha sido estimada sin haber usado
las observaciones de dicha parte.

El cálculo del error por validación cruzada usando p partes es:

[ ] 2
1 1
( )
ˆ ( )
para valores de
j
p l
i
j
i j
t
y y
CV t k
p

= =

=
∑∑


Entonces el mejor modelo (el mejor factor de regularización k por validación cruzada)
es aquel k que tiene el error de validación cruzada promedio más pequeño:

arg k mínCV =

En principio, calcular CV
(k)
para un valor de k requeriría llevar a cabo l regresiones,
excluyendo cada vez una observación distinta.


























MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

49

3. PREDICCION DE SERIES TEMPORALES NO
LINEALES

Denominamos predicción a la estimación de valores futuros de una variable en función
del comportamiento pasado de la serie. Se trata de seguir la evolución de una variable
con el fin de regular su resultado. La predicción en series temporales es una línea de
investigación fundamental en la estadística. El hecho de poder reproducir el
comportamiento de un sistema dinámico no lineal a partir de medidas discretas (series
temporales) de sus variables posibilita la aplicación de los modelos de predicción
basados en series temporales a innumerables campos del conocimiento,
complementando la modelización física.


3.1 Precisión en la predicción de series temporales sometidas a ruidos
en los datos

La estimación de mínimos cuadrados para modelos lineales es notoria por su falta de
robustez frente a valores atípicos (outliers), como hemos comprobado en apartados
anteriores. Si la distribución de los atípicos es asimétrica, los estimadores pueden estar
sesgados y aunque las técnicas RR ayudan a corregir el error del ajuste, precisamente
por la introducción de un sesgo, si los atípicos son muy pronunciados, en presencia de
cualquier valor de estos atípicos, los estimadores mínimos cuadráticos son ineficientes
y pueden serlo en extremo. No obstante, ¿qué ocurre si las variables a estudiar están
sometidas a ruidos continuos en todo su recorrido temporal?. En la práctica, cuando se
trabajan con datos reales suministrados por los sistemas de adquisición de datos, que a
su vez son suministrados por los diagnósticos de medidas, conllevan errores implícitos
no sólo en sus sistemas físicos de medida (que tienen una precisión o resolución
mínima) sino en las interferencias externas a las que están expuestos dichos sistemas.
Veamos que ocurre en estos casos.


3.2. Analítica predictiva en series temporales sometidas a ruido
gaussiano continuo

Retomando el repositorio de datos analizado en el apartado 2.4.5, integrado por 197
observaciones y 525 variables descriptoras independientes que definen una variable
única dependiente, se pretende analizar la precisión del error en el ajuste de esa variable
continua dependiente en presencia de ruido gaussiano añadido a todas y cada una de las
variables independientes que modelan dicha variable respuesta. Para ello se compararán
los resultados obtenidos en presencia de dos tipos de intensidades de ruido gaussiano
añadido con los resultados a obtener en ausencia de ruido (datos brutos originales).


3.2.1 Supuestos de partida para el análisis

- Ante el gran número de variables descriptoras independientes, el estudio de la
colinealidad entre dichas variables se hace intratable una a una con todas las demás. Por
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

50
ello utilizaremos la técnica RR para obviar si existen relaciones lineales entre las 525
variables independientes. Como hemos demostrado en apartados anteriores, dicha
técnica mitiga los efectos perjudiciales de las colinealidades mediante la introducción
de un sesgo o factor de regularización.

- Al ser el número de dimensiones mucho más elevado que el número de observaciones
(525>>197), utilizaremos la versión dual de RR para el cálculo de los coeficientes de
regresión y para obtener el error del ajuste final, como hemos demostrado en apartados
anteriores que es mucho más eficiente en términos de cálculo y de computación.

- Utilizaremos KRR porque no sabemos si los datos de entrenamiento muestran
relaciones no lineales entre sus variables independientes. Dicha técnica, como también
hemos visto, obtiene una solución más óptima al movernos a un espacio de
características lineal a partir del espacio de entrada no lineal. Además utilizaremos
diferentes funciones kernel (lineal, polinomial grado 2 y tangente hiperbólica), para
comparar cual obtiene mejores resultados en la precisión del ajuste.

- En la elección del factor de regularización descartaremos las trazas RR debido
también al elevado número de dimensiones del problema a tratar. Resultaría muy
engorroso pintar 525 trazas de las variables para un intervalo de factores de regresión.
Por ello utilizaremos la validación cruzada para obtener el factor de regularización más
óptimo. En este caso el que obtenga la serie temporal más similar a una de referencia
(el error del ajuste promedio más pequeño para un rango de factores de regularización).


3.2.2 Resultados finales obtenidos

En la tabla siguiente se adjuntan los resultados finales obtenidos. Como se puede
comprobar el kernel lineal consigue mejores resultados para los tres conjuntos de datos
(datos brutos, adicción de ruido gaussiano débil y adicción de ruido gaussiano más
elevado).

Datos
originales
Adicción
ruido
gaussiano
débil

Adicción
ruido
gaussiano
elevado

MSE

(datos
de
entrenamiento)
MSE

(datos
de
prueba)
MSE

(datos
de
entrenamiento)
MSE

(datos
de
prueba)
MSE

(datos
de
entrenamiento)
MSE

(datos
de
prueba)

Lineal



0.149

0.509


1.594

1.970


17.610

12.156

Kernel

Polinomial
grado2



0.0

1.801


0.0

3.7860


2.550

16.967

Tangente
hiperb.



3.465

3.219


4.645

3.416


35.616

12.631
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

51

Hay que recalcar que aunque se consiguen errores en los ajustes casi nulos en los datos
de entrenamiento utilizando el kernel polinomial tanto en los datos originales como en
los datos con ruido gaussiano débil, al utilizar ese mismo modelo para la predicción de
los datos de prueba, obtenemos peores resultados que con el kernel lineal. Esto es
debido a que el kernel polinomial sobre ajusta excesivamente los datos de
entrenamiento y el modelo obtenido no es capaz de generalizar bien para los datos de
prueba.
El kernel mediante la tangente hiperbólica obtiene peores resultados, no obstante se
observa que en los datos añadiendo elevado ruido gaussiano, se acercan los resultados a
los obtenidos mediante el kernel lineal, siendo mejores y superando los conseguidos
por el kernel polinomial para dicho caso.

En la Fig. 28 podemos observar como la predicción de la serie temporal del conjunto de
prueba en los datos brutos originales, el error en el ajuste es casi mínimo,
reproduciendo casi en su conjunto la serie temporal observada original de dicho
conjunto.


En el caso de un kernel polinomial de grado 2 (Fig. 29), la reproducción de la serie
temporal final para el conjunto de datos de prueba es más imprecisa, resultando un
aumento del error en el ajuste con respecto al conseguido por el kernel lineal.




Fig. 28. Precisión en la predicción de la serie temporal dependiente para el conjunto de prueba utilizando un
kernel lineal.


Fig. 29. Precisión en la predicción de la serie temporal dependiente para el conjunto de prueba utilizando un
kernel polinomial de grado 2.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

52
Finalmente para el caso del kernel mediante la tangente hiperbólica (Fig. 30),
comprobamos como los resultados son aún peores, siendo más imprecisa la
reproducción en la predicción de la serie temporal observada.




No obstante, es de señalar que utilizando el kernel de la tangente hiperbólica se
consiguen mejores resultados que utilizando el kernel polinomial para el conjunto de
prueba (3.416 vs. 3.786), cuando nos fijamos en la segunda serie temporal (adicción de
ruido gaussiano moderado).





























Fig. 30. Precisión en la predicción de la serie temporal dependiente para el conjunto de prueba utilizando un
kernel mediante la tangente hiperbólica.
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

53

















































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

54

4. CONCLUSIONES

En este trabajo se han descrito diferentes técnicas de regresión que se engloban dentro
de la analítica predictiva de datos. El análisis predictivo de datos es muy útil para
estudiar y ajustar de manera eficiente el comportamiento de un sistema dinámico lineal
o no lineal a partir de las medidas discretas de sus variables. Por tanto, el objetivo
principal de un modelo de regresión generado a partir de un análisis predictivo es
obtener una ecuación matemática que nos permita "predecir" con el mínimo error
posible el valor de una variable dependiente Y una vez conocidos los valores de X
1
, X
2
..
X
n
o variables independientes predictoras. Dicha ecuación servirá como modelo o
función de aproximación para la predicción de futuras observaciones.

Cuando las variables predictoras están muy correlacionadas, los coeficientes de
regresión resultantes de un ajuste por mínimos cuadrados ordinarios (MCO) pueden
llegar a ser muy erráticos e imprecisos, debido a los efectos desastrosos que la
multicolinealidad tiene sobre su varianza. Estos coeficientes originan predicciones
erróneas a la hora de vaticinar nuevas respuestas correspondientes a entradas similares
que deberían pronosticar salidas similares. La técnica Ridge Regression (RR) trata estas
colinealidades minimizando el problema al contraer los coeficientes de regresión de
MCO mediante la introducción de un sesgo, logrando coeficientes ajustados con menor
varianza, dando estabilidad así a la predicción del modelo y solucionando dicho
problema. En este trabajo se ha estudiado también las diferentes modalidades que
existen para obtener y elegir un sesgo o factor de regularización óptimo (aquel que
obtenga predicciones con el mínimo error posible entre lo observado y lo esperado).

Los métodos kernel (ampliamente utilizadas en las máquinas de aprendizaje
supervisado) han demostrado ser técnicas muy eficaces en la resolución de problemas
no lineales. Si los datos de entrenamiento (las variables independientes) muestran
relaciones no lineales, la técnica RR será incapaz de modelarlas adecuadamente con un
error mínimo aceptable (el sesgo introducido en RR ayuda pero a veces también resulta
insuficiente). Sin embargo, una solución no lineal puede ser tratada y formulada
moviéndonos a un espacio de características lineal a partir del espacio de entrada no
lineal. Kernel Ridge Regression (KRR) es una técnica que encuentra y realiza un
mapeo de los datos de entrada (considerados no lineales) en un espacio de
características de más alta dimensión (donde corresponden a un modelo
aproximadamente lineal) obteniendo errores en el ajuste mucho menores con un gasto
computacional razonable, lo cual puede posibilitar su implementación en tareas de
tiempo real. No obstante, se ha visto como estas funciones conllevan algunos
inconvenientes. Como se ha podido comprobar, el sobre-ajuste a un conjunto de
entrenamiento puede provocar no saber generalizar adecuadamente cuando se usa el
modelo para un conjunto de prueba diferente.

Finalmente, se han aplicado estas técnicas predictivas a diferentes series temporales no
linales. Para ello se compararon los resultados en presencia de dos tipos de intensidades
de ruido gaussiano añadido, con los resultados obtenidos en ausencia de ruido (datos
brutos originales), concluyendo que el uso del kernel lineal mediante la solución dual
de RR es el que mejor rendimiento proporciona en términos de mínimo error en el
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

55
ajuste. Además la forma estructural de la serie temporal esperada seguía
conservándose, incluso en presencia de ruido gaussiano moderado.















































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

56

















































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

57
5. MOTIVACION Y TRABAJOS FUTUROS

Los inicios de este proyecto comienzan en la Unidad de Adquisición de Datos del
Laboratorio de Fusión del CIEMAT. En dicha unidad, se vienen desarrollando durante
años, una serie de técnicas y procedimientos analíticos aplicados a la base de datos del
stellerator español TJ-II [TJ-II] (Fig. 31), y donde se almacenan más de tres millones
de señales de evolución
temporal.
La extracción del
conocimiento oculto en bases
de datos masivas, requiere el
uso de herramientas y
técnicas automáticas de
minería de datos que faciliten
la generación de modelos
predictivos eficientes y con
elevado poder explicativo.
Los modelos teóricos
resultantes de este estudio
supervisado, tienen que ser
capaces de generalizar con el
mínimo error posible frente a
nuevas entradas de datos, con el fin de poder ayudar no solo en diferentes tareas críticas
de control, sino también en la aportación y anticipación de resultados, incluso antes de
que se produzcan éstos.
Por tanto, el objetivo principal de este trabajo es el estudio, comprensión y análisis de
técnicas predictivas de datos que hagan uso de la regresión estadística como paradigma
de aprendizaje válido para poder ser aplicado en el futuro a las diferentes señales que
integran la base de datos del stellerator TJ-II.

Básicamente, este trabajo se subdividió en dos partes, la primera parte expone
exhaustivamente la analítica predictiva basada en la regresión, y en la segunda parte del
proyecto se hace uso de dicho análisis, aplicando diferentes técnicas a unos datos
experimentales multidimensionales en presencia de ruido gaussiano añadido,
comparando estos resultados con los obtenidos en ausencia de ruido. Con esto, se ha
tratado de reflejar cómo diferentes técnicas de regresión actúan en presencia de outliers
generalizados y contínuos, con el objetivo de poder simular y acercarse así al
comportamiento de un sistema de adquisición de datos real, sometido a elevadas
interferencias externas.

Futuros trabajos que complementen este proyecto sería comprobar si los resultados aquí
obtenidos son reproducibles mediante los datos y señales de evolución temporal que se
encuentran en la base de datos del TJ-II y además, sería interesante también comparar
estas técnicas de regresión con el poder predictivo de otros sistemas de aprendizaje
como son las redes neuronales ó las máquinas de vectores soporte.






Fig. 31. Stellerator TJ-II (CIEMAT).
MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

58

















































MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

59
REFERENCIAS Y BIBLIOGRAFIA

[Akdeniz, 2001] Akdeniz, F. 2001. "The examination and analysis of residuals for
some biased estimators in linear regression". Communications in
Statistics: Theory and Methods. 30. 1171-1183.

[Belsley, 1980] Belsley, D. Kuth, E. Welsh, R. 1980. · Regression diagnostics.
Identifying influential data and sources of collinearity". New York,
John Wiley & Sons, Inc.

[Chatterjee, 2006] Chatterjee, S. Hadi, A. 2006. “Regression analysis by example”.
Fourth Edition. Wiley-Interscience. ISBN: 100471746967

[Galton, 1886] Galton, Francis. 1886. “Regression towards mediocrity in hereditary
stature”. Journal of the Anthropological Institute. 15. 246-263.

[García, 2006] García, Jorge. et al. 2006. "Efectos de la colinealidad en el modelado de
la regresión y su solución". Cultura Científica y Tecnológica. 16. 23-34

[GEA, 2006] Grupo de Estadística Aplicada. 2006. Universidad de Salamanca.
“Regresión y correlación”. Introducción a la Estadística.
http://biplot.usal.es/problemas/libro/index.html

[Hoerl y Kennard, 1970] Hoerl, Arthur E. Kennard, Robert W." Ridge Regression:
Applications to Nonorthogonal Problems". Technometrics,
Vol. 12, No. 1. (Feb., 1970), pp. 69-82.

[Hoerl y Kennard, 1976] Hoerl, A. E.,R. W. Kennard. 1976. "Ridge Regression
Iterative Estimation of the Biased Parameter".
Communication in statistics, A5(1), 77-88.

[Hoerl, Kennard y Baldwin, 1975] Hoerl, A.E., Kennard, R.W., and Baldwin, K.F.
(1975), “Ridge regression: some simulations,”
Communications in Statistics, 4, 105-123.

[Mason, 1991] Mason, C. Perreault, W. 1991. "Collinearity, power and interpretation of
multiple regression analysis". Journal of marketing Research. 28. 268-
220.

[NIST, 2003] NIST/SEMATECH 2003. e-Handbook of Statistical Methods,
http://www.itl.nist.gov/div898/handbook/

[Núñez, 2005] Núñez, V. Tussell, F. 2005. "Regresión y Análisis de Varianza".
http://www.et.bs.ehu.es/~etptupaf/nuevo/ficheros/estad3/reg.pdf

[Pasha, 2004] Pasha, G.R. Shah, Ali. 2004. “Application of ridge regression to
multicollinear data”. Journal of Research (Science), Bahauddin Zakariya
University, Multan, Pakistan. 15. 97-106. ISSN 1021-1012.

MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

60
[Ramos, 2007] Ramos, C. Martínez, M. Sanchís, J. Salcedo, J.V. 2007. "LQR Robusto
mendiante incertidumbre acotada en los datos". Revista Iberoamericana
de Automática e Informática Industrial. 4. 61-72.

[Shawe-Taylor, 2004] Shawe-Taylor, J. Cristianini, N. 2004. "Kernel Methods for
Pattern Analysis". Cambridge University Press. ISBN: 978-0-
521-81397-6.

[Souza, 2010] Souza, Cesar. 2010. Kernel Functions for Machine Learning
Applications. http://crsouza.blogspot.com/2010/03/kernel-functions-
for-machine-learning.html

[Thibaux, 2008] Thibaux, Romain. 2008. "Regression". Computer Science 294,
Practical Machine Learning.
http://www.cs.berkeley.edu/~pliang/cs294-
spring08/lectures/regression/

[TJ-II] http://fudaqs2.ciemat.es/TJ2WEB/indexGAD.jsp

[Wang, 1994] Wang, S. and Akabay, C. 1994. "Autocorrelation: problems and solution
in regression analysis". The Journal of Business and Forecasting
Methods and Systems. 13. 18-26.

[Zhang, 2009] Zhang, Jian. 2009. “Risk Minimization”. Statistical Learning Theory.
http://www.stat.purdue.edu/~jianzhan/STAT598Y/NOTES/slt02.pdf
























MASTER EN INVESTIGACION EN INFORMATICA
ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

61
Autorización de difusión.

El abajo firmante, matriculado en el Master en Investigación en Informática de la
Facultad de Informática, autoriza a la Universidad Complutense de Madrid (UCM) a
difundir y utilizar con fines académicos, no comerciales y mencionando expresamente
a su autor el presente Trabajo Fin de Máster: “ANALISIS PREDICTIVO DE DATOS
MEDIANTE TECNICAS DE REGRESION ESTADISTICA”, realizado durante el curso
académico 2009-2010 bajo la dirección de MATILDE SANTOS PEÑAS [y con la
colaboración externa de dirección de JESUS A. VEGA SANCHEZ] en el Departamento
de Arquitectura de Computadores y Automática, y a la Biblioteca de la UCM a
depositarlo en el Archivo Institucional E-Prints Complutense con el objeto de
incrementar la difusión, uso e impacto del trabajo en Internet y garantizar su
preservación y acceso a largo plazo.




Firmado: Augusto Pereira González




























MASTER EN INVESTIGACION EN INFORMATICA

ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

2

MASTER EN INVESTIGACION EN INFORMATICA

PREDICTIVE DATA ANALYSIS BY MEANS OF STATISTICAL REGRESSION TECHNIQUES Abstract: Statistical regression is one of the most widely used technique to find a variable that is function of one or more explanatory variables; however, usually it's used the 'Ordinary Least Square' technique (OLS), but it faces problems when the variables have multicollinearity (linear relation between them). This work describes the troubles of collinearity, the effects on the models achieved and discusses the main diagnostic techniques to solving them and preventing them. 'Ridge Regression' and 'Kernel Ridge Regression' are the most commonly used procedures to mitigate its effects. These can be implemented through different modes of computation, allowing us to quantify and to adjust the results in predictions from the initial conditions of the input data (number of observations and number of dimensions of the variables to be treated). Finally, experimental results are provided by applying the previous techniques and by comparing the accurate on the predictions for different data sets. Keywords: Predictive Data Analysis, Statistical Regression, Ridge Regression.

ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA Resumen: La regresión estadística es una de las técnicas mas empleadas cuando se busca determinar una variable respuesta en función de una o más variables explicativas; sin embargo, tradicionalmente se emplea la técnica de mínimos cuadrados ordinarios (MCO), la cual enfrenta problemas cuando las variables explicativas presentan multicolinealidad (relación lineal entre ellas). En este trabajo se describe el problema de la colinealidad, sus efectos en los modelos generados y se discuten las principales técnicas de diagnóstico y prevención. Las variantes de regresión sesgada ('Ridge Regression' y 'Kernel Ridge Regression') son los procedimientos más empleados para mitigar dicho efecto. Éstas pueden ser aplicadas mediante diferentes modalidades de cómputo, permitiéndonos cuantificar y ajustar los resultados en las predicciones a partir de las condiciones iniciales de los datos de entrada (número de observaciones y número de dimensiones de las variables a tratar). Finalmente se muestran y aportan resultados experimentales mediante la aplicación de las técnicas analizadas, comparando las precisiones en las predicciones para diferentes conjuntos de datos.

Palabras clave: Análisis predictivo, regresión estadística, regresión sesgada.

ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

3

MASTER EN INVESTIGACION EN INFORMATICA ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 4 .

.................6..................................................................4......................................................................4...43 2......3 La técnica "Kernel Ridge Regression".......................................1 Regresión lineal múltiple en notación matricial ...2............................................................28 2.........4................................................. 13 2....................6.....14 2........................3 Método iterativo..............................................6................................................................................................................13 2...................................20 2.................... ANALISIS DE REGRESION..................................................................................................................................4..............4 Análisis del autosistema..............2 Técnicas de corrección ............................2 Método del factor de inflación de la varianza ................ 11 2....3................49 3.3 Colinealidad entre variables independientes..34 2.......4.45 2...............1 Precisión en la predicción de series temporales sometidas a ruidos en los datos........................................3........................3.....................................3..............................3....................................1 Principales técnicas de detección...........1 Uso de trazas de regresión sesgada ...........................................................33 2........................................................23 2..........1 Regresión lineal .........................................39 2...........6 Elección del factor de regularización............................2 Regresión no lineal ........1......................................................2..........................................................................................................47 3......................22 2..1.............1..2......................49 3.............................................................18 2.........................................................................................1 Supuestos de partida para el análisis........ 49 3...............3 La técnica "Ridge Regression"....................2............. 7 1.......20 2......................49 3....................................................1 Primera solución ...........1..........2.... 61 ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 5 .15 2.................................. Analítica predictiva en series temporales sometidas a ruido gaussiano continuo..................................... MOTIVACION Y TRABAJOS FUTUROS..........................................................................................3............2................................................................................................4.................................................3........................................................................................................... CONCLUSIONES ........6...............................................4...............................1 Diagramas de dispersión .2 Solución dual ............................. 57 REFERENCIAS Y BIBLIOGRAFIA...........24 2......................................4.................46 2.............................................................3.........29 2..........50 4............................................ 54 5........................................................20 2.......... 59 Autorización de difusión................1............................................................................................2 Método del punto fijo....................................................................................................4 Validación cruzada ..............................................4...................43 2...........5 Ejemplo de aplicación mediante regresión múltiple .............31 2..................................31 2........2 Calidad del ajuste y su medición ...1 Eliminación de variables del análisis ............................................................... PREDICCION DE SERIES TEMPORALES NO LINEALES ...............29 2..........2 Resultados finales obtenidos..........................................29 2...........................................................2 Componentes principales ........................................................4 Estandarización de datos para la regresión sesgada.. INTRODUCCION ..3 Matriz de correlaciones..................................3.............4 Exploración de regresión sesgada ................37 2..............................................................MASTER EN INVESTIGACION EN INFORMATICA Índice de contenido Índice de ilustraciones ....... ........................4....................................1...........................................................

MASTER EN INVESTIGACION EN INFORMATICA ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 6 .

...................... 47 Fig. ................ 15..... 17.... Kernel Ridge Regression (sigmoide) con datos centrados.................. ............. Efecto de la regularización.. Funciones de ajuste polinomiales y sobreajuste.... ........................................... 35 Fig.. 30..................... Trazas RR para diferentes escalas........ 24.................................... 45 Fig.............. 22 Fig................................................................ 24 Fig................. .................................................................... 51 Fig...................... Transformación ortogonal de datos originales.. Regresión con kernel RBF-Gaussiano para diferentes valores de sigma........... 31...... 21 Fig. 29.......... . 27 Fig.. Precisión en la predicción de la serie temporal dependiente para el conjunto de prueba utilizando un kernel mediante la tangente hiperbólica.... 40 Fig............................................ ...... 16 Fig........ Stellerator TJ-II (CIEMAT).. .......... ...................................... 7. 11........... ...... ........... Ajuste por mínimos cuadrados...... Datos sobre la economía francesa................................. ............................... ............. Idea básica de los métodos Kernel.......... 18 Fig............................................ 22......... Precisión en la predicción de la serie temporal dependiente para el conjunto de prueba utilizando un kernel lineal....... Ridge Regression (Primera solución) con datos centrados................................. 24 Fig......... ACP a partir de la Matriz de correlación.................... 27............... 13................ 20.......... 28 Fig..... Agregación de un sesgo a MCO........ Transformación de las variables originales en componentes.... .. Factor de inflación de la varianza...................... 9........ ACP a partir de las variables originales.......... 25....... 19................. ............. 23.............................. 26 Fig.................................................................................... 16 Fig......... 16....... ................... 52 Fig.............................. 43 Fig......................... .. Matriz de correlación.............. 42 Fig............. 47 Fig.... Análisis de la Varianza (ANOVA).............................. 44 Fig....................... 10....... Diagramas de dispersión.................... Sub-regularización y sobre-regularización........ ......................................... 2........................ 1.................. ..................................................... Ilustración gráfica de la medición del ajuste........... 6............ 28....... 33 Fig.. 51 Fig....................... ........ 3............................. 18.......................... 36 Fig...................... 13 Fig................ 46 Fig. Coeficientes de regresión para la variable IMPORT (método iterativo)......................... Variable Y en función de X.................... 5........... 32 Fig.. 8.. Elección de k (método iterativo)... Kernel Ridge Regression (polinomial grado 2) con datos centrados...... Elección de k (método del punto fijo).... 14............................... 57 ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 7 ............................ 40 Fig............ 21. Precisión en la predicción de la serie temporal dependiente para el conjunto de prueba utilizando un kernel polinomial de grado 2...................................... 4................................................................................. 30 Fig........ Ridge Regression (Primera solución) con datos sin normalizar............. 12............ 26...... .. Coeficientes de regresión para la variable IMPORT (método del punto fijo)..................................................................... 44 Fig............................... 13 Fig.......MASTER EN INVESTIGACION EN INFORMATICA Índice de ilustraciones Fig......

MASTER EN INVESTIGACION EN INFORMATICA ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 8 .

complex regularities. inference]. you ought to have done a better experiment.MASTER EN INVESTIGACION EN INFORMATICA ”If your experiment needs statistics [i. … Can one always do a better experiment? (Bernhard Schölkopf) Empirical Inference Department Max Planck Institute for Biological Cybernetics Tübingen. weak prior knowledge and large data sets.. Barlow) Australia Prize in Sensory perception theme in 1993 ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 9 .” (Ernest Rutherford) Nobel Prize in Chemistry in 1908 With high dimensionality.e. Germany “The brain is nothing but a statistical decision organ” (Horace B.

MASTER EN INVESTIGACION EN INFORMATICA ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 10 .

se llegó a la conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura. consiguiendo así un gasto computacional mas razonable y menos costoso que el obtenido por el método tradicional de regresión utilizando MCO. INTRODUCCION El análisis de regresión es una técnica estadística para estudiar la relación entre variables. la cual encuentra problemas cuando las variables independientes presentan multicolinealidad (cuando una variable independiente puede ser explicada como una combinación lineal o correlación de una u otras variables independientes). En problemas de regresión se dispone de una serie de datos de entrenamiento que representan las entradas y las correspondientes salidas de un sistema lineal o no lineal. 1886] . El procedimiento de eliminar variables correlacionadas del análisis puede ser aceptado por reduccionista y como un modo de simplificar el modelo generado (computacionalmente más eficiente). el análisis puede utilizarse para explorar y cuantificar la relación entre una variable llamada dependiente o criterio (Y) y una o más variables llamadas independientes. Tanto en el caso de dos variables (regresión simple) como en el caso de más de dos variables (regresión múltiple). Para resolver el problema anterior se propuso la metodología denominada ‘Ridge Regression’ (RR) o regresión sesgada.». para poder así predecir la salida del sistema cuando se le presenta un dato de entrada nuevo. la versión dual del procedimiento RR permite realizar regresión no lineal mediante la construcción de una función de regresión lineal en un espacio de características de más alta dimensión (comúnmente conocidas como funciones kernel).MASTER EN INVESTIGACION EN INFORMATICA 1. Este efecto provoca frecuentemente elevados errores puntuales en las predicciones. X2. pero que revelaban también una tendencia a regresar a la media. así como para desarrollar una ecuación lineal con fines predictivos. en un grado menor. Su trabajo se centró en la descripción de los rasgos físicos de los descendientes (variable A) a partir de los de sus padres (variable B). …. RR nos ofrece dos modalidades de cómputo diferentes (solución primal y dual) que podemos utilizar dependiendo de si la dimensión del espacio de características (el número de variables independientes utilizadas) es menor o mayor que el número total de ejemplos de entrenamiento que se quieren aproximar. sin embargo este medio reduce la carga de datos de entrada inicial al sistema y esto lo puede convertir en una técnica que genere un modelo con menor poder predictivo (reduciéndose la tasa de acierto global en las salidas a predecir). lo que conduce a generar modelos predictivos con muy poco poder explicativo y de difícil interpretación en las salidas correspondientes a entradas similares que deberían también predecir salidas similares. Estudiando la altura de padres e hijos a partir de más de mil registros de grupos familiares. Pero esto no es todo. predictoras o regresoras (X1. pero en media. El término regresión fue introducido por Francis Galton [Galton. A esta variante regularizada de la regresión utilizando funciones kernel se le denomina ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 11 . Pero esta no es la única ventaja que ofrece este procedimiento. dichas funciones permiten obtener resultados sorprendentes en problemas no lineales utilizando solamente operaciones algebraicas sencillas. Este método consiste en agregar un parámetro sesgado a los estimadores de mínimos cuadrados ordinarios con la finalidad de reducir el error estándar de éstos que se comete a la hora de predecir el valor de la variable dependiente. Galton generalizó esta tendencia bajo la "ley de la regresión universal": «Cada peculiaridad en un hombre es compartida por sus descendientes. El objetivo de la regresión es descubrir la relación funcional entre la entrada y la salida de este sistema. Xn). Tradicionalmente se emplea la técnica de mínimos cuadrados ordinarios (MCO) como método básico de regresión.

la segunda parte se enfoca más en las aplicaciones de estas técnicas al procesado de señales y a la precisión en la predicción de series temporales no lineales.MASTER EN INVESTIGACION EN INFORMATICA ‘Kernel Ridge Regression’ (KRR) y es computacionalmente muy efectiva incluso cuando el número de dimensiones del sistema de entrada es muy elevado. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 12 . La primera parte de la memoria consiste en un estudio de la literatura sobre la RR y su implementación en algoritmos mediante métodos kernel. En este trabajo se quiere analizar la regresión y sobre todo sus variantes RR y KRR como métodos de aproximación en el ámbito del procesado de señales y la posibilidad de implementarla como funciones kernel para ser capaz de resolver así problemas no lineales de manera eficiente y rápida. independientemente de la dimensionalidad tanto del número de características a utilizar como del número de ejemplos de entrenamiento a tratar.

ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 13 . La diferencia entre los valores observados y predichos (el error de la función) se denomina variación Fig. 2003]. La función más eficaz es aquella que describe la variable dependiente con el menor error posible o. atributos o dimensiones (regresión múltiple). 2.1 Regresión lineal Como los valores observados de la variable dependiente difieren generalmente de los que predice la función. i=1…l (Fig. 1) [NIST. yi). 1. ANALISIS DE REGRESION En un análisis de regresión simple existe una variable respuesta o dependiente (y) y una variable explicativa o independiente (x). La regresión se utiliza para predecir una medida basándonos en el conocimiento de otra y Fig. 2. ésta posee un error. La variable explicativa puede estar formada por un vector de una sola característica o puede ser un conjunto de n características. con la menor diferencia entre los valores observados y predichos. Variable Y en función de X. que sea capaz de describir lo más ajustadamente posible la variación de la variable dependiente. la intención final es que dado un vector de entrada xl+1 se persigue predecir un valor de salida yl+1 a partir de una función generada mediante la supervisión previamente observada de un conjunto de entrenamiento inicial de ejemplos (xi.MASTER EN INVESTIGACION EN INFORMATICA 2. Ajuste por mínimos cuadrados. El propósito es obtener una función sencilla de la variable explicativa. dicho en otras palabras.

2008]. Sin embargo. Pero en el supuesto de que tengamos n dimensiones y por tanto un caso de regresión múltiple la función de predicción será la siguiente: ˆ yi = X i w = wo + w1 xi . E ( w) = ∑ ( yi .n 2. corresponde a diferenciar la ecuación. la función es del tipo yi = w0 + w1 xi . Cuando la variable dependiente es cuantitativa y la relación entre ambas variables sigue ˆ una línea recta. asumiendo que (XTX) tiene inversa para todo.1 + w2 xi .X i w) i 2 (1. Estas suposiciones pueden comprobarse examinando la distribución de los residuos y su relación con la variable dependiente. 2003]. en donde wo es el intercepto o valor del punto de corte de la línea de regresión con el eje de la variable dependiente y w1 es la pendiente o coeficiente de regresión. ∂E =0 ∂w ⇒ ∑ ∂w ( y i ∂ i − X i w) 2 = 0 ⇒ ∑ 2X i T i ( yi − X i w ) = 0   ⇒  ∑ X iT X i  w = ∑ X iT yi i  i  Dejando las ecuaciones y los sistemas de ecuaciones lineales e introduciendo una notación plenamente matricial [Thibaux.1 Regresión lineal múltiple en notación matricial Encontrar la función en la cual la suma de los cuadrados de las diferencias entre los valores observados y esperados sea menor corresponde a encontrar los coeficientes de regresión w para los cuales la función por la cual determinamos dicho error sea un error mínimo.2 +…+ wn xi .1. se trata de encontrar la función en la cual la suma de los cuadrados de las diferencias entre los valores observados y esperados sea menor. o dicho de otra forma. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 14 . yi ) para i = 1… l .1) Dados l ejemplos de entrada ( xi . Para estimar los parámetros de la función se utiliza el ajuste por mínimos cuadrados (Fig. con este tipo de estrategia es necesario que los residuos o errores estén distribuidos normalmente y que varíen de modo similar a lo largo de todo el rango de valores de la variable dependiente. Es decir. donde X i = ( f1 ( xi ) f 2 ( xi ) ⋯ f d ( xi )) con d funciones definidas. podemos continuar la expresión de la siguiente forma: w = (XTX ) XT y -1 y observamos que la matriz de coeficientes de regresión w es función lineal de la matriz de datos observados y. 2) [NIST.MASTER EN INVESTIGACION EN INFORMATICA residual o residuos.

Una relación fundamental entre estas variables es la siguiente: SST = SSR + SSE ˆ Tomando valores ficticios para y.2 Calidad del ajuste y su medición Después de haber ajustado un modelo es importante contar con ciertos valores que nos ofrezcan información de cómo de importante es dicho ajuste con respecto a los datos. w= ⋮ ⋮   xl1 … xln   w0     w1  ⋮     wn  2. en la Fig. X =  x20 y= ⋮  ⋮       xl 0  yl  x11 … x1n   x21 … x2 n  . ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 15 . 2006] sugiere el cálculo de las siguientes cantidades: SST = SSR = SSE = ∑( y − y) ˆ ∑( y − y ) ˆ ∑( y − y ) i i i i 2 2 2 Donde SST (Sum Squared Total) es el sumatorio de los cuadrados de las diferencias de la variable respuesta Y respecto de su media. 3 se representan e ilustran gráficamente las relaciones existentes entre ellas. existen muchos términos cuantitativos que nos dan información muy valiosa respecto a dicha medición. SSR (Sum Squared Regression) representa ˆ la suma de los cuadrados de las diferencias de la variable predictiva Y respecto a la media de la variable observada Y.1. finalmente SSE (Sum Squared Errors) es el sumatorio de los cuadrados de los residuales (los errores observados entre las variables ˆ Y e Y ). No obstante. y e y . al analizar la correlación existente entre las variables independientes.MASTER EN INVESTIGACION EN INFORMATICA  y1   x10     y2  . una vez obtenidos los coeficientes de MCO. Como veremos más adelante. [Chatterjee.

MASTER EN INVESTIGACION EN INFORMATICA Fig. 3. Una vez introducidas las variables que hacen referencia a la suma de cuadrados. 4. Análisis de la Varianza (ANOVA). En la siguiente ilustración se puede observar la tabla resultante de un análisis ANOVA y sus equivalencias entre variables: Fuente Suma de cuadrados Media cuadrática Cociente F Regresión SSR MSR = SSR / n F = MSR / MSE Residuales SSE MSE = SSE / l Fig. No obstante la utilidad importante en un análisis de regresión respecto al análisis ANOVA son las variables medias cuadráticas que se utilizan frecuentemente como medida de comparación de los errores que se producen en los ajustes de regresión. es necesario continuar con las variables que utilizan la media cuadrática. Está técnica estudia la igualdad de las medias para diferentes muestras poblacionales bajo la hipótesis de que éstas deben coincidir y por tanto el análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. Dónde MSE (Mean Square Error) es la media del cuadrado debido al error de los residuales y MSR (Mean Square Regression) es la media del cuadrado debido a la ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 16 . Ilustración gráfica de la medición del ajuste. habitualmente utilizadas por el análisis de la varianza (ANOVA) en regresión múltiple.

ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 17 . El factor F es el cociente entre MSR y MSE y es la prueba de significación final en un análisis ANOVA. MSE representa la medición de comparación más común utilizada en los ajustes de regresión y es la que normalmente utilizaremos en los cálculos siguientes a realizar.MASTER EN INVESTIGACION EN INFORMATICA regresión.

MASTER EN INVESTIGACION EN INFORMATICA 2. xi . fronteras de decisión muy complejas producen sobreajuste. Fig. pueden transformarse los valores de una o ambas variables para intentar linealizarla. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 18 . Este sobreajuste (overfitting) es un problema muy común y produce un modelo que no es capaz de generalizar.2 Regresión no lineal Si la relación no es lineal. A pesar de producir mayores errores con los ejemplos de entrenamiento. instancias de entrenamiento ruidosas (outliers) son también sobreajustadas. La regresión lineal suele conseguir fronteras de decisión más correctas y menos artificiales que la regresión no lineal. 5. La función 2 polinomial más sencilla es la cuadrática y = w0 + w1 x1 + w2 x2 que describe una parábola. puede comprobarse el grado de ajuste de una función polinomial más compleja. tiene mayor capacidad de generalización y se comporta mejor ante nuevos ejemplos a predecir. …. ˆ yi = X i w = wo + w1 xi + w2 xi2 +…+ wk xik para X i = (1. desplazando estas fronteras hacia esas instancias equivocadas y ocasionando así confundir al sistema de predicción a la hora de predecir nuevas entradas [Zhang. xik ) Las fronteras de decisión no lineales permiten representar conceptos más complejos al ajustarse más a los datos. pero puede usarse una función cúbica u otra de un orden aun mayor (orden k) capaz de conseguir un ajuste casi perfecto a los datos. no obstante este sobreajuste implica también inconvenientes. Funciones de ajuste polinomiales y sobreajuste. xi2 . Si no es posible convertir la relación en lineal. Normalmente. no funcionando adecuadamente con nuevas instancias. 2009].

No obstante la presencia de un outlier en los datos de entrenamiento originó el desplazamiento de la frontera de decisión hacia dicho punto. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 19 . cosa que prácticamente es difícil de encontrar en la práctica cuando se trabajan con datos reales suministrados por los sistemas de adquisición que conllevan errores implícitos no solo en sus sistemas de medida sino en las interferencias externas a las que están expuestos. 5) podemos observar el efecto de una regresión no lineal sobreajustada.MASTER EN INVESTIGACION EN INFORMATICA En la (Fig. Cuanto mayor es el grado del polinomio mejor ajustaremos nuestros datos de entrenamiento. pero tenemos que estar plenamente seguros que nuestros datos de partida no tienen errores. Con un polinomio de grado 11 conseguimos ajustar muy bien los datos de entrenamiento. aproximando una nueva instancia de prueba (el punto azul) como menor error en un polinomio de grado 11 cuando el ajuste con los polinomios de grado 2 y de grado 4 le asignan un error mucho mayor que cualquiera de los datos de entrenamiento.

obtendremos tantos diagramas de dispersión o nube de puntos como n-1 características o variables independientes existan para una única variable xi. Según [Akdeniz. signos incorrectos en los parámetros y frecuentemente elevados errores estándar. Cuando una variable independiente posee alta correlación con otra ú otras ó puede ser explicada como una combinación lineal de alguna de ellas. De esa forma. podremos obtener una primera idea acerca de la forma estructural que toma esta variable xi.n).xi.1 Diagramas de dispersión Si se representa cada par de variables independientes (xi. Éste fenómeno debe ser investigado antes de generar un modelo de regresión. 2.xi. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 20 . 2006]. 2006]. cuando se emplean los mínimos cuadrados ordinarios en la estimación de los parámetros de regresión y existe el problema de multicolinealidad en las variables independientes.1.1 respecto a las demás y si realmente existe una relación morfológica entre ellas. Esa nube de puntos entre variables la podemos clasificar bien sea como una dependencia funcional perfecta o una dependencia estocástica con un cierto grado de dependencia [GEA.1.MASTER EN INVESTIGACION EN INFORMATICA 2.3.1 con respecto a todas las demás variables independientes.1. Con esta representación conseguiremos visualizar la variable independiente xi. se dice que el conjunto de datos presenta el fenómeno denominado multicolinealidad [García.1.2) … (xi.3. lo que conduce a generar modelos con muy poco poder explicativo o de difícil interpretación.1 Principales técnicas de detección Las principales técnicas para poder detectar estas colinealidades son las siguientes: 2.3 Colinealidad entre variables independientes Una de las principales premisas a tener en cuenta en el modelado de regresión es que las variables independientes no posean ningún tipo de dependencia lineal entre ellas. se pueden observar problemas de inestabilidad de los mismos. ya que puede generar errores en los pronósticos y dificultar la interpretación de la importancia de cada una de las variables independientes en el modelo. en unos ejes cartesianos diferentes para cada par. 2001].

MASTER EN INVESTIGACION EN INFORMATICA Fig. 1 XTX ≃ 0⇒ T ≈ ∞ X X ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 21 . provoca que su determinante sea casi singular y su inversa sea casi infinito. Sin embargo. las relaciones y las dependencias entre las variables suelen ser menos rigurosas y aunque las tendencias estructurales también suelen ser lineales o no lineales siempre suele existir un error implícito en el ajuste para cada valor que toman las variables tratadas con respecto a su valor real. o por lo menos un valor muy elevado que origine que los coeficientes MCO resultantes sean también muy elevados. y sea singular (no invertible) y en consecuencia no podríamos obtener el estimador MCO. En el primer caso (Fig. Diagramas de dispersión. lo que suele ocurrir casi siempre. Aunque la colinealidad existente entre dos variables independientes no sea exactamente perfecta pero sí casi perfecta. ya que los algoritmos de inversión de matrices pierden precisión al tener que dividir por un número muy pequeño.1 = f(xi. 6) tenemos una dependencia funcional completa y la relación atiende matemáticamente a una expresión del tipo xi. siendo además inestables. que sólo se podría encontrar en condiciones de laboratorio). En esta situación surgen problemas de precisión en la estimación de los coeficientes. Esto provoca que la Matriz XTX tenga determinante 0. 6. es que no se consigue un ajuste tan sumamente perfecto y entonces hablamos de dependencia estocástica entre variables con un determinado grado de relación (la no correlación de dos variables es un proceso idílico.2) sin ningún margen de error y morfológicamente el ajuste puede ser perfectamente lineal o perfectamente no lineal (curvilíneo o polinomial).

7. y σx. El signo de esta covarianza nos determinará el tipo de pendiente de la relación lineal (pendiente positiva o negativa). 2.2 Método del factor de inflación de la varianza Según [Wang. esto es debido a que al coeficiente de variación tiene un factor de la forma 1/(1r2) denominado FIV (factor de inflación de la varianza).MASTER EN INVESTIGACION EN INFORMATICA Si se trata de buscar alguna relación entre variables independientes es preferible que exista una total ausencia de relación entre ellas o por lo menos una relación no muy alta. donde r es el coeficiente de correlación de Pearson r = Sxy/σxσy (un índice que mide la relación lineal entre dos variables aleatorias cuantitativas y su valor está en el intervalo [-1.1.3. Sxy es la Fig. 1994]. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 22 . el error estándar de los coeficientes estimados es muy grande. A diferencia de la covarianza.1]). Factor de inflación de la varianza. cada una de las variables debe aportar por sí misma poder explicativo hacia la variable dependiente y no tener que ser función de ninguna de las variables independientes. σy las desviaciones típicas de las distribuciones marginales. En un modelo de dos variables. la principal consecuencia de las altas colinealidades entre las variables independientes es la siguiente. covarianza de las dos variables.

[Mason. la correlación de Pearson tiene aún más valor añadido debido a que es independiente de la escala de medida de las variables.8 con otras. Cuando r=0 no existe colinealidad. 2. pueden existir todavía relaciones no lineales entre las dos variables). es decir. no obstante como ya se comentó anteriormente no suele ser de gran utilidad cuando las variables tienen diferente escala de medida. Algunos autores recomiendan que los FIV sean menores a 10. es de gran utilidad la construcción de una tercera matriz con los diagramas de dispersión de los datos para comprobar visualmente la lejanía o cercanía de dichos datos sobre la tendencia lineal que llegaran a mostrar (Fig.3.MASTER EN INVESTIGACION EN INFORMATICA S xy = ∑ ( x − x)( y − y) i =1 i i l n cuyo término expresa la variación o dispersión conjunta de dos variables x e y que tienen la misma escala de medida. Las variables se colocan en filas y en columnas y sus intercepciones deben presentar el coeficiente de regresión lineal de Pearson.3 Matriz de correlaciones Una forma muy práctica de determinar el grado de colinealidad es la construcción de una matriz de correlación. el FIV también se incrementa. Inicialmente se puede construir también una matriz de correlación con la covarianza en sus intercepciones. 7 podemos observar como el FIV es igual a la unidad cuando no existe ninguna relación ó cuando la relación existente es no lineal (curvilinea). las variables independientes son ortogonales y su FIV es igual a 1 (pero esto no necesariamente implica que las variables sean independientes.1. ya que el denominador tiende a cero a medida que r tiende a uno (correlación perfecta). En la Fig. Asimismo. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 23 . A medida que el valor de r se incrementa en valor absoluto. 8). 1991] recomienda que sea eliminada una de las variables que tenga un coeficiente de correlación mayor a 0. La medida más comúnmente utilizada para medir el ajuste de la recta de regresión es este coeficiente de correlación (también se le conoce como medida de bondad de ajuste). existe una correlación negativa o positiva entre las variables. de lo contrario se concluye que existe multicolinealidad.

. sin ninguna relación).. perdiendo la menor cantidad de información posible.  X X … X  C C … C  2n  2n   21 22 ante una tabla de datos con →  21 22 ⋮ ⋮ ⋮  ⋮ ⋮ ⋮  muchas variables (Fig. . n Estos nuevos componentes principales o factores son calculados como una combinación lineal de las variables originales normalizadas.. j = 1... o reducción de la dimensión (número  X 11 X 12 … X 1n  C11 C12 … C1n  de variables).1..3. Es decir.. ..MASTER EN INVESTIGACION EN INFORMATICA Fig. Transformación de las variables originales en componentes.     el objetivo será reducirlas  X l1 X l 2 … X ln  Cl1 Cl 2 … Cln  a un menor número de 0.. y además serán linealmente independientes entre sí. 8. X 2 . + vnj X n .. Cada variable Cj es una ɶ ɶ ɶ combinación lineal de las variables X 1 .4 Análisis del autosistema También conocido como Análisis de Componentes Principales (ACP)..02% 100% de la información 80% 16% variables transformadas Fig. el ACP busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados y construye una transformación lineal que escoge un nuevo sistema de coordenadas para el conjunto original de datos en el cual la varianza de mayor tamaño del conjunto de ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 24 . Matriz de correlación. Xn) pueden ser transformadas a un conjunto de n variables ortogonales (y por tanto independientes entre sí. Las nuevas variables ortogonales son conocidas como componentes principales (C1... 9).. 9. Técnicamente. Cn). 2. Es una técnica proveniente del análisis exploratorio de datos cuyo objetivo es la síntesis de la información. Esta aproximación se basa en el hecho de que cualquier conjunto de n variables (X1.. X n (las variables originales normalizadas) de la forma: ɶ ɶ ɶ C j = v1 j X 1 + v2 j X 2 + ..

es que retiene aquellas características del conjunto de datos que contribuyen más a su varianza. La función de Matlab pcacov nos devuelve el ACP a partir de la matriz de correlación (para datos normalizados) o a partir de la matriz de covarianza para datos no escalados. de tal forma que cada autovalor λj es la varianza de cada variable ortogonal Cj. La matriz de correlación de los componentes principales resultantes es de la forma: C1 C 2 … C1 C2 ⋮ Cn  λ1 0   0 λ2 ⋮ ⋮  0 0 … Cn 0  … 0 ⋱ ⋮   … λn  Los elementos que no están en la diagonal son ceros debido a que los componentes principales son ortogonales.. Si aplicamos esta función dándole como entrada la matriz de correlación generada en el apartado anterior obtenemos los resultados mostrados en la Fig. el segundo factor debe recoger la máxima variabilidad posible no recogida por el primero. Además las coordenadas en la nueva base dan la composición en factores subyacentes de los datos iniciales. A éstos se les denominará componentes principales. La transformación que lleva de las antiguas coordenadas a las coordenadas de la nueva base es precisamente la transformación lineal necesaria para reducir la dimensionalidad de datos.≥λn. y cumple la propiedad λ1≥ λ2≥. Debido a la simetría de esta matriz existe una base completa de vectores propios de la misma. Del total de factores se elegirán aquéllos que recojan el porcentaje de variabilidad que se considere suficiente.. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 25 . y así sucesivamente. Los coeficientes involucrados en la creación de cada Cj son conocidos como eigenvectors o autovectores y están asociados con el j-ésimo autovalor λj. La elección de los factores se realiza de tal forma que el primero recoja la mayor proporción posible de la variabilidad original. Para construir esta transformación lineal debe construirse primero la matriz de coeficientes de correlación.10.MASTER EN INVESTIGACION EN INFORMATICA datos es capturada en el primer eje (llamado el Primer Componente Principal). debido a que el primer componente principal tiene la varianza más grande y el último componente principal la varianza más pequeña. la segunda varianza más grande es el segundo eje. y así sucesivamente. Una de las ventajas del ACP para reducir la dimensionalidad de un grupo de datos. Los elementos que están en la diagonal se conocen con el sobrenombre de eigenvalues o autovalores.

7223 X 3 54.2021X 2 1 2 3 ɶ ɶ ɶ C1 = −0. X2.6614 X 3 ɶ ɶ ɶ C = 0.3938 X 1 − 0.9132 X − 0. si alguno de los λ.MASTER EN INVESTIGACION EN INFORMATICA Fig. Si uno de los autovalores es mucho más pequeño que los demás (y cercano a cero). la colinealidad también se hace presente pero en menor grado.68% 16.1051X 1 − 0. seguida de la variables X 2 con un 29. En la matriz de correlación de los componentes principales podemos observar como el menor valor de λ no está muy cerca de cero pero si es mucho menor que los otros dos. ACP a partir de la Matriz de correlación.11% ɶ Observamos también que la variable X 1 es la que más contribuye a la varianza total con un 54. lo que indica algo de colinealidad existe entre las variables X2 y X3. son exactamente igual a cero existe una relación perfectamente lineal entre las variables originales y por tanto es un caso extremo de colinealidad.8903 0   0  0  0 0.6383 X 2 − 0.68%. Los componentes principales correspondientes a los datos originales X1. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 26 . La matriz de correlación correspondiente a estas nuevas variables es: 0 0  1.6836 X 2 + 0.6265   0.22% de ella y por tanto es el componente principal del nuevo conjunto de ɶ variables.4832   Según [Chatterjee. X3 obtenidos a partir de la matriz de correlación anterior son: ɶ ɶ ɶ C1 = −0. sobre todo del mayor autovalor. 2006] .3540 X − 0. 10.22% 29.

8413   0.1587   0 En dicha matriz podemos observar como λ2 = 0. 11.7071X 2 ɶ ɶ C = 0. obteniendo los siguientes resultados. Si generamos un diagrama de dispersión tanto para las variables originales como para los coeficientes principales obtenemos la siguiente figura: ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 27 . En el ejemplo siguiente aplicamos dicha función a los datos que presentamos en el apartado 2.X2). Fig. lo cual denota que existe colinealidad como ya sabíamos previamente. ACP a partir de las variables originales.16 es un valor muy próximo a 0 y muy distante del primer autovalor.7071X − 0.4.MASTER EN INVESTIGACION EN INFORMATICA Si quisiéramos obtener los componentes principales a partir de la matriz de datos original sin tener que calcular las matrices de covarianzas y de correlaciones utilizaremos la función de Matlab princomp.C2) para cada punto correspondiente con el de las variables originales (X1.7071X 1 + 0. Que corresponden a las ecuaciones transformadas: ɶ ɶ C1 = 0.2 y en concreto a los datos que representaban una relación estocástica lineal no perfecta.1. Además en la matriz observaciones_en_espacio_ACP obtenemos los coeficientes principales (C1.7071X 2 1 2 y a la matriz de correlación: 0  1.

26 < η < 3.16 < η < 5. Para valores de η < 2. 1980] propuso un índice denominado número de condición η. mientras que en otros no. para valores 2. 12.2 Técnicas de corrección Se han planteado técnicas y algoritmos para corregir la colinealidad en los datos. sin embargo. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 28 . Si calculamos el número de condición para los dos últimos ejemplos que hemos mostrado en el estudio de componentes principales obtenemos η = 1.3. En la Fig.48 < η < 10 se considera fuerte y para η > 10 se considera muy fuerte.26 puede ser ignorado. Transformación ortogonal de datos originales. reflejado en el valor del factor de inflación de la varianza que es igual a la unidad. Lo cual indica en el primer caso que la colinealidad existente puede ser despreciable y que para el segundo caso tenemos una colinealidad moderada. algunos procedimientos funcionan en un modelo. el cual está basado en la relación entre el máximo autovalor de la matriz de correlación y el mínimo.83 y η = 3. 2. 12 podemos observar como a partir de unas variables con una relación bastante lineal las podemos transformar en otras variables con ausencia de toda relación entre ellas. [Belsley. tal como se indica a continuación: η= λmax λmin El número de condición siempre será más grande de 1. Para valores 3.41.MASTER EN INVESTIGACION EN INFORMATICA Fig. para 5.48 se califica como moderada.16 existe una colinealidad débil.

3.3 La técnica "Ridge Regression" Cuando las variables predictoras están muy correlacionadas. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 29 .2 Componentes principales El análisis de componentes principales visto anteriormente no solo sirve como método para conocer si una variable independiente está correlacionada con otra u otras variables independientes. El espacio ortogonal de variables transformadas cumple la condición de que son independientes entre sí y por tanto carecen de colinealidad entre ellas. 1970].3. Este enfoque es aceptado por ser reduccionista y simplificar el modelo. signos incorrectos en dichos coeficientes. Esto es así. la técnica Ridge Regression (RR) [Hoerl y Kennard. dando estabilidad así a la predicción del modelo y solucionando dicho problema. 13) [Shawe-Taylor.2. La matriz XTX es reemplazada por otra matriz numéricamente más estable debido a la agregación (suma) de un sesgo con la finalidad de reducir el error estándar de éstos (Fig. es un método que trata estas colinealidades minimizando el problema al contraer los coeficientes w de MCO. Afortunadamente. los coeficientes de regresión resultantes de un ajuste por MCO pueden llegar a ser muy erráticos e imprecisos. Estos coeficientes originan predicciones erróneas a la hora de vaticinar nuevas respuestas correspondientes a entradas similares que deberían pronosticar salidas similares. logrando coeficientes ajustados con menor varianza.3. 2. Por tanto se puede trabajar en este espacio con dichas variables utilizando MCO con total seguridad de que no observaremos problemas de inestabilidad en los coeficientes obtenidos.2. debido a los efectos desastrosos que la multicolinealidad tiene sobre su varianza.1 Eliminación de variables del análisis Es la solución más cómoda ya que únicamente hay que eliminar aquellos predictores correlacionados con otros a partir de una detección previa de ellos. Los estimadores que resultan tienen una varianza de error menor. 2004]. debido a la inversión de la matriz singular XTX (singular debido a las colinealidades). 2.MASTER EN INVESTIGACION EN INFORMATICA 2.2. sin embargo reduce el rango de la matriz de información de variables independientes y esto lo puede convertir en una técnica que genere un modelo con menor poder explicativo ante nuevas entradas. ni elevados errores estándar en el ajuste. como hemos visto.

1) ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 30 .X i w) 2 i 2 (1. 13.MASTER EN INVESTIGACION EN INFORMATICA Fig.1) que define el método de MCO. el procedimiento RR no es más que una ligera modificación (adicción de un término constante a cada coeficiente o factor de regularización k) de dicha ecuación: F ( w) = k w + ∑ ( yi . Si procedemos de esa forma a partir de la fórmula (1. Agregación de un sesgo a MCO.

1 Primera solución Encontrar la función en la cual la suma de los cuadrados de las diferencias junto con el sesgo para los valores observados y esperados sea menor. Por tanto. y si k resulta pequeño. ya que si este valor es muy grande.2) en w. corresponderá a encontrar los coeficientes de regresión w para los cuales la función por la cual determinamos dicho error. 2007]. sea un error mínimo. se produce una sub-regularización. es decir. o dicho de otra forma. ∂F =0 ∂w ⇒ ∂ 2 (k w ) + ∂w ⇒ 2kw + i ∑ ∂w ( y i T i ∂ i − X i w) 2 = 0 ∑ 2X ( yi − X i w ) = 0   ⇒  ∑ X iT X i  w + kw = ∑ X iT yi i  i  ⇒ (X T X + kI n ) w = X T y ⇒ −1 w = ( X T X + kI n ) X T y la matriz ( X T X + k I n ) In corresponde a la matriz identidad de dimensiones (n x n) y como podemos observar −1 es siempre invertible si k > 0. mejorando el error del estimador MCO. se produce una sobreregularización [Ramos.4. la cual puede originar pérdida de información importante.4 Exploración de regresión sesgada A la técnica RR también se le conoce como 'regresión de cresta' o 'regresión sesgada'. ˆ y ( x) = xw = ∑ wi ( x)i i =1 n ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 31 . Una vez que tenemos los coeficientes de regresión w. solucionar la ecuación anterior para los coeficientes w implica entonces solucionar un sistema de ecuaciones lineales con n ecuaciones y n incógnitas. corresponde a diferenciar la ecuación (1. que puede provocar que la solución no sea robusta. El inconveniente reside en la elección de k que no debe ser de modo intuitivo. la función de predicción de un nuevo vector de entrada x será. la complejidad computacional de esta tarea resulta (n3) operaciones. que sea sensible a errores en los datos (k=0 supone volver a un estimador MCO). Veamos las dos modalidades de cómputo con las que contamos para poder realizar este tipo de regresión. Como veremos más adelante. sabemos que existe un k (de hecho. un intervalo de valores de k). Los procedimientos o técnicas de elección de este factor de regularización se discutirán más adelante.MASTER EN INVESTIGACION EN INFORMATICA 2. 2. Al igual que ocurría con el método de MCO donde w es función lineal del vector de la variable respuesta dependiente (y).

Efecto de la regularización. Efectivamente. En la (Fig. RR mejora en términos del error del ajuste cuando existen variables independientes correlacionadas entre sí. se discuten en los ejemplos siguientes. 14. 14) se puede observar el efecto de regularización que provoca la regresión sesgada sobre la regresión clásica. cuando esto no es así. Esto quiere decir que RR juega un papel muy importante a la hora de regularizar y homogeneizar el ajuste final. independientemente incluso del orden del polinomio que utilicemos para hacer el ajuste. el ajuste mediante regresión por MCO consigue el menor error de ajuste frente a RR. haciéndolo más robusto. Fig. menos variante y por tanto más sensible a errores en los datos y posibles outliers que se pudieran presentar. Cuando escogemos un factor de k muy grande producimos una sobre-regularización con una varianza global del error casi inapreciable porque prácticamente e ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 32 . lógico debido a que solamente tenemos una única variable independiente para la variable explicativa y por lo tanto no existen colinealidades y como comentamos en apartados anteriores. No obstante e independientemente de que en este ejemplo no se pueda distinguir perfectamente toda la fortaleza de RR.MASTER EN INVESTIGACION EN INFORMATICA con complejidad computacional (n) operaciones. Los efectos de una mala elección del factor k. sí podemos observar como la varianza global del error que se produce para los dos tipos de regresión es menor en el ejemplo de RR que en el ejemplo de la regresión clásica. MCO es el mejor ajuste con el mínimo error que se puede realizar. independientemente de utilizar un ajuste lineal o no lineal.

Cuando seleccionamos un factor de k muy pequeño. podemos deducir lo siguiente: w = ( X T X + kI n ) X T y −1 (X T X + kI n ) w = X T y X T Xw + kw = X T y kw = X T y − X T Xw = X T ( y − Xw) w = k −1 X T ( y − Xw) = X T α ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 33 . perdemos robustez. 15. el error obtenido para cada tipo de ajuste es más variable. 2. pero nos acercamos otra vez al ajuste de MCO y por tanto con sensibilidad a errores en los datos y a posibles efectos perjudiciales si las variables independientes están correlacionadas. Fig.2 Solución dual A partir de la solución anterior para los coeficientes de regresión w. los datos siempre se ajustarán a una línea horizontal.MASTER EN INVESTIGACION EN INFORMATICA independientemente del ajuste que realicemos. Sub-regularización y sobre-regularización.4.

4. sin embargo. Sin embargo.MASTER EN INVESTIGACION EN INFORMATICA Donde el término α matemáticamente significa: α = k −1 ( y − Xw) α k = y − Xw α k = y − XX T α α k + XX T α = y y = α ( kI l + XX T ) α = ( XX T + kI l ) −1 y α = (G + kI l ) −1 y La matriz G = XXT se le conoce como "Gram matrix". Esta matriz G y la matriz (G + kIl) tiene dimensiones (l x l). Los parámetros α son conocidos como "dual variables" o variables duales y resolver α implica resolver l ecuaciones lineales con l incógnitas. una tarea de complejidad (l3). debido a que comporta (nl) operaciones. La evaluación de la función predictiva es. implica complejidad computacional (nl).3 La técnica "Kernel Ridge Regression" Si los datos de entrenamiento (las variables independientes) muestran relaciones no lineales. como se muestra en la función de predicción a partir de estas variables. ya que los coeficientes w son una combinación lineal de los puntos de entrenamiento XT. siempre más costosa la solución dual. que es de dimensiones (n x n). Kernel Ridge Regression (KRR) es una técnica que ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 34 . 2. es mejor y más eficiente resolver el sistema por este segundo método (dual) en vez del primer método (primal) ya que éste último implica resolver la matriz (XTX + kIn). que viene dada por: ˆ y = Xw = XX T α = XX T (G + kI l ) −1 y Para predecir un nuevo punto o vector x. una solución no lineal puede ser tratada y formulada moviéndonos a un espacio de características lineales a partir del espacio de entrada no lineal. frente a (n) operaciones que conlleva la primera solución. w = X Tα w = ∑ α i xi i =1 l ˆ( y x) = x w = x ∑ α i xi = ∑ α i  ∑ ( xi ) j ( x) j  i =1 i =1 l l   n   j =1 Si la dimensión n del espacio de características es mayor que el número l de ejemplos de entrenamiento. las técnicas de regresión anteriores serán incapaces de modelarlas adecuadamente con un error mínimo aceptable (el sesgo introducido en RR ayuda pero a veces también resulta insuficiente).

Fig. La idea básica de KRR consiste en realizar un mapeo de los datos de entrenamiento x ∈ X. se puede reemplazar la matriz G mediante cualquier matriz kernelizada K.MASTER EN INVESTIGACION EN INFORMATICA encuentra y realiza un mapeo de los datos de entrada (considerados no lineales) en un espacio de características de más alta dimensión (donde corresponden a un modelo aproximadamente lineal) obteniendo errores de ajuste mucho menores que los conseguidos en el espacio de entrada inicial. Idea básica de los métodos Kernel. entonces z = K.) junto con diferentes parámetros de regularización k con el objetivo de encontrar el ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 35 . 16. la matriz G utilizada en la versión dual de la técnica RR se transforma en una matriz o kernel K de productos escalares para valores transformados de X. y conservando la eficiencia del factor de regularización k utilizada en la técnica RR. por lo que esto correspondería a utilizar una solución dual de RR. para el caso que nos ocupa de un kernel lineal: G = XX T → K = φ ( X )φ ( X )T Dicho kernel K sigue manteniendo dimensiones (l x l). a un espacio de mayor dimensión F a través de un mapeo no lineal Φ(x) : X → F . Para el cálculo de los coeficientes de regresión w se procederá como sigue: w = φ ( X )T α w = φ ( X )T ( K + kI l ) −1 y Y la función de predicción resultante a partir de estos coeficientes w quedaría: ˆ y = φ ( X ) w = φ ( X )φ ( X )T ( K + kI l )−1 y ˆ y = z ( K + kI l ) −1 y Es de señalar que si utilizamos un kernel lineal. función de base radial. y por tanto complejidad operacional (l3). etc. no obstante podemos probar y jugar con diferentes kernels K (polinomial. donde podemos realizar una regresión lineal. tangente hiperbólica. Esta es la ventaja de la aproximación dual de RR. A partir de esto.

Regresión con kernel RBF-Gaussiano para diferentes valores de sigma. Modificando el valor de la dispersión σ en la función Gaussiana. se puede observar como podemos alcanzar un ajuste casi perfecto (MSE ≈ 0) sobre los datos de entrenamiento (para valores de σ inferiores a 0. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 36 .2). de forma que:  x−u K = exp  −  σ  2     Fig. como se muestra a continuación: l l  n  ˆ y (φ ( x )) = φ ( x ) w = φ ( x )∑ α iφ ( xi ) = ∑ α i  ∑ (φ ( xi )) j (φ ( x )) j  i =1 i =1  j =1  En la figura siguiente (Fig.MASTER EN INVESTIGACION EN INFORMATICA mejor modelo explicativo en ese espacio de características y poder aplicarlo posteriormente a las aproximaciones a realizar para nuevos ejemplos de entrada. En la predicción de un nuevo punto ϕ(x) se sigue conservando la misma complejidad de cómputo (nl) que el conseguido mediante la técnica RR. 17. 17) se puede observar un ajuste de regresión utilizando un kernel RBF (Radial Basis Function) de tipo Gaussiano.

que sea necesario estandarizar las variables a la hora de realizar ajustes de regresión. según [Pasha. Las variables centradas también pueden ser escaladas. Una variable centrada se obtiene restando a cada observación la media de todas las observaciones para cada variable. No se trata que las variables sean esencialmente similares en sus rangos (da igual que un conjunto de variables de temperatura estén en o C o en oF) sino más bien que sean independientes.MASTER EN INVESTIGACION EN INFORMATICA 2. Si ajustamos un modelo del tipo: Y = w0 + w1 X 1 + … + wn X n Necesitaremos centrar (ya que aparece un término constante) y/o escalar las variables que integran dicha ecuación. Por ejemplo la variable respuesta centrada (Y − y ) y la variable predictora j-ésima centrada (X j − xj) . 2004]. El centrado.4 Estandarización de datos para la regresión sesgada. tanto el escalado de longitud unidad como la estandarización (escalado mediante la desviación estándar) se utiliza.4. como veremos en el apartado siguiente. para poder comparar los coeficientes w entre sí (en la misma escala) para diferentes valores de k. Un modelo de ecuación de regresión en términos de variables estandarizadas es del tipo: ɶ ɶ ɶ Y = θ1 X 1 + … + θ n X n ɶ ɶ De tal forma que a cada variable original de datos X j . no correlacionadas y con bastante poder explicativo. Y le corresponde una transformación por estandarización de media cero y desviación estándar la unidad: X − xj ɶ Xj → Xj = j σj ɶ Y−y Y →Y = σY y donde σj y σY son respectivamente: σj = ∑ ( xij − x j ) 2 i =1 n n −1 σY = ∑(y i =1 n i − y )2 n −1 Procediendo a despejar dichas transformaciones en la ecuación de variables transformadas tendremos: ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 37 . No está demasiado claro y por tanto es una fuente de controversia. el escalado de longitud unidad y la estandarización. Generalmente. ayuda a agrupar los datos y por ello disminuir la dispersión de los mismos con efectos beneficiosos en la reducción del error del ajuste para aproximar nuevos datos de prueba. existiendo dos tipos principales de escalado en los datos.

tendremos: ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 38 . Similarmente. Y = w0 + w1 X 1 + … + wn X n para todo. Z y le corresponde una transformación de media cero y longitudes la unidad según: X − xj ɶ X j → Zj = j Lj Y−y ɶ Y → Zy = Ly y donde Lj y Ly son respectivamente: Lj = ∑ ( xij − x j ) 2 i =1 n Ly = ∑(y i =1 n i − y )2 Como se indica en la formulación anterior. Lj mide la longitud de la variable X j − x j . el modelo de ecuación de regresión en términos de estas variables transformadas será del tipo: ɶ ɶ ɶ Z y = θ1 Z1 + … + θ n Z n ɶ ɶ De tal forma que a cada variable original de datos Z j . Procediendo a despejar dichas transformaciones en la ecuación de variables transformadas de la misma forma que hicimos con la estandarización. σ  wj =  Y  σ j θ j  w0 = y − ∑ w j x j j =1 n Si la normalización que utilizamos es el escalado de longitud unidad. la cantidad Ly se refiere a la longitud de la variable centrada Y − y .MASTER EN INVESTIGACION EN INFORMATICA ɶ ɶ ɶ Y = θ1 X 1 + … + θ n X n Y−y σY Y = y + θ1 = θ1 X 1 − x1 σ1 + … + θn X n − xn σn σ ( X − xn ) σ Y ( X 1 − x1 ) + … + θn Y n σ1 σn θ σ X − θ nσ Y xn θ σ X −θ σ x Y = y + 1 Y 1 1 Y 1 +… + n Y n σ1 σn θσ X θσ x θσ X θσ x Y = y + 1 Y 1 − 1 Y 1 +… + n Y n − n Y n σ1 σ1 σn σn n θ σ x θσ X θσ X Y = y − ∑ j Y j + 1 Y 1 +… + n Y n σj σ1 σn j =1 resultando.

MASTER EN INVESTIGACION EN INFORMATICA

ɶ ɶ ɶ Z y = θ1 Z1 + … + θ n Z n X − xn Y−y X −x = θ1 1 1 + … + θ n n Ly L1 Ln ... resultando, Y = w0 + w1 X 1 + … + wn X n para todo, L  w j =  y θ j Lj   w0 = y − ∑ w j x j
j =1 n

Es obvio que si solamente deseamos centrar los datos, nuestras variables originales quedarían de la siguiente manera:

Y = w0 + w1 X 1 + … + wn X n para todo, wj = θ j w0 = y − ∑ w j x j
j =1 n

2.4.5 Ejemplo de aplicación mediante regresión múltiple Veamos algún ejemplo donde pongamos en práctica la formulación anterior. Para ello, hacemos uso de una base de datos llamada Aqua-all.txt obtenida desde la dirección web: http://www.rpi.edu/~bennek/class/mds/Aqua-all.txt, que es una versión reducida de variables (solamente 525 variables independientes), a su vez extraída de la dirección web: http://www.pharmacy.arizona.edu/outreach/aquasol/ y donde se almacena una extensa recopilación y un gran repositorio de datos con información que tratan temas farmacológicos de solubilidad en agua para compuestos orgánicos. Nuestra matriz de datos original se compone de 525 variables descriptoras independientes que definen una variable respuesta dependiente, para un total de 197 registros u observaciones. Es de señalar el elevado número de dimensiones con los que se va a trabajar, a priori no sabemos si esas variables tienen alguna correlación entre ellas, no obstante como vamos a utilizar la técnica RR mitigamos cualquier efecto perjudicial que estas correlaciones pudieran tener sobre los resultados. Separaremos 100 registros para definir el conjunto de entrenamiento y el resto (97 registros) para definir el conjunto de prueba o de test. Veamos que sucede si no realizamos ninguna transformación de los datos originales.

ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

39

MASTER EN INVESTIGACION EN INFORMATICA

Fig. 18. Ridge Regression (Primera solución) con datos sin normalizar.

Como observamos en la Fig. 18, el ajuste para los datos de entrenamiento mediante la primera solución expuesta en pasos anteriores para RR −1 T T ˆ (coeficientes w = ( X X + kI ) X y y función predictiva Y = Xw ) parece comportarse
n

bastante bien, pero no es tan óptimo cuando intentamos aproximar las 97 observaciones del conjunto de validación, obteniendo aquí en términos de MSE un valor muy alto. Procediendo como lo discutido en el apartado de la normalización de datos, el modelo puede ser mejorado añadiéndole un término independiente a la ecuación y por tanto transformando X e Y en otras variables, resultado de substraer el valor de sus medias.

Fig. 19. Ridge Regression (Primera solución) con datos centrados.

Observamos en la Fig. 19, como tanto para los datos de entrenamiento como para el conjunto de validación se ha conseguido reducir drásticamente el valor del error en el ajuste, incluso manteniendo el mismo factor de regularización k. La centralización de los datos origina una agrupación de los mismos en torno a su media con lo que disminuye su dispersión mejorando el ajuste de mínimos cuadrados. Cuando trabajamos con coeficientes normalizados podemos definir nuevas predicciones trabajando con estos coeficientes, pero los datos también tienen que estar procesados (centrados sobre su media) de la forma Ypred2=Xtest2*w2 + b; donde b resulta el

ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

40

MASTER EN INVESTIGACION EN INFORMATICA

término independiente (en este caso es igual a la media de la variable dependiente original y). Estos mismos resultados pueden ser obtenidos si de-normalizamos los coeficientes procesados y trabajamos con las variables originales, de la forma Ypred3=Xtest*w2 + (b-mean(X)*w2). Otra comprobación importante que podemos realizar es el cálculo del tiempo de cómputo al utilizar la primera solución de RR frente a la versión dual de dicha técnica. En el primer caso, calculamos el tiempo empleado en obtener la matriz de coeficientes w a partir de la matriz Xtrain2'*Xtrain2 de dimensiones (525x525) de la siguiente manera:
% Model: Primal solution with bias time1 = cputime; w2 = inv(Xtrain2'*Xtrain2+ L*I)*(Xtrain2'*Ytrain2); elapsedTime1 = cputime - time1

Procedemos de la misma manera para el cálculo de los alfas y w's mediante la versión dual (G tiene dimensiones 100 x 100):
% Model: Dual solution with bias time2 = cputime; % Gram matrix G = Xtrain2*Xtrain2'; % Dual variables alpha = inv(G+L*I2)*Ytrain2; w3 = Xtrain2'*alpha; elapsedTime2 = cputime - time2

La tabla de tiempos en 2 ordenadores diferentes es la siguiente: Laptop Medion Akoya
Intel Atom 1.6 GHz 1Gb RAM elapsedTime1 elapsedTime2

PC Lenovo ThinkStation
Intel Core i5 3.33 GHz 8 Gb RAM

1.0156 4.687500e-002

0.0936 0

Como se puede observar, al ser el número de dimensiones mucho mayor que el número de observaciones (n >> l), resulta más eficiente computacionalmente hablando utilizar la versión dual de RR para el cálculo de los coeficientes de regresión. Pongamos ahora algún ejemplo con la técnica KRR. La fortaleza de esta técnica de regresión es la posibilidad de utilizar funciones Kernel que nos permiten construir una función de regresión lineal en un espacio de características de más alta dimensión (lo que equivale a una regresión no lineal en el espacio de entrada). Utilicemos un kernel polinomial de grado 2 de la forma: K ( x, y ) = (( xi y ) + 1)2 Como se puede observar en la Fig. 20, el uso de un kernel polinomial mejora notablemente el ajuste sobre los datos de entrenamiento. Pero este sobreajuste impide

ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA

41

c = 1 es el siguiente: ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 42 . Probemos ahora con un kernel de tipo sigmoide o también conocido como tangente hiperbólica. 2010]. siendo n la dimensión de los datos que se están tratando [Souza. Kernel Ridge Regression (polinomial grado 2) con datos centrados. Fig. el término η y la constante c. El resultado de ajustar mediante un kernel de tipo sigmoide. K ( x. Hay dos parámetros que son ajustables en esta función. El valor que se le suele asignar a η es 1/n. obteniendo peores resultados que los conseguidos con RR para el mismo factor de regularización k = 10. el ejemplo que estamos tratando con parámetros η = 1/525. y ) = tanh(η ( xi y ) + c) El kernel mediante la tangente hiperbólica se conoce también como 'kernel sigmoide' o como 'kernel perceptron multicapa' y procede del campo de las redes neuronales. 20.MASTER EN INVESTIGACION EN INFORMATICA generalizar bien sobre los datos de validación.

Al ser k un parámetro que introduce un sesgo en los estimadores.6. ni para el conjunto de validación. La idea es intuitivamente atrayente: pequeños incrementos de k partiendo de cero (MCO) tienen habitualmente un efecto drástico sobre w. Incrementaremos k por tanto hasta que parezca que su influencia sobre w se atenúa (hasta que las trazas RR sean casi horizontales). bastante subjetivo. es deseable seleccionar el valor más pequeño de k por el cual se estabilizan los coeficientes de regresión. pero nada en la discusión anterior nos permite decidir cuál es su valor. Evidentemente. El decidir dónde ocurre esto es.MASTER EN INVESTIGACION EN INFORMATICA Fig. 21. 2. si modificamos este valor.1 Uso de trazas de regresión sesgada Es una aproximación gráfica y por lo tanto debe ser vista como una técnica exploratoria de datos visual. Todavía no hemos aprovechado toda la potencia que nos brindan las técnicas RR. Donde comprobamos (Fig. se recurre a alguna o varias de las siguientes soluciones [Núñez. Se prueban diversos valores de k representándose las diferentes estimaciones del vector de coeficientes w (trazas RR).4. un intervalo de valores de k) mejorando el MSE del estimador MCO. En la práctica. los resultados también se verán modificados.4.6 Elección del factor de regularización Sabemos que existe un factor de regularización k (de hecho. se retiene entonces aquel valor de k a partir del cual se estabilizan las estimaciones. Todos estos ejemplos los hemos calculado fijando el término del factor de regularización k a un valor arbitrario de 10. 21) que no generaliza bien ni para el conjunto de entrenamiento. no obstante. Kernel Ridge Regression (sigmoide) con datos centrados. 2005]: 2. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 43 . al coste de introducir algún sesgo.

Visualmente podemos establecer dicha estabilización a partir de un valor de k = 0.2. todas para valores de k entre cero y uno. los coeficientes se muestran estables para valores de k a partir de 0.04 . los productos almacenados y el consumo doméstico. Para valores superiores a 0. la producción doméstica.MASTER EN INVESTIGACION EN INFORMATICA Siguiendo las recomendaciones del "statistics toolbox" de Matlab para su función ridge. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 44 . las importaciones. Dicha correlación se estabiliza a medida que aumentamos el sesgo por medio del parámetro k. (0<=k<=1). Para mostrar el ejemplo de trazas RR haremos uso de un conjunto de datos extraídos desde [Chatterjee. dependiendo de que normalización utilicemos. 23. a la hora de realizar trazas RR es conveniente utilizar los coeficientes de regresión normalizados o transformados θ en lugar de los correspondientes originales w. Como se puede comprobar en la primera gráfica (los datos tienen media cero y desviación típica la unidad). obtendremos unas trazas u otras.05. representamos los coeficientes normalizados utilizando el escalado de longitud unidad explicado también en apartados anteriores.2 los coeficientes parecen mantener ya una constante bastante lineal y su varianza disminuye. Trazas RR para diferentes escalas. Fig. Fig. Datos sobre la economía francesa. Si realizamos las trazas RR con la variable IMPORT como variable dependiente. el año. No obstante. 22). Como se puede observar. para los dos tipos de normalización explicados en apartados anteriores obtenemos las dos gráficas de la Fig. para que aparezcan gráficamente en la misma escala. éstas son por orden. 2006] sobre variables de producción y consumo de la economía francesa (Fig. 22. las variables DOPROD y CONSUM mantienen una correlación entre ellas. En la gráfica de la derecha. 23.0. eso sí.

2 Método del punto fijo En el trabajo [Hoerl. Kennard y Baldwin. Elección de k (método del punto fijo).4. 24 podemos observar el punto de corte de la estimación del parámetro k con la traza de los coeficientes y en la tabla de la Fig. siendo l −n−2 σ 2 (0) . se sugirió calcular matemáticamente el parámetro k de la forma: nσ 2 (0) k= n 2 ∑ θ j (0)    j =1 donde θ1 (0). después de aplicar las correspondientes operaciones siguiendo las fórmulas del apartado 2. 25 observamos el valor de esos coeficientes para dichos puntos de corte junto con sus valores originales (denormalizados). ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 45 .6. 1975]. En la Fig. Fig. θ n (0) son los coeficientes de regresión transformados cuando k=0 SSE(i ) (estimadores de MCO) y σ 2 ( i ) = .MASTER EN INVESTIGACION EN INFORMATICA 2. la varianza de los residuales (errores).4.… . 24. la correspondiente varianza cuando el parámetro de regularización k=0.4.

Coeficientes de regresión para la variable IMPORT (método del punto fijo). obtenemos los siguientes parámetros y coeficientes: ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 46 . propusieron un procedimiento repetitivo y más complejo para seleccionar el valor de k. Si aplicamos estos cálculos.6. Comenzar calculando k0. 25. hasta que las diferencias encontradas para valores de k sucesivos sean casi despreciables.3 Método iterativo Hoerl y Kennard un año después (1976) [Hoerl y Kennard. 1976]. utilizar k0 para calcular k1 = n 2 ∑ θ j (k0 )    j =1 Entonces. además se supone que a partir del k obtenido por el método del punto fijo. 2.4.MASTER EN INVESTIGACION EN INFORMATICA Fig.0001 . nσ 2 (0) Posteriormente. los valores de k serán muy parecidos debido a la influencia de la varianza en los residuales. tomando como condición de parada k j +1 − k j ≤ 0. Nuevamente en esta aproximación aparece la subjetividad de lo que se considera despreciable para las diferencias de k consecutivos. usar k1 para calcular k2 = nσ (0) 2 ∑ θ  j =1 n j (k1 )   2 Repetir este proceso hasta que k j +1 ≃ k j . siendo este valor el parámetro k que se obtiene haciendo uso del método anterior (método del punto fijo). o sea. que va a ser también muy similar.

2. Se estima el error de predicción dividiendo al azar el conjunto de datos en varias partes. Coeficientes de regresión para la variable IMPORT (método iterativo). ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 47 .MASTER EN INVESTIGACION EN INFORMATICA Fig.6. aunque computacionalmente algo laborioso. 27. En cada paso una de las partes se convierte en una muestra de prueba que sirve para validar el modelo y las restantes partes constituyen lo que es llamado una muestra de entrenamiento que sirve para construir el modelo.4 Validación cruzada La idea es también muy simple. Elección de k (método iterativo). Fig. 26.4.

MASTER EN INVESTIGACION EN INFORMATICA Si por ejemplo. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 48 . ˆ Sea y[j−i ] el valor predicho (la predicción que hacemos de la observación yj) para la jésima observación usando una línea de regresión que ha sido estimada sin haber usado las observaciones de dicha parte. se usasen 10 partes. El cálculo del error por validación cruzada usando p partes es: ∑∑ ( y CV(t ) = i =1 j =1 p l j ˆ − y[j− i ] ) 2 para t valores de k p Entonces el mejor modelo (el mejor factor de regularización k por validación cruzada) es aquel k que tiene el error de validación cruzada promedio más pequeño: k = arg mín CV En principio. excluyendo cada vez una observación distinta. por lo general se usa 1 parte y en ese caso es llamado el método “leave-one-out” (dejar uno afuera). se llamaría una “10 fold cross-validation” . calcular CV(k) para un valor de k requeriría llevar a cabo l regresiones.

4. si los atípicos son muy pronunciados.1 Precisión en la predicción de series temporales sometidas a ruidos en los datos La estimación de mínimos cuadrados para modelos lineales es notoria por su falta de robustez frente a valores atípicos (outliers).MASTER EN INVESTIGACION EN INFORMATICA 3. complementando la modelización física.2. como hemos comprobado en apartados anteriores. ¿qué ocurre si las variables a estudiar están sometidas a ruidos continuos en todo su recorrido temporal?. 3. conllevan errores implícitos no sólo en sus sistemas físicos de medida (que tienen una precisión o resolución mínima) sino en las interferencias externas a las que están expuestos dichos sistemas. que a su vez son suministrados por los diagnósticos de medidas. 3. Para ello se compararán los resultados obtenidos en presencia de dos tipos de intensidades de ruido gaussiano añadido con los resultados a obtener en ausencia de ruido (datos brutos originales). el estudio de la colinealidad entre dichas variables se hace intratable una a una con todas las demás. Si la distribución de los atípicos es asimétrica. Por ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 49 . Se trata de seguir la evolución de una variable con el fin de regular su resultado. se pretende analizar la precisión del error en el ajuste de esa variable continua dependiente en presencia de ruido gaussiano añadido a todas y cada una de las variables independientes que modelan dicha variable respuesta. En la práctica. Analítica predictiva en series temporales sometidas a ruido gaussiano continuo Retomando el repositorio de datos analizado en el apartado 2. en presencia de cualquier valor de estos atípicos.Ante el gran número de variables descriptoras independientes.2. Veamos que ocurre en estos casos. 3. integrado por 197 observaciones y 525 variables descriptoras independientes que definen una variable única dependiente.1 Supuestos de partida para el análisis . precisamente por la introducción de un sesgo. No obstante. PREDICCION LINEALES DE SERIES TEMPORALES NO Denominamos predicción a la estimación de valores futuros de una variable en función del comportamiento pasado de la serie. los estimadores mínimos cuadráticos son ineficientes y pueden serlo en extremo. El hecho de poder reproducir el comportamiento de un sistema dinámico no lineal a partir de medidas discretas (series temporales) de sus variables posibilita la aplicación de los modelos de predicción basados en series temporales a innumerables campos del conocimiento. La predicción en series temporales es una línea de investigación fundamental en la estadística.5. cuando se trabajan con datos reales suministrados por los sistemas de adquisición de datos. los estimadores pueden estar sesgados y aunque las técnicas RR ayudan a corregir el error del ajuste.

645 3. para comparar cual obtiene mejores resultados en la precisión del ajuste. . 3.149 0.Utilizaremos KRR porque no sabemos si los datos de entrenamiento muestran relaciones no lineales entre sus variables independientes. adicción de ruido gaussiano débil y adicción de ruido gaussiano más elevado).801 1. Datos originales Adicción ruido gaussiano débil MSE (datos de prueba) Adicción ruido gaussiano elevado MSE (datos de prueba) MSE (datos de entrenamiento) MSE (datos de entrenamiento) MSE (datos de entrenamiento) MSE (datos de prueba) Lineal 0.0 2.465 3. . 3.0 0.610 12. utilizaremos la versión dual de RR para el cálculo de los coeficientes de regresión y para obtener el error del ajuste final. como también hemos visto.616 12.En la elección del factor de regularización descartaremos las trazas RR debido también al elevado número de dimensiones del problema a tratar. Como se puede comprobar el kernel lineal consigue mejores resultados para los tres conjuntos de datos (datos brutos.509 1. Como hemos demostrado en apartados anteriores. obtiene una solución más óptima al movernos a un espacio de características lineal a partir del espacio de entrada no lineal.7860 17.219 4. polinomial grado 2 y tangente hiperbólica).416 35.2 Resultados finales obtenidos En la tabla siguiente se adjuntan los resultados finales obtenidos.MASTER EN INVESTIGACION EN INFORMATICA ello utilizaremos la técnica RR para obviar si existen relaciones lineales entre las 525 variables independientes.594 1. como hemos demostrado en apartados anteriores que es mucho más eficiente en términos de cálculo y de computación. Resultaría muy engorroso pintar 525 trazas de las variables para un intervalo de factores de regresión.2.970 3.967 Kernel Polinomial grado2 0.550 Tangente hiperb. .631 ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 50 .156 16. En este caso el que obtenga la serie temporal más similar a una de referencia (el error del ajuste promedio más pequeño para un rango de factores de regularización). dicha técnica mitiga los efectos perjudiciales de las colinealidades mediante la introducción de un sesgo o factor de regularización. Además utilizaremos diferentes funciones kernel (lineal. Por ello utilizaremos la validación cruzada para obtener el factor de regularización más óptimo.Al ser el número de dimensiones mucho más elevado que el número de observaciones (525>>197). Dicha técnica.

En la Fig. reproduciendo casi en su conjunto la serie temporal observada original de dicho conjunto. al utilizar ese mismo modelo para la predicción de los datos de prueba. el error en el ajuste es casi mínimo. Fig. Esto es debido a que el kernel polinomial sobre ajusta excesivamente los datos de entrenamiento y el modelo obtenido no es capaz de generalizar bien para los datos de prueba. Precisión en la predicción de la serie temporal dependiente para el conjunto de prueba utilizando un kernel polinomial de grado 2. Precisión en la predicción de la serie temporal dependiente para el conjunto de prueba utilizando un kernel lineal. la reproducción de la serie temporal final para el conjunto de datos de prueba es más imprecisa. Fig. resultando un aumento del error en el ajuste con respecto al conseguido por el kernel lineal. 29). no obstante se observa que en los datos añadiendo elevado ruido gaussiano. 29. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 51 . El kernel mediante la tangente hiperbólica obtiene peores resultados. siendo mejores y superando los conseguidos por el kernel polinomial para dicho caso. obtenemos peores resultados que con el kernel lineal. En el caso de un kernel polinomial de grado 2 (Fig. 28. 28 podemos observar como la predicción de la serie temporal del conjunto de prueba en los datos brutos originales. se acercan los resultados a los obtenidos mediante el kernel lineal.MASTER EN INVESTIGACION EN INFORMATICA Hay que recalcar que aunque se consiguen errores en los ajustes casi nulos en los datos de entrenamiento utilizando el kernel polinomial tanto en los datos originales como en los datos con ruido gaussiano débil.

siendo más imprecisa la reproducción en la predicción de la serie temporal observada. comprobamos como los resultados son aún peores. Precisión en la predicción de la serie temporal dependiente para el conjunto de prueba utilizando un kernel mediante la tangente hiperbólica.MASTER EN INVESTIGACION EN INFORMATICA Finalmente para el caso del kernel mediante la tangente hiperbólica (Fig. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 52 .416 vs. 3. No obstante. 30. Fig. 30). cuando nos fijamos en la segunda serie temporal (adicción de ruido gaussiano moderado). es de señalar que utilizando el kernel de la tangente hiperbólica se consiguen mejores resultados que utilizando el kernel polinomial para el conjunto de prueba (3.786).

MASTER EN INVESTIGACION EN INFORMATICA ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 53 .

Finalmente. Para ello se compararon los resultados en presencia de dos tipos de intensidades de ruido gaussiano añadido. El análisis predictivo de datos es muy útil para estudiar y ajustar de manera eficiente el comportamiento de un sistema dinámico lineal o no lineal a partir de las medidas discretas de sus variables. Cuando las variables predictoras están muy correlacionadas. concluyendo que el uso del kernel lineal mediante la solución dual de RR es el que mejor rendimiento proporciona en términos de mínimo error en el ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 54 . debido a los efectos desastrosos que la multicolinealidad tiene sobre su varianza. Los métodos kernel (ampliamente utilizadas en las máquinas de aprendizaje supervisado) han demostrado ser técnicas muy eficaces en la resolución de problemas no lineales. lo cual puede posibilitar su implementación en tareas de tiempo real. se han aplicado estas técnicas predictivas a diferentes series temporales no linales. Kernel Ridge Regression (KRR) es una técnica que encuentra y realiza un mapeo de los datos de entrada (considerados no lineales) en un espacio de características de más alta dimensión (donde corresponden a un modelo aproximadamente lineal) obteniendo errores en el ajuste mucho menores con un gasto computacional razonable. se ha visto como estas funciones conllevan algunos inconvenientes. La técnica Ridge Regression (RR) trata estas colinealidades minimizando el problema al contraer los coeficientes de regresión de MCO mediante la introducción de un sesgo. En este trabajo se ha estudiado también las diferentes modalidades que existen para obtener y elegir un sesgo o factor de regularización óptimo (aquel que obtenga predicciones con el mínimo error posible entre lo observado y lo esperado). Estos coeficientes originan predicciones erróneas a la hora de vaticinar nuevas respuestas correspondientes a entradas similares que deberían pronosticar salidas similares. Como se ha podido comprobar. logrando coeficientes ajustados con menor varianza. la técnica RR será incapaz de modelarlas adecuadamente con un error mínimo aceptable (el sesgo introducido en RR ayuda pero a veces también resulta insuficiente). una solución no lineal puede ser tratada y formulada moviéndonos a un espacio de características lineal a partir del espacio de entrada no lineal. el objetivo principal de un modelo de regresión generado a partir de un análisis predictivo es obtener una ecuación matemática que nos permita "predecir" con el mínimo error posible el valor de una variable dependiente Y una vez conocidos los valores de X1. Xn o variables independientes predictoras. los coeficientes de regresión resultantes de un ajuste por mínimos cuadrados ordinarios (MCO) pueden llegar a ser muy erráticos e imprecisos.MASTER EN INVESTIGACION EN INFORMATICA 4. con los resultados obtenidos en ausencia de ruido (datos brutos originales). X2 . Dicha ecuación servirá como modelo o función de aproximación para la predicción de futuras observaciones. CONCLUSIONES En este trabajo se han descrito diferentes técnicas de regresión que se engloban dentro de la analítica predictiva de datos. No obstante. Si los datos de entrenamiento (las variables independientes) muestran relaciones no lineales.. Por tanto. Sin embargo. dando estabilidad así a la predicción del modelo y solucionando dicho problema. el sobre-ajuste a un conjunto de entrenamiento puede provocar no saber generalizar adecuadamente cuando se usa el modelo para un conjunto de prueba diferente.

incluso en presencia de ruido gaussiano moderado. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 55 . Además la forma estructural de la serie temporal esperada seguía conservándose.MASTER EN INVESTIGACION EN INFORMATICA ajuste.

MASTER EN INVESTIGACION EN INFORMATICA ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 56 .

Con esto. sino también en la aportación y anticipación de resultados. Básicamente. se ha tratado de reflejar cómo diferentes técnicas de regresión actúan en presencia de outliers generalizados y contínuos. comprensión y análisis de técnicas predictivas de datos que hagan uso de la regresión estadística como paradigma de aprendizaje válido para poder ser aplicado en el futuro a las diferentes señales que integran la base de datos del stellerator TJ-II. con el objetivo de poder simular y acercarse así al comportamiento de un sistema de adquisición de datos real. requiere el uso de herramientas y técnicas automáticas de minería de datos que faciliten la generación de modelos predictivos eficientes y con elevado poder explicativo. este trabajo se subdividió en dos partes. Futuros trabajos que complementen este proyecto sería comprobar si los resultados aquí obtenidos son reproducibles mediante los datos y señales de evolución temporal que se encuentran en la base de datos del TJ-II y además. MOTIVACION Y TRABAJOS FUTUROS Los inicios de este proyecto comienzan en la Unidad de Adquisición de Datos del Laboratorio de Fusión del CIEMAT. Por tanto. ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 57 . tienen que ser capaces de generalizar con el Fig. y en la segunda parte del proyecto se hace uso de dicho análisis. La extracción del conocimiento oculto en bases de datos masivas. En dicha unidad. sería interesante también comparar estas técnicas de regresión con el poder predictivo de otros sistemas de aprendizaje como son las redes neuronales ó las máquinas de vectores soporte. comparando estos resultados con los obtenidos en ausencia de ruido. con el fin de poder ayudar no solo en diferentes tareas críticas de control. la primera parte expone exhaustivamente la analítica predictiva basada en la regresión. el objetivo principal de este trabajo es el estudio. Stellerator TJ-II (CIEMAT).MASTER EN INVESTIGACION EN INFORMATICA 5. una serie de técnicas y procedimientos analíticos aplicados a la base de datos del stellerator español TJ-II [TJ-II] (Fig. y donde se almacenan más de tres millones de señales de evolución temporal. sometido a elevadas interferencias externas. 31). incluso antes de que se produzcan éstos. aplicando diferentes técnicas a unos datos experimentales multidimensionales en presencia de ruido gaussiano añadido. 31. se vienen desarrollando durante años. mínimo error posible frente a nuevas entradas de datos. Los modelos teóricos resultantes de este estudio supervisado.

MASTER EN INVESTIGACION EN INFORMATICA ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 58 .

1980. Journal of Research (Science). 2004] Pasha. [García. 1970). D.ehu. Arthur E. C. 1975] Hoerl. F. Universidad de Salamanca. 28.nist. 2006. http://www. [Chatterjee. G. 2006. 30. “Application of ridge regression to multicollinear data”. W. 2006] Grupo de Estadística Aplicada. Cultura Científica y Tecnológica. 246-263.html [Hoerl y Kennard. S. ·Regression diagnostics. 1886] Galton. 2006. ISSN 1021-1012. "Collinearity. 2005] Núñez." Ridge Regression: Applications to Nonorthogonal Problems".W. 1970] Hoerl. 1976] Hoerl. ISBN: 100471746967 [Galton. Kennard. E. “Regression analysis by example”. [Mason. John Wiley & Sons. W. A.itl. Introducción a la Estadística. Communications in Statistics: Theory and Methods. Vol. 1980] Belsley. http://biplot. 12. 1.. Journal of marketing Research.es/~etptupaf/nuevo/ficheros/estad3/reg.” Communications in Statistics. V. 2001.et. 105-123. (1975). 1976. Welsh. Ali. 69-82. Bahauddin Zakariya University. E. Kennard. http://www.. Kuth. 1171-1183. Shah. New York. K. “Regression towards mediocrity in hereditary stature”. Pakistan. “Ridge regression: some simulations. (Feb. A5(1).R. Tussell. pp. R. Journal of the Anthropological Institute. 15. [Hoerl.F. Robert W. Identifying influential data and sources of collinearity". ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 59 . "Efectos de la colinealidad en el modelado de la regresión y su solución".R. Technometrics. Kennard y Baldwin. 4.usal. et al. Kennard.bs. 1991] Mason. Fourth Edition. 23-34 [GEA..gov/div898/handbook/ [Núñez. Hadi. R. 15. Perreault. [NIST. Francis. F. Communication in statistics. 97-106. 77-88. power and interpretation of multiple regression analysis". 1886. Multan. "Ridge Regression Iterative Estimation of the Biased Parameter". 268220. and Baldwin. 2004. No. 2006] Chatterjee. [Hoerl y Kennard.. 2006] García. [Belsley. 1991. 2005. Inc. e-Handbook of Statistical Methods. Jorge. Wiley-Interscience.MASTER EN INVESTIGACION EN INFORMATICA REFERENCIAS Y BIBLIOGRAFIA [Akdeniz. "Regresión y Análisis de Varianza". “Regresión y correlación”. 16. A. A. "The examination and analysis of residuals for some biased estimators in linear regression".pdf [Pasha. 2003] NIST/SEMATECH 2003.es/problemas/libro/index.E. 2001] Akdeniz.

J. Computer Science 294. 1994] Wang. 2010.edu/~pliang/cs294spring08/lectures/regression/ [TJ-II] http://fudaqs2.es/TJ2WEB/indexGAD. M. [Zhang. 1994. 2007.berkeley. Revista Iberoamericana de Automática e Informática Industrial. http://crsouza.pdf ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 60 . "Kernel Methods for Pattern Analysis". and Akabay. C. 2009] Zhang.blogspot.edu/~jianzhan/STAT598Y/NOTES/slt02.com/2010/03/kernel-functionsfor-machine-learning. 4. [Souza. S. 2008. The Journal of Business and Forecasting Methods and Systems.stat. Salcedo. Jian. J. “Risk Minimization”. 2004. "Regression". Cambridge University Press. 18-26. Romain. 2007] Ramos. ISBN: 978-0521-81397-6.cs. Sanchís. J. Cristianini. C. Practical Machine Learning. "Autocorrelation: problems and solution in regression analysis". N.V. Statistical Learning Theory. 2010] Souza. 61-72. Kernel Functions for Machine Learning Applications. 2008] Thibaux.jsp [Wang. "LQR Robusto mendiante incertidumbre acotada en los datos". Martínez.purdue. Cesar. 2009. 2004] Shawe-Taylor.ciemat. [Shawe-Taylor. 13.html [Thibaux. http://www.MASTER EN INVESTIGACION EN INFORMATICA [Ramos. http://www.

autoriza a la Universidad Complutense de Madrid (UCM) a difundir y utilizar con fines académicos. uso e impacto del trabajo en Internet y garantizar su preservación y acceso a largo plazo. matriculado en el Master en Investigación en Informática de la Facultad de Informática. VEGA SANCHEZ] en el Departamento de Arquitectura de Computadores y Automática. y a la Biblioteca de la UCM a depositarlo en el Archivo Institucional E-Prints Complutense con el objeto de incrementar la difusión. realizado durante el curso académico 2009-2010 bajo la dirección de MATILDE SANTOS PEÑAS [y con la colaboración externa de dirección de JESUS A.MASTER EN INVESTIGACION EN INFORMATICA Autorización de difusión. El abajo firmante. Firmado: Augusto Pereira González ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA 61 . no comerciales y mencionando expresamente a su autor el presente Trabajo Fin de Máster: “ANALISIS PREDICTIVO DE DATOS MEDIANTE TECNICAS DE REGRESION ESTADISTICA”.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->