Está en la página 1de 3

REGRESION LINEAL

Miguel Crdenas-Montes

Regresin lineal es uno de los algoritmos ms populares en minera de


datos. Pertenece a la categora de aprendizaje supervisado.

Objetivos:

Conocer las principales caractersticas de la regresin lineal y el al-


goritmo de gradiente descenciente para minimizar la funcin de
coste.
Este documento puede contener impre-
cisiones o errores. Por favor no lo utilice
para citarlo como una fuente fiable.
1 Regresin Lineal 5

La tcnica de regresin lineal pertenece a la categora de aprendizaje 3

supervisado, y dentro de sta es de tipo regresin ya que su salida

Y
2

son valores contnuos. En esta tcnica que modeliza que la salida del 1

algoritmo es una funcin lineal de los parmetros de entrada: 0


0 1 2 3 4 5
X

Figura 1: Datos.
h ( x ) = 0 + 1 x (1)
5

A partir de la funcin hiptesis (ecuacin 1), se intenta encontrar 4

el mejor ajuste para los datos. Varias tcnicas son posibles para este 3

ajuste. La funcin de coste es:

Y
2

1
1
J ( 0 , 1 ) = ( h ( x i ) y i )2 (2) 0
2m puntos
0 1 2
X
3 4 5

Figura 2: Ejemplo de mal ajuste.


donde yi son los valores reales y h ( xi ) es la prediccin para este mis-
mo valores. Esta funcin tambin se llama error cuadrtico medio. 5

En la figura 2 se muestra un ejemplo de ajuste no ptimo. En este 4

caso la hiptesis es h ( x ) = 0,8 + 1,5 x. Por el contrario, el ajuste es 3


Y

ptimo para la hiptesis es h ( x ) = 0,07 + 0,96 x (figura 3). 2

1
Por otro lado, para el ejemplo de ajuste no ptimo la funcin de
coste, J (0 , 1 ) tiene un valor de 3.382, mientras que para el ejemplo de 0
0 1 2
X
3 4 5

ajuste ptimo es 0.014. Figura 3: Ejemplo de buen ajuste.


Cualquier algoritmo evolutivo puede ser
utilizado como alternativa a gradiente
2 Gradiente Descendente descenciente para encontrar el mnimo
de la funcin de coste.

Para minimizar la funcin de coste y encontrar el mejor ajuste a es denominado como ratio de aprendi-
zaje.
los datos, se puede utilizar la tcnica de gradiente descendiente. Esta
tcnica consiste en repetir hasta que converja la siguiente ecuacin
para cada variable:


j := j J ( 1 , 2 ) (3)
j
2 m m

En el caso de utilizar una funcin lineal (ecuacin 1) para modeli-


zar los datos, entonces los valores que minimizan la funcin de coste
Feature Scaling: es importante para el
rendimiento de gradiente descendiente J (1 , 2 ) se obtienen de las ecuaciones 4 y 5.
que los rangos de los atributos se esca-
len en un nico rango. m
1
0 : = 0
0
J ( 0 , 1 ) = 0
m ( h ( x i ) yi ) (4)
i =1

m
1
1 : = 1
1
J ( 0 , 1 ) = 1
m ( h ( x i ) yi ) x i (5)
i =1

El parmetro debe elegirse cuidadosamente. Si es muy pequeo,


entonces se necesitarn muchos ciclos para alcanzar el mnimo. Por el
contrario, si es muy grande, es posible que la secuencia no converja.

3 Regresin Lineal con Mltiples Variables

Si el modelo elegido para representar los datos, h ( x ), no depende


de un solo atributo sino de n atributos, entonces se puede utilizar una
notacin matricial:

h ( x ) = T x = 0 x0 + 1 x1 + + n x n (6)

donde 0 , 1 , . . . , n son los parmetros que hay que ajustar. As la fun-


cin de coste es:
m
1
J ( 0 , 1 , . . . , n ) =
2m ( h ( x i ) y i )2 (7)
i =1

La optimizacin mediante gradiente descendiente se realiza como


en el ejemplo anterior pero con todos los parmetros: 0 , 1 , . . . , n .

4 Regresin Polinomial

En este caso se define la hiptesis como un funcin no lineal de los


5

4
atributos:
3

h ( x ) = 0 x0 + 1 x1 + 2 x22 + + n xnn + + 12 x1 x2 + 13 x1 x3 (8)


Y

La optimizacin se puede realizar como en los ejemplos anteriores:


0
0 1 2 3 4 5
X
gradiente descendiente, algoritmo evolutivo, etc.
Figura 4: Ejemplo de ajuste cuadrtico.
En la figura 4 se muestra un ajuste mediante una funcin quadrtica
El valor de la funcin de coste es 0.963, y
la funcin de hiptesis h ( x ) = 0,11x + univariante (un solo atributo) sobre el mismo conjunto de datos de los
0,49x + 0,13x2 . ejemplos anteriores.
r e g r e s i o n l i n e a l 3

5 Ecuacin Normal

La ecuacin normal es una alternativa a gradiente descendiente pa-


ra encontrar el conjunto de valores ptimos de los parmetros: 0 , 1 , . . . , n .

= ( X T X ) 1 X T y (9)

donde X es la matriz de atributos a la cual se le aade una primera


columna de "1".
El uso de la ecuacin normal tiene la ventaja de no necesitar esta-
blecer un valor para , ni tener que hacer interaciones. Por el contrario,
la resolucin de la ecuacin normal es muy lenta si el problema tiene
un gran nmero de atributos.

También podría gustarte