Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Transformaciones no lineales
Ejemplos
Kernels compuestos
p. 2/31
Introducci on
Mtodos Krnel.
2x, 1}
T
: R
3
La pregunta es: existe un producto escalar en ese espacio que pueda ser
expresado como funcin de los datos de entrada x?
p. 4/31
Transformaciones no lineales
El producto escalar explcito es:
(x
1
)
T
(x
2
) = {x
2
1
,
2x
1
, 1}{x
2
2
,
2x
2
, 1}
T
= x
2
1
x
2
2
+ 2x
1
x
2
+ 1
Que puede ser escrito como
(x
1
)
T
(x
2
) = x
2
1
x
2
2
+ 2x
1
x
2
+ 1 = (x
1
x
2
+ 1)
2
Lineal: K(x
i
, x
j
) = x
T
i
x
j
Gausiano:K(x
i
, x
j
) = exp
_
||x
i
x
j
||
2
2
2
_
Polinmico: K(x
i
, x
j
) =
_
x
T
i
x
j
+ 1
_
n
Son kernels todas aquellas funciones K(u, v) que verican el teorema de
Mercer, es decir, para las cuales
_
u,v
K(u, v)g(u)g(v)dudv > 0 (2)
para toda funcin g() de cuadrado integrable.
p. 8/31
Ejemplos
El algoritmo de mnimos cuadrados admite una versin no lineal inmediata.
Sea un estimador lineal
y
i
= w
T
x
i
+ e
i
(3)
Se desea minimizar el error cuadrtico medio de la estimacin, es decir:
minE
_
y
i
w
T
x
i
_
2
(4)
La solucin a esta optimizacin es
w = R
1
p (XX
T
)
1
Xy (5)
donde X es una matriz conteniendo un conjunto de vectores columna x
i
, e y
es un vector con los valores deseados de y
i
.
p. 9/31
Ejemplos
Primer paso: encuntrese una formulacin basada en productos escalares.
Para ello, tngase en cuenta el siguiente hecho:
w es una combinacin lineal de los datos de entrada.
Por lo tanto:
w =
i
x
i
= X (6)
Cunto vale el vector ? Se encuentra relacionando (5) (primal) con (6)
(dual):
X = (XX
T
)
1
Xy (7)
y de ah
X
T
X = X
T
(XX
T
)
1
Xy = y (8)
=
_
X
T
X
_
1
y = K
1
y (9)
p. 10/31
Ejemplos
La matriz K contiene los productos escalares de los datos. Una vez hallado
, el estimador puede reescribirse como:
y
i
=
j
x
T
j
x
i
(10)
Segundo paso: Aplquese una transformacin no lineal () a los datos hacia
un espacio de Hilbert provisto de un kernel K(, ). El estimador (ahora no
lineal) se reescribe como
y
i
=
j
(x
j
)
T
(x
i
) =
j
K(x
j
, x
i
) (11)
donde las variables duales
i
se calculan como
= K
1
y (12)
con
K
ij
= K(x
i
, x
j
) (13)
p. 11/31
Kernels compuestos
b
(x
b
)
_
lo sita en un espacio de Hilbert compuesto de los espacios H
a
y H
b
cuyo
producto escalar es
(x
1
)
T
(x
2
) = (x
a
1
)
T
(x
a
2
) + (x
b
1
)
T
(x
b
2
)
= K(x
a
1
, x
a
2
) + K(x
b
1
, x
b
2
)
(14)
Lo que demuestra que una suma de kernels es un kernel. Esta tcnica se
denomina suma directa de Espacios de Hilbert.
p. 13/31
Kernels compuestos
Existen aproximaciones an ms generales basadas en las propiedades de
los espacios de Hilbert.
De la misma forma se puede demostrar que si se construye un vector con el
producto tensorial de los vectores (x
a
) y (x
b
), se consigue el kernel
tensorial, de la forma
K(x
1
, x
2
) = K(x
a
1
, x
a
2
)K(x
b
1
, x
b
2
) (15)
p. 14/31
Mquinas de vectores soporte
Complejidad
Clasicador lineal
Interpretacin Geomtrica
Solucin
Ejemplos
p. 15/31
Complejidad
Algoritmo:
Minimizar
||w||
2
+ C
N
i=1
i
(16)
sujeto a
y
i
(w
T
x
i
+ b) 1
i
(17)
i
0 es la prdida para la muestra x. C es el compromiso entre error
emprico y complejidad.
p. 17/31
Interpretaci on Geom etrica
Llamamos margen al rea entre los
planos y(w
T
x + b) 1.
Para una muestra dentro del margen
denimos una prdida
i
. Queremos
minimizar la suma de prdidas.
A la vez, minimizamos el mdulo de
los pesos
Esto es equivalente a maximizar el margen: es inmediato demostrar que
d
2
=
1
||w||
2
p. 18/31
Optimizaci on prctica de la SVM
La minimizacin del funcional primal
1
2
||w||
2
+ C
N
i=1
i
(18)
sujeto a
y
i
(w
T
x
i
+ b) +
i
1 (19)
con
i
0 es un problema con restricciones.
Debemos usar multiplicadores de Lagrange
El lagrangiano es
L =
1
2
||w||
2
+ C
N
i=1
i=1
i
_
y
i
(w
T
x
i
+ b) +
i
1
_
i=1
i
(20)
p. 19/31
Optimizaci on prctica de la SVM
2 4 6 8 10 12 14 16 18 20
2
4
6
8
10
12
14
16
18
20
Constraints
Weight vector gradient
Constraints gradient
L =
1
2
||w||
2
+ C
N
i=1
i=1
i
_
y
i
(w
T
x
i
+ b) +
i
_
i=1
i
(21)
p. 20/31
Condiciones de Karush Kuhn Tucker
Las condiciones para este problema son:
L
pd
w
= 0
dL
pd
db
= 0
L
pd
i
= 0
(22)
i
,
i
0 (23)
i
y
i
[(w
T
x
i
+ b) 1 +
i
] = 0 (24)
i
= 0 (25)
p. 21/31
Soluci on
Si se aplican las condiciones (22) se obtiene
L
pd
w
= w
N
i=1
i
y
i
x
i
= 0 (26)
dL
pd
db
=
N
i=1
i
y
i
= 0 (27)
L
pd
i
= C
i
i
= 0 (28)
El resultado (26) da la solucin para los parmetros
w =
N
i=1
i
y
i
x
i
(29)
p. 22/31
Soluci on
Combinando esas ecuaciones con el lagrangiano se obtiene el dual
L
d
=
1
2
N
i=1
N
j=1
j
y
i
y
j
x
i
T
x
j
+
N
i=1
i
(30)
que puede escribirse como
L
d
=
1
2
T
Y KY +1
T
(31)
siendo un vector columna conteniendo los multiplicadores de Lagrange
i
,
Y una matriz diagonal Y
ii
= y
i
, y K la matroz de productos escalares.
K
ij
= x
T
i
x
j
(32)
p. 23/31
Soluci on
i=1
i
y
i
x
T
i
x
j
+ b (33)
p. 24/31
Resumen del algoritmo
Optimcese el funcional
L
d
=
1
2
T
Y KY +1
T
i=1
i
y
i
x
T
i
x
j
+ b (34)
p. 25/31
Notas
La solucin es dispersa.
T
Y KY +1
T
j
K(x
j
, x
i
) + b (35)
La optimizacin se lleva a cabo de forma idntica al clasicador lineal, con la
salvedad de que
K
ij
= K(x
i
, x
j
) (36)
p. 29/31
Ejemplos
8 6 4 2 0 2 4 6
6
4
2
0
2
4
6
p. 30/31
Conclusiones