Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Soporte Vectorial
Soporte Vectorial
Los dispositivos para registrar informacin acerca de los sistemas son cada
vez ms sofisticados y eficientes, lo cual implica un incremento exponencial en
la cantidad y diversidad de informacin disponible, incluso en tiempo real.
R Remp
2l
h log 1 log
h
4
l
(3)
El parmetro h es llamado la dimensin-VC( Vapnik-Chervonenkis) de un conjunto
de funciones y ella describe la capacidad de un conjunto de funciones para
representar el conjunto de datos. La dimensin VC es una medida de la
complejidad del clasificador y ella es a menudo proporcional al nmero de
l
f
h
parmetros libre en el clasificador
. Especialmente cuando
es pequeo, un
riesgo emprico pequeo no garantiza un valor pequeo en el riesgo real o
estructural. En este caso, con el fin de minimizar el riesgo real R( ), se debe
minimizar el lado derecho de la desigualdad en la ecuacin (3) simultneamente
sobre ambos trminos. Para hacer esto, se hace de la dimensin VC una variable
controlante. Por lo tanto, el principio general, el cual se denomina principio
inductivo de minimizacin del riesgo estructural(SRM), fue motivado para
minimizar el riesgo funcional, con respecto a ambos trminos: el riesgo emprico y
el intervalo de confianza. (Vapnik y Chevonenkis, 1974). El trmino de confianza
VC en la ecuacin (3) depende de la clase de funciones elegidas, mientras que el
riesgo emprico depende de la funcin particular elegida por el proceso de
entrenamiento. El objetivo aqu es encontrar ese subconjunto del conjunto de
funciones elegidas, tal que la cota del riesgo para ese subconjunto sea mnima.
Esto se hace introduciendo una estructura que divida la clase completa de
funciones en subconjuntos anidados(Ver figura 1). SRM consiste en hallar ese
subconjunto de funciones que minimiza la cota sobre el riesgo real. Esto se hace
simplemente entrenando una serie de mquinas, una para cada subconjunto,
donde para un subconjunto dado, la meta de entrenamiento es simplemente
minimizar el riesgo emprico. Luego se toma la mquina para la cual la suma del
riesgo emprico y la confianza de VC sea mnima(Burges, 1998)
Figura 1: La cota del riesgo real es igual a la suma del riesgo emprico y el intervalo de confianza.
w x b 0, w R n
y b R
(4)
Donde w y b son parmetros que se inducen a partir de los ejemplos disponibles
correspondientes a la funcin de decisin f(x)=sign(wx+b) tal que ella se
desempea bien sobre ejemplos no vistos, es decir que generaliza bien.
(5)
y i w x i b 1,
i 1,2,..., l
Se puede demostrar que el hiperplano que separa ptimamente los datos en dos
clases es aquel que minimiza el funcional:
w
w
2
(7)
L w, b,
w
2
i w x i b y i 1
i 1
(8)
i
Donde
son los multiplicadores de Lagrange. El Lagrangiano tiene que ser
minimizado con respecto a w y b, es decir:
l
l
l
L
L
0 i yi 0
0 w y i i xi 0 w y i i xi
w
b
i 1
i 1
i 1
y
Poniendo las expresin para wo en la ecuacin (8) resultar en la siguiente forma
dual de la funcin, que debe ser maximizada con respecto a las restricciones
i 0
l
W i
i 1
l
W i
i 1
1 l l
i j yi y j xi x j
2 i 1 j 1
1 l l
i j y i y j xi x j
2 i 1 j 1
(9)
f x sign w0 x b0 sign
y x x b
0
i i
vectores de soporte
(10)
i0
Solamente los puntos xi, que tienen multiplicadores de Lagrange
diferentes
de cero son llamados Vectores de Soporte(SVs). Si los datos son linealmente
separables, todos los vectores de soporte estarn sobre el margen y por lo tanto,
el nmero de SV puede ser muy pequeo.
La solucin anterior slo se verifica para datos separables linealmente, y todava
debe ser
ligeramente modificada para datos no separables linealmente
i
introduciendo un nuevo conjunto de variables
que mide la cantidad en la cual
las restricciones son violadas( ver figura (2b)). Luego el margen es maximizado,
asumiendo una penalizacin proporcional a la cantidad de la violacin de la
restriccin. Formalmente se resuelve el siguiente problema:
2
w
w
Ci
2
Minimice
(11)
y i w xi b 1 i
i 0
Sujeto a
,y
i=1,...,l
Donde C es un parmetro elegido a priori y que define el costo de la violacin de
la restriccin. El primer trmino en la ecuacin (11) proporciona una minimizacin
de la dimensin VC de la mquina de aprendizaje, minimizando por lo tanto, el
segundo trmino en la cota de la ecuacin (3). De otra parte, la minimizacin en el
segundo trmino de la ecuacin (11) controla el riesgo emprico, el cual es el
primer trmino en la ecuacin (3). Esta aproximacin, por lo tanto, constituye una
implementacin prctica de la Minimizacin del Riesgo Estructural sobre el
conjunto de funciones dado. Con el fin de resolver este problema, el Lagrangiano
se construye como sigue:
2
l
l
w
l
L w, b,
C i i w x b y i 1 i i i
2
i 1
i 1
i 1
(12)
i
i
Donde
y
estn asociados con las restricciones en la ecuacin (11) y los
i
0 i C
valores de
tienen que ser acotados como
. De nuevo, la solucin de
este problema se determina por los puntos de silla de este Lagrangiano de forma
similar para el caso de datos separables.
En el caso donde una frontera lineal sea definitivamente inapropiada( o cuando la
superficie de decisin es no lineal), el SVM puede mapear el vector de entrada x,
en un espacio de caractersticas alto-dimensional z, eligiendo un mapeo no lineal a
priori. Entonces la SVM construye el hiperplano de separacin ptimo en este
espacio ms alto-dimensional. En este caso, los problemas de optimizacin de la
ecuacin(20) se convierten en :
l
1 l l
W i i j y i y j K x i x j
2 i 1 j 1
i 1
(13)
f x sign
y i i0 K x i x b0
vectores de soporte
(14)
Consecuentemente, todo lo que se ha derivado para el caso lineal es tambin
aplicable para un caso no lineal usando un kernel conveniente K en vez del
producto punto. Adems, usando diferentes funciones kernel, el algoritmo de SV
puede construir una variedad de mquinas de aprendizaje(ver figura 3), algunas
de las cuales parecen ser similares a arquitecturas clsicas. Funciones de base
radial, funciones polinomiales y ciertas funciones sigmoideas son entre otras que
proporcionan kernels aceptables y los correspondientes mapeos son descritos
como sigue:
d
K ( x, x i ) x x i 1
El kernel simple polinomial:
, donde el grado
del polinomio d, es definido por el usuario.
K x, x i e
x xi
El otro caso surge cuando los datos estn en mltiples clases. Con el fin de
obtener una clasificacin de k-clases, se construye un conjunto de clasificadores
binarios f1,f2,...,fk, cada uno entrenado para separar una clase del resto, y estos
son combinados para llevar a cabo la multiclasificacin( en un esquema de
Remp w, b
1 l
y i f xi ,
l i 1
(15)
Con la funcin de prdida ms general con -zonas insensibles descrita como:
si y f x,
y f x;
y f x, de otra forma
(16)
El objetivo ahora es encontrar una funcin f(x, ), que tenga al mximo una
desviacin de con respecto a la salida observada yi para todos los datos de
entrenamiento, y al mismo tiempo es tan simple como sea posible. Esto es
equivalente a minimizar el funcional:
2
w
*
w, ,
C i* i
2
(17)
*,
Donde C es un valor preespecificado y
son variables comodines que
representan las restricciones superiores e inferiores sobre las salidas del
sistema(ver figura 4). Como sigue:
yi w x b i
i 1,2,, l
w x b yi i*
i 1,2,, l
(18)
i 0
0
*
i
w
2
i 1
l
l
l
i* i i y i w x b i* i* y i w xi b i i i* i*
i 1
i 1
i 1
(19)
Se sigue a partir de los puntos de la condicin de puntos de silla que las
derivadas parciales de L con respecto a las variables primarias (w,b, i, i*) tienen
que desvanecerse en la optimalidad. Substituyendo los resultados de esta
derivacin en la ecuacin (17) se obtiene el problema de optimizacin dual:
l
l
1 l l
W * , i* i yi i* i i* i *j j xi x j
2 i 1 j 1
i 1
i 1
(20)
vectores de soporte
, y por lo tanto,
Donde
bo wo x r x s
2
(22)
(21)
f x w0 x b0
(23)
En donde
w0 x
0*
i
vectores de soporte
i0 K xi , x
b0
i0* i0 K xr , xi K x s , xi
2 vectores de soporte