Está en la página 1de 5

aaaa

dcmesar
June 2023

1 Introduction
Empezaremos nuestra historia sobre las SVM hablando de márgenes. Esta
sección dará las intuiciones sobre los márgenes y sobre la ”confianza” de nues-
tras predicciones; estas ideas se harán formales en la Sección 3.

Inicialmente se considera la regresión logı́stica, donde la probabilidad p(y =


1 | x; θ) se modela por hθ (x) = g θT x . Entonces predecirı́amos ”1” en una
entrada x si y sólo si hθ (x) ≥ 0.5, o equivalentemente, si y sólo si θT x ≥ 0.
Consideremos un ejemplo de entrenamiento positivo (y = 1). Cuanto mayor sea
θT x, mayor será también hθ (x) = p(y = 1 | x; w, b) y, por tanto, mayor será
también nuestro grado de ”confianza” en que la etiqueta es 1.

Ası́, informalmente podemos pensar que nuestra predicción es muy segura


de que y = 1 si θT x ≫ 0. Del mismo modo, pensamos en la regresión logı́stica
como una predicción muy segura de y = 0, si θT x ≪ 0. Dado un conjunto
de entrenamiento, de nuevo informalmente parece que hemos encontrado un
buen ajuste a los datos de entrenamiento si podemos encontrar θ de modo que
θT x(i) ≫ 0 siempre que y (i) = 1, y θT x(i) ≪ 0 siempre que y (i) = 0, ya que
esto reflejarı́a un conjunto muy seguro (y correcto) de clasificaciones para todos
los ejemplos de entrenamiento. Este parece ser un buen objetivo, y pronto
formalizaremos esta idea utilizando la noción de márgenes funcionales.
Para un tipo diferente de intuición, considere la siguiente figura, en la que
las x representan ejemplos de entrenamiento positivos, las o denotan ejemplos
de entrenamiento negativos, un lı́mite de decisión (esta es la lı́nea dada por la
ecuación θT x = 0, y también se llama el hiperplano de separación) también se
muestra, y tres puntos también han sido etiquetados A, B y C.

Tenga en cuenta que el punto A está muy lejos de la frontera de decisión. Si


se nos pide hacer una predicción para el valor de y en A, parece que deberı́amos
estar bastante seguros de que y = 1 allı́. Por el contrario, el punto C está muy
cerca de la frontera de decisión, y si bien es en el lado de la frontera de decisión
en la que predecirı́a y = 1, parece probable que sólo un pequeño cambio en la

1
frontera de decisión fácilmente podrı́a haber causado nuestra predicción a ser
y = 0. Por lo tanto, estamos mucho más seguros de nuestra predicción en A
que en C. El punto B se encuentra entre estos dos casos, y en términos más
generales, vemos que si un punto está lejos del hiperplano de separación, en-
tonces podemos estar significativamente más seguros de nuestras predicciones.
De nuevo, informalmente pensamos que serı́a bueno que, dado un conjunto de
entrenamiento, pudiéramos encontrar un lı́mite de decisión que nos permitiera
hacer todas las predicciones correctas y fiables (es decir, lejos del lı́mite de de-
cisión) sobre los ejemplos de entrenamiento. Formalizaremos esto más adelante
utilizando la noción de márgenes geométricos.

2 Notación
Para facilitar nuestro análisis de las SVM, primero tendremos que introducir una
nueva notación para hablar de clasificación. Vamos a considerar un clasificador
lineal para un problema de clasificación binaria con etiquetas y y caracterı́sticas
x. A partir de ahora, vamos a utilizar y {−1, 1} (en lugar de {0, 1} ) para denotar
las etiquetas de clase. Además, en lugar de parametrizar nuestro clasificador
lineal con el vector θ, utilizaremos los parámetros w, b, y escribiremos nuestro
clasificador como

hw,b (x) = g wT x + b


Aquı́, g(z) = 1 si z ≥ 0, y g(z) = −1 en caso contrario. Esta notación ” w, b


” nos permite tratar explı́citamente el término de intercepción b por separado
de los demás parámetros. (También abandonamos la convención que tenı́amos
anteriormente de dejar que x0 = 1 sea una coordenada extra en el vector de
caracterı́sticas de entrada). Ası́, b toma el papel de lo que antes era θ0 , y w
T
toma el papel de [θ1 . . . θn ] .
Obsérvese también que, a partir de nuestra definición de g anterior, nuestro
clasificador predecirá directamente 1 o -1 (véase el algoritmo perceptrón), sin
pasar primero por el paso intermedio de estimar la probabilidad de que y sea 1
(que era lo que hacı́a la regresión logı́stica).

3 Margenes funcionales y geometricos


3.1 Margen funcional
Formalizando las nociones de márgenes
 funcionales y geométricos. Dado un
ejemplo de entrenamiento x(i) , y (i) , se define el margen funcional de (w, b)
con respecto al ejemplo de entrenamiento

γ̂ (i) = y (i) (wT x + b)

Observe que si y (i) = 1, para que el margen funcional sea grande (es decir,
para que nuestra predicción sea segura y correcta), necesitamos que wT x + b

2
sea un número positivo grande. Por el contrario, si y (i) = −1, para que el
T
margen funcional sea grande, necesitamos que w x + b sea un número negativo
(i) T
grande. Por otra parte, si y w x + b > 0, entonces nuestra predicción sobre
este ejemplo es correcta. (Compruébelo usted mismo.) Por lo tanto, un gran
margen funcional representa una confianza y una predicción correcta.
 
Dado un conjunto de entrenamiento S = x(i) , y (i) ; i = 1, . . . , m , también
definimos el margen funcional de (w, b) con respecto a S como el menor de los
márgenes funcionales de los ejemplos individuales de entrenamiento. Denotado
por γ̂, se puede escribir:
γ̂ = min γ̂ (i)
i=1,...,m

3.2 Margen geométrico


La frontera de decisión correspondiente a (w, b) se muestra, junto con el vector
w. Es importante tener en cuenta que w es ortogonal (a 90◦ ) al hiperplano de
separación. Considerando el punto en A, que representa la entrada x(i) de algún
ejemplo de entrenamiento con la etiqueta y (i) = 1. Su distancia a la frontera de
decisión, γ (i) , viene dada por el segmento de recta AB.

¿Cómo podemos encontrar el valor de γ (i) ? Pues bien, w/∥w∥ es un vector de


longitud unitaria que apunta en la misma dirección que w. Como A representa
x(i) , por tanto encontramos que el punto B viene dado por x( i) − γ (i) · w/∥w∥.
Pero este punto se encuentra en la frontera de decisión, y todos los puntos x en
la frontera de decisión satisfacen la ecuación wT x + b = 0. Por tanto,
 
w
wT x(i) − γ (i) +b=0
∥w∥

Resolviendo para γ ( i) se obtiene


T
wT x(i) + b

w b
γ (i) = = x(i) + .
∥w∥ ∥w∥ ∥w∥

Esto se calculó para el caso de un ejemplo de entrenamiento positivo en A en


la figura, donde estar en el lado ”positivo” del lı́mite de decisión es bueno. De
forma más general, definimos el margen
 geométrico de (w, b) con respecto a un
ejemplo de entrenamiento x(i) , y (i) como
 T !
(i) (i) w (i) b
γ =y x +
∥w∥ ∥w∥

Obsérvese que si ∥w∥ = 1, entonces el margen funcional es igual al margen


geométrico, lo que nos da una forma de relacionar estas dos nociones diferentes
de margen. Además, el margen geométrico es invariante al reescalado de los
parámetros; es decir, si sustituimos w por 2w y b por 2b, entonces el margen

3
geométrico no cambia. Esto nos resultará útil más adelante. Especı́ficamente,
debido a esta invariancia a la escala de los parámetros, al intentar ajustar w
y b a los datos de entrenamiento, podemos imponer una restricción de escala
arbitraria en w sin cambiar nada importante; Por ejemplo, podemos exigir que
∥w∥ = 1, o |w1 | = 5, o |w1 + b|+|w2 | = 2, y cualquiera de ellas puede satisfacerse
simplemente reescalando w y b.  
Por último, dado un conjunto de entrenamiento S = lef t(x(i) , y (i) ; i =
1, . . . , m}, también definimos el margen geométrico de (w, b) con respecto a S
como el menor de los márgenes geométricos de los ejemplos de entrenamiento
individuales:
γ = min γ (i)
i=1,...,m

4 Clasificador de Margen óptimo


Dado un conjunto de entrenamiento, se busca intentar encontrar un lı́mite de
decisión que maximice el margen (geométrico), ya que esto reflejarı́a un conjunto
de predicciones muy seguro en el conjunto de entrenamiento y un buen ”ajuste”
a los datos de entrenamiento. Especı́ficamente, esto dará como resultado un
clasificador que separa los ejemplos de entrenamiento positivos y negativos con
una ”brecha” (margen geométrico).

Por ahora, supondremos que se nos da un conjunto de entrenamiento que


es linealmente separable; es decir, que es posible separar los ejemplos positivos
y negativos utilizando algún hiperplano de separación. ¿Cómo encontramos el
que consigue el máximo margen geométrico? Podemos plantear el siguiente
problema de optimización
max γ
γ,w,b

(i) T (
y (w x i) + b) ≥ γ, i = 1, . . . , m
∥w∥ = 1.
Es decir, queremos maximizar γ, siempre que cada ejemplo de entrenamiento
tenga un margen funcional de al menos γ. La restricción ∥w∥ = 1 además
asegura que el margen funcional es igual al margen geométrico, por lo que
también se garantiza que todos los márgenes geométricos son al menos γ. Ası́, la
resolución de este problema dará lugar a (w, b) con el mayor margen geométrico
posible con respecto al conjunto de entrenamiento.
Si pudiéramos resolver el problema de optimización anterior, habrı́amos ter-
minado. Pero la restricción ”∥w∥ = 1” es desagradable (no convexa), y este
problema ciertamente no está en ningún formato que podamos introducir en un
software de optimización estándar para resolverlo. Ası́ que vamos a tratar de
transformar el problema en uno más agradable. Consideremos:
γ̂
max
γ,w,b ∥∥w∥∥

4
y (i) (wT x( i) + b) ≥ γ̂, i = 1, . . . , m
Aquı́, vamos a maximizar γ̂/∥w∥, sujeto a los márgenes funcionales todos siendo
al menos γ̂. Dado que los márgenes geométricos y funcionales están relacionados
por γ = γ̂/||w |, esto nos dará la respuesta que queremos. Además, nos hemos
librado de la restricción ∥w∥ = 1 que no nos gustaba. La desventaja es que
ahora tenemos una desagradable (de nuevo, no convexa) objetivo f racγ̂∥w∥
función; y, todavı́a no tenemos ningún software off-the-shelf que puede resolver
esta forma de un problema de optimización.
Sigamos. Recordemos nuestra discusión anterior que podemos añadir una
restricción de escala arbitraria en w y b sin cambiar nada. Esta es la idea
clave que utilizaremos ahora. Vamos a introducir la restricción de escala que el
margen funcional de w, b con respecto al conjunto de entrenamiento debe ser 1
:
γ̂ = 1
Dado que multiplicar w y b por alguna constante resulta en que el margen
funcional se multiplica por esa misma constante, esto es de hecho una restricción
de escala, y puede ser satisfecha mediante el reescalado de w, b. Insertar esto
en nuestro problema anterior, y teniendo en cuenta que la maximización de
γ̂/∥w∥ = 1/∥w∥ es lo mismo que minimizar ∥w∥2 , ahora tenemos el siguiente
problema de optimización:
1
min ||w∥2
γ,w,b 2

y (i) (wT x(i) + b) ≥ 1, i = 1, . . . , m


Ahora hemos transformado el problema en una forma que puede ser resuelto de
manera eficiente. El anterior es un problema de optimización con un objetivo
cuadrático convexo y sólo restricciones lineales. Su solución nos da el clasificador
de margen óptimo. Este problema de optimización se puede resolver mediante
programación cuadrática comercial (QP) código. 1
Si bien podrı́amos llamar el problema resuelto aquı́, lo que haremos en su
lugar es hacer una digresión para hablar de la dualidad de Lagrange. Esto nos
llevará a la forma dual de nuestro problema de optimización, que desempeñará
un papel clave en lo que nos permite utilizar los núcleos para obtener los clasi-
ficadores de margen óptimo para trabajar de manera eficiente en espacios de
muy alta dimensión. La forma dual también nos permitirá derivar un algoritmo
eficiente para resolver el problema de optimización anterior que normalmente lo
hará mucho mejor que el software QP genérico.

También podría gustarte