Aaaa

aaaa
dcmesar
June 2023
1 Introduction
Empezaremos nuestra historia sobre las SVM hablando de márgenes. Esta
sección dará las intuiciones sobre los márgenes y sobre la ”confianza” de nues-
tras predicciones; estas ideas se harán formales en la Sección 3.
Inicialmente se considera la regresión logı́stica, donde la probabilidad p(y =

1 | x; θ) se modela por hθ (x) = g θT x . Entonces predecirı́amos ”1” en una
entrada x si y sólo si hθ (x) ≥ 0.5, o equivalentemente, si y sólo si θT x ≥ 0.
Consideremos un ejemplo de entrenamiento positivo (y = 1). Cuanto mayor sea
θT x, mayor será también hθ (x) = p(y = 1 | x; w, b) y, por tanto, mayor será
también nuestro grado de ”confianza” en que la etiqueta es 1.
Ası́, informalmente podemos pensar que nuestra predicción es muy segura

de que y = 1 si θT x ≫ 0. Del mismo modo, pensamos en la regresión logı́stica
como una predicción muy segura de y = 0, si θT x ≪ 0. Dado un conjunto
de entrenamiento, de nuevo informalmente parece que hemos encontrado un
buen ajuste a los datos de entrenamiento si podemos encontrar θ de modo que
θT x(i) ≫ 0 siempre que y (i) = 1, y θT x(i) ≪ 0 siempre que y (i) = 0, ya que
esto reflejarı́a un conjunto muy seguro (y correcto) de clasificaciones para todos
los ejemplos de entrenamiento. Este parece ser un buen objetivo, y pronto
formalizaremos esta idea utilizando la noción de márgenes funcionales.
Para un tipo diferente de intuición, considere la siguiente figura, en la que
las x representan ejemplos de entrenamiento positivos, las o denotan ejemplos
de entrenamiento negativos, un lı́mite de decisión (esta es la lı́nea dada por la
ecuación θT x = 0, y también se llama el hiperplano de separación) también se
muestra, y tres puntos también han sido etiquetados A, B y C.
Tenga en cuenta que el punto A está muy lejos de la frontera de decisión. Si

se nos pide hacer una predicción para el valor de y en A, parece que deberı́amos
estar bastante seguros de que y = 1 allı́. Por el contrario, el punto C está muy
cerca de la frontera de decisión, y si bien es en el lado de la frontera de decisión
en la que predecirı́a y = 1, parece probable que sólo un pequeño cambio en la
1
frontera de decisión fácilmente podrı́a haber causado nuestra predicción a ser
y = 0. Por lo tanto, estamos mucho más seguros de nuestra predicción en A
que en C. El punto B se encuentra entre estos dos casos, y en términos más
generales, vemos que si un punto está lejos del hiperplano de separación, en-
tonces podemos estar significativamente más seguros de nuestras predicciones.
De nuevo, informalmente pensamos que serı́a bueno que, dado un conjunto de
entrenamiento, pudiéramos encontrar un lı́mite de decisión que nos permitiera
hacer todas las predicciones correctas y fiables (es decir, lejos del lı́mite de de-
cisión) sobre los ejemplos de entrenamiento. Formalizaremos esto más adelante
utilizando la noción de márgenes geométricos.
2 Notación
Para facilitar nuestro análisis de las SVM, primero tendremos que introducir una
nueva notación para hablar de clasificación. Vamos a considerar un clasificador
lineal para un problema de clasificación binaria con etiquetas y y caracterı́sticas
x. A partir de ahora, vamos a utilizar y {−1, 1} (en lugar de {0, 1} ) para denotar
las etiquetas de clase. Además, en lugar de parametrizar nuestro clasificador
lineal con el vector θ, utilizaremos los parámetros w, b, y escribiremos nuestro
clasificador como
hw,b (x) = g wT x + b

Aquı́, g(z) = 1 si z ≥ 0, y g(z) = −1 en caso contrario. Esta notación ” w, b

” nos permite tratar explı́citamente el término de intercepción b por separado
de los demás parámetros. (También abandonamos la convención que tenı́amos
anteriormente de dejar que x0 = 1 sea una coordenada extra en el vector de
caracterı́sticas de entrada). Ası́, b toma el papel de lo que antes era θ0 , y w
T
toma el papel de [θ1 . . . θn ] .
Obsérvese también que, a partir de nuestra definición de g anterior, nuestro
clasificador predecirá directamente 1 o -1 (véase el algoritmo perceptrón), sin
pasar primero por el paso intermedio de estimar la probabilidad de que y sea 1
(que era lo que hacı́a la regresión logı́stica).
3 Margenes funcionales y geometricos

3.1 Margen funcional
Formalizando las nociones de márgenes
funcionales y geométricos. Dado un
ejemplo de entrenamiento x(i) , y (i) , se define el margen funcional de (w, b)
con respecto al ejemplo de entrenamiento
γ̂ (i) = y (i) (wT x + b)
Observe que si y (i) = 1, para que el margen funcional sea grande (es decir,
para que nuestra predicción sea segura y correcta), necesitamos que wT x + b
2
sea un número positivo grande. Por el contrario, si y (i) = −1, para que el
T
margen funcional sea grande, necesitamos que w x + b sea un número negativo
(i) T
grande. Por otra parte, si y w x + b > 0, entonces nuestra predicción sobre
este ejemplo es correcta. (Compruébelo usted mismo.) Por lo tanto, un gran
margen funcional representa una confianza y una predicción correcta.

Dado un conjunto de entrenamiento S = x(i) , y (i) ; i = 1, . . . , m , también
definimos el margen funcional de (w, b) con respecto a S como el menor de los
márgenes funcionales de los ejemplos individuales de entrenamiento. Denotado
por γ̂, se puede escribir:
γ̂ = min γ̂ (i)
i=1,...,m
3.2 Margen geométrico

La frontera de decisión correspondiente a (w, b) se muestra, junto con el vector
w. Es importante tener en cuenta que w es ortogonal (a 90◦ ) al hiperplano de
separación. Considerando el punto en A, que representa la entrada x(i) de algún
ejemplo de entrenamiento con la etiqueta y (i) = 1. Su distancia a la frontera de
decisión, γ (i) , viene dada por el segmento de recta AB.
¿Cómo podemos encontrar el valor de γ (i) ? Pues bien, w/∥w∥ es un vector de

longitud unitaria que apunta en la misma dirección que w. Como A representa
x(i) , por tanto encontramos que el punto B viene dado por x( i) − γ (i) · w/∥w∥.
Pero este punto se encuentra en la frontera de decisión, y todos los puntos x en
la frontera de decisión satisfacen la ecuación wT x + b = 0. Por tanto,

w
wT x(i) − γ (i) +b=0
∥w∥
Resolviendo para γ ( i) se obtiene

T
wT x(i) + b

w b
γ (i) = = x(i) + .
∥w∥ ∥w∥ ∥w∥
Esto se calculó para el caso de un ejemplo de entrenamiento positivo en A en

la figura, donde estar en el lado ”positivo” del lı́mite de decisión es bueno. De
forma más general, definimos el margen
geométrico de (w, b) con respecto a un
ejemplo de entrenamiento x(i) , y (i) como
T !
(i) (i) w (i) b
γ =y x +
∥w∥ ∥w∥
Obsérvese que si ∥w∥ = 1, entonces el margen funcional es igual al margen

geométrico, lo que nos da una forma de relacionar estas dos nociones diferentes
de margen. Además, el margen geométrico es invariante al reescalado de los
parámetros; es decir, si sustituimos w por 2w y b por 2b, entonces el margen
3
geométrico no cambia. Esto nos resultará útil más adelante. Especı́ficamente,
debido a esta invariancia a la escala de los parámetros, al intentar ajustar w
y b a los datos de entrenamiento, podemos imponer una restricción de escala
arbitraria en w sin cambiar nada importante; Por ejemplo, podemos exigir que
∥w∥ = 1, o |w1 | = 5, o |w1 + b|+|w2 | = 2, y cualquiera de ellas puede satisfacerse
simplemente reescalando w y b.
Por último, dado un conjunto de entrenamiento S = lef t(x(i) , y (i) ; i =
1, . . . , m}, también definimos el margen geométrico de (w, b) con respecto a S
como el menor de los márgenes geométricos de los ejemplos de entrenamiento
individuales:
γ = min γ (i)
i=1,...,m
4 Clasificador de Margen óptimo

Dado un conjunto de entrenamiento, se busca intentar encontrar un lı́mite de
decisión que maximice el margen (geométrico), ya que esto reflejarı́a un conjunto
de predicciones muy seguro en el conjunto de entrenamiento y un buen ”ajuste”
a los datos de entrenamiento. Especı́ficamente, esto dará como resultado un
clasificador que separa los ejemplos de entrenamiento positivos y negativos con
una ”brecha” (margen geométrico).
Por ahora, supondremos que se nos da un conjunto de entrenamiento que

es linealmente separable; es decir, que es posible separar los ejemplos positivos
y negativos utilizando algún hiperplano de separación. ¿Cómo encontramos el
que consigue el máximo margen geométrico? Podemos plantear el siguiente
problema de optimización
max γ
γ,w,b
(i) T (
y (w x i) + b) ≥ γ, i = 1, . . . , m
∥w∥ = 1.
Es decir, queremos maximizar γ, siempre que cada ejemplo de entrenamiento
tenga un margen funcional de al menos γ. La restricción ∥w∥ = 1 además
asegura que el margen funcional es igual al margen geométrico, por lo que
también se garantiza que todos los márgenes geométricos son al menos γ. Ası́, la
resolución de este problema dará lugar a (w, b) con el mayor margen geométrico
posible con respecto al conjunto de entrenamiento.
Si pudiéramos resolver el problema de optimización anterior, habrı́amos ter-
minado. Pero la restricción ”∥w∥ = 1” es desagradable (no convexa), y este
problema ciertamente no está en ningún formato que podamos introducir en un
software de optimización estándar para resolverlo. Ası́ que vamos a tratar de
transformar el problema en uno más agradable. Consideremos:
γ̂
max
γ,w,b ∥∥w∥∥
4
y (i) (wT x( i) + b) ≥ γ̂, i = 1, . . . , m
Aquı́, vamos a maximizar γ̂/∥w∥, sujeto a los márgenes funcionales todos siendo
al menos γ̂. Dado que los márgenes geométricos y funcionales están relacionados
por γ = γ̂/||w |, esto nos dará la respuesta que queremos. Además, nos hemos
librado de la restricción ∥w∥ = 1 que no nos gustaba. La desventaja es que
ahora tenemos una desagradable (de nuevo, no convexa) objetivo f racγ̂∥w∥
función; y, todavı́a no tenemos ningún software off-the-shelf que puede resolver
esta forma de un problema de optimización.
Sigamos. Recordemos nuestra discusión anterior que podemos añadir una
restricción de escala arbitraria en w y b sin cambiar nada. Esta es la idea
clave que utilizaremos ahora. Vamos a introducir la restricción de escala que el
margen funcional de w, b con respecto al conjunto de entrenamiento debe ser 1
:
γ̂ = 1
Dado que multiplicar w y b por alguna constante resulta en que el margen
funcional se multiplica por esa misma constante, esto es de hecho una restricción
de escala, y puede ser satisfecha mediante el reescalado de w, b. Insertar esto
en nuestro problema anterior, y teniendo en cuenta que la maximización de
γ̂/∥w∥ = 1/∥w∥ es lo mismo que minimizar ∥w∥2 , ahora tenemos el siguiente
problema de optimización:
1
min ||w∥2
γ,w,b 2
y (i) (wT x(i) + b) ≥ 1, i = 1, . . . , m

Ahora hemos transformado el problema en una forma que puede ser resuelto de
manera eficiente. El anterior es un problema de optimización con un objetivo
cuadrático convexo y sólo restricciones lineales. Su solución nos da el clasificador
de margen óptimo. Este problema de optimización se puede resolver mediante
programación cuadrática comercial (QP) código. 1
Si bien podrı́amos llamar el problema resuelto aquı́, lo que haremos en su
lugar es hacer una digresión para hablar de la dualidad de Lagrange. Esto nos
llevará a la forma dual de nuestro problema de optimización, que desempeñará
un papel clave en lo que nos permite utilizar los núcleos para obtener los clasi-
ficadores de margen óptimo para trabajar de manera eficiente en espacios de
muy alta dimensión. La forma dual también nos permitirá derivar un algoritmo
eficiente para resolver el problema de optimización anterior que normalmente lo
hará mucho mejor que el software QP genérico.

Aaaa

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Aaaa

Cargado por

Copyright:

Formatos disponibles

aaaa

Inicialmente se considera la regresión logı́stica, donde la probabilidad p(y =

Ası́, informalmente podemos pensar que nuestra predicción es muy segura

Tenga en cuenta que el punto A está muy lejos de la frontera de decisión. Si

Aquı́, g(z) = 1 si z ≥ 0, y g(z) = −1 en caso contrario. Esta notación ” w, b

3 Margenes funcionales y geometricos

γ̂ (i) = y (i) (wT x + b)

3.2 Margen geométrico

¿Cómo podemos encontrar el valor de γ (i) ? Pues bien, w/∥w∥ es un vector de

Resolviendo para γ ( i) se obtiene

Esto se calculó para el caso de un ejemplo de entrenamiento positivo en A en

Obsérvese que si ∥w∥ = 1, entonces el margen funcional es igual al margen

4 Clasificador de Margen óptimo

Por ahora, supondremos que se nos da un conjunto de entrenamiento que

y (i) (wT x(i) + b) ≥ 1, i = 1, . . . , m

También podría gustarte