Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aaaa
Aaaa
dcmesar
June 2023
1 Introduction
Empezaremos nuestra historia sobre las SVM hablando de márgenes. Esta
sección dará las intuiciones sobre los márgenes y sobre la ”confianza” de nues-
tras predicciones; estas ideas se harán formales en la Sección 3.
1
frontera de decisión fácilmente podrı́a haber causado nuestra predicción a ser
y = 0. Por lo tanto, estamos mucho más seguros de nuestra predicción en A
que en C. El punto B se encuentra entre estos dos casos, y en términos más
generales, vemos que si un punto está lejos del hiperplano de separación, en-
tonces podemos estar significativamente más seguros de nuestras predicciones.
De nuevo, informalmente pensamos que serı́a bueno que, dado un conjunto de
entrenamiento, pudiéramos encontrar un lı́mite de decisión que nos permitiera
hacer todas las predicciones correctas y fiables (es decir, lejos del lı́mite de de-
cisión) sobre los ejemplos de entrenamiento. Formalizaremos esto más adelante
utilizando la noción de márgenes geométricos.
2 Notación
Para facilitar nuestro análisis de las SVM, primero tendremos que introducir una
nueva notación para hablar de clasificación. Vamos a considerar un clasificador
lineal para un problema de clasificación binaria con etiquetas y y caracterı́sticas
x. A partir de ahora, vamos a utilizar y {−1, 1} (en lugar de {0, 1} ) para denotar
las etiquetas de clase. Además, en lugar de parametrizar nuestro clasificador
lineal con el vector θ, utilizaremos los parámetros w, b, y escribiremos nuestro
clasificador como
hw,b (x) = g wT x + b
Observe que si y (i) = 1, para que el margen funcional sea grande (es decir,
para que nuestra predicción sea segura y correcta), necesitamos que wT x + b
2
sea un número positivo grande. Por el contrario, si y (i) = −1, para que el
T
margen funcional sea grande, necesitamos que w x + b sea un número negativo
(i) T
grande. Por otra parte, si y w x + b > 0, entonces nuestra predicción sobre
este ejemplo es correcta. (Compruébelo usted mismo.) Por lo tanto, un gran
margen funcional representa una confianza y una predicción correcta.
Dado un conjunto de entrenamiento S = x(i) , y (i) ; i = 1, . . . , m , también
definimos el margen funcional de (w, b) con respecto a S como el menor de los
márgenes funcionales de los ejemplos individuales de entrenamiento. Denotado
por γ̂, se puede escribir:
γ̂ = min γ̂ (i)
i=1,...,m
3
geométrico no cambia. Esto nos resultará útil más adelante. Especı́ficamente,
debido a esta invariancia a la escala de los parámetros, al intentar ajustar w
y b a los datos de entrenamiento, podemos imponer una restricción de escala
arbitraria en w sin cambiar nada importante; Por ejemplo, podemos exigir que
∥w∥ = 1, o |w1 | = 5, o |w1 + b|+|w2 | = 2, y cualquiera de ellas puede satisfacerse
simplemente reescalando w y b.
Por último, dado un conjunto de entrenamiento S = lef t(x(i) , y (i) ; i =
1, . . . , m}, también definimos el margen geométrico de (w, b) con respecto a S
como el menor de los márgenes geométricos de los ejemplos de entrenamiento
individuales:
γ = min γ (i)
i=1,...,m
(i) T (
y (w x i) + b) ≥ γ, i = 1, . . . , m
∥w∥ = 1.
Es decir, queremos maximizar γ, siempre que cada ejemplo de entrenamiento
tenga un margen funcional de al menos γ. La restricción ∥w∥ = 1 además
asegura que el margen funcional es igual al margen geométrico, por lo que
también se garantiza que todos los márgenes geométricos son al menos γ. Ası́, la
resolución de este problema dará lugar a (w, b) con el mayor margen geométrico
posible con respecto al conjunto de entrenamiento.
Si pudiéramos resolver el problema de optimización anterior, habrı́amos ter-
minado. Pero la restricción ”∥w∥ = 1” es desagradable (no convexa), y este
problema ciertamente no está en ningún formato que podamos introducir en un
software de optimización estándar para resolverlo. Ası́ que vamos a tratar de
transformar el problema en uno más agradable. Consideremos:
γ̂
max
γ,w,b ∥∥w∥∥
4
y (i) (wT x( i) + b) ≥ γ̂, i = 1, . . . , m
Aquı́, vamos a maximizar γ̂/∥w∥, sujeto a los márgenes funcionales todos siendo
al menos γ̂. Dado que los márgenes geométricos y funcionales están relacionados
por γ = γ̂/||w |, esto nos dará la respuesta que queremos. Además, nos hemos
librado de la restricción ∥w∥ = 1 que no nos gustaba. La desventaja es que
ahora tenemos una desagradable (de nuevo, no convexa) objetivo f racγ̂∥w∥
función; y, todavı́a no tenemos ningún software off-the-shelf que puede resolver
esta forma de un problema de optimización.
Sigamos. Recordemos nuestra discusión anterior que podemos añadir una
restricción de escala arbitraria en w y b sin cambiar nada. Esta es la idea
clave que utilizaremos ahora. Vamos a introducir la restricción de escala que el
margen funcional de w, b con respecto al conjunto de entrenamiento debe ser 1
:
γ̂ = 1
Dado que multiplicar w y b por alguna constante resulta en que el margen
funcional se multiplica por esa misma constante, esto es de hecho una restricción
de escala, y puede ser satisfecha mediante el reescalado de w, b. Insertar esto
en nuestro problema anterior, y teniendo en cuenta que la maximización de
γ̂/∥w∥ = 1/∥w∥ es lo mismo que minimizar ∥w∥2 , ahora tenemos el siguiente
problema de optimización:
1
min ||w∥2
γ,w,b 2