Está en la página 1de 3

aaaa

dcmesar
June 2023

1 Introduction
Empezaremos nuestra historia sobre las SVM hablando de márgenes. Esta
sección dará las intuiciones sobre los márgenes y sobre la ”confianza” de nues-
tras predicciones; estas ideas se harán formales en la Sección 3.

Inicialmente se considera la regresión logı́stica, donde la probabilidad p(y =


1 | x; θ) se modela por hθ (x) = g θT x . Entonces predecirı́amos ”1” en una
entrada x si y sólo si hθ (x) ≥ 0.5, o equivalentemente, si y sólo si θT x ≥ 0.
Consideremos un ejemplo de entrenamiento positivo (y = 1). Cuanto mayor sea
θT x, mayor será también hθ (x) = p(y = 1 | x; w, b) y, por tanto, mayor será
también nuestro grado de ”confianza” en que la etiqueta es 1.

Ası́, informalmente podemos pensar que nuestra predicción es muy segura


de que y = 1 si θT x ≫ 0. Del mismo modo, pensamos en la regresión logı́stica
como una predicción muy segura de y = 0, si θT x ≪ 0. Dado un conjunto
de entrenamiento, de nuevo informalmente parece que hemos encontrado un
buen ajuste a los datos de entrenamiento si podemos encontrar θ de modo que
θT x(i) ≫ 0 siempre que y (i) = 1, y θT x(i) ≪ 0 siempre que y (i) = 0, ya que
esto reflejarı́a un conjunto muy seguro (y correcto) de clasificaciones para todos
los ejemplos de entrenamiento. Este parece ser un buen objetivo, y pronto
formalizaremos esta idea utilizando la noción de márgenes funcionales.
Para un tipo diferente de intuición, considere la siguiente figura, en la que
las x representan ejemplos de entrenamiento positivos, las o denotan ejemplos
de entrenamiento negativos, un lı́mite de decisión (esta es la lı́nea dada por la
ecuación θT x = 0, y también se llama el hiperplano de separación) también se
muestra, y tres puntos también han sido etiquetados A, B y C.

Tenga en cuenta que el punto A está muy lejos de la frontera de decisión. Si


se nos pide hacer una predicción para el valor de y en A, parece que deberı́amos
estar bastante seguros de que y = 1 allı́. Por el contrario, el punto C está muy
cerca de la frontera de decisión, y si bien es en el lado de la frontera de decisión
en la que predecirı́a y = 1, parece probable que sólo un pequeño cambio en la

1
frontera de decisión fácilmente podrı́a haber causado nuestra predicción a ser
y = 0. Por lo tanto, estamos mucho más seguros de nuestra predicción en A
que en C. El punto B se encuentra entre estos dos casos, y en términos más
generales, vemos que si un punto está lejos del hiperplano de separación, en-
tonces podemos estar significativamente más seguros de nuestras predicciones.
De nuevo, informalmente pensamos que serı́a bueno que, dado un conjunto de
entrenamiento, pudiéramos encontrar un lı́mite de decisión que nos permitiera
hacer todas las predicciones correctas y fiables (es decir, lejos del lı́mite de de-
cisión) sobre los ejemplos de entrenamiento. Formalizaremos esto más adelante
utilizando la noción de márgenes geométricos.

2 Notación
Para facilitar nuestro análisis de las SVM, primero tendremos que introducir una
nueva notación para hablar de clasificación. Vamos a considerar un clasificador
lineal para un problema de clasificación binaria con etiquetas y y caracterı́sticas
x. A partir de ahora, vamos a utilizar y {−1, 1} (en lugar de {0, 1} ) para denotar
las etiquetas de clase. Además, en lugar de parametrizar nuestro clasificador
lineal con el vector θ, utilizaremos los parámetros w, b, y escribiremos nuestro
clasificador como

hw,b (x) = g wT x + b


Aquı́, g(z) = 1 si z ≥ 0, y g(z) = −1 en caso contrario. Esta notación ” w, b


” nos permite tratar explı́citamente el término de intercepción b por separado
de los demás parámetros. (También abandonamos la convención que tenı́amos
anteriormente de dejar que x0 = 1 sea una coordenada extra en el vector de
caracterı́sticas de entrada). Ası́, b toma el papel de lo que antes era θ0 , y w
T
toma el papel de [θ1 . . . θn ] .
Obsérvese también que, a partir de nuestra definición de g anterior, nuestro
clasificador predecirá directamente 1 o -1 (véase el algoritmo perceptrón), sin
pasar primero por el paso intermedio de estimar la probabilidad de que y sea 1
(que era lo que hacı́a la regresión logı́stica).

3 Margenes funcionales y geometricos


Formalizando las nociones de márgenes
 funcionales y geométricos. Dado un
ejemplo de entrenamiento x(i) , y (i) , se define el margen funcional de (w, b)
con respecto al ejemplo de entrenamiento

γ̂ (i) = y (i) (wT x + b)

Observe que si y (i) = 1, para que el margen funcional sea grande (es decir,
para que nuestra predicción sea segura y correcta), necesitamos que wT x + b
sea un número positivo grande. Por el contrario, si y (i) = −1, para que el

2
T
margen funcional sea grande, necesitamos  que w x + b sea un número negativo
(i) T
grande. Por otra parte, si y w x + b > 0, entonces nuestra predicción sobre
este ejemplo es correcta. (Compruébelo usted mismo.) Por lo tanto, un gran
margen funcional representa una confianza y una predicción correcta.
Para un clasificador lineal con la elección de g dada anteriormente (tomando
valores en {−1, 1} ), hay una propiedad del margen funcional que hace que no sea
una muy buena medida de confianza, sin embargo. Dada nuestra elección de g,
T
observamos que
 si sustituimos w por 2w y b por 2b, entonces como g w x + b =
T
g 2w x + 2b ,

También podría gustarte