Aaaa

aaaa
dcmesar
June 2023
1 Introduction
Empezaremos nuestra historia sobre las SVM hablando de márgenes. Esta
sección dará las intuiciones sobre los márgenes y sobre la ”confianza” de nues-
tras predicciones; estas ideas se harán formales en la Sección 3.
Inicialmente se considera la regresión logı́stica, donde la probabilidad p(y =

1 | x; θ) se modela por hθ (x) = g θT x . Entonces predecirı́amos ”1” en una
entrada x si y sólo si hθ (x) ≥ 0.5, o equivalentemente, si y sólo si θT x ≥ 0.
Consideremos un ejemplo de entrenamiento positivo (y = 1). Cuanto mayor sea
θT x, mayor será también hθ (x) = p(y = 1 | x; w, b) y, por tanto, mayor será
también nuestro grado de ”confianza” en que la etiqueta es 1.
Ası́, informalmente podemos pensar que nuestra predicción es muy segura

de que y = 1 si θT x ≫ 0. Del mismo modo, pensamos en la regresión logı́stica
como una predicción muy segura de y = 0, si θT x ≪ 0. Dado un conjunto
de entrenamiento, de nuevo informalmente parece que hemos encontrado un
buen ajuste a los datos de entrenamiento si podemos encontrar θ de modo que
θT x(i) ≫ 0 siempre que y (i) = 1, y θT x(i) ≪ 0 siempre que y (i) = 0, ya que
esto reflejarı́a un conjunto muy seguro (y correcto) de clasificaciones para todos
los ejemplos de entrenamiento. Este parece ser un buen objetivo, y pronto
formalizaremos esta idea utilizando la noción de márgenes funcionales.
Para un tipo diferente de intuición, considere la siguiente figura, en la que
las x representan ejemplos de entrenamiento positivos, las o denotan ejemplos
de entrenamiento negativos, un lı́mite de decisión (esta es la lı́nea dada por la
ecuación θT x = 0, y también se llama el hiperplano de separación) también se
muestra, y tres puntos también han sido etiquetados A, B y C.
Tenga en cuenta que el punto A está muy lejos de la frontera de decisión. Si

se nos pide hacer una predicción para el valor de y en A, parece que deberı́amos
estar bastante seguros de que y = 1 allı́. Por el contrario, el punto C está muy
cerca de la frontera de decisión, y si bien es en el lado de la frontera de decisión
en la que predecirı́a y = 1, parece probable que sólo un pequeño cambio en la
1
frontera de decisión fácilmente podrı́a haber causado nuestra predicción a ser
y = 0. Por lo tanto, estamos mucho más seguros de nuestra predicción en A
que en C. El punto B se encuentra entre estos dos casos, y en términos más
generales, vemos que si un punto está lejos del hiperplano de separación, en-
tonces podemos estar significativamente más seguros de nuestras predicciones.
De nuevo, informalmente pensamos que serı́a bueno que, dado un conjunto de
entrenamiento, pudiéramos encontrar un lı́mite de decisión que nos permitiera
hacer todas las predicciones correctas y fiables (es decir, lejos del lı́mite de de-
cisión) sobre los ejemplos de entrenamiento. Formalizaremos esto más adelante
utilizando la noción de márgenes geométricos.
2 Notación
Para facilitar nuestro análisis de las SVM, primero tendremos que introducir una
nueva notación para hablar de clasificación. Vamos a considerar un clasificador
lineal para un problema de clasificación binaria con etiquetas y y caracterı́sticas
x. A partir de ahora, vamos a utilizar y {−1, 1} (en lugar de {0, 1} ) para denotar
las etiquetas de clase. Además, en lugar de parametrizar nuestro clasificador
lineal con el vector θ, utilizaremos los parámetros w, b, y escribiremos nuestro
clasificador como
hw,b (x) = g wT x + b

Aquı́, g(z) = 1 si z ≥ 0, y g(z) = −1 en caso contrario. Esta notación ” w, b

” nos permite tratar explı́citamente el término de intercepción b por separado
de los demás parámetros. (También abandonamos la convención que tenı́amos
anteriormente de dejar que x0 = 1 sea una coordenada extra en el vector de
caracterı́sticas de entrada). Ası́, b toma el papel de lo que antes era θ0 , y w
T
toma el papel de [θ1 . . . θn ] .
Obsérvese también que, a partir de nuestra definición de g anterior, nuestro
clasificador predecirá directamente 1 o -1 (véase el algoritmo perceptrón), sin
pasar primero por el paso intermedio de estimar la probabilidad de que y sea 1
(que era lo que hacı́a la regresión logı́stica).
3 Margenes funcionales y geometricos

Formalizando las nociones de márgenes
funcionales y geométricos. Dado un
ejemplo de entrenamiento x(i) , y (i) , se define el margen funcional de (w, b)
con respecto al ejemplo de entrenamiento
γ̂ (i) = y (i) (wT x + b)
Observe que si y (i) = 1, para que el margen funcional sea grande (es decir,
para que nuestra predicción sea segura y correcta), necesitamos que wT x + b
sea un número positivo grande. Por el contrario, si y (i) = −1, para que el
2
T
margen funcional sea grande, necesitamos que w x + b sea un número negativo
(i) T
grande. Por otra parte, si y w x + b > 0, entonces nuestra predicción sobre
este ejemplo es correcta. (Compruébelo usted mismo.) Por lo tanto, un gran
margen funcional representa una confianza y una predicción correcta.
Para un clasificador lineal con la elección de g dada anteriormente (tomando
valores en {−1, 1} ), hay una propiedad del margen funcional que hace que no sea
una muy buena medida de confianza, sin embargo. Dada nuestra elección de g,
T
observamos que
si sustituimos w por 2w y b por 2b, entonces como g w x + b =
T
g 2w x + 2b ,

Aaaa

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Aaaa

Cargado por

Copyright:

Formatos disponibles

aaaa

Inicialmente se considera la regresión logı́stica, donde la probabilidad p(y =

Ası́, informalmente podemos pensar que nuestra predicción es muy segura

Tenga en cuenta que el punto A está muy lejos de la frontera de decisión. Si

Aquı́, g(z) = 1 si z ≥ 0, y g(z) = −1 en caso contrario. Esta notación ” w, b

3 Margenes funcionales y geometricos

γ̂ (i) = y (i) (wT x + b)

También podría gustarte