Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de Soporte Vectorial
Tipos de Variables
Modelo general de los métodos de Clasificación
|Id Reembolso Estado Ingresos
Civil Anuales Fraude Algoritmo
de
1 Sí Soltero 125K No
Aprendizaje
2 No Casado 100K No Generar
3 No Soltero 70K No el
4 Sí Casado 120K No Modelo
Divorcia
5 No 95K Sí
do
6 No Casado 60K No
10
Modelo
Tabla de Aprendizaje
Id Reembolso Estado Ingresos
Civil Anuales Fraude
Aplicar
7 No Soltero 80K No el
8 Si Casado 100K No Evaluar Modelo Nuevos
9 No Soltero 70K No Individuos
10
Tabla de Testing
Clasificación: Definición
• Dada una colección de registros (conjunto de
entrenamiento) cada registro contiene un conjunto de
variables (atributos) denominado x, con un variable
(atributo) adicional que es la clase denominada y.
Margen
denota +1
denota -1
¿Por qué se denominan Máquinas de Soporte Vectorial
(Support Vector Machines)?
n=Vector Director
¿Por qué se denominan Máquinas de Soporte Vectorial
(Support Vector Machines)?
x2
Margen
xb
xa
Vector Director
n
xc
Vectores de Soporte x1
Función discriminante lineal
g(x) es una función lineal: x2
w∙x+ b > 0
Se busca un hiperplano en
el espacio de las variables
n
x1
Función discriminante lineal
¿Cómo clasificar estos x2
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
x1
Función discriminante lineal
¿Cómo clasificar estos x2
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
x1
Función discriminante lineal
¿Cómo clasificar estos x2
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
¿Cuál es el mejor?
x1
Clasificador lineal con el margen más amplio
La función discriminante x2
Margen
lineal con el máximo “zona segura”
margen es la mejor
w x b 0
2
𝑑=
∥𝑤∥
Formulación del Problema:
Máquinas de Soporte Vectorial
Además maximizar:
2
𝑑=
∥𝑤∥
Es equivalente a minimizar: ∥ 𝑤 ∥2
𝑓 𝑤 =
2
Resolver un Problema Optimización
Un problema de ∥ 𝑤 ∥2
programación min
cuadrática con 𝑤 2
restricciones
lineales Sujeto a: 𝑦𝑖 (𝑤 ⋅ 𝑥𝑖 + 𝑏) ≥ 1 para 𝑖 = 1,2, … , 𝑛
Minimización de
Lagrange
𝑛
2
∥𝑤∥
𝐿𝑃 (𝑤, 𝑏, 𝜆𝑖 ) = − 𝜆𝑖 𝑦𝑖 𝑤 ⋅ 𝑥𝑖 + 𝑏 − 1
2
𝑖=1
0 x
0 x
La idea es… Encontrar una función para trasladar los datos a
un espacio de mayor dimensión:
x2
0 x
MVS no linealmente separables
Idea general: Los datos de entrada se puede trasladar a
algún espacio de mayor dimensión en el que la Tabla de
Entrenamiento sí sea separable:
Φ: x → φ(x)
MVS no linealmente separables
El Truco del Núcleo (Kernel Trick)
• La funciones de transformación del espacio vectorial
pueden ser vistas como un producto punto.
• Ejemplo:
El Truco del Núcleo (Kernel Trick)
Ejemplos: Algunas funciones núcleo 𝐾 usadas son:
𝐾 𝑥, 𝑦 = (𝑥 ⋅ 𝑦 + 1)𝑝
−∥𝑥−𝑦∥2 /(2𝜎 2 )
𝐾 𝑥, 𝑦 = 𝑒
𝐾 𝑥, 𝑦 = tanh(𝑘𝑥 ⋅ 𝑦 − 𝛿)
Matriz de confusión (Matriz de Error)