Está en la página 1de 20

FUNDACIN UNIVERSITARIA KONRAD LORENZ

FACULTAD DE MATEMTICAS E INGENIERAS


INGENIERA DE SISTEMAS
MQUINAS DE SOPORTE VECTORIAL
Por: Pervys Rengifo Rengifo
Leonardo Jimnez
El creciente desarrollo de la sociedad humana y las necesidades cada vez ms
imperiosas de optimizar los sistemas de diferente tipo, con el fin de satisfacer la
creciente demanda de bienes y servicios, ha desafiado a profesionales y
cientficos relacionados con todas las ramas del saber, para hallar procedimiento
operativos, que permitan resolver con xito los problemas relacionados con la
gestin y la preservacin de los recursos disponibles bajo los principios de
sostenibilidad ambiental y social. Estos retos, en general, no pueden ser atacados
con las tcnicas de modelacin clsicas, entre otras, por alguna(s) de las
siguientes razones:

Conocimientos y habilidades que exige su aplicacin.


No aprovechan todo el conocimiento disponible en los datos histricos
registrados.
Suposiciones que se hacen en cuanto a distribuciones de probabilidad y en
cuanto a la linealidad y estacionariedad de los procesos.
La mayora requiere una gran variedad y cantidad de datos registrados con
suficiente precisin(que en muchos casos se traduce en una imposibilidad
prctica)
Por otra parte, cuando de analiza el panorama actual de la sociedad moderna, se
pueden apreciar algunos hechos que pueden orientar mejores soluciones a los
problemas planteados:

Equipos de computacin con mayor capacidad y velocidad(computacin


molecular y quntica)

Los dispositivos para registrar informacin acerca de los sistemas son cada
vez ms sofisticados y eficientes, lo cual implica un incremento exponencial en
la cantidad y diversidad de informacin disponible, incluso en tiempo real.

Complejidad creciente en los enfoques utilizados para el estudio de los


sistemas, debido a la interaccin de mltiples agentes y sistemas, la
variabilidad temporal y la no- linealidad reinante en ellos, sobre todo a pequea
escala, y el conflicto de objetivos que se persiguen. La tendencia es hacia una
visin integral (holstica) de los problemas (inter-multi-transdisciplinariedad).

Creciente inters y necesidad en todas las disciplinas y profesiones de la


aplicacin de tcnicas de Minera de datos, Aprendizaje de mquinas,
Inteligencia Computacional, Computacin Suave, Sistemas Basados en el
conocimiento.
Resultado: Integracin de los modelos computacionales

convencionales, modelos conducidos por datos (data driven models), modelos,


datos y procedimientos de inters tradicional de otras disciplinas y ciencias,
tecnologas de la informacin y de las comunicaciones (TIC). Hibridacin de los
enfoques: Hidroinformtica, ecohidrologa, ecohidroinformtica, ecohidrulica,
sistemas expertos neurodifuso genticos.
Lo anterior, evidencia una clara tendencia a universalizar las tcnicas y
procedimientos que permitan abordar la complejidad de los sistemas y faciliten la
obtencin de resultados operativos tiles para resolver los problemas que se
presentan en la vida real. En este orden de ideas, y teniendo en cuenta que las
tcnicas de modelacin convencionales, slo funcionan adecuadamente para
problemas de complejidad muy restringida, las ingenieras y dems profesiones
relacionadas con la tecnologa, han renunciado, en algunos casos, a la
comprensin de los procesos en aras de obtener resultados prcticos requeridos
en el corto plazo, acogiendo diversas tcnicas de lo que se conoce como
computacin suave(softcomputing), en la cual se hace una renuncia explcita al
resultado preciso y exacto por otro que, a pesar de no ser tan exacto y preciso, si
es suficiente para alcanzar una solucin satisfactoria para problemas de gran
complejidad. Muchos de estos mtodos son catalogados como cajas negras,
debido a que, en general, cuando ellos se usan, no se est interesado en conocer
la estructura interna de los procesos que se modelan. Esta idea tiene mucha
similitud al proceso de toma de decisiones del ser humano, en el cual las
decisiones que se producen casi nunca son ptimas, entre otras razones, debido a
la incertidumbre y la difusividad de la informacin que recibe y a las limitaciones
de procesamiento y de tiempo.
Como se puede sospechar, el panorama actual ofrece una oportunidad nica para
la aplicacin y la integracin transversal de tcnicas de inteligencia artificial en
diferentes disciplinas y campos de investigacin. Esto ha dado origen a una
creciente formacin de profesionales de diferentes reas en temticas
relacionadas con la inteligencia computacional, que antes estaban relegadas a los
ingenieros informticos. Entre estas temticas se destacan las Redes Neuronales
Artificiales(ANN), los rboles de Decisin(AD), Mquinas de Soporte
Vectorial(MSV) y la Programacin Gentica(PG), que junto con diferentes mtodos
de bsqueda heurstica y meta heurstica como: Quimiotaxis, Bsqueda Tab,
Simulated Annealing(SA), Algoritmos genticos( y otros relacionados como los
algoritmos culturales y los algoritmos inmunolgicos), GRASP, Ant Colony
Optimization(ACO), Particle Swarm Optimization(PSO) y con otras tcnicas
estadsticas y de teora de sistemas de control tradicionales, han conformado un
paquete de herramientas tericas y operativas. Estas tcnicas, relacionadas con
el aprendizaje de mquina y la minera de datos, se han convertido en
herramientas indispensables para resolver muchos problemas, que debido a su
gran complejidad, antes era imposible resolver en tiempos razonables.
Sin embargo, a pesar del xito relativo en aplicaciones prcticas en muchos
campos de las ciencias y la ingeniera, estas tcnicas han sido fuertemente
criticadas, ya que, la mayora de ellas, slo proveen resultados operativos y no

obtienen explcitamente la funcin que transforma las entradas en salidas, es decir


la funcin de transformacin que representa al sistema. No obstante, es innegable
que son un camino efectivo y eficiente para modelar los fenmenos en
situaciones en donde el conocimiento explcito de los subprocesos internos no se
requiere, como es el caso de muchas situaciones prcticas en ingeniera.
Como se puede suponer de la discusin anterior, la disponibilidad de sistemas de
aprendizaje confiables es de importancia estratgica, ya que hay muchas tareas
que no pueden ser resueltas por tcnicas de programacin clsica, debido a que
no existen modelos matemtico disponibles para los problemas que implican. As
por ejemplo, no se sabe como escribir un programa de computador para realizar
reconocimiento de caracteres escritos, a pesar de que hay una gran cantidad de
ejemplos disponibles. De esta forma, es natural preguntarse, si un computador
puede ser entrenado para reconocer la letra A a partir de ejemplos, despus de
todo, es la manera como los humanos aprenden a leer.
Dada la creciente cantidad de datos para anlisis y la variedad y complejidad de
los problemas de anlisis de datos que son encontrados en los negocios, en la
industria, e investigaciones, resulta imprctico demandar la mejor solucin todo el
tiempo(es mejor una buena solucin en tiempo razonable que la mejor solucin en
un tiempo inaceptable). El sueo ltimo, es por supuesto tener disponible algn
agente inteligente que pueda preprocesar sus datos, aplicar las tcnicas
matemticas, estadsticas y de inteligencia artificial apropiadas y luego proveer
una solucin y una explicacin. El propsito de la minera de datos, en este
sentido, es usar las herramientas disponibles para analizar datos y proporcionar
soluciones parciales a un problema de negocios. En este contexto muchos
problema de ingeniera y dems ciencias aplicadas, pueden asociarse con
problemas de clasificacin y regresin. Estos problemas, como puede suponerse,
no son triviales y han demandado un gran esfuerzo, tanto cientfico como
tecnolgico.
Aunque existen muchas tcnicas alternativas para enfrentar problemas de
regresin y clasificacin, las mquinas de soporte vectorial han sido desarrolladas
como una herramienta robusta para regresin y clasificacin en dominios
complejos y ruidosos. Las MSV pueden ser usadas para extraer informacin
relevante a partir de conjunto de datos y construir algoritmos de clasificacin o de
regresin rpidos para datos masivos. Las MSV, aplicadas al problema de
clasificacin, mapean los datos a un espacio de caractersticas alto-dimensional,
donde se puede hallar ms fcilmente un hiperplano de separacin. Este mapeo
puede ser llevado a cabo aplicando el kernel, el cual transforma implcitamente el
espacio de entrada en un espacio de caractersticas de alta dimensin. El
hiperplano de separacin es calculado maximizando la distancia de los patrones
ms cercanos, es decir la maximizacin del margen. Las MSV pueden ser
definidas como un sistema para el entrenamiento eficiente de mquinas de
aprendizaje lineal en una espacio de caractersticas inducido por un kernel,
mientras respeta los principios de la teora de la generalizacin y explota la teora
de la optimizacin(Crisitianini&Shave-Taylor, 2000)
Las dos caractersticas claves de las mquinas de soporte vectorial son:

La teora de generalizacin, la cual conduce a una eleccin de hiptesis


basada en principios tericos; y
Un kernel de funciones, que introduce no linealidades en el espacio de
hiptesis sin requerir explcitamente algoritmos no lineales.
Las Mquinas de Soporte Vectorial (MSV) han sido aplicadas con xitos en
muchos problemas de la vida real y en diversas reas: reconocimiento de
patrones, Regresin, Multimedia, Bioinformtica, Inteligencia artificial, etc.
Muchas tcnicas como rboles de decisin, redes neuronales, algoritmos
genticos, etc., han sido usadas en esas reas; sin embargo, lo que distingue a
las MSV es su slida fundamentacin matemtica la cual est basada es la teora
del aprendizaje estadstico. Adems, ms que la minimizacin del error de
entrenamiento (riesgo emprico, como es el caso de las redes neuronales), la MSV
minimizan el riesgo estructural que expresa una cota superior del error de
generalizacin, es decir la probabilidad de una clasificacin errnea sobre
ejemplos no vistos todava. Esto hace particularmente conveniente a las MSV en
muchas aplicaciones con datos dispersos, ya que ese nfasis especial de las
MSV sobre la habilidad de generalizacin hace de esta aproximacin
particularmente interesante para aplicaciones del mundo real con limitada cantidad
de datos de entrenamiento
Estudiar las mquinas de soporte vectorial es til en dos aspectos:
Es completamente satisfactoria desde el punto de vista terico: Las SVM estn
basadas en unas ideas hermosamente simples y proporciona una clara
intuicin de que el aprendizaje a partir de ejemplo hace sentido as.
A menudo presentan excelente desempeo en aplicaciones prcticas
Para cierto tipo de algoritmos, la teora del aprendizaje estadstico puede
determinar ms precisamente los factores que deben ser tenidos en cuenta para
un aprendizaje exitoso. Las aplicaciones del mundo real, sin embargo, a menudo
demandan el uso de algoritmos y modelos ms complejos, como las redes
neuronales, que son muy difciles de analizar tericamente. El algoritmo de SVM
logra las dos. Construye modelos que son lo suficientemente complejos: ella
contiene una gran clase de redes neuronales, redes de funciones de base radial y
clasificadores polinomiales como casos especiales. Pero an es suficientemente
simple para ser analizado matemticamente, ya que se puede demostrar que
corresponde a mtodos lineales en un espacio de caractersticas alto-dimensional
relacionado no linealmente con el espacio de entrada. Adems aunque se pueden
pensar como un algoritmo lineal en un espacio alto-dimensional, en la prctica, no
involucra ninguna computacin en ese espacio alto-dimensional. Mediante el uso
de kernels, todos los clculos necesarios son realizados en el espacio de entrada.
Esta es una caracterstica peculiar del algoritmo de los mtodos SV. Se est
tratando con algoritmos complejos para reconocimiento de patrones no lineales,
regresin, o extraccin de caractersticas, pero para los propsitos del anlisis y
algortmico, slo se requiere trabajar con un simple algoritmo lineal.
Adems, los algoritmos basados en MSV, son diferentes de otros algoritmos
alternativos (tales como redes neuronales y programacin gentica) usados en
aprendizaje de mquina en muchos aspectos:

Ellos estn explcitamente basados en un modelo terico de aprendizaje ms


que sobre una analoga relajada con los sistemas de aprendizaje natural u
otras heursticas.

Ellos tienen garanta terica sobre su desempeo y tienen un diseo modular


que hace posible separar la implementacin y el anlisis de sus componentes.

Ellos, adems, no son afectados por el problema de los mnimos locales,


debido a que su entrenamiento se basa en problemas de optimizacin
convexa.

Por otra parte, en la ltima dcada, una considerable comunidad de tericos e


ingenieros se ha formado alrededor de estos mtodos, y se han realizado
numerosas aplicaciones prcticas. Aunque la investigacin sobre las MSV no ha
concluido, ya son muchos los mtodos basados en ellas que aparecen en el
estado del arte de diversas tareas de aprendizaje de mquina. Su fcil uso, su
atractivo terico, y su notable desempeo han hecho de ellas una buena eleccin
para muchos problemas de aprendizaje computacional. Las aplicaciones exitosas
varan desde la categorizacin de textos y reconocimiento de caracteres escritos
hasta la clasificacin de datos de expresiones de genes. En muchos aspectos, los
ltimos aos han sido testigos del surgimiento de un nuevo paradigma para el
aprendizaje de mquina, comparable a lo ocurrido en los aos 80s cuando la casi
simultnea introduccin de los algoritmos de rboles de decisin y de redes
neuronales revolucion la prctica en reconocimiento de patrones y minera de
datos. En unos pocos aos, una nueva comunidad se ha agrupado, involucrando
miles de investigadores e ingenieros, congresos y seminarios anuales, sitios web,
y libros. El tema de su investigacin: Las mquinas de soporte vectorial (MSV) y
otros mtodos basados en kernels (Norgaard L., 2002). Esto indica que las MSV
han evolucionado desde un concepto puramente acadmico soportado en la teora
del aprendizaje estadstico hasta convertirse en una tcnica popular del
aprendizaje de mquinas (Joel A. & Lim H., 2004).
En Colombia, la insercin real en esta tendencia es todava incipiente, pero ya
est tomando un fuerte impulso, aunque todava existe un desconocimiento
general sobre esta nueva concepcin de los modelos, por parte de los
investigadores y consultores. El campo especfico de las MSV se pudieron
identificar algunos autores tales como: Hurtado J. E, et al 2002 y Carvajal J. L. &
Branco J. W. 2005. Las causas posibles de esto, podran ser falta de fomento e
ilustracin de los procedimientos bsicos, falta de evidencia terica y prctica de la
efectividad operacional de ellas o
falta de herramientas conceptuales y
computacionales.
La Facultad de ingeniera de la FUKL, tiene el firme propsito investigativo de
convertirse, en el largo plazo en protagonista en investigacin a nivel nacional, por
lo tanto las MSV, constituyen una oportunidad muy especial para continuar en este

proceso, debido a su gran potencial en aplicaciones reales, lo que dara especial


impacto a sus resultados dada la pertinencia del problema que se ataca y el
panorama actual no slo nacional, sino mundialmente.
En concordancia con todo lo expuesto anteriormente se propone:
Constituir un marco conceptual, que permita establecer claramente los
procedimientos involucrados en las aplicaciones ms comunes, de las
Mquinas de Soporte Vectorial en problemas de clasificacin y de
regresin.
Identificar problemas, que al resolverlos con Mquinas de Soporte Vectorial,
permitan ilustrar tanto los conceptos y procedimientos fundamentales
sugeridos en el marco conceptual, como la potencia de esta tcnica en
casos reales.
Disear e implementar un aplicativo que facilite el uso de las Mquinas de
Soporte Vectorial a problemas de regresin y clasificacin, que incentive la
aplicacin de esta tcnica a problemas de diferentes contextos y disciplinas.

Con esta propuesta se busca pues, contribuir de forma efectiva a la comprensin


de los aspectos fundamentales de las Mquinas de Soporte Vectorial, como
tambin a la aplicabilidad prctica de este paradigma en la solucin de problemas
que involucren regresin o clasificacin. Esta investigacin que se propone, que
tiene el carcter de investigacin bsica, podra generar toda una serie de
investigaciones sobre aplicaciones y potenciacin de las Maquinas de Soporte
Vectorial como herramienta operativa y de anlisis en ingeniera. Adems, si se
hace una difusin adecuada dentro del medio acadmico, en poco tiempo se
podra tener investigaciones similares dentro de otras disciplinas, que sin duda,
valorarn la gran representatividad y las impensadas posibilidades de las
Maquinas de Soporte Vectorial.
Esta investigacin se constituira en una primera aproximacin a las Mquinas de
Soporte Vectorial que dara el soporte conceptual suficiente para iniciar diferentes
proyectos aplicados a casos especficos en donde se disponga de datos
histricos. En el futuro cercano podra conducir a la exploracin integral de las
diferentes formas y aplicaciones de las Mquinas de Soporte Vectorial, lo cual
podra conducir a consolidar una herramienta computacional que involucre las
diferentes tcnicas de estadstica multivariada y de inteligencia computacional
(Redes Neuronales, rboles de Decisin, Programacin Gentica, Mtodos
Bayesianos, etc.), para realizar minera de datos de forma efectiva.
Es de anotar que la temtica que se aborda, adems de estar dentro de la
tendencia mundial en investigacin en ingeniera, y es altamente pertinente, dado
el estado actual del conocimiento y las inmensas posibilidades que involucra en la
solucin de problemas reales.

De esta forma, el problema que se propone abordar mediante esta investigacin


se puede formular as: A travs de las mquinas de soporte vectorial se
pueden construir modelos de regresin y de clasificacin de buen
desempeo en aplicaciones prcticas?
Esta pregunta est motivada en la inmensa potencialidad que muchos autores han
identificado en las Mquinas de Soporte Vectorial como paradigma de modelacin,
y la preocupacin por la actualizacin permanente que debe caracterizar a un
programa de ingeniera de sistemas y corresponde a un convencimiento por parte
de los proponentes de que esta tcnica tiene un excelente desempeo en
aplicaciones prcticas que involucran problemas de clasificacin y/o de regresin,
lo que da lugar a la hiptesis bsica con la cual se inicia esta investigacin:
Las Mquinas de soporte vectorial son apropiadas para resolver exitosamente
problemas reales de regresin y clasificacin
La cual se soporta en las evidencias tericas y empricas reportadas por
investigadores de todo el mundo.
Con este proyecto y el anterior en esta lnea (Herramientas Conceptuales y
computacionales para la Aplicacin de Programacin Gentica en Regresin
Simblica) se empieza a consolidar un paquete de opciones en minera de datos
que permitiran en un futuro prximo hacer comparaciones entre las diferentes
tcnicas y paradigmas a la luz de aplicaciones prcticas especficas.

3.2 MARCO TERICO Y ESTADO DEL ARTE:


(Adaptado de Dibike Y., Solomatine D. et al, 2001)
El rpido avance el los sistemas de procesamiento de informacin en las dcadas
recientes, ha dirigido la investigacin en ingeniera hacia el desarrollo de sistemas
inteligentes que puedan evolucionar modelos de los fenmenos naturales
automticamente. En este sentido un amplio rango de tcnicas de aprendizaje de
mquina como rboles de decisin, redes neuronales artificiales(ANNs), Mtodos
Bayesianos, sistemas basados en reglas difusas y algoritmos evolucionarios han
sido exitosamente aplicados para modelar diferentes sistemas relacionados con la
ingeniera.
Como un resultado, el problema de la modelacin de datos empricos se ha vuelto
muy importante en aplicaciones de ingeniera. En tales circunstancias se usa un
proceso de induccin para construir un modelo del sistema particular, a partir del
cual se pretende deducir respuestas del sistema para situaciones que an no han
sido observadas. El desempeo de un modelo como tal, por lo tanto, depende de
la cantidad y calidad de las observaciones usadas durante el proceso de
aprendizaje del modelo. Sin embargo, en la mayora de los casos el conjunto de
datos no es tan grande y adems ha sido constituido a partir de un muestreo no

uniforme. Adems, debido a la naturaleza alta-dimensional de muchos problemas,


los datos forman slo una distribucin dispersa en el espacio de entrada. El
problema de la induccin es entonces considerado como un problema de hallar
una dependencia
plausible usando el nmero limitado de observaciones
disponibles. Las necesidades para tratar este problema han conducido a una
considerable atencin en la literatura cientfica en el uso de tcnicas de
aprendizaje de mquina para construir(o inducir) modelos
Una de las reas ms antiguas en la estimacin de dependencias a partir de
datos, es la estadstica, tal y como se puede evidenciar por los clsicos modelos
de regresin y clasificacin multivariadas. En los 1960s y los 1970s, surgen
nuevas tcnicas para el reconocimiento de patrones y el anlisis de cluster, las
cuales no estn a menudo, basados en la suposicin de distribuciones
estadsticas de buen comportamiento de proceso aleatorio (jane y Duber 1988).
Entre estas tcnicas estn los mtodos que intentan imitar al cerebro humano y
la percepcin como las redes neuronales y el sistema difusos (Tsoukalas y Uhrig
1997, Solomatin y Torres, 1996), Programacin gentica (Koza, 1992; Bavovic &
Keijzer, 2000), rboles de decisin (Quinlan 1986, 19992), y el aprendizaje
reforzado (Watkins y Dayan 1992, Wilson 1996). Al mismo tiempo, la extensin de
los principios de induccin estadsticamente basados continu para dar origen a
nuevos mtodos , tales como aprendizaje bayesiano (Leonhard y Hsu 1999). Otro
desarrollo en esta rea estuvo asociado la investigacin realizada en 1960-80s
en el instituto Paa el Control de Problemas de la Academia de Ciencias
Rusa(Vapnick y Lerner 1963; Vapnick y Chervonenskis 1974; Vapnick 1979). Mas
tarde esos resultados iniciales
fueron extendidos y generalizados para
proporcionar el tema conocido como Teora del aprendizaje estadstico(Vapnick
1995, 1998),el cual sirve como una base para la tcnica de las mquinas de
soporte vectorial(SVM). La teora de Vapnick est basada en slidos principios y
permite la generalizacin y el hallazgo de elementos comunes entre varia
tcnicas , incluyendo el muy popular mtodo de las redes neuronales y los
sistemas difusos.
Aunque el uso de los mtodos SV en aplicaciones ha comenzado solo
recientemente, un considerable nmero de investigadores ha reportado ya
estados del arte del su desempeo en una variedad de aplicaciones en
reconocimientos de patrones, estimacin de regresin, y la prediccin de series de
tiempo. Para mencionar unos pocos ejemplos, Osuna et al(1997) aplic SVM a la
clasificacin de imgenes digitales para deteccin de rostros humanos, mientras
que Mukherjee et al.(1997) y Muller et al(1997) usaron SVMs prediccin de series
de tiempo no lineales. Mattera y Hykin(1999) tambin ha reportado una aplicacin
til de SVMs para la reconstruccin dinmica de un sistema catico, y Dibike et
al(2001) reportan aplicaciones en anlisis de imgenes por clasificacin de
caractersticas
en datos de sensores remotos y en la modelacin de
transformaciones lluvia-escorrenta en tres cuencas diferentes.
A continuacin se har una exposicin breve de los principales conceptos y
elementos tericos y procedimentales de las mquinas de soporte vectorial(MSV)
3.2.1 TEORA DEL APRENDIZAJE ESTADSTICO

En la teora del aprendizaje estadstico( Vapnick, 1995,1998), el problema de


aprender una relacin entrada-salida a partir de un conjunto de datos es
generalmente visto como el problema de elegir , a partir de un conjunto dado de
funciones f(x, ), ( donde x Rn es un vector aleatorio tomado
independientemente de una funcin de distribucin de probabilidad P(x), fija pero
desconocida y es un conjunto de parmetros) la que mejor aproxime el valor
de la salida y para todos los vectores de entrada x, de acuerdo a una funcin
de distribucin condicional P(y/x), tambin fija pero desconocida. La seleccin de
la funcin deseada est basada en un conjunto de entrenamiento de l
observaciones independientes e idnticamente distribuidas (x 1,y1),..,(x , y ) tomados
de acuerdo a P(x,y) =P(x)P(y/x)
Si se considera que el valor esperado de las prdidas debido a los errores de
clasificacin o estimacin, est dado por el riesgo funcional
R L y, f x, dP x, y
(1)
L y , f x,
Donde
es la discrepancia entre las respuestas medida y y la
f x,
respuesta
proporcionada por la mquina de aprendizaje, la meta sera
f x, o
R
encontrar la funcin
que minimice el riesgo funcional
en la situacin
en donde la nica informacin disponible es el conjunto de entrenamiento.
Para el caso de reconocimiento de patrones de dos clases, la tarea del
aprendizaje a partir de ejemplos puede ser formulada de la siguiente forma: Se da
f :: , f : n 1,1
un conjunto de funciones
, y un conjunto de ejemplos,

es decir pares de patrones xi y etiquetas yi, (xi,yi), ...., (x , y ), Rn {-1,+1}, cada


uno de ellos generado a partir de una distribucin de probabilidad desconocida
P(x,y) que contiene la dependencia subyacente. Lo que se requiere ahora es
f
aprender la funcin
que proporciona el valor ms pequeo posible del error
promedio comprometido en los ejemplos independientes tomados aleatoriamente
de la misma distribucin , P, conocido como el riesgo. Sin embargo, el riesgo R
- es desconocido , ya que P(x,y) es desconocida; por lo tanto, se necesita un
principio de induccin para la minimizacin del riesgo. Uno de tales principios es
llamado el principio inductivo de la Minimizacin del Riesgo Emprico(ERM). Sin
embargo, esta aproximacin directa, que es minimizar el riesgo emprico:
1 l 1
Remp f x i y i
l i 1 2
(2)
l

no garantiza un riesgo real pequeo si el nmero l de ejemplos de entrenamiento


es limitada. En otras palabras, un error ms pequeo sobre el conjunto de
entrenamiento, no necesariamente implica una habilidad de generalizacin
mayor( es decir un error ms pequeo sobre el conjunto independiente de
prueba). Para hacer lo mximo con una cantidad limitada de datos, una novedosa
tcnica estadstica llamada Minimizacin del Riesgo Estructural ha sido
desarrollada(Vapnik, 1995,1998). La teora de la convergencia uniforme en
probabilidad, desarrollada por Vapnik y Chervonenkis(VC), provee cotas sobre la
desviacin del riesgo emprico con respecto al riesgo esperado. Esta teora
muestra que es crucial restringir la clase de funciones que la mquina de
aprendizaje puede implementar a una clase con una capacidad que resulte
conveniente para la cantidad de datos de entrenamiento disponibles.
l

Para
y l > h, una cota VC, la cual se verifica con probabilidad
, tiene la
siguiente forma (Vapnik, 1995, 1998):

R Remp

2l


h log 1 log
h

4
l

(3)
El parmetro h es llamado la dimensin-VC( Vapnik-Chervonenkis) de un conjunto
de funciones y ella describe la capacidad de un conjunto de funciones para
representar el conjunto de datos. La dimensin VC es una medida de la
complejidad del clasificador y ella es a menudo proporcional al nmero de
l
f
h
parmetros libre en el clasificador
. Especialmente cuando
es pequeo, un
riesgo emprico pequeo no garantiza un valor pequeo en el riesgo real o
estructural. En este caso, con el fin de minimizar el riesgo real R( ), se debe
minimizar el lado derecho de la desigualdad en la ecuacin (3) simultneamente
sobre ambos trminos. Para hacer esto, se hace de la dimensin VC una variable
controlante. Por lo tanto, el principio general, el cual se denomina principio
inductivo de minimizacin del riesgo estructural(SRM), fue motivado para
minimizar el riesgo funcional, con respecto a ambos trminos: el riesgo emprico y
el intervalo de confianza. (Vapnik y Chevonenkis, 1974). El trmino de confianza
VC en la ecuacin (3) depende de la clase de funciones elegidas, mientras que el
riesgo emprico depende de la funcin particular elegida por el proceso de
entrenamiento. El objetivo aqu es encontrar ese subconjunto del conjunto de
funciones elegidas, tal que la cota del riesgo para ese subconjunto sea mnima.
Esto se hace introduciendo una estructura que divida la clase completa de
funciones en subconjuntos anidados(Ver figura 1). SRM consiste en hallar ese
subconjunto de funciones que minimiza la cota sobre el riesgo real. Esto se hace
simplemente entrenando una serie de mquinas, una para cada subconjunto,
donde para un subconjunto dado, la meta de entrenamiento es simplemente
minimizar el riesgo emprico. Luego se toma la mquina para la cual la suma del
riesgo emprico y la confianza de VC sea mnima(Burges, 1998)

Figura 1: La cota del riesgo real es igual a la suma del riesgo emprico y el intervalo de confianza.

3.2.2 MQUINAS DE SOPORTE VECTORIAL


Cristianini y Shawe-Taylor (Cristianini & Shawe-Taylor, 2000), definen a las
mquinas de soporte vectorial (MSV) como un sistema de aprendizaje que usa un
espacio de hiptesis de funciones lineales en una espacio de caractersticas altodimensional, entrenado con un algoritmos de aprendizaje tomado de la teora de la
optimizacin que implementa un sesgo de aprendizaje derivado de la teora del
aprendizaje estadstico.
El fundamento del tema de las mquinas de soporte(SVM) ha sido desarrollado
principalmente por Vapnik y sus colaboradores(Vapnik 1995 & 1998) y los
correspondientes mtodos SV estn ganado popularidad debido a sus muchas
caractersticas atractivas y el promisorio desempeo emprico. Su formulacin
incorpora el principio de Minimizacin del Riesgo Estructural(SRM), el cual se ha
demostrado que es superior al ms tradicional principio de minimizacin del riesgo
emprico(ERM) empleado por muchas tcnicas de modelacin (Osuna, et al, 1997,
Gunn, 1998). Esta es la diferencia que proporciona a las SVM una habilidad
mayor para generalizar, la cual es la meta en aprendizaje estadstico.
3.2.2.1

CLASIFICACIN POR VECTORES DE SOPORTE

Considere el problema de separar el conjunto de vectores de entrenamiento (x1,


y1),...,(x , y ), Rn que pertenecen a dos clases separadas (yi={1,-1}). En este
problema la meta es separar los vectores de entrenamiento en dos clases
mediante un hiperplano.
l

w x b 0, w R n

y b R

(4)
Donde w y b son parmetros que se inducen a partir de los ejemplos disponibles
correspondientes a la funcin de decisin f(x)=sign(wx+b) tal que ella se
desempea bien sobre ejemplos no vistos, es decir que generaliza bien.

Para el caso del espacio de entrada bidimensional como se muestra en la figura


(2), hay muchos posibles clasificadores lineales que pueden separar los datos;
pero hay slo uno que maximiza el margen( es decir, maximiza la distancia entre
el y el dato ms cercado de cada clase). Este clasificador lineal es llamado el
hiperplano de separacin ptima. Se ha demostrado, adems que el hiperplano
ptimo, definido como el que tiene el margen mximo de separacin entre las dos
clases, tiene la capacidad ms baja y minimiza la cota sobre el riesgo real(Vapnik,
1979).

Figura 2: Hiperplano de separacin ptima para el caso bidimensional

El hiperplano (wx)+b=0 satisface las condiciones:


w xi b 0 si y i 1
w xi b 0 si y i 1
y

(5)

Combinando las dos expresiones en la ecuacin (5) y escalando w y b, con un


factor apropiado, una superficie de decisin equivalente se puede formular como
aquella que satisfaga la restriccin:

y i w x i b 1,

i 1,2,..., l

Se puede demostrar que el hiperplano que separa ptimamente los datos en dos
clases es aquel que minimiza el funcional:
w

w
2

(7)

Por lo tanto, el problema de optimizacin puede ser reformulado como un


problema de optimizacin no restringida, usando multiplicadores de Langrange y
su solucin estara dada por la identificacin de los puntos de silla del funcional
de Lagrange(Minoux, 1986), como sigue:

L w, b,

w
2

i w x i b y i 1
i 1

(8)

i
Donde
son los multiplicadores de Lagrange. El Lagrangiano tiene que ser
minimizado con respecto a w y b, es decir:
l
l
l
L
L
0 i yi 0
0 w y i i xi 0 w y i i xi
w
b
i 1
i 1
i 1
y
Poniendo las expresin para wo en la ecuacin (8) resultar en la siguiente forma
dual de la funcin, que debe ser maximizada con respecto a las restricciones
i 0
l

W i
i 1
l

W i
i 1

1 l l
i j yi y j xi x j
2 i 1 j 1
1 l l
i j y i y j xi x j
2 i 1 j 1
(9)

Encontrar la solucin de la ecuacin (9) para problemas el mundo real usualmente


requerir
la aplicacin de tcnicas de
optimizacin de programacin
cuadrtica(QP) y mtodos numricos. Una vez se halla la solucin en la forma de
0 10 , 20 ,..., l0
un vector
, el hiperplano de separacin ptimo estar dado por:
0
1
w0
y i i xi
b0 w0 x r x s
vectores de soporte
2
y
Donde xr y xs son cualesquiera vectores de soporte uno de cada clase. Los
clasificadores pueden ser, entonces construidos como:

f x sign w0 x b0 sign

y x x b

0
i i
vectores de soporte

(10)

i0
Solamente los puntos xi, que tienen multiplicadores de Lagrange
diferentes
de cero son llamados Vectores de Soporte(SVs). Si los datos son linealmente

separables, todos los vectores de soporte estarn sobre el margen y por lo tanto,
el nmero de SV puede ser muy pequeo.
La solucin anterior slo se verifica para datos separables linealmente, y todava
debe ser
ligeramente modificada para datos no separables linealmente
i
introduciendo un nuevo conjunto de variables
que mide la cantidad en la cual
las restricciones son violadas( ver figura (2b)). Luego el margen es maximizado,
asumiendo una penalizacin proporcional a la cantidad de la violacin de la
restriccin. Formalmente se resuelve el siguiente problema:
2
w
w
Ci
2
Minimice
(11)
y i w xi b 1 i
i 0
Sujeto a
,y
i=1,...,l
Donde C es un parmetro elegido a priori y que define el costo de la violacin de
la restriccin. El primer trmino en la ecuacin (11) proporciona una minimizacin
de la dimensin VC de la mquina de aprendizaje, minimizando por lo tanto, el
segundo trmino en la cota de la ecuacin (3). De otra parte, la minimizacin en el
segundo trmino de la ecuacin (11) controla el riesgo emprico, el cual es el
primer trmino en la ecuacin (3). Esta aproximacin, por lo tanto, constituye una
implementacin prctica de la Minimizacin del Riesgo Estructural sobre el
conjunto de funciones dado. Con el fin de resolver este problema, el Lagrangiano
se construye como sigue:
2
l
l
w
l

L w, b,
C i i w x b y i 1 i i i
2
i 1
i 1
i 1
(12)
i
i
Donde
y
estn asociados con las restricciones en la ecuacin (11) y los
i
0 i C
valores de
tienen que ser acotados como
. De nuevo, la solucin de
este problema se determina por los puntos de silla de este Lagrangiano de forma
similar para el caso de datos separables.
En el caso donde una frontera lineal sea definitivamente inapropiada( o cuando la
superficie de decisin es no lineal), el SVM puede mapear el vector de entrada x,
en un espacio de caractersticas alto-dimensional z, eligiendo un mapeo no lineal a
priori. Entonces la SVM construye el hiperplano de separacin ptimo en este
espacio ms alto-dimensional. En este caso, los problemas de optimizacin de la
ecuacin(20) se convierten en :
l
1 l l
W i i j y i y j K x i x j
2 i 1 j 1
i 1
(13)

Donde K(x,y) es la funcin kernel que realiza el mapeo no lineal en el espacio de


caractersticas, y las restricciones permanecen sin cambio. La solucin de la
ecuacin anterior determina los multiplicadores de Lagrange, y un clasificador
que implementa en hiperplano de separacin ptima en el espacio de
caracterstica est dado por,

f x sign
y i i0 K x i x b0

vectores de soporte

(14)
Consecuentemente, todo lo que se ha derivado para el caso lineal es tambin
aplicable para un caso no lineal usando un kernel conveniente K en vez del
producto punto. Adems, usando diferentes funciones kernel, el algoritmo de SV
puede construir una variedad de mquinas de aprendizaje(ver figura 3), algunas
de las cuales parecen ser similares a arquitecturas clsicas. Funciones de base
radial, funciones polinomiales y ciertas funciones sigmoideas son entre otras que
proporcionan kernels aceptables y los correspondientes mapeos son descritos
como sigue:
d
K ( x, x i ) x x i 1
El kernel simple polinomial:
, donde el grado
del polinomio d, es definido por el usuario.

K x, x i e

x xi

Kernel de Funciones de Base Radial:


, donde
es definido por el usuario
K x, x i tanh b x x i c
Kernel de redes Neuronales:
, donde b y
c son definidos por el usuario.

Figura 3: Arquitectura de las Mquinas de Soporte Vectorial

El otro caso surge cuando los datos estn en mltiples clases. Con el fin de
obtener una clasificacin de k-clases, se construye un conjunto de clasificadores
binarios f1,f2,...,fk, cada uno entrenado para separar una clase del resto, y estos
son combinados para llevar a cabo la multiclasificacin( en un esquema de

votacin) de acuerdo con la salida mxima, antes de aplicar la funcin


signo(Scholkopf, 1997)
3.2.2.2

REGRESION POR VECTORES DE SOPORTE

Las SVMs pueden ser aplicadas tambin a problemas de regresin mediante la


introduccin de una funcin de prdida alternativa que es modificada para incluir
una medida de distancia(Smola, 1996). Sea y la variable observada que tiene
valores reales, y sea f(x, ), A, un conjunto de funciones reales que contiene
la funcin de regresin f(x,o). Considerando el problema de la aproximacin de un
conjunto de datos {(x1,y1), (x2,y2),...,(x ,y ), xRn, yR) con una funcin lineal,
f(x,)=(wx)+b, la funcin de regresin ptima est dada que minimiza el riesgo
emprico:
l

Remp w, b

1 l
y i f xi ,
l i 1

(15)
Con la funcin de prdida ms general con -zonas insensibles descrita como:
si y f x,

y f x;

y f x, de otra forma

(16)

El objetivo ahora es encontrar una funcin f(x, ), que tenga al mximo una
desviacin de con respecto a la salida observada yi para todos los datos de
entrenamiento, y al mismo tiempo es tan simple como sea posible. Esto es
equivalente a minimizar el funcional:
2
w
*
w, ,
C i* i
2
(17)
*,
Donde C es un valor preespecificado y
son variables comodines que
representan las restricciones superiores e inferiores sobre las salidas del
sistema(ver figura 4). Como sigue:
yi w x b i
i 1,2,, l

w x b yi i*

i 1,2,, l

(18)

i 0

0
*
i

Figura 4: Precisin pre-especificada y una variable comodn en un problema de regresin SV

Ahora la funcin de Lagrange es construida a partir de la funcin objetivo y las


restricciones correspondientes introduciendo un conjunto dual de variables, como
sigue:
L

w
2

i 1

l
l
l

i* i i y i w x b i* i* y i w xi b i i i* i*
i 1
i 1
i 1

(19)
Se sigue a partir de los puntos de la condicin de puntos de silla que las
derivadas parciales de L con respecto a las variables primarias (w,b, i, i*) tienen
que desvanecerse en la optimalidad. Substituyendo los resultados de esta
derivacin en la ecuacin (17) se obtiene el problema de optimizacin dual:
l
l
1 l l
W * , i* i yi i* i i* i *j j xi x j
2 i 1 j 1
i 1
i 1
(20)

Que tiene que ser maximizada sujeta a las restricciones:


i* i 0 i* C 0 i C
;
y
para i=1,2,...,l
*
i
i
Una vez los coeficientes
y
, son determinados a partir de la ecuacin (20),
los vectores deseados se pueden encontrar como:
wo
f x i* i xi x bo
i* i xi

vectores de soporte

, y por lo tanto,

Donde

bo wo x r x s
2

(22)

(21)

De nuevo, cuando la regresin lineal no sea apropiada, como en el caso de la


mayora de aplicaciones en ingeniera, un kernel de mapeo no lineal K se usa para
mapear los datos en un espacio de caractersticas de dimensin mayor en donde
se puede realizar la regresin lineal. Una vez se obtienen los valores ptimos de
i0 i0*
y
, entonces la funcin de regresin est dada por:

f x w0 x b0
(23)
En donde
w0 x

0*
i
vectores de soporte

i0 K xi , x

b0

i0* i0 K xr , xi K x s , xi

2 vectores de soporte

Babovic, V. and Keijzer, M. 2000 Genetic programming as a model induction


engine. Journal of Hydroinformatics. 2 (1), 35-60.
Burges, C.J.C., 1998, A Tutorial on Support Vector Machines for Pattern
Recognition, Data Mining and Knowledge Discovery, 2 (2), 121-167.
Dibike, Y. B. 2000 Machine Learning Paradigms for Rainfall-Runoff Modelling,
en The Proc. of the 3rd International Conference on Hydroinformatics, Iowa City,
USA.
Dibike, Y., Solomatine D. et al. 2001. Model Induction with Support Vector
Machines: Introduction and Applications. En ASCE Journal of Computing in
Civil Engineering, July 2001, vol. 15, No. 3, pp. 208-216
Gunn, S. 1998 Support Vector Machines for Classification and Regression.
ISIS Technica Report.
Jan A.K. and Dubes R.C. 1988 Algorithms for Clustering Data. Prentice Hall,
USA.
Koza, J.R., 1992 Genetic Programing: on the programming of computers by
natural selection, MIT, Cambridge, MA.

Mattera D. and Haykin S. 1999 Support vector machines for dynamic


reconstruction of a chaotic system. In Scholkopf et al, editors, Advances in
Kernel Methods Support Vector Learning, Cambridge, MA, MIT Press, 211242..
Minoux, M. 1986 Mathematical Programing: Theory and Algorithms. John Wiley
and Sons.
Mukherjee, S. Osuna, E. and Girosi, F. 1997 Nonlinear prediction of chaotic
time series using support vector machine. In proceedings of the IEEE
Workshop on Neural Networks for Signal Processing 7, Amerlia Island, FL, 511519.
Muller, K.R., Smola, A. Ratsch, G., Scholkopf, B., Kohlmorgen, J. and Vapnik,
V. 1997 Predicting time series with support vector machines. In proceedings,
International Conference on Artificial Neural Networks, Springer Lecture Notes
in Computer Science, page 999.
Norgaard, M., Ravn, O., Poulsen, N.K., and Hansen L.K. 2000, Neural
Networks for Modelling and Control of Dynamic Systems, Springer, London.
Norgaaad Lars. 2002. Journal of Chemometrics, Proceedings of the 7th
Scandinavian Symposium on Chemometrics. Volume 16, Issue 8-10 , Pages 482
489. John Wiley & Sons.2002
Osuna, E., Freund, R. and Girosi, F. 1997 An improved training algorithm for
support vector machines. In Proc. of the IEEE Workshop on Neural Networks
for Signal Processing VII, New York, 276-285.
Quinlan, J. R. 1986 Induction of decision trees. Machine Learning. 81-106.
Quinlan, J. R. 1992 C4.5: program for machine learning. Morgan Kaufmann.
Schalkoff, R.J. 1997 Artificial Neural Networks, McGraw-Hill, New York.
Scholkopf, B. 1997 Support Vector Learning, R. Oldenbourg, Munich.
Smola, A. 1996 Regression Estimation with Support Vector Learning Machines,
Technische Universitat Munchen.
Solomatine D.P. and Torres L.A. 1996 Neural network approximation of a
hydrodynamic model
in optimizing reservoir operation - Proc. 2nd Intern. Conference on
Hydroinformatics, Zurich, September 9-13, 201-206. TR-20 project formulation
hydrology 1965, USDA Soil Conservation Service (SCS), Central Technical
Service, Portland USA.
Tsoukalas, L.H. and Uhrig, R.E. 1997 Fuzzy and Neural Approaches in
Engineering. John Wiley and Sons, N.Y., 587.
Vapnik, V. 1995 The Nature of Statistical Learning Theory, Springer, New York.
Vapnik, V. 1998 Statistical Learning Theory, Wiley, New York.
Vapnik, V., & Chervonenkis 1974 Theory of Pattern Recognition [in Russian],
Nauka, Moscow.
Watkins, C.J.C.H. and Dayan, P. 1992, Q-learning. Machine learning, 8, 279292.

Wilson, G. 1996 Reinforcement learning: A new technique for the real-time


optimal control of hydraulic networks. Proc. 2nd Int. Conference on
Hydroinformatics, Zurich, 9-13. September, 2, 893-900.
(Joel A. & Lim H., 2004) Amrit L. Goel & Hojung Lim. 2004. Support Vector
Machines and Their Applications in Systems Engineering, publicado en Tutorial
at the 8th IEEE International Symposium on High Assurance Systems
Engineering (HASE 2004) March 25 26, 2004, Tampa, Florida
Hurtado J. E., Henao R., Castellanos G. 2002. Clasificacin de Seales
Ssmicas por Medio de Onditas y Mquinas de Soporte Vectorial. Primer
Simposio Colombiano de Sismologa. INGEOMINAS. 2002
Carvajal J. L. & Branco J. W. 2005. Comparacin de Modelos de Clasificacin
Automtica de Patrones Texturales de Minerales Presentes en los Carbones
Colombianos. Dyna, Ao 72, Nro. 146, pp. 115-124. Medelln, Julio de 2005.
ISSN 0012-7353

También podría gustarte