Está en la página 1de 16

Aprendizajeautomtico:

mtodosyaplicaciones
FernandoDazGmez
Depto.deInformtica
E.U.deInformtica UVa

contenidos
Introduccinalaprendizajeautomtico
Aprendizajeinductivo
Aprendizajesupervisado
Aprendizajenosupervisado

antecedentes:sistemasexpertos
LosiniciosdelaInteligenciaArtificial(AI,ArtificialIntelligence)secentraron
eneldesarrollodesistemasexpertos(expert systems),esdecir,
aplicacinqueemulalacapacidaddetomadedecisionesporpartedeunexperto
humanoenlaresolucindeunproblemaenundominiodeaplicacinespecfico

Eldesarrollodelossistemasexpertosparticipabanhabitualmenteun
experto(eneldominiodeaplicacin)yuningenierodeconocimiento
Elingenierodeconocimientoextraereglasapartirdeentrevistasconelexpertoy
utilizaestasreglasparacrearelprograma(sistema)experto
Enesteprocesodedesarrollo,elcuellodebotellaeslainteraccinexpertoingeniero
deconocimiento

Seramuchomejorsisepudieraautomatizarelprocesodeingenierade
conocimientoomejoransiseconsiguieraqueelsistemaadquirierala
capacidaddeaprenderaserunexpertoapartirdeunaseriedeejemplos
3

definiciones:aprendizajeautomtico
"Fieldofstudythatgivescomputerstheabilitytolearnwithoutbeingexplicitly
programmed"(ArthurSamuel,1959)
Dadoqueesimposiblepreverlasolucindetodoslosproblemas,sebusca
aportaralosprogramaslacapacidaddeadaptarse sintenerqueser
reprogramados
AnychangeinaSystemthatallowsittoperformbetterthesecondtimeon
repetitionofthesametaskoronanothertaskdrawnfromthesame
population(Herber Simon,1989)
Unatributodeunagenteinteligenteeslacapacidaddeadaptacin,enbasea
laexperienciaadquirida,paramejorarsudesempeoentareasconocidaso
resolvernuevosproblemassimilares
4

motivacin:porquaprender?
Paraentenderymejorarlaeficienciadelaprendizajehumano
Paradescubrirnuevosconceptos,estructurasopatronestiles,
previamentedesconocidos:mineradedatos(DM,DataMining)o
descubrimientodeconocimiento(KD,Knowledge discovery)
Paraposibilitarlaresolucindeproblemasenlosqueelconocimiento
acercadesudominioesparcialoincompleto
LamayoradesistemasdeIAqueresuelvenproblemasreales(yportanto,complejos
ygrandes)nopuedenconstruirsedirectamenteyrequierenmecanismosde
actualizacindinmicosqueincorporennuevainformacin/conocimiento
Elaprendizajedenuevascaractersticasamplaelconocimientoacercadeldominioy
reducelafragilidaddelsistema

Paraconstruiragentessoftwarequepuedanadaptarseasususuariosu
otrosagentessoftware
5

motivacin:porquaprender?
Comoherramienta,elaprendizajeautomticoestilpara
implementar:
Tareasdifcilesdeprogramar(reconocimientodecaras,voz,...)
Aplicacionesautoadaptables(interfacesinteligentes,sistemasantispam,
sistemasderecomendacin,...)
Mineradedatos(anlisisdedatosinteligente),etc.

entodotipodedominiosdeaplicacin:
Bsquedasweb,Biologacomputacional(bioinformtica),Finanzas,Comercio
electrnico,Exploracindelespacio,Robtica,Extraccindeinformacin
Redessociales,etc.

principalesenfoquesdeaprendizaje
automtico
Aprendizajememorstico:seestableceunacorrespondencia1a1entrelas
entradasylarepresentacinalmacenada,almacenamientoyrecuperacin
basadosenlaasociacin
Aprendizajebasadoenanalogas:determinarlacorrespondenciaentre
dosrepresentacionesdiferentes
Aprendizajeinductivo:seutilizanejemplosespecficosparaalcanzar
conclusiones(hiptesis,modelos)generales
Algoritmosgenticos:tcnicasdebsquedaevolutivas,basadosenlaanalogadela
supervivenciadelmejoradaptado
Redesneuronalesartificiales:modelosdecomputacinyaprendizajeinspiradosen
elcerebrohumano

Aprendizajeporrefuerzo:Realimentacinproporcionadaalfinaldeuna
secuenciadepasos,medianteunrefuerzopositivoonegativo
7

aprendizajeinductivo
Dadounconjuntodeejemplos,sontodoslosmtodosquetratande
extrapolarlainformacincontenidaenellospararealizarprediccioneslo
msprecisasposiblessobrefuturosejemplos
Importante,lacapacidaddegeneralizacindelosmtodosdeaprendizajeinductivo

Aprendizajesupervisadovs.Aprendizajenosupervisado
Aprenderunafuncin/modelodesconocidof(X)=Y,dondeXesunejemplode
entradaeYeslasalidadeseada
Elaprendizajesupervisadoimplicaquesenosproporcionanunconjuntodeparesde
entrenamiento(X,Y)porpartedeunprofesor(unsupervisor)
Elaprendizajenosupervisadosignificaqueslodisponemosdelosejemplosde
entradaXyalgunafuncinderealimentacin/evaluacindenuestrorendimiento
8

aprendizajeinductivo:mtodos
Supervisados

Lineales

No supervisados

No Lineales K-Means

Regresin Regresin Perceptron


lineal
logstica
Sencillos

Decision Rule
Trees
Learning

Nave
Bayes

Self-Organizing
Maps

Combinados
Bagging

Interpretables

EM

Boosting

Difciles de interpretar
k-Nearest
Multi-Layer
Neighbours Perceptron

SVM

Random
Forests

aprendizajeinductivo:cuestionesasociadas
Ademsdelascuestionesrelacionadasconeldiseodemtodosde
aprendizaje,existenotronmerodecuestionesasociadasquedeben
tratarse,comoporejemplo:
Seleccindecaractersticas(FS,Feature Selection):mtodosdefiltrado,envolventes,
embebidos
Reduccindeladimensionalidad,porejemplo,PCA(PrincipalComponent Analysis)
Valoresperdidos,incompletos,etc.(unadelasfuentesdeincertidumbre)
Aprendizajesensiblealcoste(falsospositivos,falsosnegativos)
Distribucionesnobalanceadasdelosdatosentrenamiento
Visualizacindedatos(ndimensionales)
Evaluacindelrendimientodelosmtodosdeaprendizaje(metodologa
experimental)
Incorporacindeconocimientoexplcitodeldominio

10

aprendizajesupervisado
DadounconjuntodeejemplosdeentradaXysucorrespondiente
valordeseadoYparacadaunodeellos,setratadeestableceruna
funcin(modelo/hiptesis)f(),quepermitapredecirelvalorY*=f(X*)
paranuevosejemplosX*
Sif()esunafuncindiscreta,sehabladeclasificacinsupervisada
Engeneral,clasificacinmulticlase,ysif()slopuedetomardosvalores(ejemplos
positivosynegativos)sehabladeclasificacinbiclase oaprendizajedeconceptos
(conceptlearning)

Sif()esunafuncincontinua,sehablademodelosderegresin
Sif()esunaprobabilidad,sehabladeestimacindedistribucionesde
probabilidad
11

clasificacinsupervisada
Losdatosdeentradabruto(quesuelenprocederdesensores)sepre
procesanparaobtenerelvectordecaractersticas(feature vector)X,que
convenientementedescribetodaslascaractersticasrelevantespara
clasificarlosejemplos
Enlosenfoquesdeaprendizajesimblico,cadadatotieneasociadoun
significado,porejemploenformadelistadeparesatributovalor
Ejemplo:X=[Persona:Juan,ColorOjos:Marrn;Edad:Joven;Sexo:Hombre]>
Variedadderepresentacindelosdominiosdelosatributos:discretosvscontinuos,
etc.

As,cadaejemplodisponibledelconjuntodeentrenamientosepuede
interpretarcomounpuntoenelespaciondimensionaldelespaciode
caractersticas(feature space)F,dondeneselnmerodeatributosque
describencadaejemplo
12

clasificacinsupervisadacomounabsqueda
Elespaciodeinstancias(instance space)I defineellenguajeparalosejemplos
delconjuntodeentrenamiento(trainingset)ydevalidacin(testset)
Tpicamente,peronoesassiempre(porejemplo,SVMs)cadainstanciai Iesunvectorde
caractersticas
Lascaractersticassedenominanavecestambinatributosovariables
I:V1xV2xxVk,i=(v1,v2,,vk)

LavariabledeclaseCproporcionalaclasedelainstancia(ejemplo)quetieneque
predecirse
Elespaciodemodelos(modelspace)M definetodoslosposiblesclasificadores
M:I C,dondeM={m1,...,mn}esposiblementeunconjuntoinfinito
Elespaciodemodelosaveces,peronosiempre,sedefineentrminosdelasmismas
caractersitcasdelespaciodeinstancias(porejemplo,algoritmosgenticos)

Bajoestaperspectiva,construirelclasificadorconsisteenbuscarunabuena
hiptesis(consistente,completo,simple)enelespaciodemodelosyesteproceso
debsquedaestdirigidoporelconjuntodedatosdeentrenamiento
13

clasificacinsupervisadacomounabsqueda
Tambinbajoestavisin,losmtodosdeaprendizajeautomtico,en
general,ydeconstruccindeclasificadores,enparticular,secaracterizan
pormanejar:
Unesquemaderepresentacindelosmodelos/hiptesis/solucionesquemanipulan
rbolesdedecisin,reglasifthen,instancias,modelosgrficos(redesBayesianas,de
Markov),redesneuronales,mquinasdevectoressoporte,ensembles declasificadores,etc.

Unafuncindeevaluacinquepermiteestimarlabondaddelmodeloajustado
hastaelmomento
Precisin,sensibilidadyespecificidad,errorcuadrtico,verosimilitud,probabilidada
posteriori,coste/utilidad,entropa,mtricasbasadasendistancia,mtricasbasadasen
cantidaddeinformacin(KLdivergence),etc.

Unmecanismodeoptimizacin(yposiblementebsqueda)quedirigeelprocesode
bsquedaenelespaciodemodelos
Optimizacincombinatoriayoptimizacinestocstica:metaheursticas
Optimizacinmatemtica:programacinlineal,descensodelgradiente,etc.

14

ejemplo:rbolesdedecisin
Temperatura
Alta

Media

Baja

Tos

Nogripe Dolor garganta


No

Gripe

Nogripe

No

Gripe Nogripe

Un rbol de decisin para el concepto Gripe

15

ejemplo:construccinrboldedecisin(1)
D11

D12

D1

D2

D4
D6
D14

D10

D5

D3
D8

D7

D9

Cul es el atributo ms
informativo?
Temperatura, Dolor garganta o
Tos
Supongamos: Temperatura

D13

16

ejemplo:construccinrboldedecisin(2)
Temperatura
Media

Alta
Baja

D1
D9

D10

D8

D3
D11

D2

D7

D14

D6
D4

D12
D5

D13

Supongamos:
y
Dolor garganta

Cules son los atributos Tos


ms informativos?
La respuesta nos la da la T de la informacin con los conceptos de cantidad
17
de informacin y entropa

ejemplo:construccinrboldedecisin(3)
Info[2,6]= .811
Info[3,3]= 1

Temperatura
Media

Baja

Alta

Entropa = 8/14 +.811


+ 6/14 * 1 = .892
Previa Info[9,5] = .940
Ganancia = .940 - .892 = .048
Dolor garganta
No

Info[2,3] = .971 bits


Info[4,0]= 0 bits
Info[3,2]= .971 bits
Entropia = 5/14 *.971
+ 4/14 * 0 + 5/14 * .971
= .693
Previa Info[9,5] = .940
Ganancia= .940 - .693 = .247

18

ejemplo:multilayer perceptron
Ejemplos MLPs:

Unidades de salida

pesos

Unidades ocultas

Unidades de entrada
19

ejemplo:modelodeclculodeunMLP
hj=g(w
i ji.xi)
yk=wj kj.hj

Tpicamente, y1=1 para ejemplos positivos


e y1=0 para ejemplos negativos

donde g(x)= 1/(1+e -x)


g (sigmoid):

h1
0

h3

wkjs

1/2

y1

h2

wjis
i

0
x1

x2

x3

x4

x5

x6

20

ejemplo:aprendizajeMLP(1)
Elaprendizajeconsisteenlabsquedaatravsdelespaciodetodas
lasposiblesmatricesdepesosporunacombinacindepesosque
minimicenelerrorcometidoalclasificarlosejemplospositivosy
negativosdelconjuntodeentrenamiento
Porlotantoesunproblemadeoptimizacinquetratademinimizarla
sumadelerrorcuadrtico:

E E p, E p
p

1
P
P 2
(
)
t

o
o
2 o

21

ejemplo:aprendizajeMLP(2)
Elproblemadeoptimizacinseresuelveaplicandodeoptimizacin
clsicas,comoeldescensodelgradiente,quepermitemodificarlospesos
delarediterativamenteenunapequeafraccin(tasadeaprendizaje)en
ladireccinopuestaalgradientedelafuncindeerror
Sielgradientees0,sealcanzaunmnimolocalysedicequeel
entrenamientodelaredconverge,aunquenosepuedegarantizarque
converjaaunmnimoglobal
Capacidaddegeneralizacin,sobreentrenamiento,malcondicionamiento,
optimizacinestocstica,etc.

Problema:cmoimputarelerroracadaunidadocultacuandose
desconocecualessusalidaesperada.Solucin:algoritmoderetro
propragacin delerror
22

ejemplo:ensembles declasificadores
Conelfindeconseguirunarespuestamsfiabledeunclasificador
automtico,unabuenaideaseracombinarlasdecisionesdevarios
clasificadoresbaseatravsdeuntipodeesquemadevotacin
Bagging yBoosting sonlosdosesquemasdecombinacinms
utilizadosyhabitualmentemejoranconsiderablementelosresultados
delosclasificadoresdebase
Unadesventajadeestosmodelosdecombinacindeclasificadoreses
que,comoenelcasodelasredesneuronales,elmodeloaprendidoes
msdifcil,sinoimposible,deinterpretar

23

ejemplo:bagging yboosting
Bagging:Sebasaenperturbarlacomposicindelosdatosdelconjuntode
aprendizaje.Concadaconjuntodedatosseentrenaunclasificadorbasey
entoncesseobtienelarespuestafinalparaunanuevainstancia,mediante
unesquemadevotacinenelqueintervienentodoslosclasificadores
entrenados(porejemplo,votopormayora)
Esteprocedimientoreducelaporcindelerrorenlaprecisindelclasificadorquese
puedeimputaralavariabilidadasociadaalosconjuntosdeentrenamiento

Boosting:Enestecasosetratadeentrenardistintosclasificadoresque
complementenaotros.Unprimerclasificadorseentrona,ylasinstancias
sobrelasqueesteclasificadorcometeerrores,selesadjudicaunpeso
mayorquelosejemplosclasificadoscorrectamente.Entonces,unnuevo
clasificador(posiblementediferente)seentrenaconlosmismosdatosde
entrenamientoperocentrndoseenlosejemplosconmspeso,yas,
sucesivamente
24

clustering:introduccin
Puedeconsiderarsequeelclustering eselproblemadelaprendizaje
nosupervisadomsimportante,ycomocualquierotroproblemade
estetipo,tratadeencontrarunaestructuradentrodeunacoleccin
dedatossinetiquetar
Unadefinicinmsinformaldeclustering podraserelprocesode
organizarobjetosengruposcuyosmiembrossonsimilaresentresen
ciertomodo.
Uncluster esportantounacoleccindeobjetosquesonsimilares
entreellosydiferentesalosobjetosquepertenecenaotrosclusters

25

clustering:objetivos
Determinarunagrupamientointrnsecoenunconjuntodedatossin
etiquetar
Perocmodecidirquesunbuenagrupamiento
Puededemostrarsequenoexisteuncriteriodeoptimalidad absoluto,
independientedelaaplicacinfinal
Portanto,elusuarioesquiendebeestablecerelcriteriodebondad,demodo
queelresultadodelagrupamientoseajusteasusnecesidades
Porejemplo,podramosestarinteresadosenencontrarelementos
representativosdegruposhomogneos(reduccindedatos),enencontrar
gruposintrnsecosydescribirlosenbaseasuspropiedades(descubrimiento
detiposdedatos),enencontrardatosanmalos(deteccindevalores
extremos),etc.
26

clustering:tipos
Agrupamientoexclusivo:Enestecasolosdatosseagrupandeunmodoexclusivo,de
modoquesiundatoperteneceauncluster entoncesnopuedeestarincluidoenotro.Un
ejemplodeestetipodealgoritmoseselalgoritmoKMeans
Agrupamientosolapado:Enestecasoseutilizanconjuntosdifusosparaagruparlos
datos,deformaquecadapuntopuedeperteneceradosomsclusters condiferentes
gradosdepertenencia.Elejemplomsrepresentativodeestetipodealgoritmosesel
algoritmoFuzzy Cmeans
Agrupamientojerrquico:Estetipodealgoritmossebasaenlauninsucesivadelosdos
clusters msprximos.Lacondicininicialseestablecefijandocadadatocomouncluster
ydespusdeciertonmerodeiteracionesseconsigueunrbolodendograma,donde
cadanivelproporcionaunagrupamientodelosdatos.Dentrodeestetiposeencuentra
cualquierversindelalgoritmoHierarchical clustering
Agrupamientoprobabilista:Enestacasoseutilizaunaaproximacincompletamente
probabilistapararesolverelproblemayelejemplomsrepresentativoeslamezclade
Gaussianas(MixtureofGaussians)
27

ejemplo:clustering jerrquico(1)
DadounconjuntodeNpuntosyunamatrizdedistancia(similitudes)N*
N,elprocesobsicodelclustering jerrquico(definidoporJohnsonen
1967)eselsiguiente:
1.

2.
3.
4.

Comenzarasignandocadapuntoauncluster,demodoquesisetienenN
elementos,secomienzaconNclusters,cadaunodeunnicoelemento.Sealas
distancias(similitudes)entrelosclusters,lamismaquelasdistancias(similitudes)
entrelospuntosquecontienen
Encontrarelpardeclusters mscercanos(mssimilares)yjuntarlosenunnico
cluster,demodoquesetieneuncluster menos
Calcularlasdistancias(similitudes)entreelnuevocluster ycadaunodelosclusters
anteriores
Repetirlospasos2y3hastaquetodoslospuntosdedatosestnagrupadosenun
nicocluster detamaoN

28

ejemplo:clustering jerrquico(2)
Elpaso3delalgoritmoanteriorpuederealizarsedediferentes
formas,loqueconduceadiferentesvariantes:
Enlacesencillo(singlelinkage):Enestecasoseconsideraquela
distanciaentreuncluster yotroesigualaladistanciamspequea,
entrecualquierpuntodelprimercluster ycualquierotrodelsegundo
Enlacecompleto(completelinkage):Enestecasoseconsiderala
distanciaentredosclusters,igualaladistanciamayorentrecualquier
puntodeunoycualquierpuntodelotro
Enlacepromedio(averagelinkage):Ladistanciaentredosclusters,
vienedadaporladistanciamediaentrecualquierpuntodelprimerocon
cualquierpuntodelsegundo

Estetipodeagrupamientosedenominaaglomerativo yaque
juntaclusters iterativamente.
Tambinpuedeserdivisivo,comenzandocontodoslospuntosenun
nicocluster ydesmenuzndoloiterativamente
29

ejemplo:clustering jerrquico(4)

30

ejemplo:clustering jerrquico(3)

Completadoelrboljerrquico(o
dendograma),sisequierenobtenerkclusters,
bastaconcortarelrbolporelnivelk1desde
laraz(queseconsideraelnivel0)

31