Está en la página 1de 132

ndicedecontenido

1.Introduccin....................................................... ................................4
1.1Reconocimientodehablaaislada................................................ ....4
1.2MotivacinyObjetivos........................................................... .........5
1.3Estructuradelproyecto.................................................................. .5
2.Clasificacinestadstica..................................................................7
2.1Introduccin.................................................................................. ...7
2.2Elproblemadelaclasificacin.......................................................7
2.3LaregladedecisindeBayes............................................. ............9
2.4Funcionesdiscriminantes............................................. ............11
2.5EstimadoresyMtodosdeaprendizaje........................................13
2.6Mtodossupervisados...................................................................14
2.6.1EstimacindeMximaVerosimilitud(MLE).......................14
2.6.2EstimacindeMximaprobabilidadAPosteriori................14
2.6.3MtodosDiscriminativos.......................................................15
2.7Mtodosnosupervisados..............................................................17
2.7.1Cuantizacinvectorial...........................................................17
2.7.2Algoritmokmeans.......................................................... ......19
2.7.3ElalgoritmoEM............................................................... ......21
2.8.2AlgoritmoEM.Simulacin2.................................................35
3.IntroduccinalosmodelosocultosdeMarkov......................36
3.1ProcesosdeMarkov............................................................... ........36
3.2CadenasdeMarkov................................................................ .......37
3.2.1Introduccin................................................................... .........37
3.2.2Lamatrizestocstica........................................ .....................39
3.2.3Tiempomediodepermanenciaenunestado........................40
3.2.4Probabilidadesdetransicindeordensuperior..................41
3.2.5Probabilidadesasociadasalosestadoslmite......................42
3.2.6Verosimilituddeunaobservacin.........................................45
2.3.7Estimacindelosparmetrosdelmodelo.............................47
3.3CadenasomodelosocultosdeMarkov.........................................47
1
3.3.1Definicin.................................................................... ............47
3.3.2Unejemploclsico............................................................... ...48
3.3.3Parmetrosdelmodelo..........................................................51
3.3.4Lostresproblemasfundamentales.......................................52
4.Clculodelaverosimilitudrespectoaunmodelo...................54
4.1Planteamiento................................................. ..............................54
4.2Aproximacindirecta........................................ ............................54
4.3ProcedimientoBackwardForward..............................................56
4.3.1Fundamentos...................................................................... ....56
4.3.2Variablehaciadelante(Forwardvariable)...........................56
4.3.3Variablehaciadetrs(Backwardvariable)..........................59
4.3.4Notasdeimplementacin:escalado......................................62
4.3.5Simulaciones..........................................................................64
5.Clculodelcaminoptimo............................................................77
5.1Criteriosdeoptimalidad...............................................................77
5.2Secuenciadeestadosptimos.......................................................77
5.3Secuenciaptimadeestados........................................................80
5.4Simulacin................................................................... ..................81
6.Reestimacindeparmetros........................................................87
6.1Introduccin................................................................................. ..87
6.2BaumWelch................................................ ..................................87
6.2.1Generalidades.............................................................. ...........87
6.2.2Exposicin......................................................................... ......88
6.2.3Resumendelalgoritmo..........................................................96
6.3Demostracin............................................................................. ....97
6.3.1Motivacin........................................................ ......................97
6.3.2AlgoritmoEMaplicadoaunHMM.......................................98
6.3.3OptimizacindelafuncindeBaum....................................98
6.4Simulaciones.......................................................................... ......102
7.Aplicacinalreconocimientodehabla....................................109
7.1Introduccin............................................................................... ..109
2
7.2Modelodeltractovocal.......................................................... ......110
7.3Extraccindecaractersticas......................................................112
7.3.1Cepstrum........................................................... ...................112
7.3.2CoeficientescepstrumenescalaMel...................................116
7.4Prenfasis................................................... .................................119
7.5UsodelaIDCT....................................................... .....................119
7.6Unalgoritmo......................................................................... .......120
8.Conclusionesylineasfuturas........................................ .............123
8.1Conclusiones............................................................... .................123
8.2Lneasfuturas.......................................... ...................................123
ApendiceA.Aplicacinprctica....................................................125
A.1Objetivos.......................................................................... ............125
A.2Aplicacindesarrollada..............................................................125
A.2.1Nucleoestadstico..................................................... ...........125
A.2.2ComunicacinconMatlab...................................................127
A.2.3FrontEnd.............................................................................. 127
ApndiceB.................................................................................. .........128
B.1Notacin....................................................... ...............................128
B.2Acrnimos.............................................................................. ......130
Bibliografa................................................. ........................................131
3
1.Introduccin
1.1Reconocimientodehablaaislada
Elreconocimientodelhablaesunproblemaquehasidoestudia
dodeformaintensivadurantelosltimoscuarentaaos,tiempoenel
cualsehandesarrolladodiferentesestrategiasdeaproximacinalmis
mo.Haciamediadosdeladcadadelossesentaselasprimerastentati
vasponandemanifiesto laaltavariabilidaddelospatrones,incluso
paraunamismapalabrapronunciadaporunamismapersona.Lacla
sificacinestadsticausandomodelosclsicos,representadospordensi
dadesdeprobabilidadestticas,sedemostraronincapacesdealcanzar
tasasdeerrorrazonable.Coneltiemposedifundierontcnicasderiva
dasdelaprogramacindinmicaylacuantizacinvectorial, comoel
Dinamic Time Warping, que permitan contrastar contra un mismo
patrnsecuenciasdedistintaslongitudesyquepresentabandistintas
velocidadesdevariacinrespectoadistintaspartesdelpatrnderefe
rencia.Paralelamente,estudiosbiolgicosypsicolgicosabranunaba
nicodemejorasparaelmodeladodelafuentedevozylaextraccinde
caractersticasrelevantesdelaseal.
LosmodelosocultosdeMarkovirrumpieronenelcampodelre
conocimientodehablaenlosaosochenta,yseerigieronenprotago
nistasenpocotiempo.Enlazabanporunaparteconlomejordelapro
gramacindinmica,enelsentidodequeaportabanunmarcodemo
delodeestadosquetenaencuentadeunmodoinherenteelcarcter
temporalsecuencialdelasobservacionesysuvariabilidad,cubriendo
aslascarenciasquepresentabanlosmtodospuramenteestadsticos.
Porotraparte,estosmodelosestnentroncadosenelmbitodelaes
tadstica,enelsenodelcualexistenmtodosdeoptimizacincomoel
4
algoritmoEMquepermitenreestimardeformaconsistentelospar
metros del modelo para adecuarlo a las observaciones. Inicialmente
utilizadosenelcontextodelhablaaislada,prontoseempezaronautili
zartambinenelreconocimientodehablacontinua,dondeanhoyda
mantienenciertavigencia.
Peroesenelprimerproblema,elreconocimientodehablaaisladadon
deseponendemanifiestodeunmodomssimplesuscaractersticas
definitorias,yesportantoelenfoqueadoptadoenelproyecto.
1.2MotivacinyObjetivos
Unavezplanteadoelproblema,elpresenteproyectopersiguepo
nerdemanifiestoelfuncionamientodelosmodelosocultosdeMarkov,
ymostrarlosensulugarenrelacinconlaclasificacinestadstica.Se
persiguetambinponerdemanifiestoenelcampodeestosmodelosla
importanciadelalgoritmoEM,yrealizarunacercamientoordenadoy
suficientealassolucionesdelacasusticaquerodeaelusodelosmode
losdeMarkovcomoclasificadores,todoellorespaldadoporunaimple
mentacindelosalgoritmosquepuedaserrealmenteutilizada.
1.3Estructuradelproyecto
Elproyectoseestructurabsicamenteentresbloquesprincipa
les:unaaproximacinalaclasificacinestadstica,teoradelosmode
losdemarkovysufuncionamientoyfinalmenteaplicacinavoz.Estos
bloquesdecontenidosedistribuyenenlossietecaptulossubsiguientes
Enelcapitulodosharemosunaaproximacinalaclasificacinesta
dsticayalaconstruccindeclasificadors.Daremosunrepasoalos
criteriosdeoptimizacinmsconocidosparaentrenamientosupervi
sadoynosupervisado,yenelcontextodeesteltimopresentaremos
elalgoritmoEM.
EnelcaptulotresexponemoslosmodelosocultosdeMarkovapar
tirdeunaexplicacinpreviadelascadenasdeMarkov.Enestemar
5
copreviosedaresolucinaproblemascomolaestimacindepar
metros o el clculo de la verosimilitud que sern ms complejos
cuandorefieranamodelosocultosdeMarkov.
Elcaptulocuatrosecentraenlaresolucindelprimeroymssenci
llodelosproblemas,elclculodelaverosimilituddeunasecuencia
de muestras respecto al modelo, y se introducen las piezas clave
paraeltrabajoconmodelosocultosdemarkov,lasvaribalehaciade
lanteyhaciaatrs.
Enelcaptulocincoresolvemoselproblemadelcalculodelcamino
ptimo,lasecuenciadeestadosporlaqueconmsprobabilidadpasa
unmodeloparagenerarunaobservacindada
Enelcaptuloseispresentamoselltimoymsimportantedelos
problemas,lareestimacindeparmetros,yentroncamosconelal
goritmoEMexpuestoenelcaptulodos.
Elcaptulossieteexplicalaproblemticapropiadelreconocimiento
dehabla,ycmolosmodelosdemarkovenlazanconlamisma.
Finalmenteelcaptulooctavomuestraalgunasconclusionesyposi
bleslineasfuturas.
Lassimulacionesestnalfinaldecadacaptulo,ysedesarrollansegn
lohacelateorapoderobtenerunamejorcomprensin.
6
2.Clasificacinestadstica
2.1Introduccin
EnestecaptuloexpondremoslasbasesdelaTeoradelaDeci
sin,yharemosunrecorridoporlosmtodosmsimportantesparala
construccindeestimadores.
Expondremosenprimerlugarcmoobtenerclasificadoresusan
domtodosdeentrenamiento supervisado,querequierendelainfor
macindeclaseasociadaacadamuestradelapoblacin.Enestecon
textoencontraremoslosestimadoresdemximaverosimulitud(MLE,
Maximum Likelyhood Estimator), mxima probabilidad a posteriori
(MAP, Maximum A Posteriori) y los de mxima informacin mutua
(MMIE,MaximumMutualInformationEstimator).
Ensegundolugarnosacercaremosalosmtodosdenominados
deaprendizajenosupervisado,comoelalgoritmoKmeansparacuanti
zacinvectorial,entrelosqueseencuentraelalgoritmoEM(Expecta
tion Maximization). Veremos como el algoritmo EM es fundamental
paraelmodeladodef.d.pmultimodales,ysentaremoslasbasesqueen
captulos posteriores nos permitirn reestimar los parmetros de los
modelosocultosdeMarkov.
2.2Elproblemadelaclasificacin
La clasificacin es el acto de separar observaciones unas de
otras,asignndolasadistintosgruposoclases,enbaseaunconjunto
decriterios.Laclasificacinsebasaenlacreenciadequeexistenpa
trones diferenciadosydiscerniblesdentrodeunconjuntodeobserva
ciones,ysuobjetivoesencontrarculesson,yconculsecorresponde
cadamuestra.Laclasificacintieneporpilaresfundamentalesdoside
asfundamentales:
7
i. existenpatrones,loquecristalizaenelconceptodeclase.
ii. sepuedendistinguirunasobservacionesdeotras,quedalugaral
conceptodediscriminador.
Engenerallasclasesyloscriteriosdeclasificacinestnmuyre
lacionados.Cuandoconocemosalaperfeccinlasclasesesqueyahe
mosclasificadotodoelespacio.Cuandoclasificamosmuestrassegnun
criteriocreamosclases.
La clasificacin estadstica permite trabajar cmodamente con
los conceptos de clase y discriminador, separndolos en cierto modo.
La clasificacin estadstica define una clase como una distribucin o
densidaddeprobabilidadsobreelespaciodeobservaciones.Losdiscri
minadoressebasarnencantidadesdelcampoprobabilstico,comola
verosimilitud,lainformacinmutua,etc...
Laclasificacinestadsticaseadaptabienaungrannmerode
situaciones reales. No en todos los problemas de clasificacin que se
nospresentadisponemosdelamismacantidaddeinformacinacerca
delprocesoquegeneralasalidaqueobservamos. Sinosatenemosa
estebaremo dedesconocimiento, laclasificacinestadsticaocupaun
ampliorangodondesuaplicacinesposibleyoacertada.
Vamosapresentarlosconceptosbsicosdelaclasificacinesta
dstica.Supongamosquetenemosunaeobservacinx,quepertenece
necesariamenteaalgunaclasedelconjunto o=

o
1
... o
N
.Definimos:
i. p( x /o
i
) Verosimilitud.Probabilidaddequelaclaseigenereuna
observacinx.Noessino elvalorquetomaparax ladensidado
distribucindeprobabilidadasociadaaesaclase.
8
ii. p(o
i
) Probabilidadaprior.Eslaprobabilidaddequeunaclase
generelaobservacin,antesdesabercualserelvalordelaobser
vacingenerada.
iii. p(o
i
/ x) Probabilidadaposteriori.Eslaprobabilidaddequeuna
clasehayageneradounaobservacinxconocida.
iv. p( x ) Probabilidaddeobservarx.Comolamuestratienequeper
teneceraalgunadelasclases,sepuedeescribircomo
(2.1)
LascuatroserelacionanatravsdelteoremadeBayes
(2.2)
2.3LaregladedecisindeBayes.
LaTeoradelaDecisindeBayesescentralenelcampodela
clasificacinestadstica.Sebasaenlapremisadequeelproblemade
ladecisinpuedetratarseentrminosestadsticos,yenquetodoslos
parmetrosrelevantesasociadosalasclasessonconocidos.Estosigni
ficaqueporelmomentononosvamosapreocupardecmohemoscon
seguido estimar los parmetros de las clases. Dicho esto traemos de
nuevoacolacinlaexpresindelaprobabilidadaposteriori(2.2).
Laprobabilidadapriorideunaclase p(o
i
) nonosdicegran
cosa.Siintentamosadivinaraquclaseperteneceunaobservacinan
tesdeconocerdichaobservacin, lanicaeleccinsensataespensar
que,probablemente,laobservacinperteneceraaquellaclaseconma
yor probabilidad a priori. Esta eleccin siempre se decantar por la
misma clase, para cualquier observacin, lo cual nos dice que no es
muytil.Parecemslgicobasarlasposiblesreglasdedecisinenel
valordelaprobabilidadaposteriori,laprobabilidaddequeunaobser
9
p(o
i
/ x) =
p( x /o
i
) p(o
i
)
p( x)
p( x) =

k
p( x / o
k
) p(o
k
)
vacinpertenezcaaunaclase,unavezqueconocemosdichaobserva
cin!Elsentidocomnnosdicequelamejorreglabasadaen p(o
i
/ x)
serlaqueentronecomoelegidaalaclaseconmayorprobabilidada
posterioridehabergeneradolamuestra.formalmente
(2.3)
6( x) esporlotantounaregladedecisinqueacadaobservacinle
asignaelndicedeunaclase,enconcretoladeaquellaparalacualla
probabilidadaposterioriesmxima.Comodurantelafasedeclasifica
cinlasdistribucionesasociadasalasclases,ascomolasprobabilida
desapriori,novaran
1
podemosconsiderarlaprobabilidad de p(x)
comoconstante.Entoncespodemossimplificarlaregladedecisin,ex
presndolaenfuncindelaverosimilitudydelaprobabilidadapriori.
Formalmente
p( x) =

k
p( x / o
k
) p(o
k
) cte
(2.4)
Elsentidocomnnoseequivocaenestaocasin,yaquepodemos
demostrarqueestaregladedecisinminimizaelriesgoenlaeleccin.
Parademostrarlo,vamosasuponerquetenemosunconjuntodeclases
o=

o
1
o
1...
o
N
,porloqueelespaciodesalidadelaregladedecisin
sedefinecomo 6( x) |1, N .Vamosadefinircomo l (6( x)=k /o
i
)
lafuncindeprdidas,querepresentalasprdidasquesederivande
elegircomocorrectalaclasekcuandorealmentelamuestraperteneca
alaclasei.Porlotanto,elriesgocondicionadoseexpresacomo
r (6( x)=k / x) =

i
l (6( x)=k /o
i
) p(o
i
/ x)
1 Esto es cierto durante la fase de clasificacin. Si consideramos p(x) tal como aparece en la
expresin (2.1), tenemos que aceptar que durante la fase de entrenamiento este valor podra
cambiar.
10
6( x) = argmax
i
p(o
i
/ x)
6( x) = argmax
i
p( x / o
i
) p(o
i
)
Elriesgocondicionadorepresentaelriesgoquesecorrealasignaruna
observacinxaunaclasek,siguiendounaregladedecisin 6( x) so
breunconjunto o declases.Elriesgototalvendrdadopor
R =

k

r (6( x)=k / x) p( x) dx
Elriesgototalrepresentaelriesgoesperadoalaplicarunaregladede
cisindada.Llegadosaestepunto,trataremosdeminimizaresteries
gototal.Elriesgototalpuedeseroptimizadooptimizandoelriesgocon
dicionado r (6( x)=k / x) paratodovalordex. Siescogemosunafun
cindeprdidastalque
l (6( x)=k / o
i
) =

0 k=i
1 ki
Esta funcinde prdidasasigna la mismaprdidaacualquier
errordeclasificacin:todoscuestanlomismo.Seconocecomofuncin
deprdidassimtricaocerouno.Usandoestafuncindeprdidas,el
riesgocondicionadotomalaforma
r (6( x)=k / i ) =

i
l (6( x)=k / o
i
) p(o
i
/ x) =

i k
p(o
i
/ x) = 1 p(o
k
/ x)
Porlotantoparaminimizarelriesgocondicionadotenemosqueescoger
como vlidaaquella clase k para lacuallaprobabilidadaposteriori
p(o
k
/ x ) seamxima,queesprecisamenteelcriterioquesiguelare
gladedecisindeBayes.
11
2.4Funcionesdiscriminantes
Unaformadeverlatareadeclasificadineslasiguiente.Tene
mosunaseriedeobservacionesaclasificar,yunconjuntodeNclases
enlasqueclasificarlas.Podemosrepresentarlaclasificacincomoun
proceso en el cual usamos N funciones discriminantes d
i
( x) . Una
funciondiscriminanteasociadaaunaclasecalculaelparecidodeuna
muestraconlamisma.Entonceslaeleccindeclasesereduceaesco
gerlaclaseasociadaalafuncindiscriminanteconmayorvalorpara
lamuestrax.formalmente
(2.5)
Paraelcasodeunclasificadorbayesiano,laregladedecisines
talqueminimizaelriesgocondicional.Comoenelcasodelafuncin
discriminanteloquebuscamosesqueseamximaparalaclasecorrec
ta, definimos la funcin discriminante para asociada a clasificadores
bayesianoscomo
d
k
( x) = r (6( x)=k / x)
Queesequivalenteentrminosdemximosymnimosa
(2.6)
12
d
k
( x)>d
i
( x) i k
d
k
( x) = p(o
k
/ x)
2.5EstimadoresyMtodosdeaprendizaje.
Lasdistribucionesquerepresentanclaseshan tenidoque salir
dealgnsitio.Engenerallasdistribucionesseobtienendelasmismas
observaciones(odeunsubconjuntodeellas, llamadoconjuntodeen
trenamiento)usandoestimadores.
Las distribuciones pueden ser paramtricas (por ejemplo una
gaussianatienedosparmetros,mediayvarianza)onoparamtricas
(seconstruyenporfrecuenciarelativadeaparicindevalores).Enrea
lidadestasltimastienentantosparmetroscomomuestrascontenga
elconjuntodeentrenamiento.
Los mtodos de aprendizaje sedividen en dos grandes grupos:
supervisadosynosupervisados.Lossupervisadossonaquellosenque,
almenosparaunconjuntodeobservaciones,disponemosinformacin
sobreaquclasepertenecen.Formalmente, disponemosdemuestras
etiquetadas | x , o
k
.Enlosnosupervisados,podemosprescindirde
esa informacin. No es necesario saber a qu clase pertenecen las
muestras.
13
Ilustracin2.1Diagramadebloquesdeunclasificadorbasadoenfunciones
discriminantes.
d
1
d
N
d
2
MAX
x
6( x)
2.6Mtodossupervisados
2.6.1EstimacindeMximaVerosimilitud(MLE)
Esun mtodo deestimacin supervisado, esdecir, requiere de
muestrasetiquetadasparapoderseraplicado.MLE(MaximumLikel
ihoodEstimation)eselmtodomsusadoparaestimardistribuciones
porsugraneficienciaysueleutilizarsecondistribucionesparametriza
das.Sumeta esencontrarelconjuntodeparmetrosquemaximizan
laprobabilidadunaclasedehabergeneradolosdatosquelesonpro
pios,esdecir,laverosimilituddelasobservacionesquepertenezcana
unaclase p( x /o
k
) .
Sea x=

x
1
x
2
... x
T
un conjunto de observaciones estadstica
menteindependientesquesabemospertenecenalaclasek. Si llama
mos 0
k
alconjuntodeparmetrosquedeterminanladistribucin
asociadaalaclasek,laMLEvienedadapor
(2.7)
Para aplicarlo a una distribucin concreta slo hay que sustituir
p( x / 0
k
) porsuvaloryderivarrespectoaalgnparmetro.
2.6.2EstimacindeMximaprobabilidadAPosteriori
MtodosupervisadoigualqueMLE,permitehacerestimaciones
razonablesdelosparmetroscuandoelconjuntodeentrenamientoes
tanlimitadoquenoessuficienteparaunaestimacindirectademxi
maverosimilitud.Acambioesnecesariorealizarsuposicionesacerta
dasotenerconocimientospreviossobrelosparmetrosinicialesdela
distribucin,esdecir,hayqueasignarunaprobabilidadapriorialvec
torde parmetros. Poreso se llamaaposteriori,porqueloquereal
mentevamosaoptimizarparacadaclasees
14
0
MLE
k
= argmax
0
k

t
p( x
t
/ 0
k
) = argmax
0
k

t
ln p( x
t
/ 0
k
)
p(0
k
/ x) =
p( x /0
k
) p(0
k
)
p( x)
Supuestoquelaprobabilidaddexnodependedelosparmetrosdela
distribucindeesaclase,elestimadorquedacomo
(2.8)
Podemosobservarquecuandodisponemosdemuchasmuestras(para
valoresaltosdeT)laestimacinMAP(MaximumaPosteriori)conver
geaunaestimacinMLE.
2.6.3MtodosDiscriminativos
Hastaahoralosmtodosexpuestotratandeadecuarhacerque
losparmetrosdecadaclase reflejenlomejorposibleladistribucin
quesiguenlasobservacionesquepertenecenaesaclase.Estamospreo
cupndonosdequeladistribucinasociadaacadaclaseseadecuebien
alosdatosdeesaclase,perocmoseadecuaalosdatosdeotrascla
ses?Podradarseelcasodequedatosquepertenecenaotraclasearro
jaranvaloresdeverosimilitudmayoresquedatosdelapropiaclase,con
loqueestaramosdandopieaerroresdeclasificacin.Losmtodosdis
criminativosutilizandatosetiquetadospertenecientesatodas lascla
sesparaentrenarcadaclase,consiguiendoasunamximadiscrimina
cinentremodelos
2
paramejorarelrendimientoenelreconocimiento
depatrones.
Haydistintosmtodosqueserigenporesteobjetivo,entreellos
elMMIEylasredesneuronales.
2 Es ms que posible que los modelo as estimados arrojen, de facto, valores de verosimilitud
respecto a las muestras que les son propias menores que los que se obtendran con modelos
estimados segn MLE o MAP. Y, an as, clasificarn con menor error las observaciones.
15
0
MAP
k
= argmax
0
k
|
p(0
k
/ x)

= argmax
0
k
|
ln p(0
k
)+

t
p( x
t
/ 0
k
)

2.6.3.1EstimacindeMximaInformacinMutua(MMIE)
PartimosdelaregladeBayes,eintentaremosencontrarpar
metrostalquemaximicen p(o
i
/ x) .Estonosllevaaunaestimacin
denominadacomodemximaverosimilitudcondicionada(CMLE,Con
ditionalMaximumLikelyhoodEstimation)
(2.9)
Ntesequeahoranonoscentramosenencontrarlosparmetros
0
k
de una clase en concreto, sino de todas las clases ( 0 ). Cabe
preguntarporqusedenominademximainformacinmutua.Como
lasprobabilidadesaprioriparacadaclasenodependendelosparme
trosdequeintentamosestimar,podemosobviarlasaloptimizar,conlo
quemaximizar p(o
i
/ x) serequivalenteamaximizarlainformacin
mutuainstantneaentrexy o
i
.
p(o
i
/ x) =
p( x / o
i
) p(o
i
)
p( x)
I ( x , o
i
) = ln
(
p( x , o
i
)
p( x) p(o
i
)
)
si p(o
i
/ 0)=cte i argmax
0
p(o
i
/ x) = argmax
0
I ( x , o
i
) = 0
MMIE
Sitenemosencuentaquep(x)yanosepuedeconsiderarcons
tante(yaquepuedeescribirsedemaneraquedependadelosparme
trosquebuscamosestimar),laexpresinaoptimizares
p(o
i
/ x) =
p( x /o
i
) p(o
i
)
p( x)
=

p( x)=

k
p( x / o
k
) p(o
k
)

=
=
p( x / o
i
) p(o
i
)
p( x / o
i
) p(o
i
) +

ki
p( x /o
k
)
=
1
1 +

ki
p( x / o
k
)
p( x /o
i
) p(o
i
)
16
0
CMLE
= argmax
0
p(o
i
/ x)
Demodoquemaximizar p(o
i
/ x) esequivalentea
0
MMIE
= argmax
0
|
p(o
i
/ x)

= argmin
0
|

ki
p( x /o
k
)
p( x /o
i
) p(o
i
)

Dondelaminimizacinseresuelvepormtodosdegradiente.
2.7Mtodosnosupervisados
Hastaahorahemosdadounrepasogeneralalosconceptosbsi
cosdeclasificacinestadsticayhemosvistolosmtodosmsimpor
tantesdeaprendizajesupervisado. Losmtodosnosupervisadostie
nenquelidiarcondatosincompletos,yaquelainformacindeclasees
desconocida.Losmsimportantessonlacuantizacinvectorial(VQ)y
elalgoritmoEM.
2.7.1Cuantizacinvectorial
Lacuantizacineselprocesodeaproximarsealesdeamplitud
continuaporsmbolosdiscretos.Sicuantizamosunasolaseal,habla
mosde cuantizacinescalar. Sicuantizamos variasseales a la vez,
trataremosentoncesdecuantizacinvectorial.Alconjuntodesmbolos
queusamosparaaproximarlaseallollamamoslibrodeclaves(code
book), y a cada smbolo palabra clave (codeword). Cualquier tipo de
cuantizacinllevaasociadaunadistorsin,queeselerrorcometidoal
aproximarlosvaloresporsmbolos.Porlotantolospilaresfundamen
talesdelprocesodecuantizacinvectorialsern
i. Unamedidadeladistorsin,parapoderevaluarlayminimizarla.
ii. Unmtodoparagenerarcadapalabraclavedellibro.
17
Denominamos q( x) lafuncindecuantizacin,quemapeaun
vectordevalorescontnuosxenunodelosvectoresprototipoopala
braclave z Z=

z
1
z
2
... z
M
,dondeZesellibrodeclavesdetama
oM.Sidefinimosunafuncindistancia d ( x , z
k
) entonceslaregla
dedecisinaseguirserlaqueminimiceladistorsin,esdecir
q( x)=z
k
si y solo si k=argmin
i
|
d ( x , z
i
)

Lamedidadedistorsinodistanciapuedeserdemuchostipos:cuadr
tica, de Mahalanobis, perceptual, etc... dependiendo de la aplicacin.
Usandounadistorsinyunaregladedecisin,elespacioquedadividi
doenregionesoclulascuyospuntoscumplen xC
i
p( x)=z
i
.
18
figura 2.2 Divisin de un espacio bidimensional mediante cuantizacin vectorial
usando como mtrica la distancia euclidea.
z
k
C
k
2.7.2Algoritmokmeans
Estealgoritmoseaplicaencuantizacinvectorialypersiguemi
nimizarladistorsinglobal,buscandoportantounlibrodeclavesque
seaptimoenesesentido.Lologrardemanerarecursiva.Ladistor
sinmediapuedeexpresarsecomo
D = E | d ( x , z) =

i
p( xC
i
) E
|
d ( x , z
i
)/ xC
i

Paraoptimizarestafuncinloharemosendospasos.Primero,
usandouncodebookinicial,calcularemosqueregionesdelespacioocu
pacadaclula(oenotraspalabras,usaremosellibrodeclavesinicial
paradeterminarapartirdep(x)quepalabraclaveasignamoscadava
lordeentrada).Aparecenporlotantodoscondicionesnecesariaspara
alcanzarunptimo.Despusintentaremoshallarunosnuevosvectores
prototipostalqueminimicenladistorsindelasobservacionesqueper
tenecenacadaunadelasmuestras.Yas,repetidasveces,hastaque
ladistorsinseestabilice.
Para que el primer paso permita que vayamos optimizando la
distorsin, lareglaparadecidirqueclaveseleasignaaunvectorde
entradax(oloqueeslomismo,aquclulapertenece)hadesertal
que minimiceladistorsin d ( x , z) (algoqueyavenamoshaciendo
porsentidocomn).
Paraescogerlosnuevoscentroidesovectoresprototipos,losesco
geremostalqueminimicenladistorsindentrodelaclulacorrespon
diente.Ladistorsinmedia D
i
enlaclula C
i
vienedadapor
D
i
=
1
T

1
T
d ( x
t
, z
i
)
19
Elmnimodeestaexpresindependedeltipodefuncindistan
cia. Para una funcin de distancia cuadrtica
d ( x , z) = ( xz)
t
( xz) elmnimoseaparecepara
z
i
=
1
K
i

k
x
k
donde K
i
eselnmerodeobservacionesdentrodelalaclula C
i
,
y
x=

x
1
x
2
... x
K
i


20
2.7.3ElalgoritmoEM
2.7.3.1Introduccin
ElalgoritmoEM(ExpectationMaximization)seenglobadentro
delosmtodosdeaprendizajenosupervisados.Estoquieredecirque
losdatosqueposeemossoninsuficientespararealizarunaestimacin
directadeverosimilitud,usandoMLE,yaquedesconocemosaquecla
sepertenececadadato.Loquehaceestealgoritmoesdividirendospa
sos el proceso. En primer lugar, partiendo de un nmero de clases
dado,cadaunaconsusvaloresparalosparmetros,calculamoslave
rosimilituddelasobservacionesrespectoacadaclase.Ensegundolu
gar,usandoelvalordeesaverosimilitudparaponderarlapertenencia
acadaclasedelasobservaciones,reestimamoslosparmetrosdelas
clasessegnMLE.Yvueltaaempezar,hastaquelaverosimilituddeje
devariar.
Puedeverseenciertaformasimilaralalgoritmokmeans,usado
paraVQ.Enelalgoritmokmeansescogemosunoscentroidesrazona
blesiniciales,ymediantealgntipodedisttanciaasignamoscadaob
servacinalsmbolomscercano,paraluegorecalcularloscentroides
conlasobservacionesquehansidoclasificadascomopertenecientesa
unsmbolo,obteniendounnuevocodebook.ElalgoritmoEMessimilar,
salvoquelamedidadedistanciaeslaverosimilitud p( x /o
i
) yde
pendeportantodeladistribucinusadaparamodelarcadaclase,yla
asignacindelasobservacionesalasdistintasclasesesblanda,nodel
tipotodoonadaqueseutilizaenkmeans.
21
2.7.3.2Demostracinyexposicin
ElalgoritmoEMpersiguemaximizarlaverosimilituddelasob
servacionesrespectoalosparmetrosdelmodelo.Podemosdefinimos
portantocomofuncinaminimizarrespectoalosparmetros0lave
rosimilitudlogaritmicanegativa.
(2.10)
Unavisindistintaalenfoqueclsicoexpuestoen[1]delademostra
cindealgoritmoeslasiguiente. Paraexplicarlaoptimizacindela
verosimilitud nos basaremos en el concepto de funcin mayorizante
(majorizingfunction).
Funcinmayorizante
Unafuncinsedicemayorizantedeotrasicumpledoscondicio
22
f (0) = ln p( y/ 0)
figura 2.3 Particin de un espacio bidimensional con nueve f.d.p gaussianas
j
k
nes.Laprimeradeellasconsisteenqueambasfuncionestomenelmis
movalorenunpuntodado.Lasegundaqueenelrestodelospuntos,el
valordelafuncinmayorizanteestporencimadeldelaoriginal.Si
denotamoscomo f (0) lafuncinoriginalycomo g (0) lafuncin
mayorizante,staltimahadecumplir
(2.11)
(2.12)
Elcumplirestasdoscondicionesconllevaquesisomoscapacesdeha
llarunnuevovalorparalosparmetrostalqueminimizenlafuncin
mayorizante, estaremosforzandolaminimizacindelafuncinorigi
nal,yque,dealgunmodo,estamosbajandoeltecho.
0
i+1
= argmin
0
g
i
(0)
(2.13)
Elquiddelacuestinresideenquelafuncinmayorizanteseamsf
cildeoptimizarquelafuncinoriginal.
23
g
i
(0
i
) = f (0
i
)
g
i
(0) f (0)
f (0
i+1
) g
i
(0
i+1
) g
i
(0
i
) = f (0
i
)
Buscandounafuncinmayorizanteparalaverosimilitud
Buscaremosahoraunafuncinmayorizantequeloseadelave
rosimilitud.Enprincipiopodrapensarsequebuscarunafuncinma
yorizantenoestareafcil,perounpardeideasnosayudarnaencau
zarlabsqueda.Enadelantedenotaremoscomo
E
z

laesperanza
respectoaladistribucinasociadaaunvectoraleatorioz.Encasode
queladistribucindezestcondicionadaaotrovectoraleatorioyes
cribiremos
E
z/ y

.Parahacerpatenteladependenciarespectoalos
parmetrosdelmodelo,se usarlaexpresin
E
z/ y , 0

,queincluye
explcitamente 0 .
24
figura 2.4 La funcin mayorizante siempre es mayor o igual que la funcin objetivo, por lo
que si encontramos un valor de los parmetros que disminuya el valor de la funcin
mayorizante, estaremos disminuyendo el valor de la funcin original
g
i
(0)
f
i
(0)
0
i
0
0
i+1
La desigualdad de Jensen afirma que para cualquier funcin
cncavah(x),siendoxunvectoraleatorio,secumpleque
(2.14)
Lademostracinsebasaenquesillamamosd(x)alplanotangenteala
curva h(x) enelpuntoE{x},porserh(x) cncavayportantomenoro
igualqued(x)secumpleque
h( E x) = d ( E x) = Ed ( x) E h( x)
Conlosconceptosanterioresenmente,podemosdefinirunafun
cintalque
g
i
(0) = f (0
i
) E
z/ y , 0
i

ln
|
p( y , z/ 0)
p( y , z/ 0
i
)

Donde z es un vectoraleatorio tal que su densidad de probabilidad


condicionadarespectoaydependeexclusivamentedelosparmetros0
delmodelo.Veamossiestafuncinesmayorizantedelaverosimilitud
logartmica.Sinmsquesustituirlos 0 por 0
i
,vemosqueenese
puntoellogaritmoseanulayportantosecumplelaigualdad(2.11)
g
i
(0
i
) = f (0
i
) E
z/ y , 0
i

ln
|
p( y , z/ 0
i
)
p( y , z/ 0
i
)

1
_
0

= f (0
i
)
25
E h( x) h( Ex)
Quedademostrarqueparatodoslosdemspuntos,lafuncinmayori
zanteescogidaestporencimadelaoriginal.Utilizandoenprimerlu
garladesigualdaddeJensen(2.14)araizdelaconcavidaddelafun
cinlogaritmo,yposteriormenteteoremadeBayes(2.2)sesigueque
g
i
(0) f (0
i
) ln
|
E
z/ y , 0
i

p( y , z/ 0)
p( y , z/ 0
i
)

=
= f (0
i
) ln
|
E
z/ y , 0
i

p( y , z/ 0)
p( z/ y , 0
i
) p( y/0
i
)

= f (0
i
) ln
|
1
p( y/ 0
i
)

p( y , z/ 0) dz
_
p( y/0)

= ln p( y/ 0
i
) ln
|
p( y/ 0)
p( y/ 0
i
)

= ln p( y/ 0) = f (0)
Cumpliendoporendelafuncinescogidaladesigualdadquele
faltaba(2.12)paraserconsideradafuncinmayorizantedelaverosimi
litud.Demostradoqueoptimizando g
i
(0) optimizamos f (0) ,slo
nosinteresalapartedelafuncinmayorizantequevareconlospar
metros 0 delmodelo.Estaparteoptimizablelallamaremos g
i
(0) ,
yenelcasodelalgoritmoEMtomaelvalor
g
i
(0) = E
z / y , 0
i ln p( y , z/ 0)
Serestafuncinmsfcildeoptimizarquelaoriginal?Qurepre
sentaz?Comoyadijimos,zesunvectoraleatoriotalquesudensidad
deprobabilidadcondicionadarespectoay dependeexclusivamentede
losparmetros0delmodelo.Estosignificaqueznodependedelasali
da,sinomsbienalcontrario:lasalidadependedez.zestilporque
26
explicitaunadependenciadey,porqueponedemanifiestoqueexisten
resultadosintermediosquesonunescalnprevioalahorade queel
modelogenereunasalida.
Enelcasodeunamezcladegaussianas,estepuntointermedio
seralaeleccindequegaussianagenerarlasalida;enelcasodeun
modeloocultodeMarkov,serelcaminodeestadosquesigueelmode
loparagenerarlasalida.
Elelegirqurepresentazesdeterminanteparaadecuarelalgo
ritmoEM a un problema concreto. Parece probable quesiempre que
estaeleccinevoqueaunresultadointermedio,reflejeunprocesoocul
toperonecesarioparagenerarlasalida,seconseguirqueelclculo
delafuncinmayorizanteseamssimplequeeldelaoriginal.
2.7.3.3Resumendelalgoritmo
DetodoloexpuestosesiguequeelalgoritmoEMreducirmono
tnicamentelaverosimilitudlogaritmicanegativaencadaiteracin:
27
i. Inicializacin
0
0
=dado
ii. Recursin
Paso de Promediado (Expectation Step)

g
i
(0) = E
z / y , 0
i ln p( y , z/ 0)
Paso de Maximizacin (Maximization Step)
0
i+1
=argmin
0
g
i
(0)
2.7.3.4ElalgoritmoEMaplicadoaunamezcladeGaussianas.
Loveremosmsclaroconunejemplo.Supongamosquelassali
das y=

y
1
y
2
.. y
T
que observamos proceden de una mezcla de N
gaussianascondensidad N ( x , j
k
, c
k
) .Cadavezquelamezclagene
raunasalida,sucedeendospasos:
i. Unavariablemultinomialquedeterminaquegaussianagenerarla
salidaconprobabilidades

c
1
c
2
... c
k
... c
N

ii. Lagaussianaescogidagenerarunamuestrasegnsudensidadde
probabilidad
N ( x , j
k
, c
k
) =
1
.
2nc
k
exp
(

1
2
(
xj
k
c
k
)
2
)
28
figura 2.5 Densidad de probabilidad de una mezcla de tres gaussianas. Las f.d.p de
las gaussianas componentes de la mezcla aparecen en trazo discontnuo.
Veamos.Enestecasolosparmetros 0 delmodeloseranlas
probabilidades
c
1
c
2
.. c
N
,ascomolasmediasyvarianzasdelasva
riablesdelamezcla.Siasignamoszalavariableocultaquenosdice
qucomponentehasidoelegida,escribiremos
g
i
(0) = E
z / y , 0
i ln p( y , z /0) =

t

k
ln p( y
t
, z=k /0) p( z=k / y
t
, 0
i
)
Estaeslaexpresinaoptimizar.Paraquenosseamssencillo,des
compondremosusandoBayeseltrminoquedependedelosnuevospa
rmetros.Conestoconseguiremossepararlaecuacinendostrminos
cadaunodeloscualesdependeexclusivamentedeunsubconjuntode
losparmetros.

k
ln p( y
t
, z=k / 0) p( z=k / y
t
, 0
i
) =

k
ln( p( y
t
/ z=k , 0) p( z=k / 0)) p( z=k / y
t
, 0
i
) =

k
ln p( y
t
/ z=k , 0) p( z=k / y
t
, 0
i
) +

t

k
ln p( z=k /0) p( z=k / y
t
, 0
i
)
Llegadosaestepunto, empezaremospor optimizarrespecto a
loscoeficientesdelamezcla, c
k
.Claramenteelprimertrminono
dependedeestosparmetros(puestoqueesunadistribucincondicio
nada precisamente los mismos), por lo que desaparecer al derivar.
Dadoquelaprobabilidaddeobtenerunzdadorespectoalosparme
trosesfijaeigualaloscoeficientesdelamezcla
p( z=k / 0) = c
k
29
Siderivsemos g
i
(0) eigualramosacerodirectamenteobtendra
mosqueelptimosealcanzapara c
k
=0 k .


g
i
(0)
c
k
=

t
ln p( z=k / 0)
c
k
p( z=k / y
t
, 0
i
) =

t
1
c
k
p( z=k / y
t
, 0
i
) = 0
Hayquecomplementarlaecuacinoriginalconuntrminolagrangia
noqueasegurequeloscoeficientessumanlaunidad.haciendoestoob
tenemos
p( z=k / 0) = c
k

c
k
(
g
i
(0) + \
|

k
p( z=k / 0) 1
)
=

c
k
(

k
ln p( z=k / 0) p( z=k / y
t
, 0
i
)
)
+ \

c
k
|

k
p( z=k / 0) 1

t
1
c
k
p( z=k / y
t
, 0
i
) + \ = 0
Sisumamosparatodoslosvaloresdek, obtenemos \=T ,porlo
queelptimoseobtienepara
c
k
=
1
T

t
p( z=k / y
t
, 0
i
)
Elsiguientepasoesoptimizarrespectoalosparmetrosdelas
gaussianas. En estecasoelnicotrminoquecambiaeselprimero.
Notandoque p( y
t
/ z=k , 0
i
) noessinolaverosimilitudde y
t
res
pectoalaksimagaussiana.
p( y
t
/ z=k , 0
i
) = N ( y
t
, j
k
, c
k
)
30
Derivandoconrespectoalasmedias


g
i
(0)
j
k
=

j
k
(

k
ln p( y
t
/ z=k , 0) p( z=k / y
t
, 0
i
)
)
=
=

j
k
(

k
|
lnc
k

( y
t
j
k
)
2
2c
k
2
+ c

p( z=k / y
t
, 0
i
)
)
=
=

t
|
y
t
j
k
c
k
2

p( z=k / y
t
, 0
i
) = 0
j
k
=

t
p( z=k / y
t
, 0
i
) y
t

t
p( z=k / y
t
, 0
i
)
Derivandoconrespectoalasvarianzas


g
i
(0)
c
k
2
=

c
k
2
(

k
ln p( y
t
/ z=k , 0) p( z=k / y
t
, 0
i
)
)
=
=

c
k
2
(

k
|
0.5lnc
k
2

( y
t
j
k
)
2
2c
k
2
+ c

p( z=k / y
t
, 0
i
)
)
=
=

t
|

1
2c
k
2
+
( y
t
j
k
)
2
2c
k
2

p( z=k / y
t
, 0
i
) = 0
c
k
2
=

t
p( z=k / y
t
, 0
i
)( y
t
j
k
)
2

t
p( z=k / y
t
, 0
i
)
31
Elnicotrminoquenecesitamoscalcularparautilizarestasexpresio
neseslaprobabilidadaposteriori p( z=k / y
t
, 0
i
) .Porelteoremade
Bayes(2.2)resolvemos
p( z=k / y
t
, 0) =
p( y
t
/ z=k , 0
i
) p( z=k / 0
i
)
p( y
t
/ 0
i
)
=
p( y
t
/ z=k , 0
i
) p( z=k / 0
i
)

j
p( y
t
/ z=j , 0
i
) p( z=j / 0
i
)
32
2.7.3.5Simulaciones
Simulacin1
ParalassimulacinesdelalgoritmoEMhemosusadocomofuenteuna
mezcladetresgaussianas.Losparmetrosdelamezclaqueseusan
paragenerarlasobservacionesson
c = 0.2 0.3 0.5

j
1
=1
j
2
=4
j
3
=2
c
1
2
=0.25
c
2
2
=1
c
3
2
=16
Usandoestafuentesehageneradounasecuenciadeobservacionesde
longitudN=1000,conlaqueseentrenarunsegundomodeloutilizan
doelalgoritmoEM.
Estesegundomodelotienetodossusparmetros(inclusoeln
merodecomponentesdelamezcla)escogidosalazardentrodeunran
gorazonable.Esdenotarquecomoelalgoritmoalcanzaptimosloca
leselpuntoinicialesimportantedecaraalograrunbuenresultado
(veremosuncontraejemploenlasiguientesimulacin).
33
figura 2.6 Densidad de probabilidad real de la fuente, una mezcla de tres gaussianas.
34
Figura 2.7 Histograma de las observaciones generadas por la fuente (N=1000)
Figura 2.8 Arriba, mezcla de cuatro gaussianas a entrenar, con sus parmetros
iniciales. Debajo, resultado del entrenamiento tras 20 iteraciones. Ntese como la
densidad de probabilidad ha convergido a la original, alcanzando el mximo global.
2.8.2AlgoritmoEM.Simulacin2
Enestecaso,acausadelaeleccindelosparmetrosiniciales,slose
alcanzaunmximolocal.
35
figura 2.9 Verosimilitud logartmica de las observaciones respecto al segundo modelo durante
el entrenamiento. Podemos observar como para cada iteracin, el valor es cada vez mejor
(monotnicamente creciente).
figura 2.10 Parmetros iniciales del modelo de la segunda simulacin, con cuatro gaussianas.
3.Introduccinalosmodelosocultosde
Markov
3.1ProcesosdeMarkov
Unprocesodemarkovdeordennseraquelprocesoestocstico
enque,unavezconocidasnsalidasconsecutivasdelproceso,ladistri
bucines delas siguientes salidas quedancompletamentedetermina
das.As,unprocesoaleatorioserunprocesodeMarkovdeprimeror
densiladistribucinde x
n
,dadosupasadoinfinito,slodependede
delamuestraprecedente,
x
n1
.UnejemplodeprocesodeMarkovde
primerordenseraeldescritoporlasecuaciones
x
n
= j x
n1
+w
n
donde w
n
seraunasecuenciadegausianas,demediacero,indepen
dienteseidnticamentedistribuidascondensidad
f
w
( w) =
1
.
( 2 n c
0
2
)
exp(w
2
/ 2c
0
2
)
Ladensidadcondicionalde x
n
dado x
n1
vendradadapor
f
x
n
/ x
n1
( x
n
/ x
n1
) =
1
.
2 n c
0
2
exp
(
( x
n
j x
n1
)
2
2c
0
2
)
Dondepodemoscomprobarquelaprobabilidadcondicionadarspectoa
unasecuenciadeobservacionespasadas, slodependedelaobserva
cininmediatamenteanterior.
(3.1)
36
f
x
n
/ x
n1
, x
n2
, ...
( x
n
/ x
n1
, x
n2
, ...) = f
x
n
/ x
n1
( x
n
/ x
n1
)
Elresultadomsimportantequesederivadeladefinicinesla
dequeladensidadconjuntadecualquierconjuntodemuestrasdeun
procesodemarkovdeprimerorden,quedacompletamentedetermina
daporlasdensidadesdeprimerorden
f
x
n
ylasdensidadescondiciona
les
f
x
n
/ x
n1
.
Paradejarpatenteestehecho,considreseelconjuntodemues
tras x
0,
x
1,
... x
n
.Paracualquierprocesoestocsticopodemoses
cribir(omitiendolosargumentosparasimplificarlanotacin)que:
SielprocesodeMarkovlaexpresinsereducea
(3.2)
ladensidadconjuntaparalasmuestrasapartirdeuninstantedadon,
dependerde x
n
peronolohardeningnvalordelasecuenciaprevio
an.
3.2CadenasdeMarkov
3.2.1Introduccin
CuandounlasalidadeunprocesodeMarkovtomaslouncon
juntodevaloresdiscretos,hablamosdecadenasdeMarkov.Basndo
nos en las definiciones dadas hasta ahora, un proceso aleatorio que
tomeslovaloresdiscretosserunacadenadeMarkovsisatisface
p( x
n
=S
i
/ x
n1
=S
j
, x
n2
=S
k
, ...) = p( x
n
=S
i
/ x
n1
=S
j
)
37
f
x
0,
x
1,
... x
n
= f
x
n
/ x
n1
, ... x
0
f
x
n1
/ x
n2
... x
0
... f
x
1
/ x
0
f
x
0
f
x
0,
x
1,
... x
n
= f
x
n
/ x
n1
f
x
n1
/ x
n2
... f
x
1
/ x
0
f
x
0
Hayciertaterminologaqueseasociacomunmentealadescrip
cin de cadenas de Markov. Cuando x
n
=S
i
se dice que la cadena de
Markovestenelestadoi.Enadelante,denotaremosestosinstantes
enqueseproduceelcambiodeestadoconelndicet(enlugarden),y
elestadoparauninstantetdeterminadocomo q
t
(enlugarde x
n
).As
deacuerdoconlanuevanotacinescribiramos:
p(q
t
=j / q
t 1
=i , q
t 2
=k , ...) = p(q
t
=j / q
t 1
=i )
eslaprobabilidadconcretadequeseproduzcaunatransicindesdeel
estadoi(enelqueelsistemaestabaenelinstantet1)haciaelestadoj
(enelinstantet).Esdecir,laprobabilidadcondicionadadequelasali
dadelprocesotomeelvalorjdadoquelaanteriormuestratomelva
lori.
38
figura 3.1 Diagrama de estados que muestra la dependencia de la probabilidad de permanencia
en un estado respecto a los estados anteriores en una cadena de Markov.
i
j
k
N
i
j
k
N
i
j
k
N
t1 t t2
i
j
k
N
i
j
k
N
t1 t
=
3.2.2Lamatrizestocstica
Si consideramos aquellas cadenas de primer orden en que las
probabilidades de transicin entre estados son independientes del
tiempo,podemosdefinirunamatrizA constantequecontengadichas
probabilidades.SiendoN elnmerodeestadosenlacadenadeMar
kov,loselementosdeAsedefinencomo
(3.3)
Loscoeficientesde lamatrizcumplenpordefinicinlas restricciones
estocsticas
a
i j
0

j=1
N
a
i j
= 1
Estamatrizseconocecomomatrizestocstica.Permiteutilizar
cmodamentelarepresentacinentrminosdeestados,ampliamente
difundidayesmuytilyaqueponedemanifiestodeformaintuitiva
laspropiedadesdelproceso.Lamatrizdeestocsticanospermiteobte
nerfacilmentelasprobabilidadesdealcanzarunsegundoestadodesde
unprimero,sinmsquemultiplicar.Paraexponermsclaramentelas
propiedadesdeA loharemosconunejemplo.Supongamosquevamos
amodelarelclimadeunaciudad.Enprimerlugarasociaremosunes
tadoacadacaractersticameteorolgica.
Estado Situacinmeteorolgica
1 Despejado
2 Nublado
3 Lluvioso
Lamatrizdetransicinnosdarlaprobabilidaddepasardeunasitua
cinaotra.Parasercoherentesharemosqueseaalgomsfcilalcan
zarunestadoLluviosopasandoporNubladoquedirectamentedesde
39
a
i j
= p(q
t
=j / q
t 1
=i) , 1 i , j N
Despejado,yviceversa.EntoncesApodraseralgocomo

A =
|
0.8 0.15 0.05
0.2 0.6 0.2
0.1 0.2 0.7

Demaneramatricialpodemoscalcularlaprobabilidaddeacabarenun
estado,dadasunasprobabilidadesinicialesdeocupacindeestadoen
elinstanteanteriorusandolaexpresin
(3.4)
Ennuestroejemplosiundaestnublado, q
t
= | 0 1 0
T
.Lapro
babilidadparacadaunodelosestadosclimatolgicosaldasiguiente
seobtieneaplicando(3.4).
q
t +1
= A
T
q
t
=
|
0.8 0.2 0.1
0.15 0.6 0.2
0.05 0.2 0.7

|
0
1
0

=
|
0.2
0.6
0.2

3.2.3Tiempomediodepermanenciaenunestado
Laprobabilidaddecambioparaunestadoidadosedescribeme
diante una variable de Bernouilli con probabilidad de xito
40
figura 3.2 Un ejemplo de cadena de markov para modelar
el clima
1
2
3
0.8
0.15
0.05
0.1
0.7
0.6
0.2
0.2
0.2
q
t +1
=A
T
q
t
p=

ji
a
i j
.As,eltiempomediodepermanenciaenunestadoodu
racinmediadelestadocoincidirconlamediadeladistribucingeo
mtricaasociadaalaanterior.Aestacantidadhabraqueaadirleen
nuestrocasounaunidad,yaquepartimosdeunestadoinicialidado,y
paraesohayqueestareneseestado
duracion mediaobservada = 1+j
geom
= 1+
(1p)
p
=
1
p
=
1

j i
a
i j
Cuandoladuracinpromediodeunfenmenopuedeestimarse,secon
vierteenunaayudavaliosaalahoradeacotarlosparmetrosdedise
odelmodelo,yaquenosdeterminaraladiagonaldelamatrizesto
cstica.Aplicadoanuestroejemplo,elnmeromediodedasconsecuti
vosenqueeltiempopermanecenublado,lluviosoosoleadosecorres
pondecon
Situacin
atmosfrica
Probabilidadde
cambiodeestado
Nmediodedias
consecutivos
Soleado 0.2 5
Nublado 0.4 2.5
Lluvioso 0.3 3.333...
3.2.4Probabilidadesdetransicindeordensuperior
YlasprobabilidadesNdasdespus?Enocasionesesnecesario
conocerlasprobabilidadesdetransicindeordenk.Estasprobabilida
dessedefinencomo
p
i j
k
= p(q
t
=j / q
t k
=i )
ysonfcilmentecomputablesenbasealasdeprimerorden.Enprinci
piopodramospensarenhallartodoslasposiblessecuenciasdeestados
queuniesenelestadoinicialconelfinalenkpasosysumarsusrespec
41
tivasprobabilidadesdeocurrencia.Elcalculoconlamatrizdetransi
cinnosahorratrabajo. Si llamamos q
t
al vector que contiene las
probabilidadesdeencontrarseenlosdistintosestadosparauninstante
tdado,tenemosque
q
t +1
= Hq
t
q
t +2
= Hq
t +1
= H
(
Hq
t
)

q
t +k
= H
k
q
t
dondesehaintroducidolamatrizdetransicin H = A
T
.Lasproba
bilidadesdetransicindeordenksernportantolascomponentesde
lamatriz H
k
.
3.2.5Probabilidadesasociadasalosestadoslmite
Aunquenoserdeespecialintersenposterioresdesarrollosha
cer notar que bajo ciertas condiciones, aparece un comportamiento
asintticodelasprobabilidadesdeocupacindeestados.Siestosucede
lasmismassedenominanasociadasalosestadoslmite.
(3.5)
Estas probabilidades lmite, si existen, se usan normalmente
comocondicininicialdelsistema,equivaliendoalsupuestodequeste
llevamuchotiempofuncionando.Alcanzadoesteestadoestablesecum
pleque
Hn = n ( HI )n = 0
Comolascolumnasde HI sumancero,sudeterminanteser
nuloyelsistematienesolucin.Luegosiempre existirunautovector
asociado al autovalor uno. Puede demostrarse (aunque no es trivial)
42
n = lim
k -
p
k
= lim
k -
H
k k
0
p
k
0
quelamatrizdetransicintienetodossusautovalores(quepuedenser
complejos)conmdulomenoroigualqueuno.Paraqueexistaunnico
vectorlmiteindependientedelascondicionesiniciales,sernecesario
que:
i. No tenga autovalores complejos con mdulo uno, ya que rotaran
siempresinalcanzarnuncaunvalorestable.
ii. Noexistamsdeunautovalorconvaloruno,yaqueentonceselvec
torlmitedependeradelascondicionesiniciales.
Ennuestroejemplosecumplenlascondiciones,yexistenesosestados
lmite.
autovalores(H) = | 1 0.6823 0.4117
autovectores (H) =
|
0.7326 0.7651 0.2852
0.5037 0.1355 0.8052
0.4579 0.6295 0.5199

n = | 0.4324 0.2973 0.2703


t
Los valores obtenidos se pueden hallar tambien iterando, au
mentndoelvalordekparaacercarnosallmite(3.5).Siexistenesta
doslmite, todaslascolumnasde H
k
convergena n ,independi
zandoaselvector
p
k
delascondicionesinicialesdelsistema
p
0
.
Lassimulacionessiguientesmuestranlaconvergenciaparalosvalores
denuestroejemplo.
43
44
Figura 3.3 Probabilidades de transicin desde soleado (arriba) y nublado (abajo) a todo los estados,
respecto al numero de transiciones. Cuando el orden de las transiciones aumenta, las probabilidades
de pasar a otros estados tienden a un lmite. Si las mismas probabilidades lmite rigen para todos los
estados, no importa que clima haga hoy: la probabilidad de que dentro de un periodo largo de dias
llueva es la misma.
0 5 10 15 20 25 30
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Estado Soleado
intervalo de la prediccin (dias)
Probabilidad de permanecer
Probabilidad de pasar a Nublado
Probabilidad de pasar a Lluvioso
0 5 10 15 20 25 30
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0.55
0.6
0.65
Estado Nublado
intervalo de la prediccin (dias)
Probabilidad de pasar a Soleado
Probabilidad de permanecer
Probabilidad de pasar a Lluvioso
3.2.6Verosimilituddeunaobservacin
DeacuerdoconladefinicindeAycon(3.1)podemoscalcularla
sinmayordificultadlaprobabilidaddequeunasecuenciadeobserva
cionesdadahayasidogeneradapornuestromodelo.Enlosucesivore
presentaremos por o=

o
1,
o
2,
... , o
T
la secuencia observada, y por
\(0) almodelo,donde 0 representalosparmetrosdelmodeloen
cuestin(enelcasoquenosocupa,lamatrizestocsticaA).Esderese
arquecadasecuenciadeobservacionestieneunayslounasecuencia
de estados asociada q=

q
1,
q
2,
... , q
T
. Supongamos una primera se
cuenciadeobservacionesparanuestroejemplo
o= S , S , S , S , S , N , N , L , L , L , L , N , S
Dondeporclaridadsehansustituidolosndicesdelestadoporlasini
cialesdelclimaasociado.Comolaprobabilidaddepasardeunestadoa
otrovienedadaporlamatrizdetransicin,ylasecuenciadeestadoses
conocida,laverosimilituddelaobservacinrespectoanuestromodelo
45
Figura3.4Probabilidad de transicin desde el estado Lluvioso a los dems estados, frente al orden
de la transicion.
0 5 10 15 20 25 30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
intervalo de la prediccin (dias)
Estado Lluvioso
Probabilidad de pasar a Soleado
Probabilidad de pasar a Nublado
Probabilidad de permanecer
vendrdadapor
o= S , S , S , S , S , N , N , L , L , L , L , N , S
p(o/\) = p(q/ \) = n
q
1

t =1
T 1
a
q
t
q
t +1
= n
1
a
11
a
11
a
11
a
11
a
12
a
22
a
23
a
33
a
33
a
32
a
22
a
21
4.4 10
5
SienlugardemodelarelproblemaconunacadenadeMarkov
noshubiramosceidoslamentealaprobabilidaddeaparicindelos
smbolos(probabilidaddelosestadoslmite),ignorandocompletamente
lasprobabilidadesdetransicintendramos
o= S , S , S , S , S , N , N , L , L , L , L , N , S
p(o/ n) = p(q/ n) =

t =1
T
n
q
t
= (n
1
)
6
(n
2
)
3
(n
3
)
4
9.2 10
7
Unaverosimilitudunparderdenesdemagnitudmenor.Parecepor
tanto que la primea secuencia propuesta le era bastante "propia" a
nuestromodelo(esbastanteprobablequehayasidogeneradaporalgo
parecidoa nuestro modelo). Probemosconunasegunda secuenciade
observaciones.
o= S , L , S , L , S , L , S , L , S , N , N , N , S
p(o/\) = p(q/ \) = n
q
1

t =1
T 1
a
q
t
q
t +1
= n
1
a
13
a
31
a
13
a
31
a
13
a
31
a
13
a
31
a
12
a
22
a
22
a
23
2.9 10
8
Anapareciendocadaestadoelmismonmerodevecesqueen
laprimera,tenemosunadiferenciadecuatrordenesdemagnituden
46
laprobabilidaddelasecuencia.Normalizandorespectoalalongitud,
unacomparacindelaprimerarespectoalasegundanosdejaunfac
torde1.75(paralaprobabilidadmediaporsmbolo).Estasdiferencias
notablessondebidasalanouniformidaddelasprobabilidadesdetran
sicinentreestados,alaestructurainternadelafuente.
Enestosejemplosquedapatentelaimportanciadeloqueconsti
tuyelaesenciadelascadenasdeMarkov,lasprobabilidadesdetransi
cin,ycomonecesariamenteimprontanlassalidasdelmodelo.
2.3.7Estimacindelosparmetrosdelmodelo
SiqueremosestimarlosparmetrosdeunacadenadeMarkov
paraqueseajustenlosmsfielmenteposibleaunconjuntodesecuen
ciasdeobservacionesdeentrenamiento
0

= argmax
0
p(o/\(0))
Laestimacinsereduceaunaestimacindemximaverosimili
tud.Nohaymsquecontardirectamenteelnmerodetransiciones.
As,laprobabilidaddetransicindesdeihaciajseharcorresponder
conlafrecuenciaobservadadetaltransicinenelcuerpodeentrena
miento.
3.3CadenasomodelosocultosdeMarkov
3.3.1Definicin
Enlosmodelosvistoshastaahora,lasalidadelprocesoencada
instanteestconstituidaporunvalorunvocamenteasociadoalestado.
Lasalidaquedadeterminadacompletamenteporelestadodelsistema,
ysesabeenquestadoestelsistemasinmsqueobservarlasalida.
Lasecuenciadeestadosqueserecorrees,porlotanto, directamente
observable,ylasprobabilidadesqueestnasociadasaestasecuencia,
fcilmentecomputables.
47
EnunacadenaocultaomodeloocultodeMarkov(HiddenMar
kovModel,HMMenadelante)estonosucede.Unejemploclarodeun
HMM de valores contnuosse muestra enla figura 3.5. En ella, dos
sistemasoprocesosestocsticoscualesquierageneransusrespectivas
secuencias.Untercersistema,elconmutador,alternaentreellospara
crearlasalida.Elestadodeestetercersistemanodeterminalosvalo
resquetomarlasalida,perosquotroprocesosemanifestarenla
misma.
AsenunHMM,lasalidaasociadaaunestadonoesunvalor,
sinolasalidaddeunprocesoestocsticoounavariablealeatoria.Por
esodicequeunHMMesdoblementeestocstico.Estotieneimplicacio
nesalahoradetratarconlosdosproblemasyadescritosparacadenas
deMarkov,yaquelasecuenciadeestadosquesigueelsistemanoes
directamenteobservableenlasalida.
3.3.2Unejemploclsico
Unescenarioclasicoparaponerdemanifiestounocultodemar
kov devalores discretos esel queplanteael siguiente experimento.
Imaginemosquealguientrasunascortinasoscurasalguientieneva
48
figura 3.5 Ejemplo que ilustra la relacin entre estado y observacin en los modelo oculto de
markov
riasurnasiguales,llenasendistintaproporcindeunamezcladebolas
rojas,azulesyamarillas.
Elejecutorsededicaasacarunaboladelaurnaynoslaensea
tmidamenteporlarajadelacortina,paraluegodevolverlaasuurna
deorigen.Elejecutorescogelaurnausandoundadoy(quizs)algun
tipodereglaparalaeleccinbasadaenlaltimaurnaescogida.Por
ejemplopodradecirsihesacadodelaurnaA,vuelvoasacardeAsi
eneldadosaledeunoacuatro,sacodeBsisalecincooseis,yennin
gncasosacodeC.Ytodoloquenosotrospodremosobservaresuna
secuencia debolasrojas, azules,amarillas... perono sabemosdequ
urnalaestnsacando,nisegnqucriterios.
Podemosformularunmodeloenelqueacadaurnalecorrespon
deunestadodelsistema.Entonces,lasalidaencadaestadoestarago
bernadaporunadistribucinmultinomial,sobrelasbolasrojas,azules
yamarillas.LamatrizestocsticaAseencargarademodelarelsiste
madeeleccindeurnas,tantoeldadocomolasposiblesreglas.
HayquehacernotarqueelHMMpropuestoserintuitivamente
"mejor"sielnmerodeestadoscoincideconeldeurnas,lasprobabili
49
figura 3.6 Tres urnas con distinta proporcin de bolas se irn seleccionando para generar la salida,
que consiste en la extraccin de una bola de la urna escogida.
Urna A Urna B Urna C
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
0,55
Distribucion de las bolas
A B C
dadesdetransicinmodelanloscriteriosdetransicinylasmultino
mialessonfielesalasproporcionesdecadaurna.Todasestasconside
racionessepondrndemanifiestoensucesivoscaptulos.
Implcitamenteenelenunciadoestamosdesvelandogranparte
delmisterio,yconocemosmuchascosas:existenvariasurnas,existeun
dado que escoge entre ellas y las bolas quenosotros vemos salen de
algunadeesasurnas.ConestaspistassabemosqueunHMMpuede
modelaralaperfeccinlasituacin.As,podemosescogerporejemplo
unmodelocondosestadosyunosvaloresinicialesparalasvariables
asociadasaelloseintentarqueseasemejelomsposiblealoobserva
do(msadelanteveremoscmosehaceesto).Sinoestamosssatisfe
chospodemosprobarconotronumerodeestados(cinco,porejemplo)y
otrosvaloresiniciales,conlaesperanzadeque,muyprobablemente,en
algunodelosintentosconseguiremosunmodelotanbuenoquenossir
vaparaloqueseaquequeremoshacerconl.Hastaaqutodoesco
rrecto.Perosupongamosquenosabiamosesascosas,oquerealmente
nosabemosqueesloqueocurredetrsdelacortina.Lasbolaspodran
estarsiendoescogidasdeunauotraurnasegncriteriosqueimplica
ranelcolordelabolaanterior,oporelcaprichodeunnio,opodran
representarunaimagentelevisada, digitalizaday transmitidasobre
una linea con una modulacin ternaria. En estos casos no importa
cuntoprobemos: puede quenuestromodelojams reflejelosprocesos
subyacenteslobastantebien,porquepuedequeestemoscometiendoun
erroralmodelarloscomoHMMs.
Enelmundoreal,estaspistasprovienenengeneraldediscipli
nascomplementariasodelconocimientoobtenidoenotrasreas.As,
sabemosquelavozpuedesermodeladausandounmodeloocultode
Markovporquesabemosqueenelprocesodehablalosorganosfonado
resadoptanconfiguracionesestablesdurantecortosperiodosdetiem
po,queestenumerodeconfiguracionesesfinitodentrodeunalenguay
quelaejecucinde cualquierpalabra tratarde seguir uncamino a
travsdeesaconstelacion.
50
3.3.3Parmetrosdelmodelo
LosparmetrosdeunHMMincluyenallosquehemosvistoque
definanelcomportamientodelascadenasdeMarkov.Lasprobabilida
desdetrenasicinyprobabilidadesinicialessiguenestandopresentes,
peroahora,enlugardeunsmbolo,tenemosasociadaunavariableale
atoriaacadaestadosdelmodelo.CualquierHMMvendrespecificado
por:
i. A Lamatriz estocstica.Determina laprobabilidad de
transicinentreestados,igualqueenlascadenasdeMar
kov. SiendoNelnumerodeestadosdelmodelotenemos
que

j =1
N
a
ij
=1 1i N
ii. n Probabilidadesiniciales.Apesardesulanomen
claturanotienenporqucoincidirconlasprobabilidadesd
delosestadoslmite.Tambienhandecumplirlarestric
cinestocstica.
iii. b
j
Distribucin de probabilidad o densidad de
probabilidad(enelcasocontnuo)asociadaalestadoj.Si
denominamos como o
t
elvalorobservado para un ins
tantettenemosque...
Caso discreto. M=numero de simbolos del alfabeto

v
1
, v
2
, ... v
k
... , v
M
desalida
b
j
( v
k
)=p(o
t
=v
k
/ q
t
=j ) 1jN , 1kM
Casocontnuo
b
j
(o
t
) = f
x / q
t
=j
(o
t
)
51
donde
f
x / q
t
=j
( x )
esunadistribucincontnua,porejemplounagaus
sianaounamezcladegaussianas.As,unavezescogidoelnumerode
estadosquetendr,elHMMquedadefinidopor
\=( A, B , n)
Enadelante,cuandonosrefiramosalosparmetrosdeunHMMensu
conjunto usaremos la letra griega
0 = A, B , n
, por loque si nos
encontramoscon \(0) estaremosponiendodemanifiestoladepen
denciadelmodeloconrespectoasusparmetros.
3.3.4Lostresproblemasfundamentales
TrabajarconHMMsplanteatresproblemasbase.Estosproble
mas,queerantrivialescuandotrabajamosconcadenasdeMarkov,se
vuelvenmscomplicadosahoraquelasecuenciadeestadosestms
dbilmenteunidaconlasalidaobservable.
i. ElprimerproblemaproblemalollamaremosClculodelaverosimi
litudrespectoaunmodelo.Consisteen,conocidaunasecuenciade
observaciones O =

O
1
, O
2
... O
T
,determinarconquprobabilidad
podra haber sido generada por un modelo \=( A, B , n) dado. El
clculodeestacantidadesnecesariocuando,teniendounconjunto
demodelosenmutuacompeticin,intentamosdeterminaracualde
ellos esmsprobablequepertenezca lasecuenciadesimbolosob
servada.Demaneraformal,lopodemosexpresarcomo
p(O\) .
ii. ElsegundoproblemalollamaremosClculodelcaminoptimo.Co
nocidaunasecuenciadeobservaciones O =

O
1
, O
2
... O
T
yunmo
52
delo \=( A, B , n) , consiste en encontrar la secuencia de estados
Q=

q
1,
q
2,
... , q
T
porlaquedebepasarelmodeloquepuedasercon
sideradaptima,enelsentidodequesealaquemejorexplicaquese
haya producidoesa observacin. El problemaemerge delhecho de
quelasecuenciadeestadosyanoesobservableydequeengeneral
habrunamiriadadecaminosquepuedandarpiealamismase
cuenciadeobservacin.Formalmentebuscamos
argmax
Q
p(O/Q, \)
iii.EltercerproblemalollamaremosReestimacindeparmetros. Co
nocidaunaomltiplessecuenciasdeobservacionesO,cmovariar
losparmetrosdenuestromodelo
\=( A, B , n)
demodoquemaxi
micenlaprobabilidaddequelasecuenciaosecuenciaspertenezcan
anuestromodelo.Esteproblemaseplanteacuandointentamosen
trenarunmodelo usandoun conjuntodeobsevacionesdeentrena
miento,yesdelejoselmsdificildelostres.Formalmenteintenta
remosencontrar
argmax
0
p(O/\(0))
Cadaunodeestosproblemasfundamentalessernresueltosdeunoen
unoenlossiguientescaptulos.
53
4.Clculodelaverosimilitudrespectoa
unmodelo
4.1Planteamiento
Esteproblemasenosplanteacuandotenemosquedecidir,dada
unaobservacin,cualdenuestrosmodelosesconmayorprobabilidad
elquelahagenerado,enculdenuestrosmodeloscuadramejorlaob
servacin.
4.2Aproximacindirecta
Unaformasencilladeenfocarelproblemaconsisteenconsiderar
quealgenerarunaobservacindelongitudT,elsistemarecorrenece
sariamentealgunasecuenciadeestados
q=q
1...
q
T
. Siqueremoscal
cularlaprobabilidaddequeunasecuenciasecorrespondaconunaob
servacin,tenemosquerecurriraladensidaddeprobabilidad(oalas
probabilidadesdesmboloenelcasodiscreto)decadaunodelosesta
dosqueatravesemos encadainstante.Formalmente,laprobabilidad
dequeunasecuenciaconcretadeestadosdelugaraunaobservacin
dadaseexpresacomo
p(o/ q , \) =

t=1
T
p(o
t
/ q
t
, \) = b
q
1
(o
1
) b
q
2
(o
2
) b
q
T
(o
T
)
Dondesehaasumidoquelasobservacionessonestadsticamenteinde
pendientes. Ahorabien, tambin necesitamosconocerla probabilidad
de queel sistemapase por esasecuencia de estadosen concreto. La
probabilidaddependerdeloscoeficientesdelamatrizdetransicin,y
vienedadaporlaexpresin
p(q/\) = n
q
1
a
q
1
q
2
a
q
2
q
3
a
q
T 1
q
T
54
Conestosdatosenlamanoyapodemosaveriguarlaprobabili
daddequelaobservacinhallasidogeneradaporelmodeloydeque
ademselmodelorecorralasecuenciadeestadosqueestamosconside
rando.AplicandoBayestenemos
p(o , q/ \) = p(o/ q , \) p(q/ \)
AlbuscarlaprobabilidaddeobtenerOdesdenuestromodeloes
tamosbuscandosinolasumadelaprobabilidadconjuntasobretodos
losposiblescaminos.Sinmsquetomarlamarginaldelaprobabilidad
conjuntaobtenemoslasolucinquebuscbamos.
p(o/\) =

q
p(o/ q , \) p(q/\) =

q
n
q
1
b
q
1
(o
1
) a
q
1
q
2
b
q
2
(o
2
) a
q
T 1
q
T
b
q
T
(o
T
)
Una manera de calcular la expresin anterior es la siguiente:
empezamosent=1computandolaprobabilidaddequeelmodelose
encuentreenelestado
q
1
.Multiplicamosporlaprobabilidaddeque,
estandoenese estado, generela observacin
o
1
correspondiente; el
siguienteproductoimplicalaprobabilidaddequeseproduzcaelsalto
desde
q
1
a
q
2
,yasvamosrecorriendoelsenderoatravsdeles
paciodeestados.Yrepetimoslaoperacinparatodoslosposiblescami
nos.
Siyahemosresueltoelproblema,porquhaymslneaspor
debajodeesta?Estaaproximacindirectaes,sencillamente,computa
cionalmenteinviable:deuninstantealsiguientenacenNnuevoscami
nos,luegoentotalexistirn N
T
caminosdistintos.Yparacadaca
minonecesitamosalrededorde2Toperaciones(2operacionesdemulti
plicacinporestado).Parahallarlaverosimilituddeunaobservacin
concienmuestrasrespectoaunmodeloquetengacincoestadosnecesi
taramosalrededorde
2 T N
T
= 2 100 5
100
10
72
55
4.3ProcedimientoBackwardForward
4.3.1Fundamentos
Elalgoritmomostradoenelacercamientodirectoalproblemaes
deordenexponencial,debidoalasbifurcaciones(Nfurcacionesenrea
lidad)delsenderodeestados.Podemosconseguiralgomejorsinosda
mos cuenta de que los mltiples caminos no slo se dividen en cada
paso,sinoquetambinencadapasoconfluyen.Estaideaseformaliza
enelprocedimientoAdelanteAtrs(BackwardForward)
Sebasaendoshechos:
i. Sloexisteunnumerofinitodeestados:todosloscaminosdiscurren,
ydesembocannecesariamenteacadapasoenunestadodelosposi
bles.
ii. Elverdaderointersresideenobtenerlasumadelaprobabilidadde
todosloscaminos,ynoenlaprobabilidaddeuncaminoenconcreto.
Estonospermitirolvidarelcaminorecorridohastaunpuntodado.
4.3.2Variablehaciadelante(Forwardvariable)
Lavariablehaciadelantenosayudaracalcularlasuma
delasprobabilidadesdetodosloscaminos.Sedefinecomolaprobabili
daddequeelmodelogenerelasalidahasta
t =t
0
yqueen
t
0
est
enelestadoi.Formalmente,
(4.1)
Su misma definicin parece prometer que podremos calcularla
iterativamente.Supongamosquetenemosunmodeloconsolodosesta
dos.Deunmodointuitivo,sienelinstantetllegamosaalestadoj,he
56
o
t
( i )=p(o
1
o
2
... o
t
, q
t
=i \) 1t T
mosllegadoahporquevenimosdealgnotroestadoenelinstantean
terior(t1).
Cmohayamosllegadoaeseestadoanteriornosimportapoco,
siempreycuandoconozcamoslaprobabilidaddehaberocupadoelesta
doanteriorhaceuninstante.Laprobabilidaddehaberestadoenunes
tadocualquieraienelinstantet1(dadaslasobservacionespasadas)
esprecisamente
o
t 1
(i )
.Luegolaprobabilidaddellegaralestadoj
enel instantet+1vendrdeterminadapor estasprobabilidades y la
matrizdetransicin:
p(o
1
o
2
o
t 1
, q
t
=j \) =

i
o
t 1
(i) a
ij
Ahoraqueconocemoslaprobabilidaddeestarenelestadojenelins
tantet(dadaslasobservacionespasadas),podemoscalcularlaprobabi
lidaddeestarenelestadojenelinstantetyademsestarobservando
o
t
.
p(o
1
o
2
o
t
, q
t
=j \) = b
j
(o
t
)

i
o
t 1
(i ) a
ij
= o
t
( j )
Queespordefinicin o
t
( j ) ,pudiendoportantocalcularlaparatodo
instantedemanerarecursiva.
57
Sicalculamoslavariablehaciadelante,encadaiteracin ten
dremosquehacerN*Nproductos(probabilidadesdetransicin),N*N
sumasyNproductos(probabilidaddegenerarlaobservacin)Luegoel
nuevoalgoritmorequiereslo 2N(N1)Toperaciones,eslinealconel
tiempoycuadrticoconelnmerodeestados.Paraelmismoejemplo
anterior,calcular o
T
(i ) i dadaunaobservacinconcienmues
trasrespectoaunmodeloquetengacincoestadosnecesitaramosen
tornoa
10
4
operaciones.
Cmoserelacionalaverosimilitudconlavariablehaciadelan
te?Pordefinicinlavariablehaciadelanteeslaprobabilidaddeque
dadalaobservacioneshastat=t,nosencontremoseneseinstanteen
elestadoj.Sielinstanteconsideradoeselltimo,laverosimilitudde
lasecuanciacompletadeobservacionesrespectoalmodelosereducea
lasumaparatodoslosestadosposiblesde o
T
( j ) .
p(o/\) =

j
p(o
1
o
2
o
T
, q
T
=j \) =

j
o
T
( j )
Conlo cual hemos resuelto el problema de un modo factible. Resu
miendoelprocedimientohaciadelantequedacomo:
58
Figura4.1Diagramaquerepresentaunaiteracinenelclculorecursivo
delavariablehaciadelante

a
1 1
a
1 2
a
2 1
a
2 2
o
t 1
(1)
b
1
(O
t
)
b
2
(O
t
)
o
t 1
( 2)
o
t
(1)
o
t
(2)
t-1
t
4.3.3Variablehaciadetrs(Backwardvariable).
Lavariablehaciadetrseslacontrapartidadelavariablehacia
delante.Nospermiteigualquelaanteriorcalcularlaverosimilitudres
pecto a un modelo, aunque en este casola aproximacin es distinta.
Presentamoslavariablehaciaatrsnopararesolverelproblemaque
nosocupa(paraelcualbastaralavariablehaciadelante),sinoporque
sernecesarialautilizacindeambasenlaresolucindelosproble
masporvenir.
Lavariablehaciasedefinecomolaprobabilidaddequelasob
servacionesparaparainstantesposterioresathayansidogeneradas
porelmodelo, si elmodeloestabaenelestadoienelinstantet. For
malmente,
(4.2)
59
i. Inicializacin
o
1
(i)=n
i
b
i
(o
1
) 1iN
ii. Induccin
o
t+1
( j )=
|

i=1
N
o
t
(i ) a
ij

b
j
(o
t +1
) 1t T 1
1jN
iii.Terminacin
p(o/\)=

i=1
N
o
T
(i )

t
( i )=p(o
T
, o
T 1
o
t +1
/ q
t
=i , \) 1t T 1
Aligualqueenelcasodela o ,podremosutilizarunalgorit
morecursivoydebajocosteparacalcularla.Supongamosqueestamos
enelinstantetenunestadoi,eintentamoscalcularlaprobabilidadde
que el modelo, en el futuro, genere una secuencia de muestras
o=

o
t+1
... o
T
.Esanoessinoladefinicindelavariablehaciadelan
te.Podemosplantearloendospartes:
Primerocalculamoslaprobabilidaddellegaraunestadocualquierai
enelinstanteposterior(t+1),quenoesotraque a
ij
.Formalmente
p(q
t +1
=j / q
t
=i , \) = a
ij
Unavezenelestadoj,laprobabilidaddeobservar
o
t +1
... o
T
pode
mosdescomponerlaendospartes:
p(o
T
, o
T 1
o
t +1
/ q
t +1
=j , \) =
= p(o
T
, o
T 1
o
t+2
/ q
t+1
=j , \) p(o
t+1
/ q
t +1
=j , \)
=
t +1
( j ) b
j
( o
t +1
)
Siunimoslasdosexpresionespodemoscalcularlaprobabilidad
deque,estandoenelestadoienelinstantet,nosencontremosenun
estadojenelsiguienteyenelfuturoelmodelogenerelasobservacio
nes
o
t +1
... o
T
.stavienedadapor
p(o
T
, o
T 1
o
t+1
, q
t +1
=j / q
t
=i , \) =
= p(o
T
, o
T 1
o
t +1
/ q
t+1
=j , \) p(q
t+1
=j / q
t
=i , \)
= a
ij
b
j
( o
t +1
)
t+1
( j )
60
Paraobtener
t
(i ) slotenemosquetomarlamarginaldeesta
probabilidadconjunta,oenotraspalabras,sumarlaexpresinparato
doslosposiblesestadosj.

t
(i )=

a
ij
b
j
(o
t +1
)
t +1
( j )

Estaexpresineslaformarecursivadecalcularlavariablehaciade
trs.Paraquealiniciodelalgoritmo(enelinstantet=T1)laexpre
sindevuelvaunvalorcorrecto,hadeutilizarse
T
(i )=1 i .Lare
presentacingrficadeunpasodelalgoritmoparaunmodelocondos
estadoseslamostradaenlafigura4.2.
Elclculodebetadenuevorequieredelordende
N
2
T
opera
ciones,ytambinconellasepuedecalcularlaverosimilitud p(o/\)
atravsdelaexpresin
p(o/\)=

i
n
i
b
i
(o
1
)
1
(i)
61
figura 4.2 Diagrama que representa el clculo iterativo de la variable hacia atrs

a
1 1
a
1 2
a
2 1
a
2 2

t
(1)
b
1
(O
t
)
b
2
(O
t
)

t
(2)

t +1
(1)

t +1
(2)
t
t+1
Resumiendoelalgoritmo...
4.3.4Notasdeimplementacin:escalado
Losalgoritmosexpuestoshanconseguidoreducirdrsticamente
elnmerodeoperacionesnecesariasparacalcularlaverosimilitud.Es
tandoporesaparteresueltoslosproblemas,esnecesariaencualquier
casootramodificacin.
Enquerangodevaloressemuevelaverosimilitud?Sinosfija
mos,encadaiteracin,yasea paraelclculodealfaobeta,estamos
multiplicandoporunpardecoeficientes:loscoeficientesdetransicin
a
ij
(siempremenoresquelaunidad)ylaprobabilidaddelaobserva
cindadoelestado b
j
(o
t
) (conunrangoamplsimo,dependiendode
lafuncindensidad).Cuandolalongituddelasecuenciaobservadacre
celarealidadesqueelrangodinmicodelasvariablessehaceinsoste
nible.
Paraevitarestacontrariedad,seutilizansiemprelosquesede
62
i. Inicializacin

T
(i )=1 1iN
ii. Induccin

t
(i )=

j=1
N
a
ij
b
j
(o
t+1
)
t +1
( j ) 1t T
1jN
iii.Terminacin
p(o/\) =

j=1
N
n
j

1
( j )
nominanvariablesescaladas.Lasalfasescaladassecalculanigualque
lasnormales,conlasalvedaddequeenlugardeutilizarparaelclculo
iterativo o
t1
,utilizan o
t1
normalizada, quedenotaremoscomo

o
t 1
.Formalmente
o
t +1
( j ) =
|

i =1
N

o
t
(i ) a
ij

b
j
(o
t +1
)
(4.3a4.3b)
Dondelas
o
t
( j ) sonlasvariablesnormalizadas(sumanuno),yseha
aadidouncircunflejoparadenotaralasalfasescaladas.
Elclculodelaverosimilitudtotalsevealteradoperoesinme
diatoalnotarqueelcoeficientedeescaladopuedesacarsefueradela
frmula,demodoquelaequivalenciaentrelavariableoriginalylaes
caladaesdirecta
o
t+1
( j ) =
|

i =1
N

o
t
(i ) a
ij

b
j
( o
t+1
) = c
t
|

i =1
N
o
t
(i ) a
ij

b
j
(o
t +1
)
o
t +1
( j ) = o
t +1
( j )
(

k=1
t
1
c
k
)
(4.4)
Elmismoprocesosesigueconlavariablehaciadetrs.Enesecasolos
coeficientesdeescalado c
t
tomanunvalordistintoaldelosdelava
riablehaciadelante,perosuelenserdelmismoordendemagnitud,por
loqueenrealidadpuedeusarseeldeunadelasvariablesparalasdos
(estotendrutilidadencaptulosposteriores).
63
c
t
=
1

j
o
t
( j )

o
t
= c
t
o
t
p(o/\) =

j
o
T
( j ) =

j
o
T
( j )
(

k=1
T 1
1
c
k
)
=

k=1
T
1
c
k
4.3.5Simulaciones
Simulacin4.A
Laprimerasimulacinconsisteenelclculomediantelavaria
blehaciadelanteyhaciaatrsdelaverosimilituddeunaobservacin
respectoadosmodelos.Paradarleuntrasfondoreal,podemossuponer
quelasobservacionesqueserecogenprovienendeunsnarqueseuti
lizaenflotaspesqueras.Traslareconstruccindelasealprocedente
deunbancodepeces,supondremosquelospecessemuevenenunes
paciobidimensional.Paracaracterizarelbancotomaremoscomopar
metrosdeentradaelmdulodelavelocidaddelcentrodelbancoyalgo
quereflejelaformadelbanco,comoporejemploelradiomayoryelco
cienteentreradiomayorymenor.Comohemossupuestoqueelbanco
sedistribuyeyevolucionaendoscoordenadasespaciales,enelinstante
ttendremosunaentradadetrescomponentesdeltipo
o
t
= ( v r
max
r
max
r
min
)
Los distintosmodelos demarkov representarn distintas espe
ciesdepez,ycadaestadopuedepensarsecomocorrespondienteauna
actividadqueelanimalrealice,comoalimentarse,desplazarseohuir.
Paraesteejemplovamosasuponerquelonicoquehacenestos
pecesescomer(estadouno)yhuir(estadodos).Ycontrastaremosdos
especiesdecomportamientosantagnicos,digamosquelapusilnime
sardina(modeloa,depococomerymuchohuir) yelatemperadobo
quern(modelob,comensalcasiimperturbable).
Modeloa
A
a
=
|
0.6 0.4
0.2 0.8

n
a
= | 0.33 0.67
64
b
1
(o
t
) = N (o
t
, j
1,
U
1
); j
1
a
= | 0.1 7 1.3 U
1
a
=
|
0.5 0 0
0 1.1 0
0 0 0.2

b
2
(o
t
) = N (o
t
, j
2,
U
2
); j
2
a
= | 2.2 13 5.2 U
2
a
=
|
1.9 0 0
0 5 0
0 0 1.6

Modelob
A
b
=
|
0.75 0.25
0.45 0.55

n
b
= | 0.6429 0.3571
b
1
(o
t
) = N (o
t
, j
1,
U
1
); j
1
b
= | 0.4 9 1.4 U
1
b
=
|
0.6 0 0
0 2 0
0 0 0.3

b
2
(o
t
) = N (o
t
, j
2,
U
2
); j
2
b
= | 1.7 12 3.4 U
2
b
=
|
1.2 0 0
0 2 0
0 0 2

La sardinaes, enpromedio,algoms rpidahuyendo(2.2m/s)


que el atn (1.7m/s), suele desplazarse ms lentamente mientras se
alimenta(0.1m/sfrentea0.4m/s)ysusbancossonalgomenores(~7m
deradiofrentealos~9mdelbancodeboquerones
3
).Losvaloressern
lo bastante distintos (vistas las varianzas) como para evitar que las
probabilidadesdetransicindecadaespecieseimpongandemanera
excesivaenelclculodelaverosimilitud.
Esciertoquesimodelamoscongaussianasestaremoscometien
doirremediablementeunerrordemodelado(yaqueningunadelasca
ractersticastomavaloresenelejenegativo,siendomsadecuadauna
distribucindeRayleigh),perolodejaremosestar.Delasmediciones
extraemoslasecuenciadeobservacionesmostradaenlafigura4.3.
3 Los datos del ejemplo como es evidente a estas alturas son todos ficticios.
65
Asimplevistapodemosobservarqueenlosinstantescercanosalcua
troelbancodepecessedesplazaabajavelocidadymantieneunafor
mabastanteredondeada,conloqueesposiblequeseestnalimentan
dooreposando.Enlosinstantesinmediatamenteposterioreselbanco
seahsaysuvelocidadaumentadeformadrstica,ydespus(t=8),
desplazndosetodavaagranvelocidad,vuelvearedondearseperocon
unradiomayor(lospecesestnmsseparados).Estesegundointerva
lodeobservacionesseasemejabastanteaunahuida.
Veamoslosresultadosquearrojaelprimermodelo(figuras4.4y
4.5).Losvaloresmostradossecorrespondenconlasvariablesnormali
zadasoescaladasquemencionamosenlaseccin4.3.4.Podemosobser
varque,dadoquecadaunarindecuentasacercadeunapartelasob
servaciones,parauninstantedadolasvariableshaciadelanteyhacia
atrstomanvaloresdistintos.
66
figura 4.3 Secuencia de observaciones que muestra la velocidad escalar (linea punteada y rayada),
el eje mayor (linea punteada) y la excentricidad (linea contnua) de un banco de peces.
Aunasenlamayoradeloscasosdancomomsprobableelmismo
estado.Encualquiercasoloquenosinteresaeslaverosimilituddela
67
figura 4.4 Valor de la variable hacia delante usando el modelo a (sardina). El trazo fino continuo
es el valor de alfa para el estado uno (comiendo); el discontinuo se corresponde con el estado dos
(huyendo). En cada instante, alfa representa la probabilidad de ocupar un estado, dadas todas
las observaciones anteriores.
figura 4.5 Valor de la variable hacia atrs usando el modelo a (sardina). El trazo fino continuo es
el valor de beta para el estado uno (comiendo); el discontinuo se corresponde con el estado dos
(huyendo). En cada instante, beta representa la probabilidad de ocupar un estado, dadas todas
las observaciones futuras.
observacinrespectoalmodelo.
Comolasvariablesestnescaladas( o
t
,

t
),yvimosquelave
rosimilitudpodacalcularseenfuncindeloscoeficientesdeescalado
(4.4),quenosonsinolasumadelasvariablesescaladas,podemosha
cer
p(o/\) =

t =1
T
|

j
o
t
( j )

=

t =1
T
|

t
( j )

Enlugardeestevalorsueletomarselaverosimilitudlogartmica,de
modoquenonosquedemossinrangodinmicoensecuenciaslargasde
observaciones.Ennuestrocaso,obtenemos
ln p( o/\
a
) =

t=1
T
ln
(

j
o
t
( j )
)
=

t =1
T
ln
(

t
( j )
)
= 195.1620
Puedeparecerunvalormuypequeo,perosloadquieresignificadoen
relacinconlaverosimilituddelosotrosmodelosencompetencia.Las
variableshaciadelanteyhaciaatrsparaelmodelobpuedenobser
varseenlasfiguras4.6y4.7.Laverosimilituddelaobservacinres
pectoaestesegundomodelosecalculaigual,yenestecasoelvalores
anmenor
ln p(o/\
b
) =

t=1
T
ln
(

j
o
t
( j )
)
=

t =1
T
ln
(

t
( j )
)
= 244.0545
Concluimospuesque,segnlaregladeBayes,loqueestamosobser
vandosonsardinas.
68
69
figura 4.6 Valor de la variable hacia delante usando el modelo b (boquern). El trazo fino continuo
es el valor de alfa para el estado uno (comiendo); el discontinuo se corresponde con el estado dos
(huyendo). En cada instante, alfa representa la probabilidad de ocupar un estado, dadas todas
las observaciones anteriores.
figura 4.7 Valor de la variable hacia atrs usando el modelo b (boqueron). El trazo fino continuo es
el valor de beta para el estado uno (comiendo); el discontinuo se corresponde con el estado dos
(huyendo). En cada instante, beta representa la probabilidad de ocupar un estado, dadas todas
las observaciones anteriores.
Simulacin4.B
Enestasegundasimulacinvamosadejarpatenteelefectode
lasprobabilidadesdetransicin,elncleodelacaracterizacintempo
ralqueunprocesodeMarkovhacedelasobservaciones,enelmarcode
losmodelosocultosdeMarkov.Paraellosimplementeveremos(como
hicimosenelcapitulotresconlascadenasdeMarkov)cmodifierenla
verosimilitudconunamatrizAdadaylaverosimilitudcuandolapro
babilidaddecambiodeestadoesuniforme(porloquenoentraenjue
go).Basndonosenelejemploanterior,tomamosenestecasodosmo
delos:elmodelodelboquern,yelmodelodeboquernhomogneo(en
suscostumbrestantodacomerquehuir).
Loscoeficientesdetransicinaadenunsesgoalaverosimilitud
delasealobservadaenuninstantedado,enfuncindeculerala
probabilidad de ocupacin de estados en el instante anterior. Vemos
queaunquesutiles,existendiferenciasentrelasvariableshaciaade
lantecalculadasparalosdosmodelosplanteados(fig4.9).
70
figura 4.8 Primera secuencia de observaciones. La linea punteada es el radio mayor, la linea rayada y
punteada la excentricidad y la lnea contnua representa la celeridad.
Si pensamos en maximizar la verosimilitud, y nos fijamos en
cmosecalcula,vemosqueencadainstantenosconvienequelasuma
delasprobabilidadesparatodoslosestadosdeobservareldatosealo
mayorposible.Loquehacenlasdistintasprobabilidadesdetransicin
esmejorarunadeestasprobabilidades(laquesecorrespondeconun
estadodado)yempeorarlasotras.Culdebieraserlacandidataala
mejora,?

t
ln( k
1
b
1
( o
t
)+k
2
b
2
( o
t
))
Disminuirescalandoporunfactorfijolasprobabilidadesmspe
queasnodisminuirmucholasuma,yaumentar
4
escalandoporuno
4 Si el uno menos el factor es mayor que un medio, ya estamos mejorando (aumentando)
respecto a una ponderacin homognea de las probabilidades.
71
figura 4.9 Arriba, variable hacia delante correspondiente a un modelo del boquern que obvia las
probabilidades de transicin. Debajo, variable hacia delante modelo de boquern visto en la
simulacin anterior. Linea discontinua, comiendo, linea continua, huyendo.
menosesefactorlaprobabilidadmsgrandepuedemejorarlamisma
notablemente.Eseseraelenfoqueconlavistapuestaaaumentarla
verosimilitud,perolaeleccindeloscoeficientesqueproducenelmejor
sesgoencadainstantenodependedenuestrocapricho,sinoqueviene
impuestalamismaestructuradelmodelo,enqueelestarenunestado
uotro(yaplicarportantoelsesgodemanerabeneficiosaoperjudicial)
depende exclusivamente delasprobabilidadesdeocupacindeestado
enelinstanteprevio.Estaescomoyasabemoslaesenciadecualquier
procesomarkoviano.
Silaprobabilidadesdetransicinsonhomogneas,nisepenali
zanisepremialasprobabilidadesdelasvariablesdelosdistintosesta
dos,nisepremiaopenalizaelcambiodeunestadoaotrocualquiera
estado.
Si,enelcasocontrario,laprobabilidaddepermanecerenunes
tadoesmuchomayorquelaprobabilidaddepasaraotrosestados
a
ii


j i
a
ij
estacaractersticadesembocarenunadelasmayoresmejorasposi
blesparalaprobabilidaddelavariableasociadaaeseestadoi(limita
daporciertoestamejoraa,comomximo,duplicarelvalorqueobten
dramosusandoaunadistribucinhomogneadelasprobabilidadesde
transicin).Almismotiempoincurriremosenungranempeoramiento
paralasprobabilidadesasociadasalosotrosestadosj.
Mientrastengamostiradaslargasenlasquelaprobabilidadde
quelasobservacionesprovengandelavariableasociadaalestadoisea
lamayor,estaremosmejorandolaverosimilitud(comoyadijimos,de
forma limitada). Pero y si en un momento dado esa probabilidad
b
i
( o
t
) resultasermuchomenorquelaasociadaaotroestadodigamos
b
j
(o
t
) ?(loqueocurresiemprequecuandolafuentecambiadeesta
do).
Comolaprobabilidaddepasaralnuevoestadoesminscula,en
estecasotendremosapechugarconunempeoramientodelaprobabili
72
daddelnuevoestado,quealserlamayor,arrastrarconsigolaverosi
milituddelmodeloenteroeneseinstante.Yesteempeoramiento,adi
ferenciadelamejora,noestlimitado,yaque
ln(a
ii
) - 0 ln( a
ij
) -
Elequilibrio,elmximo,sealcanzacomosiemprecuandolalon
gitud promedio de las secuencias de observaciones en las que
b
i
( o
t
)>b
j
(o
t
) j i secorrespondeconladuracinmediadeestado.
Siestalongitudpromedioesdistintaalaunmodelo,laverosimilitud
respectoalmodeloasdefinidodecaer.
73
Figura4.10Arriba,diferenciaentreellogaritmodelasumadelasalfasdelmodelo
originalyeldelmodeloconmatrizdetransicinhomognea.Debajo,susuma
acumulada(representacineneltiempodediferenciaentreambasverosimilitudes).
Comopuedeobservarse,elmodelooriginalparaelboquern(matrizdetransicinno
homognea),resultamsverosmil.
Enlafigura4.10semuestraparalaprimeraobservacin,ello
garitmodelamejoraparacadainstante,expresadacomo
ln(

i
o
t
(i )) ln(

i
o
t
homo
(i ))
Lasumadeestacantidadparatodoslosinstantesnosproporcio
naladiferenciadeverosimilituddelasecuenciadeobservacionesres
pectoaambosmodelos,tomandocomobaseelmodelodetransiciones
homogneas. Paraestaprimerasecuencia, ladiferenciaesde 13.102
belios afavordelmodelo original. Para lasegundasecuencia(figura
4.11)ladiferenciasesaldacon4.982beliosafavordelmodelohomog
neoque,enesteotrocaso,casamejorconlaobservacin(figura4.13).
74
figura 4.11 Segunda secuencia de observaciones radar, que casa mejor con el modelo de transiciones
homogneas.
75
figura 4.12 Arriba, variable hacia delante correspondiente a un modelo del boquern que obvia las
probabilidades de transicin. Debajo, variable hacia delante modelo de boquern visto en la
simulacin anterior. Linea discontinua, comiendo, linea continua, huyendo.
76
figura 4.13 Arriba, diferencia entre el logaritmo de la suma de las alfas del modelo original y el del
modelo con matriz de transicin homognea. Debajo, su suma acumulada (representacin en el tiempo
de diferencia entre ambas verosimilitudes). Como puede observarse, el modelo original para el
boquern (matriz de transicin no homognea), resulta ms verosmil.
5.Clculodelcaminoptimo
5.1Criteriosdeoptimalidad
Esteproblemasenosplanteacuandotenemosquedecidir,dada
unmodelo,cualeslasecuenciadeestadosptimarespectoaunase
cuenciadeobservacin.Porquestadosesmsprobablequepaseel
sistemaparaadaptarsealaobservacion.
Loprimeroquetenemosquedecidiresaqullamamossecuencia
deestadosptima.Supongamosquenosceimosalcasodequeelcrite
riodeoptimalidadsealamximaverosimilitud.Aunquenosciamos
ausarestecriterio,annosquedanvariasalternativas.Lasecuencia
ptimapodraser
i. Aquellaqueestcompuestaporaquellosestadosqueparacadains
tantedetiempomaximizen p(q
t
=i / o , \) ,i.eunasecuenciadees
tados ptimos.Enestecaso seescoge en cada paso eleslabncon
maximizaverosimilitudyluegoseaadealacadena.
ii. Aquellaquedeentretodaslasposiblessecuenciasdeestados,maxi
mize p(o/ q , \) ,i.eunasecuenciaptimadeestados.Eselcamino
individualmsverosmil,lasecuenciadeestadosquemspresumi
blementeel sistemahabraseguidodehabergeneradolaobserva
cin.
5.2Secuenciadeestadosptimos
Enelprimercasoestamosconsiderandoencadainstanteelesta
domsprobabledadoquesehaobservadounasecuencia.Formalmen
tebuscamos
argmax
i
p(q
t
=i / o , \)
77
Alaprobabilidaddeestarenienelinstantetdadaunaobserva
cinseleasignaunavariablequeserdeutilidadcuandonosenfrente
mosalaresolucindelproblemadelareestimacin.Sedefine
(5.1)
Intuitivamente,elestadomsprobableenuninstantetesaquelenel
quesermsprobablequeacabenloscaminosqueseadecuanalasob
servacionespasadasydelqueesmsprobablequesalgancaminosque
seadecuenalaobservacionesfuturas.Sirecordamosladefinicinde
alfaybeta, o
t
( j ) compendiaba,hastaelinstantet,laverosimilitud
detodosloscaminosquellegabanalestadoj. Porsuparte,
t
( j )
condensabalaverosimilituddetodosloscaminosque,enelinstantet,
nacanenj.Entrminosmatemticos
p(o , q
t
=i / \) = p( o
1
... o
t
, q
t
=i /\) p(o
t +1
... o
T
/ q
t
=i , \) = o
t
(i )
t
(i )
Demodoquehemoshalladolaprobabilidadconjuntadeobser
varlasecuenciaoyestarenelestadoienelinstantet.Gammasede
rivaapartirdeellausandoBayes,onotandoqueesnecesariouncoefi
cientedenormalizacinquehagaque
j

t
( j ) = 1
:
(5.2)
Paraencontrarnuestrocamino Q

q
1

, q
2

, ... q
T

deeslabones
ptimossloesnecesariocalcularalfaybeta,construirgammayesco
geraquellosestados q
t

que,encadainstantecumplan
(5.3)
78

t
(i ) = p(q
t
=i / o , \)

t
(i ) =
p( o , q
t
=i /\)
p(o/\)
=
o
t
(i )
t
(i )
p( o/\)
=
o
t
(i )
t
(i )

j
o
t
( j )
t
( j )
q
t

= argmax
j

t
( j )
Finalmenteunmomentoparalareflexin.Qupodemosdecir
delcaminoasobtenido?Lonicoquepodemosdeciresloqueemana
deladefinicin:noessinolaconcatenacindeaquellosestadosenes
elcaminocuyoseslabonesson,individualmenteyparacadainstante,
losquetienenmspapeletasdehaberdadolugaralaobservacin.Ma
ximizaelnmeroesperadodeestadoscorrectos.
Aesosestadosindividualessepuedellegardesdemultituddeca
minos,perononecesariamentedesdecualquiercamino.Sialgntrmi
no de la matriz de transicin fuera cero (es decir, la transicin por
ejemplodeiajestprohibida)nadaimpidequeaunaselestadoisea
elmsprobableenuninstante,yeljenelposterior.Elcaminodeesla
bonesptimospuedequenitansiquieraseatransitable,puedequeno
seauncaminovlidoqueelmodelopuedarecorrerparagenerarlaob
servacin.
79
figura 5.1 Representacin grfica de cmo contribuyen la variable hacia delante (izquierda) y
hacia atrs (derecha) al clculo de la probabilidad instantnea de ocupacin de estado, dada
una secuencia de observaciones
O
t 1
O
t
O
t+1
...
...
p (O
t +1
... O
T
/ q
t
=j , \)
j
p (O
1
... O
t
, q
t
=j /\)
5.3Secuenciaptimadeestados
Unasolucinalproblemaanteriorescambiarelcriteriodeopti
malidadparaqueabarqueparesotripletesdeestadosenlugardeesta
dos individuales. La modificacin ms ampliamente aceptada y que
aquseexponeesladebuscarlanicasecuenciacompletadeestados
ptima.Paraelloexisteunatcnicabasadaenmtodosdeprograma
cindinmicallamadaalgoritmodeViterbi. Para poder encontrar la
secuencia de estados q =

q
1,
q
2,
... q
T
que con ms probabilidad hu
bierageneradolaobservacin o=

o
1
, o
2,
... o
T
definimoslacantidad
6
t
(i )= max
q
1
, q
2
, ... q
t 1
p(q
1
q
2
... q
t
=i , o
1
o
2
... o
t
/\)
Laexpresindefine 6
t
(i ) ,querepresentalaprobabilidaddelcamino
ms probable de entre todos los caminos parciales que, teniendo en
cuentalasobservacioneshastaeseinstante,desembocanenelestadoi
enelinstantet.Enuninstantet,cadaestadotendrsupropiomejor
camino,deentrelosqueenldesembocan,y 6
t
(i ) eslaprobabilidad
deesemejor caminoparcial. Delta se puedecalcularrecursivamente
notandoquepordefinicin
6
t+1
( j ) = max
i
|6
t
(i ) a
ij
b
j
( o
t+1
)
6
T
(i ) nos proporcionar al final la probabilidad del mejor camino
completodetodoslosque,tomandoencuentalasobservaciones,mue
renenelestadoi.Nosdalaprobabilidaddelcamino,peronoelcamino
ens.Paranoperderelrastrosegncalculamosdelta,hayqueirguar
dandolaseleccionesquehemoshechoacadapaso.Asalfinal,podre
mostirardelhiloyrecuperarelcaminocompleto. Paramantenerla
trazadelosestadosvisitadosseusalamatriz
t
(i ) ,quealmacena
encadainstantedetiempoculeselestadoqueprecedealestadoi.
80
Vemosqueesmuysimilaralclculodelavariablehaciadelan
te,salvoporladerecuperacindelcamino.Usandoestatcnicapode
moshacernosunaideadelasucesindeestadosporlaquehapasado
elsistemaparagenerarlasalida.Esto,claroest,siesquelosestados
denuestromodelosecorrespondenconalgoparecidoaunestadoenel
sistemareal.
5.4Simulacin
Esta simulacin persigue dejar patente le hecho de que la se
cuenciadeestadosptimospuedeserdistintaalasecuenciaptimade
estados.Paraello,usaremosunmodeloampliadodelcomportamiento
deunaespecieyaexpuestaelelcaptuloanterior,lasardina.Eneste
nuevomodelosehaaadidountercerestado,quepodramosetiquetar
comodurmiendo.Estenuevoestadosloesaccesibledesdeelestado
81
1) Inicializacin
6
1
(i ) = n
i
b
i
( o
1
) i

1
(i ) = 0
2) Recursin
6
t
( j ) = max
i
|6
t 1
(i ) a
ij
b
j
( o
t
) t , i , j

t
( j ) = argmax
i
|6
t 1
(i ) a
ij

3) Terminacin
p

= max
i
|6
T
(i )
q
T

= argmax
i
|6
T
(i )
4) Recuperacin del camino
q
t

=
t+1
(q
t +1

)
uno(comiendo)enningncasodesdeelestadodos ohuyendoy
secaracterizaporunabajavelocidaddedesplazamientoyuntamao
delbancomsomenosentrelostamaosquecaracterizanalosotros
estados.
Modeloaampliado.
A
a
=
|
0.6 0.3 0.1
0.2 0.8 0
0.25 0.25 0.5

n
a
= | 0.3390 0.5932 0.0678
b
1
(o
t
) = N (o
t
, j
1,
U
1
); j
1
a
= | 0.1 7 1.3 U
1
a
=
|
0.5 0 0
0 1.1 0
0 0 0.2

b
2
(o
t
) = N (o
t
, j
2,
U
2
); j
2
a
= | 2.2 13 5.2 U
2
a
=
|
1.9 0 0
0 5 0
0 0 1.6

b
3
(o
t
) = N (o
t
, j
3,
U
3
); j
3
a
= | 0.04 9 3 U
3
a
=
|
0.2 0 0
0 3 0
0 0 1.2

82
figura 5.2 Detalle de la secuencia de observaciones para la simulacin 5a. La linea punteada se
corresponde con la longitud del eje mayor del banco, la rayada con la excentricidad, y la continua con
la celeridad del desplazamiento. Los puntos alrededor de t=364 sern de especial inters para la
simulacin.
Confrontamosestemodeloconlaobservacinmostrada(enpar
te)enlafigura5.2.Calculamosenprimerlugarlaprobabilidaddees
tarenelinstantet enelestadoi,dadoelmodeloylasobservaciones,
quenoessinoladefinicinde
t
(i ) .Elclculonointroduceningn
conceptonuevoquenohayamosvistohastaahora,yaquesebasaente
ramenteenlasvariableshaciadelanteyhaciaatrs.Lanicaconside
racinatenerencuentaeselproblemadelescalado.Siemprequetra
bajamoscondichasvariableslohacemosconsuversinescalada,porel
problemaineludibledelafaltaderangodinmico. Loquesehacees
sustituirenlaexpresindegammalasvariablesporsuversinescala
da.Puededemostrarsequesiutilizamoslosmismoscoeficientesdees
calado c
t
para
o
t
y

t
,estoscoeficientessecontrarrestanenel
clculodela
t
(i ) asdefinida.
Paraellorecordamosdelcaptuloanteriorlasexpresiones4.3ay
4.3b,yformulamossuequivalenteparalavariablehaciadetrs,parti
remosdelabasedeque
c
t
=
1

j
o
t
( j )

o
t
= c
t
o
t

t
= c
t

t
o
t+1
( j ) =
|

i =1
N

o
t
(i ) a
ij

b
j
( o
t+1
) = c
t
|

i =1
N
o
t
(i ) a
ij

b
j
(o
t +1
)

t
(i ) =

j =1
N
a
ij
b
j
(o
t +1
)

t +1
( j ) = c
t+1

j =1
N
a
ij
b
j
(o
t+1
)

t +1
( j )
o
t
(i ) = o
t
(i )

k=1
t 1
1
c
k

t
(i ) =

t
(i )

k=T
t +1
1
c
k
Elusodelosmismoscoeficientesdeescaladoparaambasvariablesno
conducealdesbordamientode

t
,dadoqueenprincipioambasson
delmismoorden.sustituyendoestasltimasexpresionesenelclculo
83
degammatenemosque
C =

k=1
T
c
k

t
(i ) =
o
t
(i )
t
(i )

j
o
t
( j )
t
( j )
=
(
c
t
C
) o
t
(i )

t
(i )

j
(
c
t
C
) o
t
( j )

t
( j )
=
o
t
(i )

t
(i )

j
o
t
( j )

t
( j )
Demodoquegammapuedecalcularseapartirdelasvariablesescala
dassinmayorproblema,yaslohacemos.
84
figura 5.3 Probabilidad de que el modelo se encuentre en uno u otro estado dado el modelo y las
observaciones (
t
(i ) ), en el intervalo temporal de inters para la simulacin. La lnea punteada
se corresponde con el estado uno (comiendo), la rayada con el estado dos (huyendo) y la continua con
el estado tres (durmiendo). Ntese como en el instante t= 364 lo ms probable es que el banco est
durmiendo.
Esderesearqueporsupropiadefinicin,
t
(i ) sumaunoso
brelosestadosencualquierinstante.Ellagrficasemuestraelvalor
degammaparacada unodelosestados,coronandoencadainstante
conuncrculoelvalormximodeentreellos.Simiramosconatencin
elmodeloylasobservaciones,podemosreconocerelfuncionamientode
gamma.Porejemploentornoat=357podemosobservarquelaveloci
daddelbancoesgrandeyeltamaotambin.Esasobservacionesca
sanbastantebienconlavariablealeatoriaasociadaalestadodos(hu
yendo)y
t
( 2) tomaparaellasvalorescercanosalaunidad.
Siatendiramos alaprimeradefinicindelcaptuloytomse
moscomomejorsecuenciadeestadosaquellosquecumplan(5.3),ten
dramosqueaceptarqueentrelosinstantest=363yt=364,elsistema
pasadelestadodosalestadotres,transicinqueestprohibida.Como
yaanticipamosenlateora,vemosahoraqueenlaprcticaelcamino
asformadonopuedeserrecorridoporelmodelo(suverosimilitudse
haceceroencuantohagaunatransicinconprobabilidadnula).
Aunqueelcaminoformadoporlosestadosindividualmentems
probablespuedeserintransitable,lamayorpartedelasvecessusesla
bonescoincidenconlosdelcaminonicomsprobable,queobtenemos
usandoelmtododeViterbi.
Laverosimilitudtotaldelasobservacionesrespectoalmodelodehalla
comosiempre,yenestecasotomaelvalor
ln( p(o/\)) 2654.7
Elcaminonicomsprobableofreceunvalordeverosimilitudlogart
micade
ln( p(o/ q

, \)) 2667.1
85
esdecir,unos12.5beliospordebajodeltotal,loquehacequeaporte
unaparteentre
2.7 10
5
deltotaldelaverosimilitud.Estopuedepa
recerpocacontribucin,perositenemosencuentaquelaobservacin
tienequinientasmuestras,yhaytresestados,podemosdeducirqueel
nmerototaldecaminosquecontribuyenverosimilitudesdelordende
3
500
(aproximadamente
10
239
).Desdeluegosuaportacinsupera
(concreces)alamediaesperada.
86
figura 5.4 Grfico que representa el camino de los estados individualmente ms probables y el
camino nico ms probable. En lnea continua, tenemos aquellos estados para los que gamma es
mxima en cada instante. Los rombos representan los estados que componen el camino nico ms
probable (viterbi).
6.Reestimacindeparmetros
6.1Introduccin
Laresolucindeesteltimoproblema,elmsdificildelostres,
yaestsuavizadagraciasalosconceptosqueseintrodujeronenlare
solucindelosotrosdos.Variableshaciadelanteyhaciadetrssern
degranutilidadenlareestimacindelosparmetrosdelmodelo.
Lo que perseguimosconla reestimacin de los parmetroses
conseguirqueelmodeloreflejelomejorposibleunaseriedeobservacio
nes,enelsentidocomosiempredequelaverosimilituddelasmismas
respectoalprimerosealomayorposible.Estacuestinestclaramen
terelacionadaconelentrenamientodelmodelo,previoapoderusarlo
parareconocimiento.
Noseconoceningnmtodoanalticodeencontrareseconjunto
deparmetrosquemaximizenlaverosimilituddelaobservacin,pero
podemosalcanzarmximoslocalesusandomtodositerativos.Elmto
domsusadoparamaximizar localmente p(o/\) eselde Baum
Welch.EsequivalentealaaplicacindelalgoritmoEMsobreelHMM
ynoeslanicaalternativa(podemosusarotrastcnicascomodescen
sodegradiente,etc...),peroeslaquedesarrollaremosenestecaptulo.
6.2BaumWelch
6.2.1Generalidades
EstemtodofuedesarrolladoinicialmenteporBaumysuscola
boradores.Unaformaintuitivadeverelfuncionamientodelprocesoes
lasiguiente.
87
Partimosdelmodeloconunosparmetrosiniciales,yunaobser
vacinrespectoalacualtenemosquemaximizarlaverosimilitud.En
tretejidosenelclculodelaverosimilitudseencuentranelconjuntode
todoslosposiblescaminosqueelmodelopodrahaberrecorrido.Estos
caminosabrenunabanicoinmenso:ramificamostodoslosposiblespa
sadosdeunanicaobservacin,todaslasformasquetengaelmodelo
degenerarlaaparecenponderadascadaunaporsugradoderealismo.
Yessobredeestegrupodecaminosfantasmalesysusprobabilidades,
sobreestegrupoampliadodemilesdeejecucionesdelmodelo,sobreel
cualpodemosextraerporsimpleconteonuevosvaloresparacualquier
parmetrodelmodelo.Comoloscaminosquemejordescribenlaobser
vacinpesanms,influirnmsenlosvaloresreestimados,yesdees
perarqueelmodeloasreconstituidoarrojemejoresvaloresdeverosi
militudquesupredecesor.
6.2.2Exposicin
6.2.2.3SobrelareestimacindeAyn
Empezaremos definiendo (
t
(i , j ) como la probabilidad de, es
tandoenelestadoienelinstantet,pasaralestadojent+1,dadauna
observacinyelmodelo.Formalmente
(6.1)
Paracalcular (
t
(i , j ) podemosbasarnosen valores yaconoci
dos. o
t
(i ) nosaportalaprobabilidaddeacabarenelestadoienel
instantet;
t+1
( j ) seocupalaprobabilidadalpartirdelestadojenel
instantet+1.Ylaprobabilidaddepasardelestadoialjdado o
t
vie
nedadaporlamatrizdetransicinyporladensidadasociadaalesta
dodedestino.Formalmente
88
(
t
(i ) = p(q
t
=i , q
t +1
=j / o , \)
(
t
(i , j ) = p(q
t
=i , q
t +1
=j / o , \) =
p(o , q
t
=i , q
t +1
=j /\)
p( o/\)
=
=
o
t
(i ) a
ij
b
j
(o
t +1
)
t +1
( j )
p(o/\)
=
o
t
(i ) a
ij
b
j
(o
t +1
)
t +1
( j )

j
o
t
(i ) a
ij
b
j
(o
t +1
)
t +1
( j )
El denominador p(o/ \) puede obtenerse (como de hecho se
hace)como

i
o
T
(i ) ,perosehaexpresadodeestaformaparadejar
patenteelhechodequesufuncinnoesotraquelaqueleotorgaelte
oremadeBayes,normalizaraunolasumadeprobabilidades.
Enelcaptuloanterior,cuandobuscbamoselcaminoformado
porlosestadosptimos,definimos
t
(i ) comolaprobabilidaddeen
contrarnosenelestadoienelinstantet,dadalasecuenciadeobserva
ciones.Estacantidadserelacionafcilmentecon
(
t
(i , j )
.Sisuma
mossobretodoslosposiblesdestinosdelatransicinentreestadosque
eselejede
(
t
(i , j )
,loquenosquedaesprecisamentelaprobabilidad
deestarenelorigendedichatransicin.
(6.2)
89
figura 6.2 Representacin grfica de la estructura del clculo de la
probabilidadconjuntadequeelmodeloestenelestadoienelinstantet,yen
eljent+1,sujetoalaobservaciones.
a
ij
b
j
(O
t +1
)
t+1 t+2 t t-1
i j
o
t
(i )

t+1
( j )

t
(i ) =

j
(
t
(i , j ) =
o
t
(i )
t
(i )
p( o/\)

t
(i ) nosaportamuchainformacinacercadelosestadosdel
modelo.Lasumarespectoaltiempopuedeinterpretarsecomolaespe
ranzadelnmerodevecesquesevisitaelestadoi.Oloqueeslomis
mo,elelnmeroesperadodevecesqueunatransicinseiniciadesde
elestado i (si excluimoelinstantefinal, t =T,desdeelcual no hay
transicinposible).Delmismomodo,lasumade
(
t
(i , j )
respectoal
tiemporepresentaelnumeroesperadodetransicionesdelestadoialj.

t =1
T 1

t
(i )= nmero esperado de transiciones desde el estado i

t =1
T 1
(
t
(i , j )= nmero esperado de transiciones desde el estado i al estado j
Usandoestasdosinterpretacionesnoesdifcilencontrarunm
todorazonabledereestimacindelosparmetrosdelmodelo.Sinosre
mitimosaladefinicindeprobabilidadentrminosdefrecuenciasde
ocurrencia,loscoeficientesdelamatrizdetransicinAsereducirana
contarelnmerodevecesqueelmodelopasadelestadoi alestadoj,
normalizadoporelnmerototaldetransicionesdesdeelestadoi(para
cumplirlarestriccinestocstica).Lascomponentesdelvectordepro
babilidadesinicialesdeocupacindeestado n vendrandadasporel
nmerodevecesqueelmodeloestuvieraenunestadodadoenelins
tanteinicial(t=1).
(6.3)
(6.4)
90

n
i
= nmero esperado de veces en que q
1
=i =
1
(i )
a
ij
=
nmero esperado de transiciones de i a j
nmero esperado de transiciones desde i
=

t =1
T 1
(
t
(i , j )

t=1
T 1

t
(i )
6.2.2.2Sobrelareestimacindelasvariablesaleatorias
asociadasalosestados
La expresin para la reestimacin de la densidad b_j(x) en el
casocontnuoodelasprobabilidadesdesmbolo b
j
( v
k
) eneldiscreto
difierenenlaforma,peronoenelfondo.
t
(i ) nospermiteevaluar
laprobabilidaddeque,dadaunaobservacin,nosencontremosenun
estado.Losparmetrosdelavariablesaleatoriasasociadaaunestado
digamosiseestimarncomoseharanormalmenteenbasealasob
servaciones,aexcepcindequeenestecasolasmuestrasvendrnpon
deradassegnlaprobabilidadquetengandeperteneceraesteestadoi.
probabilidaddeestarenunestadooenotro
i)variablediscreta
Supongamosparaelcasodiscretoqueenunestadotenemosuna
distribucin multinomial con probabilidades p
j
( k) de generar los
smbolos v
k
.Loqueharamosnormalmentesiconociramosuncon
juntodemuestrasdeentrenamientodesalidasquesabemospertene
cen a esa variable, es contar cuantas veces aparece cada smbolo, y
asignara p
j
( k) sufrecuenciarelativa.
p
j
( k) =
nmero de veces que aparece v
k
nmero total de observaciones pertenecientes al estado j
=

t=1
T
6
k

t=1
T
1
6
k
=

1 si O
t
=v
k
0 e.o.c.

Aquocurreigual,conlasalvedaddequelasmuestrasnoperte
necencontotalseguridadalavariable,sinoatravsdeunaprobabili
dad.formalmente:
91
p
j
( k) =
nro esperado de veces en el estado j observando v
k
nmero esperado de veces en el estado j
=

t =1
T

t
( j )6
k

t =1
T

t
( j )
Enestecasolosparmetrosquerigenelcomportamientodela
variable discreta coinciden con la probabilidad de observacin de los
smbolos.Dehaberusadootrotipodedistribucin(digamosPoissonia
naenlugardemultinomial)obviamenteestonosucedera.
ii)variablecontinua
Si ahora miramos el caso de la variable contnua y tomamos
comoejemplounadistribucinGaussianamultidimensional,ladensi
daddeprobabilidadvendradadapor b
j
( x)=N (j
j
, U
j
) ,donde los
parmetrosaoptimizarsernlamedia j
j
ylamatrizdecovarianzas
U
j
.Losparmetrosptimosenelsentidodemximaverosimilitud
para de un conjunto de entrenamiento o=

o
1
o
2
... o
T
se obtienen
usando

j
j
=

t
o
t

t
1

U
j
=

t
(o
t

j
j
)(o
t

j
j
)
t

t
1
Siguiendoelmismorazonamientoqueenelcasoprecedentepo
demosreescribirlasfrmulasintroduciendolaprobabilidaddeperte
nenciaalestado,tendramosparalosvaloresreestimados

j
j
=

t

t
( j )O
t

t
( j )

U
j
=

t

t
( j )(O
t

j
j
)(O
t

j
j
)
t

t
( j )
92
iii)mezcladevariables
Tantoenelcasocontnuocomoenelcasodiscretopodemosto
parnosconquelasvariablesaleatoriasasociadasalosestadossonen
s mismas una mezcla de variables. Podramos estar hablando por
ejemplodeunamezcladegaussianas,cuyadensidadvendradadapor
b
j
( x) =

k
c
j k
N (j
j k
, U
j k
) s.a

k
c
j k
= 1
Estanueva situacinnos plantea nuevasincertidumbres.Para
poderestimarlamediaylavarianzadecadaunadelasgaussianaas
quecomponenlamezcla,necesitaramossabercualdeellashagenera
dolaobservacin.Eslomismoquenospasabaconlosestados,nopod
amos relacionarlos directamente con las observaciones (como ocurre
conlascadenasdeMarkov).Sienlospuntosprecedentessolucionamos
93
figura6.3Funcindensidaddeprobabilidadmultimodalcompuestaporuna
mezcladegaussianas.Arriba,densidadcompleta.Debajo,componentesdela
mezcla.
elproblemaechandomanode
t
(i ) (laprobabilidaddeocupacindel
estadoienelinstatetdadaunasecuenciadeobservaciones)ahoraha
remos exactamente lo mismo. Si definimos una nueva cantidad

t
(i , k) comolaprobabilidaddequeestemosenelestadoi y o
t
hayasidogeneradaporlaksimacomponentedelamezcla,dadauna
secuenciadeobservaciones o=

o
1
o
2
... o
T
.Formalmente
(6.5)
Ya que conocemoscon qu probabilidad secorresponde acada
gaussianacadamuestra,reestimamosigualqueantes,sloqueponde
randoporestaprobabilidad.

j
i k
=

t

t
(i , k) o
t

t
(i , k)

U
i k
=

t

t
(i , k)(o
t

j
i k
)(o
t

j
i k
)
t

t
(i , k )
y los coeficientes de la mezcla se reestimarn como lo que son, una
multinomial
c
i k
=
nro esperado de veces en i y genera ksima
nmero esperado de veces en el estado i
=

t

t
(i , k )

t
(i , k)
(6.6)
Siemprequelaeleccinentrelosmiembrosdeunamezclaest
regidaporunamultinomial,podemosverquelasituacinesequivalen
94

t
(i , k) =
t
(i )
|
c
i k
N (o
t
, j
i k
, U
i k
)

m
c
i m
N (o
t
, j
i m
, U
i m
)

=
=
|
o
t
(i )
t
(i )

j
o
t
( j )
t
( j )
|
c
i k
N (o
t
, j
i k
, U
i k
)

m
c
i m
N (o
t
, j
i m
, U
i m
)

teatenerunmodeloampliado.Elmodeloampliadotendramsesta
dosqueeloriginal,ycadaestadollevaraasociadaunanicavariable
aleatoriasimple.
Conestosequieredejarpatentequelasfrmulasyrazonesex
puestasparalareestimacindelosparmetrosdevariablesaleatorias
compuestas tienen su fundamento en las demostraciones venideras,
quesellevarnacabousando,porcomodidad,variablessimples.
95
figura6.4Representacingrficadelaequivalenciaenteunmodelodondelos
estadostienenasociadaunamezcladevariablesaleatorias,yunmodeloampliado
enelquecadaestadotieneunavariablealeatoriasimple.
j k
a
j k
i
a
i j
j.1
j.3
j.2
a
i j
c
j 2
a
i j
c
j 3
a
i j
c
j 1
i
k
a
j k
a
j k
a
j k
a
j j
c
j 2
a
j j
c
j 3
a
j j
c
j 1
6.2.3Resumendelalgoritmo
i. Inicializacin.
Elintentodeescogerunmodeloadecuadoconunosparmetros
iniciales favorables ha de llevarse a cabo en base a conocimientos
previos,suposicioneso,enelpeordeloscasos,alazar.
ii. Recursin.
a)usando \(0) calculamos
o
t
(i ) ,
t
(i ) t , i
(
t
(i , j ) =
o
t
(i ) a
ij
b
j
(O
t +1
)
t+1
( j )
p(O/\)
1t T 1 , i , j

t
(i ) =
o
t
(i )
t
(i )
p(O/ \)
t , i

t
(i , j ) =
t
(i )
|
c
i k
N (O
t
, j
i k
, U
i k
)

m
c
i m
N (O
t
, j
i m
, U
i m
)

t , i , j
b)Calculamos

0 ,losparmetrosreestimadosusando

n
i
=
1
(i )
a
ij
=

t =1
T 1
(
t
(i , j )

t =1
T 1

t
(i )

c
i k
=

t

t
(i , k )

t
(i , k )

j
i k
=

t

t
(i , k) o
t

t
(i , k )

U
i k
=

t

t
(i , k)(o
t

j
i k
)(o
t

j
i k
)
t

t
(i , k)
c)Hacemos 0 =

0
96
iii.Finalizacin.
Cuandolamejoracrezcapordebajodeunumbral,empeoreres
pectoaunconjuntodecontrolocualquierotrocriterio.
6.3Demostracin
6.3.1Motivacin
Con loexpuesto hasta ahoraestamosen condicionesde reesti
marcualquieradelosparmetrosdelsistema, perolas explicaciones
dadashansidomsbiencualitativas.Siutilizamosesasfrmulaspara
reestimarlosparmetrosrecursivamente,llegaremosaalgntipode
mximo?estamossiguieramejorandolaverosimilituddelmodelo?Las
expresionesexpuestas,enaparienciadeducidasporlgica,derivande
laoptimizacinindirectadelafuncinverosimilitud.
EneltrabajooriginaldeBaumlaoptimizacindelaverosimili
tudseconsigueutilizandounafuncinauxiliar Q(\(

0) , \(0)) ,llama
dafuncindeBaum.LafuncindeBaumsedefinecomo
(6.7)
Donde se ha reemplazado las referencia explcita al modelo (
\(0) )porreferenciasalosparmetrosdelmismo( 0 )enarasdela
claridad.

0 representalosnuevosvaloresquetomarnlosparme
tros.
Enlamayoradelaliteraturaestafuncinseutiliza sinms,
haciendoreferenciaaqueentroncaconlaaplicacindelalgoritmoEM
alosHMM,peroenestecasovamosaclarificarsuorigenantesdepa
saraoptimizarla.
97
Q(

0 , 0) =

q
p( o , q /

0) p(o , q/ 0)
6.3.2AlgoritmoEMaplicadoaunHMM
Enestademostracinseutilizalanomenclaturaylosconceptos
expuestosenelsegundocaptulo.Sulecturaesnecesariaparaenten
derelorigendelafuncinmayorizantedelaverosimilitud,peroser
irrelevanteenlossiguientesapartados.
EnestecasodeestudiolasvariablesocultaszdelalgoritmoEM
secorrespondernconelcaminorecorridoporelmodeloparagenerar
laobservacin.stecaminovienecomosiemprerepresentadoporlase
cuenciadeestados q=

q
1
q
2
... q
t
.Lassalidas y=

y
1
.... y
T
seharn
corresponder(paraseguirlanotacinparalosmodelosdemarkov)con
lasobservaciones o=

o
1
.... o
T
.Lafuncinmayorizantedelaverosi
militudtomalaforma
g
i
(0) = E
z / y , 0
i ln p( y , z /0)

q
ln p(o , q/

0) p(q/ o , 0)
EstaexpresinsepuedemodificarsiaplicamosBayesalltimo
trmino,yposteriormentenosfijamosenquedecaraalaoptimizacin,
p(q/ 0) esunaconstante

q
ln p(o, q/

0) p(q/ o , 0) =

q
ln p(o, q/

0)
p(o, q/ 0)
p(o/ 0)


q
ln p(o, q/

0) p(o , q/0) = Q(

0 , 0)
quenoessinolafuncindeBaum(6.7).Apartirdeaqulasdemostra
cionesporamboscaminoscorrenparejas.
6.3.3OptimizacindelafuncindeBaum
Ahora optimizaremos la funcin, para hallar aquellos parme
tros que optimizan la verosimilitud. Partiendo de la expresin de la
funcindeBaum
Q(

0 , 0) =

q
p(o , q/

0) p(o , q/ 0)
98
Sievaluamoselprimertrmino p(o, q/

0) ,entrminoscomosiem
predeprobabilidadesdetransicinyverosimilitudesrespectoalesta
do,obtenemoslaexpresinparalaprobabilidadconjunta
p(o, q/

0) =

n
q
1

b
q
1
(o
1
)

t =1
T 1
a
q
t
q
t +1

b
q
t +1
(o
t +1
)
ln p(o , q/ 0) = ln

n
q
1
+

t=1
T 1
ln a
q
t
q
t +1
+

t=1
T
ln

b
q
t
(o
t
)
Graciasalaspropiedadesdellogaritmopodemosreescribir Q(

0 , 0) ,
comoexpresindelosparmetrosseparados, n ,Ay b
k
( x) .
(6.8)
(6.8a)
(6.8b)
(6.8c)
ComolafuncindeBaumsehadescubiertoseparable,laoptimi
zaremosoptimizandocadaunadesuspartes.Lassetienenencuenta
las restricciones estocsticas para las probabilidades de transicin
a
ij
ylasprobabilidadesiniciales n
i
,lasfuncionesauxiliares(6.8a)
y(6.8b)exhibenlaformacomndadapor

j =1
N
w
j
ln y
j
sujeto a

j =1
N
y
j
=1
99
Q(

0 , 0) = Q
n
(

n)+

i =1
N
Q
a
i
(a
i
)+

i =1
N
Q
b
i
(

b
i
)
Q
n
(

n) =

i =1
N
p(o , q
1
=i / 0) ln

n
i
Q
a
i
(a
i
) =

j =1
N

t =1
T 1
p(o , q
t
=i , q
t +1
=j / 0) ln a
ij
Q
b
i
(

b
i
) =

t =1
T
p(o , q
t
=i / 0) ln

b
i
(o
t
)
Siderivamosestaexpresinincluyendolarestriccinestocsticamen
cionadatenemosque
L( y
j
) =

j =1
N
w
j
ln y
j
\(

j =1
N
y
j
1)
L
y
j
=
w
j
y
j
\ = 0 - y
j
=
w
j
\

j =1
N
y
j
=
1
\

j =1
N
w
j
= 1 -\=

j =1
N
w
j

y
j
=
w
j

j =1
N
w
j
Loqueparticularizandoparalasexpresiones(6.8a)y(6.8b)nosdalos
ptimosparaelvectordeprobabilidadesinicialesyparalamatrizde
transicin,respectivamente.

n
i
=
p(o , q
1
=i / 0)
p(o/ 0)
a
ij
=

t =1
T 1
p( o , q
t
=i , q
t +1
=j /0)

t =1
T 1
p(o , q
t
=i / 0)
Quesonlasmismasexpresiones(6.3)y(6.4)quepresentamosen
elapartadoprevioalademostracin.Laoptimizacindelasdensida
desdeprobabilidadasociadasaunestadolaresolveremos,comoejem
plo,paraelcasodegaussianasmultidimensionales.
Siladistribucindeprobabilidaddecadaestadovienedadapor
unav.agaussianamultidimensionalesdeDdimensiones talquepara
unestadoktengamos
b
k
(o
t
) = N (o , j
k
, U
k
) =
1
.
( 2n)
D

U
k

exp(
1
2
(o
t
j
k
)
T
U
k
1
(o
t
j
k
))
ln b
k
(o
t
) =
1
2
(o
t
j
k
)
T
U
k
1
(o
t
j
k
) + c
dondecesunaconstantequedesapareceralderivarrespectoalvector
demediasorespectoaloselementosdelamatrizdecovarianzas,en
100
cadacaso.Derivandoeigualandoaceroencontramoslaestimacinp
timadelamedia.
j
k

t
p(o , q
t
=k /0) =

t
|
p(o , q
t
=k / 0) o
t


j
k
=

t
|
p(o , q
t
=k / 0) o
t

t
p(o , q
t
=k / 0)
Operandoahoraparalostrminosdelamatrizdecovarianzas,tene
mosque
Q
b
k
(b
k
)
U
k
1
=

t
p(o , q
t
=k / 0)
1
2
|U
k
( o
t
j
k
)(o
t
j
k
)
T
= 0

U
k
=

t
|
p(o , q
t
=k / 0)(o
t
j
k
)(o
t
j
k
)
T

t
p(o , q
t
=k / 0)
Quedandoportantodemostradalavalidezdelasexpresionesparala
reestimacindelosparmetros.
101
|
/ j
k1
/ j
k2

/ j
kD

Q
b
k
=

t
p(o , q
t
=k / 0)U
k
1
(o
t
j
k
) = U
k
1

t
p(o , q
t
=k / 0)(o
t
j
k
) =
|
0
0

ln( N (o
t
, j
k
, U
k
))
U
k
1
=

|
0.5 lnU
k
1
0.5(o
t
j
k
)
T
U
k
1
(o
t
j
k
) + c

U
k
1
=
0.5

U
k
1

U
k
1

U
k
1
)

1
2
(o
t
j
k
)(o
t
j
k
)
T
=
1
2
adj (U
k
1
)
T

U
k
1


1
2
(o
t
j
k
)(o
t
j
k
)
T
=
1
2
|U
k
(o
t
j
k
)(o
t
j
k
)
T

6.4Simulaciones.
Lassimulacionesdeestecaptuloculminanelaspectodeimplementa
cin de el presente proyecto. Son fruto de la reestimacin mediante
BaumWelch de modelos ocultos de markov de densidades continuas
completamenteoperativosparaelreconocimientodelhablaaisladaais
lada.
Elmodeloensoperaenunespaciodetrecedimensiones,pro
porcionadoporelbloquedepreprocesadodevozdescritoenelcaptulo
7(prenfasisymelcepstrum),porloqueenestaocasin,adiferencia
deloqueocurriaenelsegundocaptuloconlasmezclasdegaussianas
alasqueselesaplicabaelalgoritmoEM,nopodremosrecurrirauna
visualizacindirectadelasdensidadesasociadasalosestados.Dehe
cho aunque actusemos en dos dimensiones tampoco encontraramos
unamanerasencilladerepresentarconjuntamentelasdensidadesaso
ciadasalosestadosylasdensidadesquerigeneldesarrollosecuencial
eneltiempodelmodelo.Porlotanto,paravisualizarlamejoradurante
elentrenamientoloharemosprecisamentemedianteelcriterioquede
terminalaoptimizacin,laverosimilitudlogartmica.
Aunquehastaahoranohemostratadoelproblemadelcuerpode
entrenamiento,stesiemprehaestadopresente.Cuandomodelbamos
situacionescomoladelcomportamientodelospecesobtenamosmode
losenciertomodocclicos.Sumatrizdetransicineracasicompleta,y
podramoshaberloentrenadoconunasolasecuenciadeobservaciones,
unatiradalargusimademuestrasobtenidaspordasydasdefuncio
namientocontnuodelradarsobreunapoblacinpiloto.Cuandoafron
tamoselproblemademodelarpalabrasemergenaturalmenteelusode
modeloscontransicionesmsrestringidas,decomportamientomsse
102
figura6.5Modelosecuencialodeizquierdaaderecha.
cuencialyfinitoseneltiempo.Sonlosllamadosmodelosdeizquierdaa
derecha.
Lassecuenciasdeobservacionessonahoralimitadaseneltiem
po(tantocomoloeslafonacindeunapalabra),yporlotantoesnece
sarioutilizarunconjuntosuficientementenutridodeellasparaobtene
neruna reestimacin consistente delosparmetros. Delamanode
stesurgenotrosproblemasligadosalaimplementacinrealcomoel
tamaoinsuficientedelconjuntodeentrenamiento,etc,eventualidades
para las que existen ciertos trucos como la utilizacin conjunta de
versionesdelmodeloconunnmeromenordeestados,laasociacinde
unamismavariablealeatoriaavariosestados,oelusodeunsuelom
nimoenlareestimacindelascovarianzas[Rabiner],quenovamosa
detallar,aunqueenelprogramaseaplicanalgunosdeellos.
Expuesto lo anterior , en esta simulacin vamos a utilizar un
conjuntodeentrenamientocompuestopor46ejecucionesdelapalabra
nueve.Elmodeloinicialsehaconstruidosimplementesegmentando
encincopartesunacualquieradeestasalocuciones,ygenerandoapar
tirdeellascincoestados.Losprimeroscuatrollevanasociadasmezclas
degaussianasyelquintounagaussianasimple.Dadoeltamaodel
modeloylapocautilidaddelgestonovoyaprecisarenningnpunto
losvaloresconcretosdelosparmetrosdelmismo,yseratravsde
lasgrficaspordondecontrastemoslacorrectaaplicacindelmtodo.
103
Ilustracin6.6Verosimilitudlogartmicatotaldelconjuntodeentrenamiento
respectoalmodelo,contraelnmerodeinteraciones.Entornoak=20,lasmejoras
sonmnimas.
Lagrficamsimportanteesladelaverosimilitudlogarmica.sta
semuestraenlafigura6.5paraeltotaldelascuarentayseisalocucio
nesdelapalabra.Laslineasverticalesmarcanlospuntosdondehemos
monitorizadoelestadodelmodeloparahacerunseguimientopreciso
desuevolucin.Enconcretonoshemoscentradoencontrastarelmode
lorespectoaunadelassecuenciasdeobservaciones,enconcretolapri
mera(figura6.6).
Lasumadelavariablehaciadelanteparatodoslosestadosen
uninstantedadoreflejalaverosimilitudentremodeloyobservaciones
hastaeseinstante.Siusamossuversinescalada,queenciertomodo
elimina el efecto acumulativo inherente al clculo de alfa, podemos
ponderar en qu cantidad contribuye cada instante, o dicho de otro
104
figura 6.7 Primera de las 46 secuencias de observaciones de la palabra nueve (11025Hz, mono).
Sobre ella, salida del banco de preprocesado constituido por un prenfasis de la seal, la
transformada mel-cepstrum (enventanado Hamming de 15ms con solape del 30%, filtrado con 13
bancos entre 20Hz y fs/2 )
modo,queintervalostemporalesdelasobservacionescasanmejorcon
elmodelo.Sirepresentamosestavariablehaciadelanteparatodoshi
tosmarcadosdeberamospoderobservarcmoenpromediocadavezva
encajando mejor. Podemos observar estos dos comportamientos enla
figura6.7.
Vemoscomosegnaumentaelnmerodeiteracionesaumenta
laverosimilitudencadainstante,yademssevanfraguandovallesy
lomas.Estoesunaconsecuenciadequelasvariablesasociadasaloses
tadosvanconvergiendoaunvalorestable,ptimoenelsentidodem
xima verosimilitud respecto al total de las secuencias, por lo que en
tantoestasdifierenentreshabrzonasmsbeneficiadasqueotras,
quenodemarcannecesariamenteuncambiodeestado.Elcrecimiento
105
figura6.8Logaritmodelasumadelavariablehaciadelanteescaladapara
todoslosestadosencadainstante.Dearribaabajosemuestraelvalorque
tomaparalaprimeraalocucindelconjuntodeentrenamientoyelmodeloen
laiteracinnmero0,5,10,15y20respectivamente.
delaverosimilitudparaestafonacinesmsvisibleenlafigura6.8,
quereflejalasumaacumuladadelavariablehaciadelanteparacon
cluirprecisamentealfinaldelapalabraent=42enelvalordelavero
similitudlogartmica.
106
figura6.9Sumaacumulativadelaverosimilitudlogartmicaparaunasola
ejecucindelapalabrayelmodeloendistintospuntosdelareestimacin.
Figura6.10RepresentacindelcaminodeViterbienlaprimerapalabradel
conjuntodeentrenamiento.Cadalnearepresentaunodeloscincohitossobreel
ndicedelnmerodeiteraciones,ycadacolor,unestado.
Attulofigurativo,unparmetroquenospuedepermitirhacer
nosunaideadistintadecomovaranlasprobabilidadesdetransiciny
lasvariablesdeestadoeslasecuenciaptimadeestados,oelcamino
deViterbi.Enlafigura6.9representamosestecaminocomosiempre
paralaprimeraalocucindelapalabrayparaelmodeloendistintos
puntosdelareestimacin.Podemosobservarcmoelestadocuatrose
vahaciendoconmscontrol,endetrimentodesusvecinos(sevavien
dofavorecido).
Loquehemosvistoparaunadelassecuenciasdeobservaciones
sepuedeextrapolaratodas.Todasmejoranenmayoromenorgrado,
demodoquelaverosimilitudtotalaumenta(siconsideramosestadsti
camenteindependienteslasejecuciones,stanoessinoelproductode
todasellas),peronoelmodelonoalcanzalamismaverosimilitudres
pectoa todas. Estecomportamiento queda patenteenlafigura 6.10,
quemuestracmovaranconelnmerodeiteracioneslamediaylade
laverosimilitudlogartmicaentrelasdistintassecuenciasquecompo
nenelconjuntodeentrenamiento.
107
figura6.11Varianza(lineadiscontnua)ymedia(lineacontinua)dela
verosimilitudlogartmicaentreelconjuntodesecuenciasdeentrenamiento.
Parafinalizarheintentadohaceralgoquereflejemalquebiencmoel
modelo se adapta a las observaciones. Para ello en la figura 6.11 se
muestrasecuenciaformadaporlasmediasdelasvariableasociadasa
losestadosqueconformanelcaminoptimo.Obviamenteesunarepre
sentacinburda,yaquenoreflejaenmaneraalgunalasdistribuciones
delosestados,ylaponderacindelasmediasesdelestilotodoonada,
perodaunaideavisualdecmocasanmodeloyobservaciones.Elvalor
delatransparenciavienedadoporlaverosimilitudencadainstante,
demodoquelasregionesmsverosmilessonmsopacas.
108
figura6.12Representacinconjuntadelcaminoptimo,lasmediasdelosestadosyla
verosimilitudinstantneaparaelmodelofinalrespectoalaprimerasecuenciade
observacionesdelapalabranueve.Obsrveseelparecidorazonableconlafigura6.6
7.Aplicacinalreconocimientodehabla
7.1Introduccin
Enestecaptuloecharemosunvistazoalosconceptosnecesarios
paraintegrarlascadenasocultasdeMarkovenelmarcodeunsistema
de reconocimiento de habla. Un sistema de reconocimiento de habla
constadelassiguientespartes
Lanicadiferenciaquepodemosobservarrespectoaunmodelo
cualquieradeclasificacineslaprimerapartedeacondicionamientode
seal,denominadafrontend.Esenestaprimerapartedondeserealiza
laextraccindecaractersticasdelasealdeentrada,entendiendopor
extraccindecaractersticaslatransformacindelasealoriginalen
109
figura 7.1 Diagrama de bloques de las funcionalidades implicadas en el reconocimiento de
habla.
p (o/\
V
)
p(o/ \
2
)
p( o/\
1
)
clculo de
verosimilitud
clculo de
verosimilitud
clculo de
verosimilitud
\
V
\
1
\
2 HMM para
la palabra 2
HMM para
la palabra 1
HMM para
la palabra V
Extraccin de
caractersticas
o
MAXIMO
voz
otraNdimensionalmsapropiadaparalatareadereconocimientode
habla.
Laexistenciadeunextractordecaractersticasadecuadoesms
quenecesaria,dadoquelasealdeaudionoesapropiadaparaelreco
nocimiento de patrones. Incluso las pequeas variaciones de entona
cinotiempoqueseproducencuandounapersonatratadepronunciar
delamismamaneraunamismapalabraprovocanenlasealtemporal
enormesdistorsiones.Adems,siconsideramosporunladolatasade
bitsdeunasealdevoz(msde100kbpssilacodificamossinprdi
das), y por otro que la informacin que transporta puede codificarse
comotextousandouncanaldeapenas60bps,noshacemosunaideade
lacantidadderedundanciaquellevalasealdevoz.Lasealdevoz
puedeportantovariarmuchosinentorpecerlacomunicacin,eslaen
volturadealgo,lacodificacindealgo.Sinosceimosalasvariaciones
temporalesdelasealnosestaremosagarrandoaalgoqueesydebe
servolubleymutable,entantoquepreserveciertascaractersticasque
transportanlainformacin.
7.2Modelodeltractovocal
El reconocimiento automtico de habla desempea de algn
modoelpapeldeunapersonaescuchandoaunapersonaquehabla.As
setratarondemodelarelactodehablayelactodeescucha.
Larealizacindeunmodeloparalaemisindevozcomienzacon
el estudio del tracto vocal. Tanto los sistemas de compresin de voz
comolossistemasdereconocimentodehablaaceptanporlogeneralun
modeloestndardeproduccindevoz,querepresentaeltractovocal
comounafuentedeseal(aratosperidica,yaratosaleatoria)masun
filtroquevaralentamenteconeltiempo.
110
Ilustracin13Estedibujomuestralosrganosmsimportantes
implicadosenlafonacin.Sombreadol,eltractovocal,responsable
delageneracinumodulacindelavoz.
Lafuentede sealmodelados fenmenosdistintos.Cuandola
fuentegeneraunasealperidica,estmodelandoeltonofundamental
generadoporelfuncionamientodelascuerdasvocales.Lascuerdasvo
calesnosiempreestnvibrandocuandohablamos.Dehecho,sloin
tervienenenlaejecucindelasvocalesydealgunosfonemascuyapro
nunciacinesindisociabledelasmismas(enespaollam,no).El
otromododeoperacin,comofuentealeatoriadeseal,aparececuando
intentamospronunciarconsonantescomos,f,etc.
Estasconsonantestienencomobaseunsonidosibilanteobien
procedentedelafriccin,quesepuedemodelarcomounafuentedees
pectro ms o menos plano. La disposicin de los rganos fonadores
como lengua, labios o el paladar blando quedan representados en la
respuestadel filtro. starespuesta se puede considerar aproximada
menteconstantedurantelaejecucindeunfonema,ydesdeluegova
ra ms lentamente que cualquiera de las seales generadas por la
fuente.
111
1. Cuerdas vocales
2. Laringe
3. Epiglotis
4. Paladar blando
5. Faringe
6. Cavidad nasal
7. Lengua
8. Dientes
9. Labios
1
5
4
3
6
9
2
8
7
7.3Extraccindecaractersticas
Enelcampodeloscodificadoresdevozovocoders debajatasa,
laexcitacindeltractovocalesimportanteyserepresentanormalmen
teportrescaractersticas:siessordaosonora,amplitudyunaestima
cindelafrecuenciafundamental(tono)delafuente,siessonora.Sin
embargo,enreconocimientodehablasedaporsupuestoquelaforma
del espectro contiene informacin suficiente para el reconocimiento.
Losmtodosmsfamososparaobtenercaractersticasclasificablesdel
mbitoespectralsonlacodificacinlinealpredictiva(LPC),losbancos
defiltrosylosbasadosenel cepstrum.Estosltimossonlosquese
hanvenidousandopreeminentementeenreconocimientodehablades
de1980yesunodeelloselquesehautilizadoenlaaplicacin.
7.3.1Cepstrum
Elcepstrumsedefinecomolatransformadainversadellogarit
modelespectrodelavoz.Formalmente
C ( ) = Z
1
(ln( Z ( )))
Laexpresinpresentadatambinseconocecomocepstrumcom
112
figura7.14Diagramadebloquesdelmodelodetractovocalusadoenreconocimento
dehablayencodificadindevoz.
s ( n)
e ( n)
H
T
( z )
H( z)
G 2
+
+
Excitacin sonora
Excitacin sorda


k =M
A
M
B
6| nkN
0

plejo(ellogaritmoqueapareceescomplejo),encontraposicinconel
cepstrumreal(queignoralainformacindefaseyeselqueseusaen
voz). Como normalmente la voz se representa como una excitacin
e ( n) convolucionadalarespuestaimpulsivadeltractovocal h
T
( n) ,
podemosobservarquelatransformadacepstrumdeconvolucionaam
basseales:
s ( n) = e ( n)h
T
( n)
S (o) = E (o)
H
T
(o)

lnS (o) = lnE (o) + ln

H
T
(o)

c ( n) = e ( n) +

h
T
( n)
Dondeelcircunflejodistinguelasealoriginaldelatransformadain
versadelaamplituddesuespectro.Sepuededemostrarquelasprime
rasmuestras(primerosmilisegundos)delasealc(n)secorresponden
con

h
T
( n) ,quedecaeexponencialmenteconn,mientrasquelosva
loresdec(n)paranaltosecorrespondenaproximadamentecon e ( n) .
Estaeslabasedelaefectividaddelanlisiscepstrum.Unademostra
cinrpidadeestos hechosseobtienemodelandoenprimerlugarla
excitacincomountrendepulsosconciertodecaimiento o (0,1)
e | n =

k=0
M1
o
k
6| nkN
. Z
E ( z) = 1+o z
N
+...+(o z
N
)
M1
=
1(o z
N
)
M
1o z
N
ln E ( z) = ln(1(o z
N
)
M
) ln(1o z
N
) =

k=1

o
kM
k
z
kMN
+

k=1

o
k
k
z
kN
. Z
1
e | n =

k=1

o
kM
k
6| nkMN +

k=1

o
k
k
6| nkN
113
Si M (el nmero de muestras transformadas) es considerable, es el
segundotrminode e | n elquedomina.Enellmitetenemos
lim
o-1
M -
e | n =

k=1

1
k
6| nkN
De modo que la seal de excitacin as modelada en principio
sloestarapresenteparavaloresde nN .Porotraparteveamos
cmoquedaralatransformadadelfiltroquemodelalaformadeltrac
tovocal.
h| n
. Z
H ( z) = A

k=1
M
a
(1 a
k
z
1
)

k=1
M
n
(1 b
k
z)

k=1
M
c
(1 c
k
z
1
)

k=1
M
d
(1 d
k
z)
s.a a
k
,b
k
,c
k
,d
k
| 0,1)
ln H ( z) = lnA +

k=1
M
a
ln(1 a
k
z
1
) +

k=1
M
b
ln(1 b
k
z)

k=1
M
c
ln(1 c
k
z
1
)

k=1
M
d
ln(1 d
k
z)
. Z
1

h| n =


k=1
N
b
b
k
n
n


k=1
N
d
d
k
n
n
n0
lnA n=0

k=1
N
c
c
k
n
n


k=1
N
a
a
k
n
n
n>0
114
N 2N 3N 4N 0 n
...
n
Serdominanteaquelpolooceromscercanoalcrculounidad,
peroencualquiercasotodosdecaencomomnimocomo1/n,porloque
larespuestasloessignificativaenunestrechomargenalrededordel
origen,alrededordeunos3ms.Simuestreamosa8KHzsetraduceen
24muestras.Porlotantolarespuestaconjuntaser
La

h
T
( n) tieneunarelacinmuchomsclaraconlaformadel
tractovocalque S (o) ,queestllenadearmnicosdelaexcitacin,
ysuscomponentessonportantomuchomsadecuadasparaserutili
zadascomocaractersticasenlalabordereconocimiento,porloqueen
ventanamosalrededordelorigenynosquedamosconella.
Engeneral,enreconocimientodehablanoseconsideradegranimpor
tancialafasedelasseales,dadalanaturalezadelfuncionamientodel
odohumanoyladificultaddeforzarlacontinuidaddelafaseenpre
sencia de ruido. Por ello se utiliza el cepstrum real, que se obtiene
comolaantitransformadadellogaritmodelaamplituddelespectro.
C

( ) = Z
1
(lnZ ( )) = C ( )
Puededemostrarseusandolaspropiedadesdelatransformadaceps
trum que el resultado de esta operacin se corresponde con la parte
realdelcepstrumcomplejo.
115
Dibujo 2 Transformada cepstrum conjunta de la excitacin y el filtro.
n
2N
N
-N
-2N
7.3.2CoeficientescepstrumenescalaMel
Alprocesodelclculodelcepstrumseaadeunaetapainterme
diadefiltrado.Estaestformadaporunaseriedebancosdefiltrosdis
tribuidossegnlaescalaMel.
LaescalaMelcontemplalapercepcinquehacemosdelasfre
cuencias.Siunafrecuenciaeseldobledeotraenlaescalamel,enton
cessuenaeldobledeaguda.Lanolinealidaddeltonorespectoala
frecuencianoeslanicapeculiaridaddelapercepcinhumanadelso
nido.Existenmultituddefenmenosqueaparecenporlainteraccin
defrecuenciayamplitud,yunonosserespecialmenterelevantepara
justificarelusodelosMFCC(MelFrecuencyCepstralCoefficients).Se
conoce como enmascaramiento el fenmenos que hace que, para un
tono concreto, aumente el umbral audible si hay otro tono cercano o
unabandaderuido.Estoquieredecirqueparapercibiruntonocerca
noaotro,ocercanoaunabandaderuido,debemosaumentarsuampli
tud.esteenmascaramientopersisteinclusodurantealgunosmilisegun
dosdespusdedesaparecidalainterferencia.
Fletcher[5]descubriqueelruidosloafectabaalapercepcin
del tono si estaba distribuido sobre cierta banda bastante estrecha,
centradaenlafrecuenciadeltono.Lasensibilidaddiferencialdetono
(mnima diferencia de tono discernible) est muy relacionada con la
existenciadeestasbandas[6],ascomounamplionmerodefenme
nosperceptuales.Esteanchodebandacrticonoesconstanteentoda
labandaaudible, sinoqueaumentaconla frecuencia, demodo que
parafrecuenciasaltaslapercepcindetonosesmsgruesaquelas
parafrecuenciasbajas,conmscapacidaddediscriminacin.
116
Basndonosenestosdosfenmenos(variacinnolinealdetono
ycambiodelanchodebandacrtico)podemosdisearunbancodefil
troscuyassalidasserepartandemanerahomognea(perceptualmen
te)portodoelrangodefrecuenciasdevoz(de100a3000Hzaprox.),y
117
figura7.15Sobreestaslineas,eltonoenmelsfrentealafrecuenciaenHz.Abajo,
cmovaraelanchodebandacrticorespectoalafrecuencia.
Frecuencia en Hz
T
o
n
o

e
n

M
e
l
s
ademsestnhomogneamentedistorsionados(perceptualmente).Las
frmulasparaobtenereltonoenmelsylasfrecuenciasdecortedelos
filtros[0]son.
v ( f ) =
4491.7
1 + exp( 7.1702 1.9824log
10
( f ))
30.360
f
critLOW
= 1.3056 f
0.95987
64.193
f
critHIGH
= 0.70616 f
1.0497
+81.288
Elbancodefiltrosresultanteextendersusfrecuenciascentra
lessegnlaescaladeMel,yelanchodelosfiltrosserproporcionalal
anchomnimodiscernible.paralosfiltrosdelbancosuelenusarseun
enventanadotriangular,comoelmostradoenlafigura.
LoscoeficientesMelcepstrumseobtienenaplicandoestebanco
118
Ilustracin16Bancodedefiltrosconescalamel
Creator:KDE 3.2.3
CreationDate:dom ene 30 12:51:55 2005
defiltrosalaamplitudlogartmicadelespectro,justoantesdeanti
transformar.
7.4Prenfasis
Unaltimaconsideracinatenerencuentaesqueelespectrode
vozdecaeunos6bB/octavaenlosfonemassonoros.Paraecualizareles
pectroyconseguyirquetodaslasfrecuenciastenganigualpreponde
ranciapodemosaplicarunfiltroeneledominiodeltiempotansimple
como
s( n) = s( n) os( n1)
previoalatransformacinafrecuencia,ydonde o0.9 .Estepren
fasistienetambinunacontrapartidabiolgica,yaqueeloidoexterno
puedeaproximarseporuntuboconunafrecuenciaderesonancianatu
ralalrededordelos3KHz,demodoquepotencialaenergaalrededor
deesafranja.
7.5UsodelaIDCT
Enlaltimatransformacinquesellevaacaboparacalcularel
cepstrum(latransformadainversadellogaritmodelaamplitudespec
tral)amenudoseutilizalaIDCT(InverseDiscreteCosineTransform)
enlugardelatransformadainversadefourier.LaDCTtieneunaserie
decarctersticasquelahacenmuybuenaparalacompresindeseal.
Porlapropianaturalezadesuprocesodeclculo,eliminalosartefactos
defrontera,yconcentraenlosprimeroscoeficienteslamayoradela
energadelaseal.Estosprimeroscoeficientescargarntambincon
unporcentajeelevado(entornoaun87%)delavariablilidaddelase
al,porloquesehadichodeellaqueesunaaproximacineficientea
latransformadaptimadeKarhunenLoeve(queortogonalizalascom
ponentesdelaseal)[22].Elhechoesquelacapacidaddecompacta
cinyelbajocostecomputacionalhanhechoqueestpresenteenlos
119
formatosmsextendidosdecompresindeimagen(jpeg).Aplicndola
enelcasoquenosocupa,podemosreducirelnmerodecaractersticas
traselfiltradoalosprimeros9a15valoresdelcepstrum.
7.6Unalgoritmo
Apartirdelosconceptostratados,seharesueltoutilizarenlaprctica
elsiguientealgoritmo.Sea s | n , 1nN lasealdeentrada,aplica
moslossiguientespasos.
i)Prenfasis
s | n = s| n os| n1 o=0.9
ii)Descomposicinenbloques
LasealserompeenMbloquesdelongitudW,quetienencierto
solapedevmuestrasentreellos.Elresultadosealmacenaenunama
triz Y
MW
.Wsuelecorresponderseconlasmuestrasenunintervalo
ente10y20ms.Elsolapesuelevariarenteel20yel50%delalongi
tuddelbloque.
y
i , j
= s
vi + j
j = 0... W1
i = 0... M1
iii)Enventanado
Cadabloquesemultiplicaporunaventanaquesuavizalasdis
continuidades en el dominio temporal para evitar artefactos en fre
cuencia.UtilizaremosunaventanaHamming.
y
ij
= y
ij
w
j
i , j
w
j
= 0.54 0.46 cos
(
2n
W1
)
j
iv)Clculodelespectrodepotencia
Se representa como una matriz S_{M times U} donde U viene
dadoporlalongitudmsapropiadaparalatransformada(depender
120
delaslimitacionesdelalgoritmoqueusemosparalaFFT,siestbasa
doenprimosmenoslimitante,oenpotenciasdedos).Sepuedeobien
ajustarWdesdeelprincipioparaquecoincidaconunvalorvlidode
U,obienrellenarconceroshastaelvalorvlidomscercano.
S
i
= ( FFT ( y
i
))
2
i
v)Filtradomelylogaritmo
ConsistirenaplicarKfiltrosconformatriangulary,enlaes
calamel,lasfrecuenciascentralesestarnequiespaciadasytodoslos
filtrostendrnelmismoanchodebanda.sueletomarsecomofrecuen
ciamnima20Hzycomomximalamitaddelafrecuenciademues
treo,ounvalorentornoa4KHz.ElnmerodefiltrosKnodebeser
muygrande(seracomonoaplicarlos)nimuypequeo(nosdarauna
representacindemasiadopobre).Suelenusarsevaloresentre13y24.
=
W1
f
max
f
min
I
l
= ( f
l
f
ini
)
I
c
= ( f
c
f
ini
)
I
h
= ( f
h
f
ini
)

- f
ij
=

1
f
c
f
l
(
j

+f
min
f
l
)

I
l

I
c

1
f
c
f
h
(
j

+f
min
f
c
)

I
c

I
h

0 e.o.c
Comocadafiltroocupamsrangodefrecuencia,yportaportan
tomsenerga,sesuelenormalizardividiendoporelreabajoelfiltro.
Siademsaplicamosellogaritmo,estoresultaenunamatriz P
MK
donde
p
ij
= log
10
(
1
A
j

k=0
U1
S
ik
f
jk
) ,
0j K 1
0i M1
A
j
=

k=0
U 1
f
jk
121
vi)IDCT
Resultaenunamatriz Q
ML
talque
q
ij
=
1
K

k=0
K 1
p
ik
cos(( k0.5)
n j
L
)
0j L1
0i M1
NormalmenteseescogeLmenorqueK,conunosvaloresentre9y15.
122
8.Conclusionesylineasfuturas
8.1Conclusiones
HemosvistocmosetrabajaconmodelosocultosdeMarkov,y
cmopodemosutilizarlosenelreconocimientodehabla.Sehadejado
patentesuextremaflexibilidadparamodelarsucesosquetienenuna
duracinvariableycaractersticasimprecisas,ycmoapesardeello
podemosesperarobtenerreestimacioneslocalmenteptimasrespectoa
unconjuntodeobservacionesaplicandoelalgoritmoEM. Ycontodo
estonovamosaacentuarningunadelasbondadesdelmodelomsde
loquelohaceelhechodequeselleveutilizandoveinteaosenrecono
cimientodehabla.Lanicaconclusinposibleesqueesposibleimple
mentarloconunbajocostecomputacional,yobtenerresultadosenel
mundorealsinmsqueasimilarlateora.
8.2Lneasfuturas
Decontinuarselalneadelproyecto,outilizarseelcdigodesa
rrolladoparaotrosfines,existenunoscuantostpicosquepuedenre
sultardeintersenelterrenodelreconocimientodehabla
i)Laevaluacindelasdensidadesdeprobabilidadeselpasomscosto
soyqueconmsfrecuenciaserepitecuandoevaluamoslaverosimili
tuddeunasecuenciadeobservacionesrespectoaunmodelo.Estefac
toresuncuellodebotella,yessiesimportanteenreconocimientode
habla aislada, es crticoenreconocimiento contnuo[12]. Paraevitar
evaluarlasdensidadesqueresultarnmenosrelevantes,seplanteala
creacindeunrbolbinarioqueencadanododividirendoshiperpla
noselespaciodecaractersticas[13].Sebuscaquelashojasdeester
bolaproximenlomejorposibleloqueseconocecomounaregindeVo
123
ronoi(aquellaregiondelespacioparacuyospuntoselvecinomsprxi
moesunvectorpatrndado),muycostosadecalculardeformapreci
sa.
ii)LainclusindeunaimplementacindelcriterioMAP[14]paraelen
trenamientodelosHMMpermitiraunentrenamientomsrpidode
losmodelosparaadaptarlosalaspeculiaridadesunusuarioenconcre
to,conunnmeromenordepalabrasenelconjuntodeentrenamiento.
124
ApendiceA.Aplicacinprctica
A.1Objetivos
Enelmomentodeempezarelproyectotenaenmentehaceruna
implementacinlomsportableposible,quefuncionaseyquelohicie
serpido.Poresomedecantporconstruirunconjuntodeclasesen
c++quetrabajasenenbasealibrerasmatemticaslomsnormaliza
dasposibles,yqueestuviesenextendidas.Unavezfinalizadoelncleo
estadsticomefuidandocuentadequealparecerlaimplementacin
queserequeraparaelproyectopodrahaberselimitadoaunaseriede
scriptsenmatlabasque,algodesengaado,acabdeimplementarel
frontendparaextraccindecaractersticasenesteentorno.
A.2Aplicacindesarrollada
A.2.1Nucleoestadstico
Elncleoestadsticocomoyahedichoestconstruidoenc++,y
sebasaenlaslibrerasdelproyectoit++,quesedistribuyenbajolicen
ciaGPL,enconcretosobrelaversin3.7.3.Esteconjuntodelibreras
debasansuncleodealgebramatricialenelproyectoATLAS(Auto
maticTuningLinealAlgebraSubroutines),queofreceparacualquier
plataformaimplementacionesoptimizadasdelconjuntodesubrutinas
BLASyLAPACK.
125
Elmodelodeclasessehadesarrolladoconlavistapuestaenla
flexibilidad de los modelos. Definiendo clases que heredeando de
var_aleatoriapodemosampliarsinmuchoesfuerzoelabanicodefami
liasdedensidadesdisponibles.Porahoraslosehanimplementadolas
correspondientesagaussianas,multinomialesymezclasgenricas.Es
deresearquelaclasequerepresentaunmodelodemarkovdesciende
tambindevar_aleatoria,demodoquelavariableasociadaaunestado
podraserotroHMM.Estacapacidaddeanidamientopuedesermuy
utilparaciertasaplicaciones.
Decaraasuutilizacinsinnecesidaddeimplementarcdigose
hanpreparadodosprogramas,compara.exeyentrena.exe.Elprimero
comparaunasecuenciaosecuenciasdeobservacionescontraunoova
riosmodelos,devolvindonoslaverosimilitudparacadauno.Elsegun
doentrenaunmodeloinicialapartirdeunaovariassecuenciasdeob
servaciones.
126
figura A.1 Detalle del modelo de clases.
Persistente
name_in_file
set_schema()
get_full_name()
to_it_file()
exists_in_file()
Var_aleatoria
operator()()
prob()
logLike()
reestima_ML()
get_output_space()
get_dims()
Multinomial
...
Gaussiana
...
Mezcla
...
MChain
...
Hmm
...
A.2.2ComunicacinconMatlab
Lacomunicacinconmatlabsehaceatravsdearchivosconex
tensin.it.Usandoit++tenemosaccesoafuncionesquepermitenescri
biryleermatricesyvectores.Paracargarelarchivoenelespaciode
trabajodematlabdisponemosdelosprogramasload_it.mysave_it.m.
A.2.3FrontEnd
Elfrontenddesarrolladoenmatlabimplementaelalgoritmoex
puestoalfinaldelcaptulosiete,incluyendoademsundetectordeac
tividadvocalbasadoenloscoeficientescepstrum.stesegmentafinal
mentelaspalabrasylasalmacenaenunformatodearchivoqueesf
cilmenteaccesibledesdec++usandolaslibrerasqueyahemosmencio
nado.Adems,generaunmodeloinicialparaelentrenamientoapartir
delasobservaciones.
127
ApndiceB
B.1Notacin
Consideracionesgenerales:sialgnsmboloapareceennegritay
minscula,setrartadeunvectorodeunasecuenciadevectores.Siel
tipodeletraesnegritaymaysculahablamosdematrices.
smbolo descripcin
A Matrizestocstica.
a
ij
Probabilidaddetransicindelestadoiales
tadoj.
H
Traspuestadelamatrizestocstica.
n
Probabilidadinicialdeocupacindeestados.
o
Secuenciadeobservaciones o=

o
1
o
2
... o
T

o
t
Observacinenelinstantet.
b
j
( o
t
) Probabilidadde quelavariableasociada al
estadojhayageneradolaobservacion o
t
B Simbolizaelconjuntodeparmetrosqueri
genlasvariablesasociadasalosestadosde
unmodeloocultodemarkov
0 Conjunto total de parmetros. Para un
HMM, 0=( A , n, B)
q
Secuenciadeestados q=

q
1
q
2
... q
T

q
t
estado del modelo en el instante t. Suele
aparecercomo q
t
=i i |1, N
N Nmerodeestadosdelmodelo
T
Nmerodeobservaciones.
128
smbolo descripcin
\
ModeloocultodeMarkov.
\(0)
Modeloocultodemarkov,mostrandoexplici
tamenteladependenciarespectoalospar
metros.
\( A , n, B)
Idem.
o
t
(i ) Variable hacia delante. Se define como
p(o
1
o
2
o
t
q
t
=i /\)

t
(i ) Variable hacia atrs. Se define como
p(o
t +1
o
T
, q
t
=i /\)

O Variableescalada
O

Valorptimo.
(
t
(i , j ) Probabilidaddepasardel q
t
=i a q
t +1
=j
dada una secuencia de observaciones y un
modelo.

t
(i ) Probabilidad de que q
t
=i dada una se
cuenciadeobservacionesyunmodelo.
Q(

0 , 0)
FuncinauxiliardeBaum
129
B.2Acrnimos
MLE MaximumLikelihoodEstimation,estimacindemxi
maverosimilitud.
MAP MaximumAPosteriori.
MMIE MinimumMutualInformationEstimation,estimacin
demnimainformacinmutua.
CMLE ConditionalMaximumLikelihoodEstimation,estima
cindemximaverosimilitudcondicional.
EM ExpectationMaximization,PromediadoMaximizacin.
HMM HiddenMarkovModel,modelosocultosdeMarkov.
MFCC Mel Frecuency Cepstal Coefficients, coeficientes del
cepstrumenescalaMel
DCT DiscreteCosineTransform.
130
Bibliografa
(1)StatisticalPatternClassification
(2)Patternrecognition
(3)LawrenceR.RabinerAtutorialonHiddenMarkovModelsandSe
lectedApplicationsinSpeechRecognition.
(4)JeffBilmesWhatHMM'sCanDo.bilmes@ee.washington.edu
(5)SergioA.CrucesApuntesdeCtedradeTratamientoDigitaldeVoz
Servicio de Publicaciones de la Escuela Superior de Ingenieros de
Sevilla,2004
(6) DouglasO'ShaughnessyInteractingwithcomputersbyvoice:auto
maticspeechrecognitionandsynthesis.Proceedingsoftheieee,vol.
91,no9,september2003
(7) H.P.CombrinckandE.C.Botha OnTheMelscaledCepstrum De
partmentofElectricalandElectronicEngineeringUniversityofPre
toriaPretoriaSouthAfrica
(8) J. F. Blinn What's the deal with the DCT? IEEE Computer
GraphicsandApplications,vol.13,pp.7883,July1993.
(9) Li Tan and Montri Karnjanadecha Modified Melfrequency ceps
trumcoefficientDepartmentofComputerEngineeringFacultyofEn
gineeringPrinceofSongkhlaUniversity
(10)J.AHaigh&J.S.MasonAvoiceactivitydetectorbasedoncepstral
analysis.
131
(11)J.AHaigh&J.S.MasonRobustvoiceactivitydetectionusingceps
tralfeatures.
(12) JFritsch,I.Rogina SpeedingUpthescorecomputationofHmm
speechrecognizerswiththeBucketVoronoiintersectionalgorithm.
(13) J Fritsch, I. Rogina Thebucketboxintersectionalgorith forfast
aproximativeevaluationofsiagonalmixturegaussians.
(14)JeanLucGauvainandChinHuiLeeMaximumAPosterioriEsti
mationforMultivariateGaussianMixtureObservationsofMarkov
Chains.
132

También podría gustarte