Está en la página 1de 25

Introducci on

Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
El algoritmo EM y aplicaciones
Jose Alberto Hernandez
email: Jose.Hernandez@uam.es
Julio, 2006
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Contenido

Introducci on: Maxima verosimilitud

Mixturas de distribuciones de probabilidad

Algoritmo EM

Caracterizaci on de traco y retardo en Internet

Mixturas de distribuciones Weibull

Conclusiones
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
La fuente

Dempster et. al.: Maximum likelihood from incomplete data


via the EM algorithm. Journal of the Royal Statistical Society,
39(1):138. 1977.

Seg un Google scholar: 7310 citas.


J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Maxima verosimilitud

Denici on del problema de estimaci on de los parametros de


una distribuci on.

Sea X = {x
1
, x
2
, . . . , x
N
} una muestra que pensamos que se
distribuye seg un una distribuci on de probabilidad p(x|) con
parametros .
Estimaci on Encontrar los parametros

optimos, es decir, que


mas se ajustan a la muestra.

La funci on de verosimilitud de los parametros dada la muestra


es: L(|X) =

N
i =1
p(x
i
|).

Entonces:

= arg max

L(|X).

Se consigue derivando e igualando a cero:


log L(|X) = 0.
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Ejemplo: Distribuci on exponencial

Dist. exponencial: p(x|) = e


x
, =

Data la muestra x = {x
1
, . . . , x
N
}

L(|x) =

N
i =1
e
x
i
log L(|x) =
N

i =1
log
_
e
x
i
_
= N log
N

i =1
x
i

log L(|X) = N
1

i =1
x
i
= 0

MV
=
_
1
N
N

i =1
x
i
_
1
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Mixturas de distribuciones (1)

Que ocurre si la muestra x proviene de una combinaci on de


multiples distribuciones, en lugar de una sola?

Mixtura Combinaci on ponderada de distribuciones de


probabilidad.
p(x|) =
M

j =1
q
j
p
j
(x|
j
), = {q
j
,
j
}

j
q
j
= 1
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Mixturas de distribuciones (2)
5 0 5 10
0
0.1
0.2
0.3
0.4
x
P
D
F
Example: data sample histogram
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Mixturas de distribuciones (2)
5 0 5 10
0
0.1
0.2
0.3
0.4
x
P
D
F
Example: Single gaussian match
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Mixturas de distribuciones (2)
5 0 5 10
0
0.1
0.2
0.3
0.4
x
P
D
F
Example: mixture of M=2 gaussians
q
1
=0.7,
1
=0,
1
=1
q
1
=0.3,
1
=2,
2
=3
Mixture
Histogram
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Mixturas de distribuciones (3)

Aplicando maxima verosimilitud:


log L(|x) = log
N

i =1
_
_
M

j =1
q
j
p
j
(x
i
|
j
)
_
_
=
N

i =1
log
_
_
M

j =1
q
j
p
j
(x
i
|
j
)
_
_

log L(|x) = 0
No se puede resolver analticamente!!
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Soluci on: Algoritmo EM
Denici on El algoritmo EM (Expectation Maximisation) es un
metodo general para encontrar el estimador de
maxima verosimilitud de los parametros de una
distribuci on de probabilidad, especialmente util
cuando parte de la informaci on esta oculta.

Supondremos un conjunto de datos Z = (X, Y), donde los


datos X son visibles, pero los datos Y estan ocultos.
p(z|) = p(x, y|) = p(x|y, )p(y|)

C omo calculamos L(|Z) = L(|X, Y) si no conocemos Y?


J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Soluci on: Algoritmo EM (2)

No conocemos la Y de L(|X, Y), as que la supondremos


como variable aleatoria y calculamos una media:
Q(,
g
) =
_
y
log L(|X, y)p(y|X,
g
)dy = E[log p(x, y|)|X,
g
]


g
son unos parametros propuestos.
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
EM en dos pasos:

Para encontrar los parametros optimos

a partir de
L(|X, Y), hay que proceder en dos pasos:

Paso E (Expectation): Calcular la esperanza de la verosimilitud


con respecto a la informaci on conocida y unos parametros
propuestos
(t)
cualesquiera:
Q(,
(t)
) = E[log p(x, y|)|X,
(t)
]

Paso M (Maximization): Maximizar Q con respecto a los


parametros:

(t+1)
= arg max

Q(,
(t)
)

Repetir E y M de forma iterativa hasta alcanzar convergencia.


J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Mixturas: Aplicaci on de EM

Recordamos: p(x|) =

M
j =1
q
j
p(x|
j
)

Introducimos etiquetas ocultas: y


i
asociados a los valores
conocidos de la muestra x
i
tales que:

p(y
i
= j |x
i
, ) representa la probabilidad de que x
i
pertenezca
a la componente j de la mixtura. Evidentemente:

p(x
i
|y
i
= j , ) = p(x
i
|
j
)

p(y
i
= j |) = q
j

Con esta nueva formulaci on:


p(x|) =
M

j =1
p(x, y = j |) =
M

j =1
p(x|y = j , )p(y = j |)
=
M

j =1
q
j
p(x|
j
)
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Desarrollando EM:

p(x, y|) = q
y
p(x|
y
)

E-step: Q(,
(t)
) = E[log L(|x, y)|x,
(t)
]

M-step:
(t+1)
= arg max

Q(,
(t)
)

Expandiendo el paso E:
Q(,
(t)
) =

M
j =1

N
i =1
_
log p(x
i
|
j
)
_
p(y
i
= j |x
i
,
(t)
) +
+

M
j =1

N
i =1
_
log q
j
_
p(y
i
= j |x
i
,
(t)
)

Maximizando (paso M):


Q(,
(t)
)
q
j
= 0
Q(,
(t)
)

j
= 0
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Caracterizaci on de traco y retardos (1)

< 1990s: Se utilizaban modelos Poissonianos para modelar el


traco en Internet, muy al estilo de los modelos de telefona.

Principios 1990s: Experimentos con medidas de traco reales


muestran que los modelos Poissonianos no son adecuados,
debido al caracter rafagoso del traco.

Mediados 1990s: Se empiezan a utilizar modelos de caja


negra, tales como: fBm, fARIMA, etc.

Mediados-nales 1990s: Aparecen los modelos estructurales.


J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Caracterizaci on de traco y retardos (2)

Leland et. al.


1
son los primeros en introducir los conceptos de
auto-semejanza y dependencia a largo plazo en el traco.

Sus resultados empricos con medidas de traco Ethernet


tambien son observados en otros escenarios: traco WAN
2
,
traco de vdeo VBR
3
y el web
4
.
1
Leland, W. E. et al: On the self-similar nature of Ethernet trac
(extended version), in IEEE/ACM Trans. Networking, 1994
2
Paxson, V. et al: Wide Area trac: the failure of Poisson modeling, in
IEEE/ACM Trans. Networking, 1995
3
Beran, J. et al: Long-range dependence in variable-bit-rate video trac,
in IEEE Trans. Communications, 1995
4
Crovella, M. E. et al: Self-similarity in world wide web trac: evidence
and possible causes, in IEEE/ACM Trans. Networking, 1997
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Caracterizaci on de traco y retardos (3)

Es necesario utilizar modelos que presenten las caractersticas


observadas en los experimentos. Por ejemplo: fBM
5
,
fARIMA
6
, etc.

Cuando se introduce traco fBm o fARIMA en un router, la


distribuci on de la cola es de cola pesada, y puede ser
aproximada por una distribuci on de probabilidad Weibull
7
.

Tal resultado se ha comprobado empricamente en un router


de backbone
8
...

... y tambien en un escenario extremo-extremo.


5
Norros, I.: On the use of fractional Brownian motion in the theory of
connectionless networks, in IEEE JSAC, 1995
6
L opez-Ardao, J. C. et al: On the use of self-similar processes in network
simulation, in ACM TOMACS, 2000
7
Norros, I.: A storage model with self-similar input, in Queueing Systems,
1994
8
Papagiannaki, K. et al: Analysis of measured single-hop delay from an
operational backbone network, in IEEE JSAC, 2003
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
La distribuci on Weibull
0 1 2 3 4 5 6 7 8 9 10
0
0.002
0.004
0.006
0.008
0.01
x
p
(
x
|
r
,
s
)
The Weibull distribution
r=4 fixed
0 1 2 3 4 5 6 7 8 9 10
0
0.005
0.01
0.015
0.02
x
p
(
x
|
r
,
s
)
s=4 fixed

p(x|r , s) =
sx
s1
r
s
exp(
_
x
r
_
s
)

r esta relacionado con el


maximo.

s esta relacionado con la


cada de la cola.
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
EM para mixturas de Weibulls

Expandiendo el paso E:
Q(,
(t)
) =

M
j =1

N
i =1
_
log p(x
i
|
j
)
_
p(y
i
= j |x
i
,
(t)
) +
+

M
j =1

N
i =1
_
log q
j
_
p(y
i
= j |x
i
,
(t)
)

Maximizando (paso M):


Q(,
(t)
)
q
j
= 0,
Q(,
(t)
)
r
j
= 0,
Q(,
(t)
)
s
j
= 0
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Aplicaci on a mixturas de distribuciones Weibull
1. Obteniendo parametros: 2. Actualizando las etiquetas ocultas:
q
j
=
1
N

N
i =1
p(y
i
= j |x
i
, )
r
j
=
_P
N
i =1
x
s
j
i
p(y
i
=j |x
i
,)
P
N
i =1
p(y
i
=j |x
i
,)
_
1/s
j
p(y
i
= j |x
i
, ) =
q
j
p(x
i
|
j
)
P
M
k=1
q
k
p(x
i
|
k
)
s
j
=
P
N
i =1
p(y
i
=j |x
i
,)
P
N
i =1
_
x
s
j
i
r
s
j
j
1
_
log
_
x
i
r
j
_
p(y
i
=j |x
i
,)
Cuadro: Resumen de EM para mixturas de distribuciones Weibull.
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Resultados
Animaci on MATLAB
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Conclusiones (1)

Una mixtura de distribuciones Weibull caracterizan bastante


bien el retardo extremo-extremo en los paquetes.

Los parametros de la mixtura se pueden obtener facilmente


mediante el algoritmo EM.

Ademas, los parametros de la mixtura son representativos de


caractersticas importantes de la red: retardo medio
(parametro r ), comportamiento de la cola (parametro s).

Mediante el estudio de la evoluci on de los parametros en el


tiempo se pueden detectar anomalas en la red: cambios de
routing, sobrecarga, etc.
J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Conclusiones (2)

EM se utiliza en muchos otros problemas:

HMM (Hidden Markov Models)

Clustering, Pattern Recognition

etc.

Problema: Curse of dimensionality.


J. A. Hernandez El algoritmo EM y aplicaciones
Introducci on
Algoritmo EM
Soluci on EM para mixturas
Caracterizaci on de retardos
Conclusiones
Preguntas
Gracias por su atenci on
J. A. Hernandez El algoritmo EM y aplicaciones

También podría gustarte