Está en la página 1de 26

2.

Fundamentos bsicos del Anlisis de Componentes


Independientes

2.1 Introduccin

El objetivo fundamental del Anlisis de Componentes Independientes (ICA) es el
de proporcionar un mtodo que permita encontrar una representacin lineal de los datos
no gaussianos de forma que las componentes sean estadsticamente independientes o lo
ms independiente posible. Una representacin de este tipo permite obtener la estructura
fundamental de los datos en muchas aplicaciones, incluidas la extraccin de
caractersticas y la separacin de seales.

Seguidamente se va a describir el fundamento terico en el que se basa dicho
mtodo, introduciendo a su vez los conceptos como el Anlisis de Componentes
Principales (PCA) o la Separacin Ciega de Fuentes (BSS).


2.2 Representacin de datos

2.2.1 Consideraciones estadsticas iniciales

Un problema clsico en estadstica y en diversas reas relacionadas con la
misma, es cmo encontrar una representacin conveniente de los datos
multidimensionales, entendiendo por representacin los medios a travs de los cuales
transformamos dichos datos de forma que su estructura esencial se haga lo ms visible o
accesible que podamos.

En computacin neuronal, este problema pertenece al rea del Aprendizaje No
Supervisado, donde dicha representacin debe aprenderse a partir del propio conjunto
de datos, sin ninguna entrada externa previa, que es lo que constituye la diferencia
esencial con el Aprendizaje Supervisado. En procesado de seales, podemos encontrar
este mismo problema de la extraccin de rasgos, como veremos en el problema de
Separacin Ciega de Fuentes (BSS) ms adelante.

Para ilustrar el problema inicial, asumamos que los datos consisten en un
nmero determinado de variables que hemos observado juntas. Denotaremos dicho
nmero de variables por m y el nmero de observaciones de las mismas por T. Podemos
entonces denotar los datos (seales observadas) x
i
(t) donde el ndice i y t toman valores
i = 1, , m y t = 1, ,T. Las dimensiones m y T, pueden tomar valores bastante
elevados.

Una formulacin general del problema se puede realizar considerando que el
objetivo es encontrar una funcin que lleve a cabo la transformacin del conjunto
original de datos en un espacio m-dimensional a otro espacio n-dimensional, de forma
que las variables transformadas en este nuevo espacio nos den tanta informacin como
sea posible sobre las componentes o rasgos que estn ocultos en el conjunto de datos
originales. En decir, buscamos que las variables transformadas sean las componentes
subyacentes que describan la estructura esencial de dichos datos. Es de esperar que
dichas componentes correspondan a alguna causa fsica en la que estaba inmerso el
proceso que gener los datos en primer lugar.

Adems, nosotros vamos a considerar nicamente funciones de transformacin
lineales, ya que la interpretacin de la representacin de los datos que se lleva a cabo
por medio de ellas es ms simple, y tambin su programacin. Consecuentemente, cada
una de dichas componentes y
i
, se puede formular como una combinacin lineal de las
variables observadas:


( ) ( ), 1,..., , 1,...,
i ij j
j
y t w x t i n j m = = =

(2.1)

donde los w
ij
se definen como coeficientes que permiten definir la representacin. El
problema por tanto se puede reformular como el del clculo de la determinacin de los
coeficientes w
ij.
Mediante el uso del lgebra lineal es posible expresar la transformacin
lineal de la ecuacin (2.1) como un producto de matrices. As, agrupando los w
ij
en una
matriz W, la ecuacin anterior se convierte en:



1 1
2 2
( ) ( )
( ) ( )
( ) ( )
n n
y t x t
y t x t
y t x t
| | | |
| |
| |
=
| |
| |
| |
\ \
W

(2.2)

que en forma matricial ser

y = W x (2.3)

Una aproximacin estadstica bsica consiste en tratar a xj(t) como un conjunto
de T realizaciones de m variables aleatorias. De este modo, cada muestra de la seal
xj(t), t = 1, , T, es a su vez una muestra de una variable aleatoria, la cual denotaremos
por xj. En este contexto, podramos tratar de determinar la matriz W de acuerdo a ciertas
propiedades estadsticas de las componentes transformadas ui. En las siguientes
secciones discutiremos algunas propiedades de esta transformacin, y a partir de una de
ellas llegaremos al Anlisis de las Componentes Independientes [Hyvrinen01].


2.2.2 Reduccin de dimensin para la obtencin de W

Un principio estadstico clsico que podramos emplear para la eleccin de la
matriz W es el de limitar el nmero de las componentes yi a ser menor, en quizs una o
dos unidades que el conjunto de datos originales, determinando entonces W de forma
que las yi contengan tanta informacin sobre los datos originales como sea. Esto nos
lleva a una familia de tcnicas conocidas como Anlisis de las Componentes
Principales.

2.2.3 Uso de la independencia para la estimacin de W

Otro principio estadstico usado para determinar la matriz W es la
independencia, es decir, las componentes yi son estadsticamente independientes unas de
otras, lo que significa que el valor que tome cualquiera de ellas no da informacin
alguna sobre el valor que pueda tomar el resto.

Esto resulta sencillo si los datos tiene una distribucin Gaussiana, dado que es
bastante simple encontrar componentes que sean independientes en este caso,
atendiendo a que para datos Gaussianos, las componentes decorreladas son siempre
independientes [Hyvrinen01].

Sin embargo, en la realidad los datos no suelen seguir una distribucin
Gaussiana, y la situacin no es tan simple como estos mtodos asumen. Muchos
conjuntos de datos del mundo real tienen distribuciones supergaussianas, lo que
significa que dichas variables aleatorias toman con mayor probabilidad valores que son
cercanos al cero o valores muy grandes, en otras palabras, la funcin densidad de
probabilidad (pdf) de estos datos es puntiaguda en el cero y tiene las colas densas
(debido a los valores grandes que toma lejos del cero), si la comparamos con la pdf de
una variable Gaussiana de la misma varianza. Un ejemplo que ilustre esta situacin lo
encontramos en la figura 2.1.

-3 -2 -1 0 1 2 3
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Distribuciones Gaussiana y Laplaciana de media 0 y varianza 1
Gaussiana
Laplaciana

Figura 2.1 La funcin densidad de probabilidad de una distribucin laplaciana es un
ejemplo tpico de distribucin supergaussiana. En la figura se representa una
distribucin gaussiana (en lnea discontinua roja) y una laplaciana (en lnea continua
azul), estando ambas normalizadas con media cero y varianza unidad.

2.3 Separacin Ciega de Fuentes

El problema de la Separacin Ciega de Fuentes (BSS), representa una visin
alternativa al de encontrar una representacin adecuada de los datos. Adems en l
podemos observar gran parte del trasfondo de ICA, por lo que su estudio se antoja
necesario antes de comenzar a analizar el Anlisis de Componentes Independientes
[Hyvrinen01].

2.3.1 Observaciones de mezclas de seales desconocidas

Consideremos un problema donde una fuente emite un cierto nmero de seales,
como por ejemplo, las seales elctricas correspondientes a diferentes reas del cerebro
o las voces de gente hablando en una misma habitacin. Asumamos adems que existen
una serie de sensores o receptores que van a permitir obtener una grabacin de dichas
seales mezcladas con unos ciertos coeficientes de ponderacin.

Para fijar ideas, supongamos que tenemos tres seales procedentes de la fuente y
adems tres seales observadas, que han sido recogidas por los sensores. Llamemos
x
1
(t), x
2
(t) y x
3
(t) a las seales observadas y s
1
(t), s
2
(t) y s
3
(t) a las seales originales. Se
puede comprobar como la relacin entre ellas vendr dada por el siguiente sistema de
ecuaciones:


1 11 1 12 2 13 3
2 21 1 22 2 23 3
3 31 1 32 2 33 3
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
x t a s t a s t a s t
x t a s t a s t a s t
x t a s t a s t a s t
= + +
= + +
= + +
(2.4)

o de forma anloga:

= x A s (2.5)

Los coeficientes aij son constantes que dan los pesos de la mezcla y que
agruparemos en una matriz denotada por A. Asumimos que son desconocidos, dado que
no podemos conocer los valores de los coeficientes aij sin saber todas las propiedades
fsicas del sistema de mezclado (medio), tarea que puede llegar a ser, generalmente,
bastante complicada. Supondremos adems que las fuentes originales no son conocidas,
de modo que lo nico que conocemos son las mezclas.

Lo que nos gustara hacer es encontrar las seales originales s
1
(t), s
2
(t) y s
3
(t),
contando nicamente con las seales mezcla observadas en los sensores x
1
(t), x
2
(t) y
x
3
(t). sta es el problema conocido como Separacin Ciega de Fuentes (BSS). El
hecho de incluir el trmino Ciega viene del hecho de que apenas tenemos una mnima
informacin de las seales originales, aunque lo ms normal es que no conozcamos
nada de las mismas.

Asumiremos que los coeficientes de mezclado aij toman una serie de valores que
permitan que la matriz A sea invertible. De este modo, podemos decir que existe una
matriz W con coeficientes w ij tal que nos permitir separar las seales si(t) como:


1 11 1 12 2 13 3
2 21 1 22 2 23 3
3 31 1 32 2 33 3
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
s t w x t w x t w x t
s t w x t w x t w x t
s t w x t w x t w x t
= + +
= + +
= + +
(2.6)

o en forma matricial:

= s Wx (2.7)

Vemos entonces como podremos encontrar la matriz W como la inversa de A, la
matriz que formaban los coeficientes aij, si conocemos dichos coeficientes de mezclado.
Ahora observamos que este problema es matemticamente similar al inicial, donde
quisimos encontrar una buena representacin de los datos aleatorios xj(t). Adems es
posible considerar cada seal x
i
(t), t = 1, ,T como una muestra de una variable
aleatoria x
i
, de forma que el valor de dicha variable viene dado por las amplitudes de esa
seal en cada instante de tiempo.


Figura 2.2 Esquema general que representa los procesos de generacin de
observaciones y estimacin de fuentes en el problema de Separacin Ciega de Fuentes.



2.3.2 Separacin Ciega basada en la independencia

Ahora trataremos de responder a la pregunta de cmo estimar los coeficientes w
ij

que introducimos en la ecuacin (2.6). Para ello, buscaremos un mtodo general que
trabaje bajo diferentes circunstancias, y proporcione una respuesta al problema general
con el que empezamos: encontrar una buena representacin de los datos
multidimensionales. Todo lo que tenemos son las seales mezcla, y queremos encontrar
una matriz W que nos permita obtener o estimar las seales originales de las fuentes lo
mejor posible.
Una solucin sorprendentemente simple al problema puede encontrarse
suponiendo nicamente que existe independencia estadstica entre las seales originales.
De hecho, si las seales son no-Gaussianas, esto es suficiente para determinar los
coeficientes w
ij
, de modo que las seales:


1 11 1 12 2 13 3
2 21 1 22 2 23 3
3 31 1 32 2 33 3
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
y t w s t w s t w s t
y t w s t w s t w s t
y t w s t w s t w s t
= + +
= + +
= + +
(2.8)

o en forma matricial

= y Wx (2.9)

son estadsticamente independientes. Si las seales y
1
(t), y
2
(t) e y
3
(t) son realmente
independientes entre s, entonces sern iguales a las seales originales s1(t), s2(t) y s3(t)
(salvo quizs un factor constante multiplicativo, hecho que no tiene mucha relevancia
atendiendo al significado de lo que podemos conseguir).

Usando simplemente esta informacin sobre la independencia estadstica de
partida, podemos estimar la matriz W a partir nicamente de las seales mezcla que
observamos y conocindola, podemos estimar las fuentes originales. Veamos a
continuacin un ejemplo en el que se ilustra este problema que nos servir para
comprender mejor estos conceptos.

Haciendo uso del algoritmo FastICA

(Gvert, Hurri, Srel e Hyvrinen), que


se ejecutar en el entorno de simulacin matemtica MATLAB

, trataremos de extraer
dos fuentes s
1
(t) y s
2
(t), a partir de dos observaciones procedentes de la mezcla lineal de
ellas y que denotaremos como x
1
(t) y x
2
(t). Los resultados obtenidos se muestran en las
siguientes figuras.


SEALES ORIGINALES
0 0.5 1 1.5 2 2.5 3
x 10
4
-1
-0.5
0
0.5
1
0 0.5 1 1.5 2 2.5 3
x 10
4
-1
-0.5
0
0.5
1

Figura 2.3 Seales originales










SEALES OBSERVADAS
0 0.5 1 1.5 2 2.5 3
x 10
4
-1
-0.5
0
0.5
1
0 0.5 1 1.5 2 2.5 3
x 10
4
-1
-0.5
0
0.5
1

Figura 2.4 Seales observadas

SEALES ESTIMADAS
0 0.5 1 1.5 2 2.5 3
x 10
4
-10
-5
0
5
10
0 0.5 1 1.5 2 2.5 3
x 10
4
-10
-5
0
5
10

Figura 2.5 Seales estimadas

Podemos observar como las seales estimadas se asemejan a las fuentes
originales salvo un factor de escala.


2.4 El Anlisis de Componentes Principales

2.4.1 Introduccin

El Anlisis de Componentes Principales (Principal Component Analysis, PCA)
es un mtodo clsico de anlisis de datos que tiene sus principales aplicaciones en el
campo de la extraccin de caractersticas y compresin de datos. Bsicamente equivale
a la transformada de Karhunen-Loeve y est estrechamente relacionada con el Anlisis
de Factores (Factor Analysys, FA). Ambas tcnicas estn basadas en estadsticos de
segundo orden [Wong].

El Anlisis de Componentes Principales tiene gran utilidad en aplicaciones de
reconocimiento facial y de objetos como veremos sobre todo en la parte de este
proyecto dedicada a la Factorizacin No Negativa de Matrices.


2.4.2 Blanqueado

Un vector de observaciones
1
... )
T
n
z z = ( z se dice que est blanqueado si los
elementos z
i
estn decorrelados y tienen varianza unidad, es decir:


{ }
i j ij
E z z = (2.10)

que en trminos de la matriz de covarianzas, implica que
{ }
E =
T
zz I , siendo I la matriz
identidad. La forma ms clara de verlo es a partir del ruido blanco. Se dice que es
blanco ya que todas las componentes espectrales son constantes para todo el dominio de
la frecuencia [Hyvrinen01].

Adems, dado que el blanqueado consiste bsicamente en la decorrelacin
seguida del escalado, es posible usar PCA. El problema del blanqueado ser ahora el de
obtener una transformacin V tal que aplicada a las observaciones x de lugar a los datos
blanqueados, que denotaremos por z, esto es

= z Vx (2.11)

Una forma de verlo, consistira en hacer uso de la conocida como
Descomposicin en Valores Singulares (Singular Value Descomposition, SVD).
Llamando
{ }
E =
T
x
R xx , a la matriz de covarianzas de x, su descomposicin en valores
singulares dar lugar a a:

=
T
x
R UDU (2.12)

donde U es la matriz de autovectores, D la matriz diagonal cuyos elementos de la
diagonal se corresponden con los autovalores de R
x
(en orden decreciente) y x se
supone de media cero [Jenssen00].

Considerando en este caso x como una matriz real y simtrica, el conjunto de
autovectores de la matriz de correlacin R
x
forma un conjunto ortogonal, de forma que
se cumple UU
T
= I, ya que U resulta ser una matriz ortogonal para esas caractersticas
de x. De este modo, con la siguiente transformacin las componentes de z resultan estar
decorreladas, dado que pueden ser vistas como una proyeccin de x en el espacio PCA,

=
T
y U x (2.13)

y por consiguiente podremos calcular la matriz de covarianzas de z de la siguiente
manera:


{ } { } { }
1 1
2 2
E E E

= = = =
= = =
T T T T
z
T T T
x
R zz Ux(Ux) Uxx U
UR U D E EDE ED I
(2.14)

Por lo que queda demostrado que los nuevos datos estn blanqueados ya que su
matriz de covarianzas es la matriz identidad. En definitiva, para blanquear los datos
existentes, tan slo habr que realizar la siguiente transformacin:

=
1
-
T
2
z D U x (2.15)

ya que = z Vx , con =
1
-
T
2
V D U .

A continuacin vamos a estudiar una matriz que cobra especial relevancia y es la
que se conoce como Matriz de Blanqueado. Dicha matriz tiene la forma
1
2

T
ED E y se
puede verificar que es la raz cuadrada inversa de la matriz de covarianzas de los datos
R
x
, es decir:


1 1
2 2

=
T
x
ED E R (2.16)


Por ltimo, cabe destacar el hecho de que si las bases PCA vienen dadas por los
autovectores de R
x
en orden decreciente de sus correspondientes autovalores, podemos
descartar los autovectores correspondientes a los autovalores ms pequeos de cara a
obtener una dimensin menor, perdiendo la menor informacin posible en el sentido del
error cuadrtico medio.

Ejemplo

Para verlo de forma numrica, consideremos el siguiente ejemplo en el que
tenemos dos muestras de voz, que denotaremos por x
1
y x
2
y que proceden de la mezcla
a su vez de dos seales de voz s
1
y s
2
a partir de la matriz A:



0.8 0.3
0.5 0.4
| |
=
|
\
A (2.17)



Figura 2.6 Seales originales s
1
(eje horizonatal) y s
2
(eje vertical).



Figura 2.7 Seales resultantes de la mezcla mediante la matriz A, que denotaremos por
x
1
(eje horizontal) y x
2
(eje vertical).

Si ahora aplicamos el algoritmo PCA a la matriz formada por los dos vectores x
1

y x
2
, obtendremos los siguientes valores para las matrices U y D:


0.9605 0.2782
0.2782 0.9605
0.0148 0
0 0.0013
| |
=
|

\
| |
=
|
\
U
D
(2.18)
por tanto, la matriz W resultar:


0.9611 0.2763
0.2763 0.9611
| |
= =
|
\
1
-
T
2
W D U (2.19)

y por ltimo, podremos obtener las nuevas observaciones blanqueadas, que se
calcularn como y = Wx :


Figura 2.8 Seales obtenidas tras blanquear, z
1
(eje horizontal) y z
2
(eje vertical).


2.4.3 El Anlisis de Factores y PCA

El Anlisis de Factores (Factor Analysis, FA), hace referencia a una tcnica
estadstica de anlisis de datos muy extendida. Su objetivo consiste en establecer las
correlaciones existentes entre un conjunto de variables observadas en trminos de un
nmero ms pequeo de factores. El Anlisis de Factores se desarroll originariamente
en el mbito de las ciencias sociales y psicologa, donde su uso principal radicaba en el
desarrollo de tcnicas de medida de aspectos como la personalidad o la inteligencia
[Baek].

Aunque PCA y FA persiguen un mismo objetivo consistente en expresar un
conjunto de datos en funcin de una combinacin lineal de un conjunto de datos de
dimensin menor (factores en el caso de FA y componentes en el caso de PCA),
veremos como existen una diferencia esencial entre ambas tcnicas. En FA estudia tan
slo la varianza compartida entre todos los datos, mientras que PCA analiza todas las
varianzas existentes en ese conjunto de datos.

Por este motivo, en la mayora de las aplicaciones PCA, presenta mejores
prestaciones que FA en cuanto a la reduccin de dimensiones de los datos estudiados
[Dilip].


2.5 El Anlisis de Componentes Independientes

2.5.1 Definicin

Hemos visto como el problema de la separacin ciega de fuentes se basa en la
obtencin de una representacin lineal en donde las componentes sean estadsticamente
independientes. En la prctica, no es siempre posible encontrar una representacin
donde las componentes sean estadsticamente independientes, sin embargo si ser viable
la obtencin de componentes que al menos sean lo ms independientes que se pueda.

Esto nos lleva necesariamente a la definicin del Anlisis de Componentes
Independientes, tambin conocido como ICA (Independent Component Analysis), que
se puede hacer de la siguiente manera:

Dado un conjunto de observaciones de variables aleatorias {x
1
(t), x
2
(t)
x
n
(t)}, siendo t el tiempo o el ndice de las muestras, asumimos que estn generadas por
una combinacin lineal de componentes independientes:


1 1
2 2
( ) ( )
( ) ( )
( ) ( )
n n
x t s t
x t s t
x t s t
| | | |
| |
| |
=
| |
| |
| |
\ \
A

(2.20)
o en forma matricial:

= x A s (2.21)

donde A es una matriz de mezcla desconocida. El Anlisis de Componentes
Independientes consistir ahora en estimar tanto la matriz A como las fuentes s
i
(t) a
partir de las observaciones x
i
(t) [Hyvrinen01]. Supondremos que el nmero de
observaciones coincide con el de las fuentes originales, si bien esta simplificacin no es
completamente necesaria para resolver el problema.

De forma alternativa, podramos definir ICA, como el problema de la obtencin
de la transformacin lineal dada por la matriz W como en (2.3), tal que las variables
aleatorias estimadas y
i
(t) i = 1,,n sean tan independientes como sea posible. Este
planteamiento no difiere en exceso del original ya que una vez obtenida la matriz A, la
matriz W se obtiene invirtindola.

Se puede demostrar que el problema est completamente definido, es decir, el
modelo planteado en (2.10) puede ser estimado si y slo si las componentes s
i
(t) son no
gaussianas. Esta condicin es esencial y servir para explicar la diferencia principal que
existe entre ICA y PCA, donde la no gaussianidad no se tiene en cuenta.


2.5.1.1 Definicin de ICA basado en un modelo de variables ocultas

Para definir ICA de una forma rigurosa, es posible usar un modelo de variables
ocultas [Hyvrinen01]. Se trata de observar n variables aleatorias x
1
, ..., x
n
, que se
modelan como una combinacin lineal de las fuentes s
1
, , s
n
:


1 1 2 2
... 1, ...,
i i i in n
x a s a s a s i n = + + + = (2.22)

donde los a
ij
son coeficientes reales. Por definicin los s
i
son independientes entre si.

Este es el modelo bsico ICA, que describe como las variables observadas son
generadas por un proceso de mezcla de las fuentes s
j
. Las componentes s
j
son variables
ocultas ya que no se pueden observar de forma directa. Adems los a
ij
pertenecientes a
la matriz de mezcla se suponen tambin desconocidos. Las nicas variables que estn
visibles sern las x
ij
a partir de las cuales tendremos que estimar las fuentes s
j
y la
matriz de mezcla A. Este problema se tendr que resolver de la manera ms general
posible.

ICA guarda una estrecha relacin con la Separacin Ciega de Fuentes (BSS).
Una fuente hace referencia en este contexto a una seal original, por ejemplo una
persona hablando en el conocido como cocktail-party effect. El hecho de que sea
ciega, significa que conocemos muy poco (o nada) de la matriz de mezcla, a la vez que
se plantean hiptesis muy dbiles acerca de las seales fuente originales s
j
. ICA es
quizs el mtodo ms usado en la actualidad para resolver el problema de la separacin
ciega de fuentes.



Figura 2.9 Cocktail-Party Effect. Las observaciones x
i
(t) con i = 1,,n proceden de la
mezcla de las s
j
(t) con j = 1,,m a partir de la matriz A. Las seales estimadas y
j
(t) con
j = 1,,m se obtendrn a partir de la matriz de separacin W. Para que el problema
tenga solucin se ha de verificar que el nmero de observaciones sea mayor o igual que
el de seales a estimar, esto es, nm.


2.5.2 Restricciones en ICA

Para poder asegurar que el modelo ICA que estamos planteando tiene solucin,
es necesario hacer una serie de suposiciones y restricciones que enumeraremos a
continuacin [Hyvrinen01].

1. El nmero de observaciones ha de ser mayor o igual al nmero de componentes
independientes a estimar. En el caso de que sea mayor, es posible realizar una
reduccin de la dimensin usando el Anlisis de Componentes Principales
(PCA), como se indica anteriormente en el apartado 2.2.2.

2. Las componentes independientes se supondrn estadsticamente independientes.
En este principio descansa la base de ICA. Sorprendentemente no hace falta
mucho ms aparte de esta restriccin para asegurar que el modelo va a tener
solucin. Es por esto por lo que ICA es un modelo tan potente y con tantas
aplicaciones en diferentes campos.

Bsicamente, las variables aleatorias y
1
,y
2
, ,y
n
se dice que son independientes
si la informacin en y
i
no aporta ninguna informacin sobre el valor de y
j
con
ij. Tcnicamente, la independencia se puede definir a partir de las densidades
de probabilidad. De esta forma, denotemos por p(y
1
,y
2
, ,y
n
) a la funcin
densidad de probabilidad conjunta de y
i
, y por p(y
i
) a la funcin densidad de
probabilidad marginal de y
i
. Entonces consideraremos que las y
i
son
independientes si y slo si la funcin densidad de probabilidad conjunta se
puede factorizar de la siguiente manera:


1 2 1 1 2 2
( , , ..., ) ( ) ( ) ... ( )
n n n
p y y y p y p y p y = (2.23)

3. Las componentes independientes deben presentar distribuciones no gaussianas.
De forma intuitiva, se puede pensar que las distribuciones gaussianas son muy
simples. Los cumulantes de orden superior son cero para distribuciones
gaussianas, sin embargo dichos cumulantes son bsicos en el anlisis ICA. Por
tanto, podemos deducir que el anlisis ICA es imposible para distribuciones que
sean gaussianas.

Por otro lado, cabe recordar que una combinacin lineal de componentes
gaussianas es a su vez gaussiana y adems que para las estas distribuciones se
cumple que la decorrelacin entre dichas componentes va a implicar tambin
independencia (propiedad que no se da en general para cualquier variable
aleatoria en este sentido sino en el contrario, es decir, la independencia va a
implicar existencia de decorrelacin). Esto va a motivar que dada una
combinacin de componentes independientes gaussianas, sea imposible
separarlas por los mtodos que estamos describiendo.

4. Consideraremos que la matriz de mezcla A es cuadrada. Esto implicar que el
nmero de componentes independientes a estimar es igual al nmero de
observaciones. A partir de esta suposicin resulta fcil ver como una vez
estimada la matriz de mezcla, al realizarle la inversa, podremos obtener la matriz
B, que va a permitir estimar las fuentes originales, esto es:

= s Bx (2.24)

Lgicamente asumiremos que la matriz de mezcla es invertible (si no lo fuera
sera por la existencia de mezclas redundantes y llegaramos a una situacin en
la que el nmero de componentes independientes y el de las observaciones es
distinto y habra que recurrir a tcnicas ms complejas para llegar a una solucin
viable).


2.5.3 Ambigedades del anlisis ICA

En el modelo ICA dado por = x As , vemos una serie de ambigedades que es
necesario tener en cuenta antes de seguir desarrollando el modelo. Estas
indeterminaciones se especifican en [Hyvrinen01] de la siguiente forma:

1. No se puede determinar el orden de las componentes independientes. Esto es
debido a que tanto s como A son desconocidas a priori, de forma que si
planteamos el modelo ICA como:


1
n
i i
i
a s
=
=

x (2.25)

siendo a
i
cada una de las columnas de A y s
i
las fuentes, entonces en todo
momento sera posible cambiar el orden de los trminos en el sumatorio y
colocar cualquiera de las componentes independientes en primer lugar. De
manera ms rigurosa podemos decir que se podra insertar una matriz de
permutacin P y su inversa de forma que el modelo resultara as:

=
1
x A P P s (2.26)

De esta manera, la matriz AP
-1
resultara ser la nueva matriz de mezcla a
estimar en el anlisis ICA.

2. No es posible determinar las energas de las componentes independientes. Esto
es debido de nuevo a que al ser A y s desconocidas, cualquier escalar
i
que
multiplicara a una fuente s
i
se podra cancelar dividiendo la correspondiente
columna a
i
de A, esto es:


1
1
( )( )
n
i i i
i
i
a s

=
=

x (2.27)

La forma ms habitual de proceder ser suponer que las componentes
independientes a estimar van a tener varianza unidad, es decir, E[s
i
2
] = 1. De
esta forma podremos hacer que la matriz A se calcule teniendo en cuenta esta
restriccin en nuestra solucin ICA. Tambin hay que destacar que sigue
habiendo problemas con el signo ya que por lo visto anteriormente podramos
multiplicar una fuente por -1 sin que ello afectara al modelo. Sin embargo este
caso es poco relevante en la mayora de las aplicaciones.


2.5.4 Bsqueda de las componentes independientes

A priori puede resultar sorprendente que las componentes independientes puedan
ser estimadas a partir de las combinaciones lineales, sin haber impuesto ninguna
restriccin adems de su independencia. Para poder explicar este hecho vamos a ver una
serie de aspectos que quizs puedan aclarar esta cuestin.

1. La decorrelacin no es suficiente

Lo primero que tenemos que ver es que la independencia es una propiedad
mucho ms fuerte que la propia decorrelacin. Considerando el problema de las
separacin ciega de fuentes, vemos que como es posible encontrar multitud de
configuraciones de seales decorreladas que por el contrario no seran independientes y
por tanto no extraeran las fuentes. Es decir, la decorrelacin de por si, no garantiza
una correcta separacin de las componentes. Este es el motivo principal por el que
PCA no es vlido para separar las fuentes ya que exclusivamente permite obtener
componentes que son decorreladas, pero poco ms.

2. La decorrelacin no lineal es la base de ICA

Una forma de ver que la independencia es una condicin ms fuerte que la
decorrelacin consiste en establecer que la independencia implica decorrelacin no
lineal. Si s
1
y s
2
son independientes, entonces las transformaciones no lineales g(s
1
) y
h(s
2
) son decorreladas (su covarianza es cero). Por el contrario, para dos variables
aleatorias en general que son decorreladas (pero no independientes), dichas
transformaciones no tienen covarianza cero en general.

De esta manera, podramos intentar abordar nuestro problema ICA usando una
forma ms potente de decorrelacin, es decir, buscando una cierta representacin donde
las y
i
son decorreladas incluso despus de aplicarle alguna transformacin no lineal.
Esto nos llevar a un primer principio de estimacin de la matriz de separacin W:

Principio de decorrelacin no lineal: Consiste en encontrar la matriz W
tal que para todo i j las componentes y
i
e y
j
estn decorreladas, y las
correspondientes transformaciones g(y
i
) y h(y
j
) estn decorreladas, siendo
g y h funciones no lineales apropiadas.

Si escogemos las no linealidades de una forma apropiada para nuestro fin, sta
resulta una aproximacin vlida para que el mtodo que buscamos halle las
componentes independientes.

Sin embargo, llegados a este punto cabra preguntarse la forma de elegir las
transformaciones no lineales g y h. Para ello debemos basarnos en principios de teora
de la estimacin y teora de la informacin, que proporcionarn mtodos tales como el
de la mxima verosimilitud e informacin mutua respectivamente.

3. Las componentes independientes son las componentes mximamente
gaussianas

Otro principio que requiere de nuestra atencin dentro del estudio del Anlisis
de Componentes Independientes, no es otro que el de la estimacin de la mxima no
gaussianidad. Este concepto se fundamenta en el conocido como Teorema Central del
Lmite, que establece que la suma de variables no gaussianas dar lugar a una nueva
variable que ser ms gaussiana que las originales.

Esto va a motivar que dada una combinacin lineal de las variables observadas
i i
i
y b x =

, sta ser mximamente no gaussiana si es igual a alguna de las


componentes independientes que conforman la mezcla. Esto es debido a que si se tratara
de una mezcla real de dos o ms componentes, estara ms cerca de parecerse a una
distribucin gaussiana en virtud del Teorema Central del Lmite.

Esto nos llevar a formular un segundo principio de la siguiente manera:

Principio de mxima no gaussianidad: Se trata de encontrar el mximo
local de no gaussianidad de la combinacin lineal
i i
i
y b x =

, sujeto a la
condicin de que la varianza de y ha de ser constante. Cada mximo local
implicar que estamos antes una componente independiente.


La kurtosis y su importancia en la medida de la no gaussianidad

En la prctica, para medir la no gaussianidad haremos uso de la kurtosis. La
kurtosis se define a partir de los momentos de tercer y cuarto orden, y para el caso en el
que la media sea cero, tendr la siguiente forma:


{ }
2
4 2
( ) [ ] 3 [ ] kurt y E y E y = (2.28)
o de forma normalizada:


{ }
4
2
2
[ ]
( ) 3
[ ]
E y
kurt y
E y
= (2.29)

A partir de esta definicin resulta sencillo establecer medidas de la gaussianidad
de una cierta variable aleatoria. Se puede demostrar que si y viene dada por una
distribucin gaussiana, entonces se verifica que su kurtosis es cero. Por eso, la kurtosis
ser una buena medida de la no gaussianidad.

De esta forma podremos hacer una clasificacin de cualquier distribucin,
atendiendo al valor que toma su kurtosis y llegaremos a las siguientes conclusiones
[Hyvrinen01]:

- Una distribucin cuya kurtosis vale cero, se denomina gaussiana.

- Si la kurtosis es negativa, dicha variable se denomina subgaussiana. Las
distribuciones subgaussianas son en general ms planas que las gaussianas.

- Se llaman variables supergaussianas a aquellas cuya kurtosis es positiva.
Las distribuciones supergaussianas suelen tener picos muy acusados y
colas ms largas que las gaussianas.


-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Comparativa Gaussiana / Laplaciana / Uniforme
Gaussiana
Supergaussiana
Subgaussiana


Figura 2.10 Comparativa entre distribuciones gaussiana (en azul), laplaciana (en rojo)
y uniforme (en verde). Estas distribuciones representan ejemplos tpicos de
distribuciones supergaussianas (kurtosis > 0), gaussianas (kurtosis = 0) y
subgaussianas (kurtosis < 0), en funcin del valor que tome la kurtosis.


Sin embargo es preciso tomar una serie de precauciones a la hora de tomar la
kurtosis como medida de la no gaussianidad. El motivo es que la kurtosis de una
variable supergaussiana puede tomar un valor excesivamente elevado, pero en el caso
de las variables subgaussianas existe un valor mnimo que puede tomar, que ser -2
(cuando la varianza est normalizada a la unidad). Esto implica que comparar la no
gaussianidad de una variable supergaussiana y otra supergaussiana, no sera del todo
correcto.


4. La importancia de los estadsticos de orden superior

En la prctica existen multitud de mtodos para realizar la estimacin ICA, si
bien todos ellos se caracterizan por usar estadsticos que no aparecen en la matriz de
covarianzas, son los llamados estadsticos de orden superior. Mediante la matriz de
covarianzas podemos decorrelar de forma lineal pero no ms all. Es por eso por lo que
se antoja necesario el uso de dichos estadsticos, como la kurtosis y las correlaciones no
lineales, aunque es posible emplear una amplia variedad para llevar a cabo el anlisis
ICA.

5. Los mtodos numricos

Debido a la enorme carga computacional que puede presentar el problema de
estimacin ICA, es necesario disponer de herramientas matemticas potentes y
algoritmos que permitan subsanar las necesidades de clculo existentes. Sin embargo
estos sern no lineales, por lo que tendremos que utilizar mtodos numricos para
compensar las carencias que presenta el lgebra lineal, que no ser vlida.

Algunos algoritmos utilizados son el Mtodo del Gradiente, o los algoritmos
FastICA y ThinICA, desarrollados para explotar las caractersticas especiales que
presenta ICA.


2.5.5 Teora de la Informacin: una forma alternativa de estimar la
transformacin ICA

2.5.5.1 Entropa e Informacin Mutua

La entropa diferencial H de una variable aleatoria y con densidad p(y) se define
como [Hyvrinen01]:

( ) ( ) log ( ) H y p y p y dy =

(2.30)

La entropa est estrechamente relacionada con la longitud del cdigo de la
variable aleatoria. Una versin normalizada de la entropa, viene dada por lo que se
conoce como entropa negativa (o negentropy), que se define de la siguiente manera:

( ) ( ) ( )
gauss
J y H y H y = (2.31)

siendo y
gauss
una variable aleatoria gaussiana con la misma matriz de covarianzas que y.
La entropa no negativa es siempre positiva y cero en el caso de las variables aleatorias
gaussianas.

La informacin mutua I entre m variables aleatorias y
i
, i = 1m, se define as:


1 2
1
( , ,..., ) ( ) ( )
m
m i
i
I y y y H y H y
=
=

(2.32)


2.5.5.2 La informacin mutua como medida de la independencia

La informacin mutua entre variables aleatorias tiene en cuenta la dependencia
completa que existe entre dichas variables y no slo la covarianza como ocurre en el
caso del Anlisis de Componentes Principales (PCA).

Por eso, es posible usar la informacin mutua de cara a obtener la representacin
ICA. Para ello definimos el modelo ICA de una variable aleatoria x como una
transformacin invertible del tipo:

= y Bx (2.33)

donde la matriz B se calcula de forma que la informacin mutua de las componentes y
i

sea mnima. Adems se puede demostrar que la minimizacin de la informacin mutua
va a llevar a maximizar la independencia de las componentes.


2.5.5.3 Entropa de una transformacin

Consideremos una transformacin invertible de una variable aleatoria x que
denotaremos por ( ) = y f x . Llamando ( ) Jf a la matriz jacobiana de la funcin f , la
relacin entre las funciones densidad de probabilidad de y y de x, que llamaremos p
y
y
p
x
respectivamente se define como:


1
1 1
( ) ( ( )) det ( ( ))
y x
p p J


= f f f (2.34)

Expresando ahora la entropa a partir del valor esperado:


{ }
( ) log )
y
H p = ( y y (2.35)

e introduciendo el valor de p
y
de la ecuacin anterior, llegaremos a la ecuacin que
permite obtener la entropa de una transformacin:


{ }
log det H H E J ( ) = ( ) + ( ) y x f x (2.36)


2.5.5.4 Informacin mutua y no gaussianidad

A partir de la ecuacin (2.36), vamos a construir el razonamiento que nos va a
permitir llegar a un resultado para la informacin mutua. Sea una transformacin lineal
e invertible = y Bx , de forma que su informacin mutua se podr escribir como:



1 2
, ,..., log det
n i
i
I y y y H y H ( ) = ( ) ( )

x B (2.37)

Ahora veamos lo que ocurre si tomamos las y
i
como incorreladas entre si y con
varianza unidad. Esto significa que
{ } { }
T T T
E E = = yy B xx B I , lo cual implica que al
tomar determinantes en ambos miembros de la expresin anterior:


{ } { }
det det det det det 1
T T T T
E E ( ) = ( ) ( ) ( ) = ( ) = B xx B B xx B I (2.38)



lo cual lleva a que det(B) ha de ser constante ya que det(E{xx
T
}) no depende de B.
Adems para las y
i
, que tienen varianza unidad, la entropa y la entropa negativa
difieren slo en una constante y en el signo como vemos en la ecuacin (2.31). De esta
forma, llegaremos a que:


1 2
, ,..., .
n i
i
I y y y const J y ( ) = ( )

(2.39)

donde el trmino constante no depende de B. Esta ecuacin muestra la relacin
existente entre la informacin mutua y la entropa no negativa.

Hemos visto en la ecuacin (2.39) que encontrar una transformacin lineal e
invertible que minimice la informacin mutua es equivalente a encontrar las direcciones
en las que entropa negativa se maximiza. Adems se sabe que la entropa negativa es
una medida de la no gaussianidad por lo que podemos afirmar que la estimacin de la
transformacin ICA mediante la minimizacin de la informacin mutua es equivalente a
maximizar la suma de las no gaussianidades de las componentes independientes
estimadas.


2.5.6 Un ejemplo prctico sobre ICA

A continuacin vamos a ver un ejemplo numrico sobre el modelo ICA desde el
punto de vista estadstico. Consideremos dos componentes independientes que
presentan las siguientes distribuciones uniformes:


1
, 3
( ) 2 3
0
i
i
s
p s
en otro caso

(2.40)

donde se verifica que la media va a ser cero y la varianza unidad. La funcin densidad
de probabilidad conjunta de s
1
y s
2
va a ser uniforme en un cuadrado. Esto se debe a que
la funcin densidad de probabilidad conjunta de dos variables independientes es el
producto de las marginales como vimos en la ecuacin (2.13). La funcin densidad de
probabilidad conjunta se muestra en la siguiente figura:


Figura 2.11 Densidad de probabilidad conjunta de la distribucin (2.40). El eje
horizontal representa s
1
mientras que el vertical representa s
2
.


A continuacin, vamos a proceder a realizar una mezcla de las componentes
independientes usando para ello la siguiente matriz de mezcla:


3 5
9 6
| |
=
|
\
0
A (2.41)

y tras realizar las operaciones pertinentes, mostramos en la siguiente figura el resultado
obtenido:


Figura 2.12 Densidad de probabilidad conjunta de la distribucin (2.40) tras aplicarle
la rotacin dada por la matriz A
0
. El eje horizontal representa x
1
mientras que el
vertical representa x
2
.

Observando las figuras anteriores, resulta inmediato ver que las nuevas variables
aleatoria generadas x
1
y x
2
ya no son independientes. Una manera sencilla de verlo,
consiste en comprobar si es posible determinar el valor de una de ellas a partir de la
otra. A partir de la figura 2.9 es posible determinar que si la variable x
1
(representada en
el eje horizontal) toma su valor mximo, esto es, en la esquina superior derecha de la
distribucin, entonces el valor de x
2
quedara perfectamente determinado. Por el
contrario, si se realiza el mismo experimento para la distribucin de la figura 2.8, vemos
como en este caso, no sera posible determinarlo.

El problema de la estima del modelo ICA va a consistir por tanto en la
determinacin de la matriz de mezclas A usando tan slo la informacin contenida en
las variables aleatorias x
1
y x
2
. De forma intuitiva, en el ejemplo que estamos
desarrollando se podra estimar esta matriz A teniendo en cuenta que los ejes del
paralelogramo de la figura 2.9 estn segn las direcciones de las columnas de dicha
matriz.

Esto significa que en principio, sera posible estimar el modelo ICA
determinando en primer lugar la densidad de probabilidad conjunta de la distribucin
formada por x
1
y x
2
y posteriormente localizar los bordes que permitiran obtener la
matriz A.

Por otro lado, podramos considerar la mezcla de dos componentes
independientes que no fueran uniformes (y por tanto subgaussianas), por ejemplo una
distribucin supergaussiana como es el caso de la laplaciana. Para verlo,
consideraremos la distribucin laplaciana dada por la siguiente funcin densidad de
probabilidad, donde tomaremos = 1.6:

( ) exp( )
2
i i
p s s

= (2.42)

cuya representacin en el plano formado por s
1
y s
2
ser de esta forma:

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8

Figura 2.13 Funcin densidad de probabilidad conjunta de las componentes s
1
y s
2

representadas por distribuciones laplacianas (supergaussianas). En el eje horizontal
est s
1
y el vertical s
2
.

Si procedemos de igual forma que para la distribucin uniforme, realizaremos
una rotacin usando para ello la misma matriz A dada por la ecuacin (2.41) y
obtendremos la siguiente figura:

0 1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8

Figura 2.14 Rotacin de la distribucin de la figura 2.10 usando la matriz A
o
. El eje
horizontal representa x
1
mientras que el vertical representa x
2
.

En este ejemplo vemos como ya resulta ms difcil localizar los bordes que
permitiran discernir el valor de los coeficientes que formaran la matriz A
o
. En la
prctica veremos como usar este mtodo puede resultar computacionalmente
complicado e inviable. Lo que realmente necesitaremos ser un mtodo que funcione
para cualquier distribucin de componentes independientes y que lo haga de forma
rpida.

2.6 Conclusiones

En este primer captulo dedicado a estudiar los fundamentos del Anlisis de
Componentes Independientes hemos visto la importancia que tiene el problema de la
Separacin Ciega de Fuentes de cara a comprender el funcionamiento de ICA.

Luego comprobamos como PCA es una herramienta estadstica de vital
importancia de cara a la reduccin de las dimensiones del problema y a la extraccin de
caractersticas de los datos. En este mismo apartado, vimos el funcionamiento del
proceso de blanqueado, que ser de gran utilidad como preprocesado antes de realizar el
anlisis ICA y que permitir que las observaciones resulten incorreladas y con varianza
unidad.

Por ltimo realizamos un estudio inicial del Anlisis de Componentes
Independientes, en el que se defini el modelo bsico y se realizaron consideraciones
referentes a las restricciones que se han de plantear y a las ambigedades que presenta
dicho modelo. Seguidamente vimos que la decorrelacin no es suficiente para poder
realizar la separacin de las componentes independientes, por lo que se antoja necesario
recurrir a criterios de bsqueda basados en la no gaussianidad. Mediante el estudio de
los estadsticos de orden superior (kurtosis) llegamos a un criterio que permita
establecer una clasificacin de las variables aleatorias segn su gaussianidad.

Por ltimo destacamos como era posible estimar la matriz ICA mediante la
conocida como Teora de la Informacin, cuyo fundamento consiste en minimizar la
informacin mutua entre las salidas de dicha matriz.

Con todo, pudimos extraer las siguientes conclusiones:

2.6.5.1 La decorrelacin no va a garantizar el xito en el proceso de estima de las
componentes independientes.

2.6.5.2 Las componentes independientes son aquellas que son mximamente
gaussianas.

2.6.5.3 Una forma alternativa de calcular la matriz de separacin W se puede
fundamentar en la utilizacin de tcnicas basadas en la Teora de la
Informacin.

También podría gustarte