Tesis de Doctorado
2007
ndice general
Captulo 1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . .
15
19
19
19
23
24
43
44
45
45
46
48
49
50
51
52
52
56
60
62
62
64
25
29
31
31
32
34
36
37
38
39
39
40
65
66
68
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
69
70
70
71
74
75
75
76
78
79
80
82
84
85
86
87
87
89
91
91
91
92
95
95
95
97
98
101
102
105
105
109
109
110
112
112
Resumen
En esta tesis se desarrollan modelos matemticos y tcnicas para el tratamiento
de seales en dos dimensiones (imgenes) y se elaboran nuevos algoritmos para
la resolucin de problemas importantes en procesamiento de imgenes, como son:
la separacin ciega de fuentes (Blind Source Separation - BSS ), la reduccin de
ruido y el reconocimiento de patrones.
A modo introductorio, en la Seccin 2.1, se describen las propiedades del
mtodo estadstico de Anlisis de Componentes Principales (Principal Component Analysis - PCA), tambin conocido como Transformada Karhunen-Love
(Karhunen-Love Transformation - KLT ), y los mtodos derivados de l como
son: el Anlisis de Componentes Independientes (Independent Component Analysis - ICA) y Projection Pursuit - PP. Se presenta un anlisis detallado terico de
estos mtodos, basado en elementos de la teora de la informacin de Shannon,
estableciendo las conexiones entre: gaussianidad, entropa, informacin mutua e
independencia de las variables involucradas. En la Seccin 2.2, se describen los
mtodos de clasicacin de vectores en Rn utilizando distancias eucldeas mnimas, donde las bases ortonormales juegan un rol central y los mtodos de ortogonalizacin de vectores son de vital importancia. Se muestra que la KLT, sobre la que se basa el mtodo de las eigenfaces para la identicacin de patrones,
constituye un mtodo de ortogonalizacin ptimo. En la Seccin 2.3, se describen
las teoras existentes de campos aleatorios que permiten modelar las interacciones
entre pxeles en imgenes, incluyendo el modelo de Ising y los Campos Aleatorios
Gaussianos (Gaussian Random Fields - GRFs).
En los captulos 3 y 4 se introducen nuevos resultados tericos y se desarrollan
nuevos algoritmos, cuyas aplicaciones al procesamiento de imgenes son presentadas en el Cap. 5. Como una generalizacin de ICA, en el Cap. 3, se aborda
el problema de la separacin ciega de fuentes estadsticamente dependientes o
Anlisis de Componentes Dependientes (Dependent Component Analysis - DCA),
que es un nuevo campo de investigacin, con pocos antecedentes bibliogrcos e
importantes aplicaciones a la ingeniera. Se propone un nuevo algoritmo DCA, llamado MaxNG que permite la separacin de fuentes dependientes (Seccin 3.4).
Se presentan resultados tericos fundamentales para MaxNG, proveyendo una
condicin suciente sobre las fuentes, que garantiza la separabilidad a travs de
la maximizacin de la no-gaussianidad (NG) (Secin 3.3). Se propone una medida de la no-gaussianidad (NG) basada en la distancia en L2 (R), se utiliza el
estimador no-paramtrico de Parzen para aproximar las funciones de densidad de
probabilidad de las fuentes (pdf s) (Seccin 3.2) y se introducen nuevas tcnicas
de aproximacin que permiten calcular la medida NG de manera ptima a travs
de la transformada rpida de Fourier (Fast Fourier Transform - FFT ) (Seccin
3.4). Tambin se analiza la robustez de MaxNG ante la presencia de ruido aditivo gaussiano (Seccin 3.6) y se propone una solucin para el problema de la
indeterminacin de los factores de escala (Seccin 3.7).
En el Cap. 4, motivado por el problema del ruido en imgenes de origen
Abstract
In this thesis, mathematical models and techniques for processing two-dimensional signals (images) are developed and new algorithms are proposed for solving important problems in image processing such as: Blind Source Separation
- BSS, noise reduction and pattern recognition. As an introduction, in Section
2.1, main properties of the Principal Component Analysis - PCA method, also
known as Karhunen-Love Transformation - KLT, are described together with the
analysis of related methods as: Independent Component Analysis - ICA and Projection Pursuit - PP. A detailed theoretical analysis is made based on elements
of the Shannon information theory, stating the connections among: Gaussianity, entropy, mutual information and independence of variables. In Section 2.2,
classication methods for vectors in Rn by using minimum Euclidean distances
are described, where orthonormal bases and orthogonalization methods are very
important. It is shown that KLT, on which the eigenfaces technique for pattern
recognition is based, is the optimal method. In Section 2.3, random eld theories
are described allowing to model pixel interactions in images including the Ising
model and Gaussian Random Fields -GRFs as particular cases.
In chapters 3 and 4 new theoretical results are introduced, and new algorithms
are developed with applications to image processing as presented in Chapter 5.
As a generalization of ICA, in Chapter 3, blind separation of statistically dependent sources (Dependent Component Analysis - DCA) is approached, which is
a new eld of research with few previous works in the literature and with important applications to engineering. A new DCA algorithm is proposed, namely
MaxNG, which allows the separation of dependent sources (Section 3.4). New
fundamental theoretical results are presented, providing a su cient condition on
the sources that guarantees their separability through the maximization of NonGaussianity (NG) (Section 3.3). An NG measure based on the L2 (R) distance is
proposed, a non-parametric Parzen estimator is used to estimate the source probability density functions (pdfs) (Section 3.2) and new approximation techniques
are proposed to compute the NG measure in an optimized way through the Fast
Fourier Transform - FFT (Section 3.4). Additionally, the robustness of MaxNG
in noisy environments is analysed (Section 3.6) and a solution for the scale factor
indeterminacy is provided (Section 3.7).
In Chapter 4, motivated by the noise problem in astrophysical images, the
reduction of Additive Gaussian White Noise - AGWN in sources estimated by
MaxNG is analyzed (Section 4.2). A new Gaussian model is proposed, namely
the Long Correlation - Gaussian Random Field (LC-GRF), which allows to model
long range interactions existing in Cosmic Microwave Background - CMB images.
Through a detailed analysis of model properties (Section 4.3), new techniques
for parameter estimation are developed based on the Maximum Likelihood - ML
criterion and the Expectation - Maximization (EM) algorithm (Section 4.4). Additionally, the optimal Wiener lter is derived for the restoration of CMB images
distorted with AGWN (Section 4.5).
Agradecimientos
Deseo expresar mi agradecimiento a mi directora de tesis Dra. Araceli Proto,
por haberme brindado la posibilidad de iniciarme en la actividad cientca desarrollando mi investigacin en el Laboratorio de Sistemas Complejos, Facultad
de Ingeniera, UBA. Tambin quiero agradecer al Dr. Nestor Barraza (Facultad
de Ingeniera - UBA) por su permanente disposicin y valiosos comentarios a los
resultados de esta tesis y a mi co-director de tesis, Dr. Christian Barbier (Centre Spatial de Lige, Universit de Lige, Blgica) por su colaboracin. Adems,
quiero agradecer a los investigadores Emanuele Salerno y Ercan Kuruo
glu del Signal & Images Laboratory of ISTI - CNR (Consiglio Nazionale delle Ricerche),
Pisa, Italia, de quienes he recibido valiosas sugerencias y acertados aportes a la
investigacin de mi tesis. Finalmente, quiero agradecer a la Facultad de Ingeniera
y la Universidad de Buenos Aires (UBA) por haberme permitido dedicarme, de
manera exclusiva, al trabajo de investigacin a travs de la beca doctoral Peruilh
(2004 - 2007).
Notacin
Abreviaturas:
AGWN
Additive Gaussian White Noise
BSS
Blind Source Separation
cdf
Cumulative Distribution Function
CM
Conditional Model
CMB
Cosmic Microwave Background
DASP
Distancia Al Subespacio de Patrones
DCA
Dependent Component Analysis
DESP
Distancia En el Subespacio de Patrones
2D-DFT Two Dimensional - Discrete Fourier Transform
DFT
Discrete Fourier Transform
DUST
Thermal Dust
EM
Expectation / Maximization
FFT
Fast Fourier Transform
GM
Gaussianity Measure
FD
Filtro Decorrelador
GRF
Gaussian Random Field
ICA
Independent Component Analysis
KLT
Karhunen-Love Transformation
LC-GRF Long Correlation - Gaussian Random Field
l.i.
linealmente independientes
ML
Maximum Likelihood
MI
Mutual Information
MISE
Mean Integrated Square Error
MRF
Markov Random Field
MSE
Mean Squared Error
NG
No-gaussianidad
PCA
Principal Component Analysis
pdf
Probability Density Function
PP
Projection Pursuit
SAR
Simultaneous Autorregressive
SE
Shannon Entropy
SIR
Signal to Interference Ratio
SNR
Signal to Noise Ratio
SYN
Synchrotron
Smbolos matemticos:
x2R
x 2 Rn
A 2 Rm p
xT 2 R1 n
U 2 Cm p
U H 2 Cp m
jDj = det [D]
hx; yi
kxk
d(x; y)
x?y
M?
fx (x)
fxjy (xjy)
fey (!)
fz (z; ; )
fxy (x; y)
fx (x)
fxjy (xjy)
fxi (xi )
E[ ]
x
x
H(x)
I(x)
J (x)
Cxx 2 Rm m
Ay 2 R p m
s0i 2 R, s0 2 Rp
u^ 2 R, u
^ 2 Rp
fxi;j g
e = DF T fxg
x
Variable escalar
Vector real de dimensin n
Matriz real de m p (las columnas)
Vector transpuesto (matriz de 1 n)
Matriz compleja de m p (las columnas)
Matriz transpuesta y conjugada (operador hermtico)
Determinante de la matriz D
Producto interno de vectores, en Rn : hx; yi = xT y
p
Norma del vector x, en Rn : kxk = hx; xi
Distancia entre vectores x e y, la distancia inducida por
una norma es d(x; y) = kx yk
x es ortogonal a y, i.e. hx; yi = 0
Subespacio ortogonal al subespacio M
pdf de la variable x
pdf de la variable x condicionada a la variable y
Transformada de Fourier de la pdf fy (y)
pdf de la variable z con parmetros y
pdf conjunta de las variables x e y
pdf conjunta del vector x
pdf del vector x condicionado al vector y
pdf marginal de la variable xi
Operador esperanza que puede aplicarse a escalares,
vectores o matrices, por ej. E[x], E[x] o E[xxT ]
Desviacin estndar
Vector medio, denido por x = E[x]
Vector no-correlacionado obtenido con un FD
Entropa de Shannon del vector x
Informacin mutua del vector x
Negentropa del vector x
Matriz de covarianzas del vector x 2 Rm
Matriz pseudo inversa o de Moore-Penrose asociada a A
Variables centradas, i.e. s0i = si si y s0 = s s
Estimaciones del escalar u 2 R y del vector u 2 Rp
Campo de variables aleatorias con i; j = 0; 1; ::; m 1
Forma vectorial de la transformada discreta de Fourier
en 2D del campo aleatorio fxi;j g
15
Captulo 1
Introduccin
En esta tesis se desarrollan modelos matemticos para el tratamiento de seales
en dos dimensiones (imgenes) y se proponen nuevos algoritmos para la resolucin
de problemas importantes en procesamiento de imgenes como son: la separacin
ciega de fuentes (Blind Source Separation - BSS ), la reduccin de ruido y el reconocimiento de patrones.
La estructura matemtica ms adecuada para modelar imgenes digitales depende del problema especco que se quiera resolver y del modelo fsico que interviene en el proceso de captura de las imgenes. Por ejemplo, cuando las imgenes
adquiridas por un dispositivo electrnico estn compuestas por una combinacin
lineal de imgenes primarias (o fuentes), es importante disear tcnicas para la
estimacin de las fuentes a travs del anlisis de las propiedades matemticas de
las seales y sus mezclas. Este problema ha sido la motivacin principal, durante
los ltimos aos, para el desarrollo de la teora de del Anlisis de Componentes
Independientes (Independent Component Analysis - ICA) [47, 76].
En ICA, a cada seal se le suele asociar una variable xi 2R que como tal,
tiene asociada una pdf fxi (xi ) (probability density function). En el caso de imgenes, cada uno de los pxeles representan muestras de esa variable xi (0), xi (1),
xi (2), ...., etc. Este modelo permite explotar los resultados de la teora de probabilidades y en particular, los resultados de la Teora de la Informacin de
C. Shannon [51, 114]. Dada una imagen o conjunto de imgenes, es posible estimar probabilidades, momentos estadsticos, entropas, informacin mutua, etc.
Existe una conexin natural entre los modelos para ICA y las herramientas de
anlisis estadstico de datos multidimensionales como son el Anlisis de Componentes Principales (Principal Component Analysis - PCA), la transformada de
Karhunen-Love (Karhunen-Love Transformation - KLT ) y Projection Pursuit PP, las cuales se analizan en la Seccin 2.1.
Otro ejemplo de modelo matemtico aparece cuando se analizan tcnicas de
reconocimiento de patrones en imgenes 2D (como se ejemplica en [122]). En este
caso las imgenes digitales son elementos del espacio vectorial Rn . El espacio de
las imgenes de n1 n2 pxeles es mapeado a un espacio de vectores de dimensin
n = n1 n2 (Rn1 n2 ! Rn ). A su vez, cuando se trabaja con el espacio Rn , es
posible hacer un anlisis determinstico o probabilstico. En el caso de un modelo
determinstico en Rn , es posible aplicar los resultados de la Teora de Espacios Mtricos con dimensin nita (o lgebra Lineal clsica) [68, 100] que
implica la utilizacin de elementos propios de esta teora, como son: las transformaciones lineales, las proyecciones ortogonales, los subespacios lineales, las distancias,
etc. De esta manera, se elaboran tcnicas de clasicacin de vectores basados en
distancias mnimas en Rn como se discute en la Seccin 2.2.
Por otro lado tambin es posible hacer un anlisis probabilstico de imgenes en
16
Rn . En este caso, una imagen dada es considerada como una muestra de un vector
aleatorio x 2Rn que como tal, tiene asociada una pdf conjunta fx (x). La Teora
de Campos Aleatorios [17, 25, 66] permite analizar y modelar las interacciones
existentes entre pxeles, ya que en las imgenes reales los pxeles vecinos tienden a
parecerse. Como ejemplos de estos modelos podemos citar el modelo de Ising [31,
72], los campos aleatorios de Markov (Markov Random Fields - MRF s) [25, 62]
y los campos aleatorios gaussianos (Gaussian Random Fields - GRF s) [15, 25,
42, 102] que son discutidos en la Seccin 2.3.
En esta tesis se introducen avances tericos en los modelos matemticos mencionados y se proponen nuevos algoritmos para el procesamiento de imgenes. Se
analiza tericamente el problema del reconocimiento de patrones permitiendo la
adaptacin de la tcnica conocida como Mtodo de las eigenfacespara la clasicacin de fotografas de especimenes de Mirounga Leonina y para el desarrollo
de un nuevo algoritmo de corregistro de imgenes satelitales. En BSS, se analiza
el caso particular de la separacin de seales dependientes derivndose un algoritmo original (Maximum Non-Gaussianity - MaxNG) con aplicaciones directas en
imgenes satelitales hiper-espectrales e imgenes astrofsicas. Dentro de la teora
de campos aleatorios gaussianos, se propone un modelo con correlaciones de largo
alcance, el LC-GRF (Long Correlated - Gaussian Random Field), se proponen
algoritmos para la estimacin de los parmetros y se muestra su aplicacin en la
reduccin de ruido en imgenes astrofsicas.
En la TABLA 1.1 se resumen los modelos utilizados en esta tesis, haciendo
referencia a los captulos donde se utilizan. Adems, se muestran ejemplos de
aplicacin originales en procesamiento de imgenes los cuales son desarrollados en
detalle en el Cap. 5.
Esta tesis est organizada de la siguiente manera:
En el Cap. 2 se discuten algunas de las herramientas matemticas existentes
para el tratamiento de imgenes. Se presentan los resultados previos ms relevantes
y se establecen las conexiones entre ellos con demostraciones originales sobre resultados importantes. La Seccin 2.1 presenta la teora de los mtodos estadsticos
para el anlisis de datos multidimensionales, entre los cuales se incluyen: el Anlisis de Componentes Principales (PCA), la Transformacin de Karhunen-Love
(KLT ), Projection Pursuit (PP) y el Anlisis de Componentes Independientes
(ICA). La Seccin 2.2 presenta las deniciones y resultados bsicos provenientes
de la teora de espacios vectoriales de dimensin nita donde, para un conjunto de
vectores patrones de Rn , se denen subespacios lineales, distancias, proyecciones
ortogonales y otros conceptos importantes para el posterior desarrollo de tcnicas de reconocimiento de patrones en Rn . Se analiza tambin el problema de la
ortogonalizacin de vectores y se demuestra que la KLT puede ser interpretada
como un mtodo de ortogonalizacin de vectores ptimo. La Seccin 2.3 presenta
los modelos de campos aleatorios ms relevantes con antecedentes de aplicacin al
tratamiento de imgenes incluyendo a: los campos aleatorios de Markov (MRF s),
el modelo de Ising, y los campos aleatorios gaussianos (GRF s).
En el Cap. 3 se presenta el problema de la separacin ciega de fuentes depen-
17
18
dientes (DCA), que representa un nuevo rea de investigacin con pocos antecedentes bibliogrcos. Se introduce un nuevo algoritmo para la resolucin de
este problema, llamado MaxNG, que utiliza el criterio de maximizacin de la
no-gaussianidad (NG) de las seales estimadas. Se propone una medida NG basada en la distancia en L2 (R) y se utiliza el estimador no-paramtrico de Parzen
para la funcin de densidad de probabilidad (pdf ) que se implementa, de manera ptima, a travs de la transformada rpida de Fourier (FFT ). Tambin se
analiza la robustez de MaxNG ante la presencia de ruido aditivo gaussiano y se
introduce una solucin para el problema de la indeterminacin de los factores de
escala en las estimaciones de las fuentes. A los efectos de demostrar la performance de MaxNG, se presentan resultados experimentales sobre datos simulados
comparando los resultados con los obtenidos a travs de algoritmos tradicionales
ICA.
En el Cap. 4 se introduce un modelo gaussiano, denominado LC-GRF, que
permite modelar interacciones entre pxeles con correlaciones de largo alcance. Se
analizan las propiedades del modelo y se elaboran algoritmos para la estimacin
de los parmetros utilizando el criterio de mxima verosimilitud (Maximum Likelihood - ML) y el algoritmo EM (Expectation-Maximization). Se deriva analticamente la expresin del ltro de Wiener para la restauracin de imgenes LC-GRF
contaminadas con ruido gaussiano blanco. Tambin se presentan resultados experimentales sobre datos simulados que muestran la efectividad de los algoritmos de
estimacin de parmetros y del ltro de Wiener.
En el Cap. 5 se presentan ejemplos de aplicacin de las teoras y algoritmos
desarrollados en los captulos anteriores, a problemas especcos en procesamiento de imgenes. Se aplica una tcnica de reconocimiento de patrones basada en
la transformacin de Karhunen-Love (KLT ) al reconocimiento de individuos de
Mirounga Leonina y al corregistro de imgenes satelitales. Adems, se aplica el algoritmo MaxNG para realizar anlisis sub-pxel (Spectral Unmixing) de imgenes
satelitales hiper-espectrales, tambin se muestra su aplicacin en la separacin
de fuentes de radiacin dependientes en imgenes de origen astrofsico. Se muestran los resultados de la aplicacin del ltro de Wiener, basado en el modelo de
campos aleatorios gaussianos con correlaciones de largo alcance (LC-GRF ), para
la reduccin de ruido gaussiano en imgenes del Cosmic Microwave Background
(CMB).
Finalmente, en el Cap. 6, se discuten los resultados de esta tesis, se resaltan
los aportes originales de la misma y se discuten las nuevas lineas de investigacin
abiertas a partir de esta tesis.
19
Captulo 2
2.1.
(2.1)
20
yi ) (yj
yj )] = 0 8 i 6= j
son no-
(2.2)
y) (y
y)T ] = V T E[(x
x) (x
x)]V = V T Cxx V
(2.3)
y)2
vT v
(2.4)
vT v
v=0
(2.5)
21
yi )2 = viT Cxx vi =
T
i vi vi
(2.6)
p 1
X
(2.7)
ci vi
i=0
con ci = (x0 x)T vi ; es una representacin ptima en el sentido que minimiza el error cuadrtico medio E kx0 x
^ 0 k2 .
Dem. Dada una base ortonormal arbitraria de Rm
vector cualquiera puede escribirse como [64]
x
^0 = x+
p 1
X
w0 ; w1 ; ::; wm
, un
(2.8)
ci wi
i=0
donde ci = (x0 x)T wi . Si se realiza un truncamiento del desarrollo conservando los primeros p trminos, se observa que el error cuadrtico medio
queda escrito en funcin de los ltimos m p vectores de la base, ms precisamente:
2
3
2
m
1
X
E kx0 x
^0 k2 = E 4
ci wi 5
(2.9)
i=p
i=p
i=p
(2.10)
En [54, 76] se demuestra que la minimizacin de la ecuacin (2.10), con la
condicin de ortonormalidad de los vectores wi , se obtiene considerando la
base ortonormal dada por los primeros p autovectores de la matriz de covarianzas, ordenados de manera decreciente, i.e. 0
::
1
p 1 . Adems,
el error cuadrtico medio est dado por la sumatoria de los autovalores no
considerados en la expansin, i.e.,
E kx0
x
^0 k
m
X1
i=p
(2.11)
22
x) (x(i)
x)T
(2.13)
Esta estimacin puede calcularse directamente a partir del conjunto de muestras disponibles e incluso, para aplicaciones en tiempo real, donde las muestras
arriban secuencialmente, se puede estimar la matriz de covarianzas de manera recursiva [47], es decir, estimando la matriz de covarianzas para n muestras a partir
de la estimacin sobre n 1 muestras.
Adems, si bien existen algoritmos ecaces para el clculo de autovectores y
autovalores de matrices simtricas (por ejemplo, a travs del mtodo de las reducciones de Householder [111]), existen algoritmos provenientes del rea de redes
neuronales, que proponen la bsqueda de las componentes principales a travs
de algoritmos adaptativos [3, 44, 45]. En estos algoritmos, usualmente se buscan
los extremos (mximos o mnimos) de una funcin a travs de aproximaciones
sucesivas en lo que se llama un proceso de aprendizaje de la red neuronal [104].
Otro aspecto importante de la KLT es que, debido a que es la base ortonormal
ptima en el sentido de la Propiedad III, existen numerosos mtodos de compresin
de datos que han sido basados en ella. Probablemente, el primer trabajo en el
que se introduce este concepto data de 1956 [87]. Posteriormente se propusieron
aproximaciones a la KLT a travs de transformaciones trigonomtricas rpidas,
dando origen a la transformada coseno discreta (Discrete Cosine Transform DCT ) en 1974 [2]. Esta ltima fue la base del estndar de compresin de imgenes
23
Projection Pursuit - PP
(2.14)
[fy (y)]
(2.15)
24
fy2 (y) dy ;
(2.16)
(2.18)
con (y) siendo la pdf de Gauss; adems, existen otros ndices que estn basados
en el clculo de momentos de orden superior a dos, como es el caso del coeciente
de asimetra o momento de 3er orden (skewness), o el momento de 4to orden
(kurtosis) [79].
La eleccin de la funcional ms adecuada no es sencilla, y pueden denirse una
serie de caractersticas necesarias para que un ndice de proyeccin sea considerado
como tal [73]. Sin embargo, es aceptable asumir que las direcciones en las cuales la
distribucin de los datos es cercana a la gaussiana son denitivamente poco interesantes[61, 73]. Esto motiv a los investigadores a proponer diferentes ndices
de proyeccin basados en medidas de la no-gaussianidad (NG), lo cual puede hacerse de muchas formas obteniendo propiedades y caractersticas diferentes para
cada alternativa. Por ejemplo, en [129] se presenta una comparacin de distintas
medidas de NG basadas en tres diferentes normas denidas sobre el espacio de
funciones L2 [61].
2.1.3.
25
(2.21)
26
proviene del hecho que la combinacin lineal de gaussianas es a su vez gaussiana, haciendo que los sistemas con entradas gaussianas no sean identicables. ste es un resultado conocido en el contexto de convolucin inversa
ciega (Blind Deconvolution) [55, 69].
Permutacin e indeterminacin de escala en la estimacin de las
fuentes: Las soluciones de ICA poseen redundancia de escala y de permutacin [49], ms precisamente, la solucin de ICA puede escribirse como:
(2.22)
^
s = Ps
donde es una matriz diagonal y P es una matriz de permutacin1 . En general, la permutacin de fuentes no es problemtica en la mayora de los
casos; sin embargo la indeterminacin de escala puede ser crtica en aplicaciones especcas (por ejemplo en el caso de imgenes hiper-espectrales
[33, 35]).
Informacin Mutua (Mutual Information - MI ): La Teora de la Informacin fundada por Shannon [114] provee una forma de medir el grado de
dependencia entre variables aleatorias a travs del clculo de la informacin
mutua. Dado un vector de variables aleatorias y = [y0 y1 ::yp 1 ]T 2 Rp , se
dene la informacin mutua I(y) como la entropa relativa [51] entre la pdf
conjunta y el producto de las correspondientes pdf s marginales:
!
Z
p 1
Y
I(y) = fy (y) log fy (y)=
fyi (yi ) dy
(2.23)
i=0
donde fy (y) es la pdf conjunta de las variables y0 y1 ::yp 1 , fyi (yi ) es la pdf
marginal de la variable yi y la integral en (2.23) se toma sobre todo el espacio
Rp . Puede verse fcilmente que I(y) es positiva y se anula solo cuando las
Yp 1
fyi (yi ) en casi todo
variables son independientes, i.e., cuando fy (y) =
i=0
2
punto .
Estimador Lineal: La separacin de las fuentes es un problema lineal, es
decir, ICA se reduce a la bsqueda de una matriz de separacin D tal que
y = Dx
(2.24)
Una matriz de permutacin P es una matriz cuyas las contienen un nico elemento no nulo
igual a +1 o 1.
2
En casi todo punto signica que la igualdad podra no cumplirse en un conjunto de medida
de Lebesgue nula, lo cual no afecta al calculo de la integral.
27
T
2V
x
x=
y = Dx
FD (1er etapa)
Transformacin ortogonal (2da etapa)
(2.25)
(2.26)
Minimizar MI equivale a minimizar entropas: Un resultado ampliamente aceptado en ICA, es que la minimizacin de la informacin mutua equivale a la minimizacin de las entropas de las variables. En esta
tesis se presenta una demostracin nueva y sencilla de este enunciado (una
demostracin ms extensa puede ser encontrada, por ejemplo, en [38]).
Propiedad: Si las estimaciones de las fuentes (2.24) son no-correlacionadas, i.e., Cyy = I; entonces la minimizacin de MI implica la minimizacin
de la suma de las entropas de las variables y0 y1 ::yp 1 .
Dem. Por un lado, se observa de (2.23) que:
H(y) =
p 1
X
H(yi )
(2.27)
I(y)
i=0
donde
H(y) =
y
H(yi ) =
(2.28)
(2.29)
(2.30)
p 1
X
i=0
H(yi )
H(x) +
1
log jCxx j
2
1
log jCyy j
2
(2.31)
28
p 1
X
(2.32)
H(yi ) + cte
i=0
es decir, minimizar la informacin mutua o minimizar la suma de las entropas son equivalentes.
Minimizar la entropa equivale a minimizar la gaussianidad: En
muchas aplicaciones, resulta til medir distancias entre pdf s, y en particular,
respecto de la distribucin de Gauss.
La teora de la Geometra de la Informacin (Information Geometry) introducida por Amari [4] en los aos 1980s, estudia las propiedades geomtricas
de familias de pdf s midiendo la entropa relativa entre ellas con la denicin de Kullback-Leibler [51]. Puede denirse la gaussianidad de una variable
aleatoria y como la entropa relativa entre su pdf y la pdf de Gauss, con igual
media y y desvo estndar y :
K fy (y) q
donde
(2.33)
1 2
y )
2
es la pdf de Gauss con media cero y varianza unitaria.
(y) = 2
dy
1
2
(2.34)
exp(
Propiedad: Si se consideran la media y la varianza jas, entonces minimizar la entropa equivale a minimizar la gaussianidad denida por (2.33).
Dem. Desarrollando la integral en (2.33) se obtiene:
K fy (y) q
= H(y)
1
log(2
2
)+
1
2 ln(10)
(2.35)
de donde se deduce que, a varianza constante, a la minimizacin de la entropa es equivalente a la minimizacin de la gaussianidad.
Los resultados recientemente expuestos justican la idea generalmente aceptada en ICA, de que las fuentes tienen pdf s que son lo ms alejadas posibles a la
gaussiana. Este resultado puede interpretarse como una consecuencia natural del
Teorema Central del Lmite [59] ya que la mezcla de variables tiene siempre una
distribucin ms cercana a la gaussiana (con mayor entropa) que las variables
originales. Existen varias demostraciones alternativas a esta idea fundamental que
29
pueden ser encontradas en la literatura con diversos enfoques y utilizando diferentes herramientas matemticas (algunos ejemplos son: la demostracin de Donoho en un contexto de convolucin inversa [55] o la demostracin de Cruces et al
en un contexto de ICA [52]).
Por otro lado, se destaca que ICA es esencialmente equivalente a PP aplicado
a un conjunto de variables que son mezclas de fuentes independientes ya que, si se
elige la minimizacin de la MI como criterio para obtener la separacin, entonces
equivale a encontrar las direcciones ortogonales cuyas proyecciones asociadas maximizan la medida NG de las estimaciones.
Este hecho permiti a los investigadores interesados en BSS valerse de herramientas desarrolladas anteriormente para PP. Las conexiones entre PP, ICA
y BSS fueron remarcadas por varios autores muchos aos despus que PP fuera
introducido [52, 76, 112, 129].
2.1.5.
Algoritmos ICA
Son muchos los algoritmos desarrollados para ICA durante los ltimos aos
y sigue siendo un rea de creciente actividad por su innidad de aplicaciones
prcticas. Los algoritmos ICA existentes pueden clasicarse de acuerdo al criterio
utilizado para la determinacin de la matriz de separacin D.
A continuacin se presentan los mtodos ms relevantes en ICA agrupados de
acuerdo a la clasicacin usada en [76]:
Maximizando la NG: Uno de los algoritmos ms famosos, FastICA [74],
basa su medida de la NG en el clculo de la curtosis o momento de orden
4to . En FastICA, para la bsqueda de mximos se implementa un algoritmo
iterativo de punto jo que garantiza la convergencia a mximos locales con
una complejidad de clculo relativamente baja. La ventaja de FastICA es su
velocidad, aunque es bien conocido que la curtosis, como medida de NG, no
es estadsticamente robusta [76]. Una versin mejorada de FastICA consiste
en utilizar la medida de NG basada en una aproximacin a la negentropa
(detalles en [76]). Se dene la negentropa de y como la diferencia entre la
entropa del vector gaussiano, que es la mxima posible, y su entropa:
J (y) = H (ygauss )
H(y)
(2.36)
30
31
SOBI (Second Order Blind Identication) [14] y otros (en [47], se presenta
un resumen completo de este tipo de mtodos).
2.2.
Una idea fundamental de la teora de espacios vectoriales utilizada en el procesamiento de seales es la descomposicin de una seal como combinacin de seales
elementales, generalmente ms simples. De esta manera, el procesamiento de una
seal puede denirse en trminos de sus componentes elementales. Como ejemplos
clsicos de esta idea, aplicada al procesamiento de imgenes, se pueden mencionar:
los mtodos de Fourier [110], las descomposiciones en funciones wavelets u onditas
[99], etc. Existen innitas maneras de descomponer una seal como combinacin
lineal de componentes elementales ortogonales o no. Sin embargo, la ortogonalidad
permite la aplicacin de muchas propiedades muy tiles. Algunas bases ortogonales
de Rn conocidas en el procesamiento de imgenes son las utilizadas por las transformadas de Fourier discreta, Coseno discreta, Walsh, Hadamard, Haar y otras
[64].
En esta seccin se presentan los resultados tericos provenientes del lgebra
lineal clsica que permiten disear bases ortogonales ptimas respecto de un conjunto de datos disponibles. En particular, se demuestra que la transformacin KLT
presentada en la seccin anterior en un contexto probabilstico, puede ser derivada
utilizando criterios de lgebra lineal que no involucran el uso de probabilidades. La
presente formalizacin matemtica fue motivada por el mtodo de las eigenfaces
utilizado para el reconocimiento de rostros humanos en [106, 122].
2.2.1.
Rn ,
x = xM + xM ?
donde xM 2 M y xM ? 2 M ? , adems, esta descomposicin es nica. Otra forma
de escribir este resultado es la siguiente Rn = M M ? . Los vectores xM y xM ?
32
bk
x
(2.38)
kx
(2.40)
b k2 =
x
(2.41)
33
los vectores
3
7
7
5
(2.42)
(2.43)
(2.44)
para i = 0; 1; ::m 1.
Aplicando la linealidad del producto interno en las m ecuaciones (2.44) se
arriba a la siguiente expresin matricial:
G
=Yx
(2.45)
34
La ecuacin matricial (2.45) tiene solucin nica, como era de esperarse por el
teorema de la proyeccin. Los coecientes 0 ; 1;::; m 1 pueden ser calculados de
la siguiente manera:
= G 1Y x
(2.46)
donde es importante sealar que, dado a que los patrones son linealmente independientes, la matriz G es invertible [97].
b y cada uno de
Para calcular las distancias DESPj (x) entre la aproximacin x
los patrones y0 ; y1 ; ::; ym 1 , se utilizan los coecientes calculados en (2.46) y se
obtiene:
m
P1 mP1 j j
b k2 =
(2.47)
DESP2j (x) = kyj x
k l hyk ; yl i
k=0 l=0
j
i
=
i
si i 6= j
si i = j
(2.48)
De las expresiones obtenidas para las distancias DASP(x) y DESPj (x) (ecuaciones (2.41) y (2.47)) se observa que desde el punto de vista computacional no
son atractivas, ya que exigen costosos clculos causados por la complejidad de los
determinantes de las matrices de Gram. En la siguiente subseccin se muestra que
estos clculos son ms sencillos si se elige un sistema de vectores de referencia
ortonormal.
2.2.3.
Bases ortonormales
1
0
si i = j
si i =
6 j
(2.49)
(2.50)
35
m
P1
cij uj
j=0
(2.52)
m
P1
a2j
(2.53)
c2ij
(2.54)
j=0
m
P1
j=0
m
P1
j=0
a2j
donde aj = hx; uj i
(2.55)
b k2
x
(2.56)
36
2.2.4.
bk =
x
m
P1
(cij
aj ) uj
j=0
m
P1
(aj
cij )2
(2.58)
j=0
(2.59)
donde A 2 Rm m es invertible.
Como debe cumplirse la condicin de ortonormalidad U T U = I, resulta:
U T U = AT Y T Y A = AT GA = I
(2.60)
37
en elegir secuencialmente los vectores yi para obtener uno a uno los vectores
ui ortonormales (detalles en [68]). La base ortonormal que se obtiene con este
mtodo no es la misma si se altera el orden en que van tomando los vectores
yi en el algoritmo. Por lo tanto, surge la pregunta de si existe algn mtodo
en el cual la base obtenida no dependa del orden que se consideren los vectores
yi , y en particular, uno puede preguntarse cual es la base ptima en el sentido
que concentre la energa de los patrones en pocos elementos de esa base. En las
prximas subsecciones se presenta la respuesta a esta pregunta y se demuestra que
la base ptima resulta equivalente a la KLT denida anteriormente.
2.2.5.
E(i; j) =
j=0
m
X1
j=0
hyi ; uj i =
m
X1
j=0
c2ij = kyi k2
(2.62)
Por otro lado la suma de los elementos de la columna j es la suma de las energas
de los patrones en la componente j de la base ortonormal ej :
ej =
m
X1
E(i; j) =
i=0
m
X1
i=0
hyi ; uj i2 =
m
X1
c2ij
(2.63)
i=0
ej =
m
X1
i=0
kyi k2
(2.64)
38
2.2.6.
con k = 0; 1; :::m
(2.65)
m 1
1 X
hyi ; u0 i2
m i=0
(hu0 ; u0 i
1)
(2.66)
0 u0
(2.68)
con
Ryy
m 1
1 X
yi yiT
=
m i=0
(2.69)
39
y con y =
1 mP1
yj
m j=0
(2.71)
Entonces la matriz
Ry 0 y 0
m 1
1 X
=
(yi
m i=0
y) (yi
y)t = Cyy
(2.72)
2.3.
Modelo de Ising
X
hiji
ij si sj
n
X
i=1
si
(2.73)
40
donde el smbolo < ij > indica pares de vecinos de primer orden (o vecinos ms
cercanos), ij indica el potencial de interaccin entre los spins si y sj , y H es un
posible campo externo que induce a los spins a polarizarse, ya sea positivamente
H > 0 o negativamente H < 0 [72].
Este modelo es un caso particular de MRF y la probabilidad de una determinada conguracin se calcula a partir de la frmula de Gibbs [66]:
P (fsi g) =
1
exp
z
1
EI fsi g
kT
(2.74)
1
con = kT
siendo el nico parmetro que dene el modelo y que es inversamente
proporcional a la temperatura del sistema.
Este sencillo modelo permite representar imgenes blanco y negro, donde el
parmetro regula las interacciones entre pxeles [23, 25, 62]. Puede demostrarse
que, para valores por debajo de un umbral crtico j j < c
0;44 el modelo de
Ising en 2D no presenta magnetizacin mientras que para valores de por encima
del umbral s [72].
En aplicaciones de procesamiento de imgenes es fundamental contar con herramientas para ajustar los modelos a datos disponibles lo que exige el desarrollo de tcnicas de estimacin de parmetros basados en criterios estadsticos.
Como ejemplo, en [31] se han propuesto dos nuevas tcnicas para la estimacin
del parmetro del modelo de Ising a partir de realizaciones del campo aleatorio
(imgenes binarias).
2.3.2.
Otro caso particular de MRF es el caso de variables son gaussianas dando lugar
a los campos aletorios Gaussianos (Gaussian Random Fields - GRF s) [17, 81].
En un GRF con media cero, el modelo queda completamente determinado por
su matriz de covarianzas [81]. Por denicin, dada una imagen de l l pxeles,
2
las variables aleatorias fxi;j g con i; j = 0; 1; ::; l 1, el vector x 2 Rl de pxeles
ordenados lexicogrcamente forma un GRF, con media nula E [x] = 0 y matriz de
covarianzas Cxx = E xxT , cuando su pdf conjunta est dada por la distribucin
de Gauss multivariada [120]:
fx (x; Cxx ) = p
1
l2
(2 ) jCxx j
exp
1 T 1
x Cxx x
2
(2.76)
41
r;s
xi
r;j s
(2.77)
i;j
(r;s)2@
donde: i; j = 0; 1; ::; l 1; @ es el conjunto de vecinos del pxel (i; j) (Fig. 2.3); r;s
son los coecientes de interaccin con propiedades de simetra, i.e., 1;0 = +1;0 ,
0; 1 = 0;+1 , etc.; i;j son variables gaussianas con media cero, varianza unitaria
con una matriz de covarianzas con estructura conocida, y x es un escalar positivo.
Adems, se asume una estructura toroidal del campo lo cual signica que:
xl 1;j
xi;l 1
(2.78)
(2.79)
x 1;j
xi; 1
(2.80)
x
2
42
la forma [81]:
B1;1 B1;2 0
6 B1;l B1;1 B1;2
B=6
4 ::
::
::
B1;2 ::
::
3
:: 0 B1;l
:: 0
0 7
7
:: ::
:: 5
:: B1;l B1;1
(2.81)
0
::
0
0
2
::
0
::
::
::
::
3
0
0 7
7
:: 5
2
(2.82)
Desde luego ste modelo puede generalizarse a ordenes de interaccin superiores (ms de cuatro vecinos) introduciendo ms parmetros en la denicin de
la matriz B (por ejemplo, en [15, 81] se han aplicado modelos de orden superior
para sintetizar y modelar texturas). De todas maneras, sin importar el orden del
sistema de vecinos considerado, la estructura de la matriz B siempre es la misma:
contiene mayoritariamente ceros (sparse), es circulante por bloques, sus bloques
son tambin circulantes y por lo tanto pueden ser diagonalizadas a travs de la
operacin 2D-DFT [65].
La matriz de covarianzas del GRF denida en (2.80) es:
Cxx =
xB
C B
(2.83)
Existen dos casos muy particulares que se corresponden con modelos existentes
en la literatura:
1. Conditional Model - CM [18, 25, 81]: donde C
Cxx = x B 1 ;
= B y por lo tanto
=I y
43
Captulo 3
(3.1)
donde: x(t) = [x0 (t) x1 (t)::xm 1 (t)]T 2 Rm es el vector de las seales observadas,
s(t) = [s0 (t) s1 (t)::sP 1 (t)]T 2 Rp es el vector de las seales fuente no independientes y A 2 Rm p es la matriz de mezcla. La variable t es un ndice que recorre
las muestras disponibles de las seales, cuando esta variable representa el tiempo,
el modelo (3.1) es conocido como mezcla lineal instantnea ya que la matriz de
mezcla A es constante en el tiempo. En lo sucesivo, se evitar la variable t en la
notacin para hacerla ms sencilla.
La separacin de las fuentes se obtiene identicando la matriz de separacin
D tal que
y = Dx
(3.2)
contenga una copia de las seales fuente s posiblemente escaladas y/o permutadas.
En esta tesis nos restringiremos al caso sobredeterminado, es decir m
p
(nmero de sensores mayor o igual que el nmero de fuentes). Tambin se asumen
seales estacionarias con medias nulas (s = E[s] = 0) con excepcin de la Seccin
3.7 donde se considera un caso particular de seales con medias no nulas.
Al igual que en ICA, estamos interesados en desarrollar tcnicas de DCA ciegas en las cuales no se tiene informacin sobre la matriz A ms all de sus
44
dimensiones (m y p). Est claro que, de conocerse la matriz de mezcla A, el proceso de separacin sera tan sencillo como considerar la matriz de separacin D
igual a la pseudo-inversa o matriz de Moore-Penrose [57]:
D = Ay = (AT A) 1 AT
(3.3)
3.1.
45
de este resultado son las demostraciones de Donoho [55] en su trabajo clsico sobre
deconvolucin (deconvolution) y la demostracin de Cruces et al. [52]).
Adems, como establecieron Comon en [49] y Donoho en [55], las seales gaussianas no son admisibles en BSS ya que sus combinaciones lineales (tambin gaussianas) conservan la entropa. Por lo tanto surge como criterio natural, para la
bsqueda de las estimaciones de las fuentes en ICA, el criterio de Mxima NG (o
mnima entropa) (Fig. 3.1).
Cuando las seales son dependientes entre s, el Teorema Central del Lmite
clsico no se cumple en general. Sin embargo, en [55], Donoho mostr la utilidad
del criterio de mxima NG para ejemplos particulares de seales dependientes.
En esta tesis, se presenta una teora que da sustento a este criterio estableciendo
una condicin suciente sobre las fuentes, que garantiza su separabilidad. A continuacin, se presenta una denicin formal del criterio de mxima NG que se utiliza
en esta tesis:
Criterio de mxima NG (mnima entropa): Consiste en buscar la matriz
de separacin D que produzca estimaciones de las fuentes de mxima NG (mnima
entropa), manteniendo la varianza unitaria. Ms especcamente, las fuentes son
estimadas a travs de la parametrizacin (3.2) y el espacio de bsqueda es el de
las matrices D que hacen que las seales y0 , y1 ,.., yM 1 tengan varianza unitaria
(lo cual es equivalente a imponer que la matriz de covarianzas Cyy = DCxx DT
tenga 1s en su diagonal principal).
3.2.
donde (y) es la pdf de Gauss (distribucin normal) con media cero y varianza
unitaria denida por:
1
(y) = N (0; 1) = p exp
2
1 2
y
2
Calculo de
N G (fy )
(3.5)
N G (fy )
=0
46
Estas muestras, pueden ser utilizadas para estimar la pdf f^y (y) y as poder evaluar
la medida NG de (3.4).
En esta tesis se propone utilizar la tcnica de estimacin no paramtrica denominada ventanas de Parzen, que fuera propuesta y analizada originalmente
por Parzen en [107]. Este mtodo establece que, si el nmero de muestras es sucientemente grande, se obtiene una buena estimacin f^y (y) de la pdf desconocida
a travs de la siguiente frmula:
1 X
f^y (y) =
nh i=0
n 1
y(i)
h
(3.6)
1
p
1 (fy )
2 (fy )
1 XX
p
n2 h 2 i=0 j=0
n 1 n 1
^
2 (fy ) =
y(i)
h2 + 1
y(j) y(i)
p
2h
(3.8)
(3.9)
Las ecuaciones (3.7), (3.8) y (3.9) proveen una forma prctica de calcular la
medida NG a partir de un conjunto de muestras de la seal y sern utilizadas
luego para el desarrollo del algoritmo MaxNG (Seccin 3.4).
3.3.
47
s0
u1 =
s1
(3.10)
i;0 s0
i;1 s1
(3.12)
donde los parmetros i;j son los elementos de la matriz DA, i.e., i;j = [DA]i;;j .
En trminos de las fuentes normalizadas u0 ; u1 , la ecuacin (3.12) se convierte en:
u^i = u0 + u1
(3.13)
donde
= i;0 0 y
= i;1 1 . Por lo tanto, la reconstruccin de las fuentes
se logra cuando los parmetros cumplen la condicin ( ; ) = ( 1; 0) para u0 y
( ; ) = (0; 1) para u1 .
Por otro lado se observa que, forzando a la varianza del estimador a ser unitaria,
se obtiene:
E[^
u2i ] = 2 + 2 + 2
=1
(3.14)
donde = E[u0 u1 ] es el coeciente de correlacin entre las variables u0 y u1 . En
otras palabras, forzar la varianza del estimador a ser unitaria es equivalente a
restringir a los parmetros ( ; ) a pertenecer a la elipse que se muestra en la Fig.
3.2. El objetivo entonces, es encontrar la condicin que garantice que la medida
NG tendr mximos locales en los puntos
( ; ) = f(1; 0); (0; 1); ( 1; 0); (0; 1)g
(3.15)
48
para
(3.16)
b = s0
s1
(3.17)
3.4.
El algoritmo MaxNG
49
1=2
V Tx
(3.18)
1=2
V Tx
(3.19)
(3.20)
50
3.4.2.
q 1
X
(3.24)
d2i = 1
(3.25)
i=0
ya que la varianza de y es unitaria y las variables x0 ; x1 ; ::; xq 1 son no-correlacionadas (ecuacin (3.20)). Por lo tanto el espacio de los parmetros d0 ; d1 ; ::; dq 1
est determinado por una hiper-esfera de radio unitario en Rq . Cada vector d 2 Rq
para el cual la medida N G (fy ) tiene un mximo, es una posible la de la matriz
de separacin D.
Para simplicar la bsqueda de los mximos locales, se propone utilizar coordenadas hiper-esfricas las cuales requieren
h de q 1 ingulos para denir una la
genrica de la matriz D indicada por d = d0 d1 ::dq 1 , y que est relacionada con
el vector de ngulos (coordenadas hiper-esfricas) T = [
manera [70]:
2
cos 0
2
3
6
d0
sin
0 cos 1
6
7 6
6
:
6 d1 7 6
6
7 6 qQ3
T
d =6 : 7=6
sin n cos
6
7
4 dq 2 5 6
6 n=0
qQ2
4
dq 1
sin
n
n=0
1 :: q 2 ]
de la siguiente
3
q 2
7
7
7
7
7
7
7
7
5
(3.26)
51
(k)
+ "(k) r
(3.28)
N G (fy )
con "(k) siendo un escalar que puede ajustarse a medida que se avanza en las
iteraciones y r N G (fy ) es el gradiente de la medida NG correspondiente a los
parmetros actuales.
En el algoritmo MaxNG se seleccionan al azar un nmero arbitrario de puntos
iniciales de bsqueda y, para evitar caer en los mismos mximos locales repetidas veces, una vez que un mximo local es detectado, se procede a eliminarlo
(Subseccin 3.4.4).
La ventaja de disponer de una frmula de la medida NG basada en las muestras de la seal a travs de las ventanas de Parzen, es que permiten calcular
explcitamente sus derivadas respecto a los parmetros de bsqueda (coordenadas
hiper-esfricas). Usando la regla de la cadena de las derivadas, se calcula el gradiente de la medida NG respecto del vector de ngulos T = [ 0 1 :: q 2 ] de la
siguiente manera:
r
N G (fy )
@
@ NG @ NG
...
@ 0
@ 1
@
donde
6
@d 6
=6
6
@
4
@ d0
@ 0
@ d1
@ 0
@ d0
@ 1
@ d1
@ 1
:
@ dq 1
@ 0
NG
q 2
::
= rd
@ d0
@
q 2
@ d1
@
::
::
@ dq 1
@ 1
::
@ dq
@ q
q 2
:
1
2
N G (fy )
@d
@
3
7
7
7
7
5
(3.29)
(3.30)
^
2 (fy ) =
^ = rT
d
N G (fy )
^ = p2
n h2 + 1
1 (fy )
2 X x(i) X
p
n2 h i=0 2h j=0
n 1
n 1
^ + rT
d
2 (fy )
y(i)
h2 + 1
1 (fy )
n 1
X
y(i)
i=0
y(j) y(i)
p
2h
(3.31)
x(i)
y(j) y(i)
p
2h
(3.32)
(3.33)
52
3.4.4.
Cada vez que MaxNG detecta una mximo local se debe proceder a eliminarlo para evitar la convergencia a un mismo mximo en diferentes instancias
de la bsqueda. Esta idea, conocida en ingls como deation, ha sido propuesta
originalmente por Friedman et al en Projection Pursuit [61], y consiste en aplicar
una transformacin no lineal a los datos hacindolos gaussianos en la direccin de
proyeccin donde la estructura no-gaussiana ha sido detectada (mximo local).
Supongamos que se encuentra un mximo local en la proyeccin dada por el
vector d , es decir que y = d T x es una variable no-gaussiana. En [61] se propone
la siguiente transformacin:
w =U T (U x)
(3.34)
donde U T es una matriz ortogonal cuya primer la est dada por el vector d
es un operador no-lineal dado denido por:
uT =
[u0 u1 ...uq 1 ]T
= G
T
1
(3.35)
Fy (y )
y(i)
h
(3.38)
y de esta manera se obtiene una forma prctica de remover las estructuras nogaussianas en la direccin de proyeccin dada por d .
3.4.5.
Las ecuaciones (3.8)-(3.9) y (3.32)-(3.33) proveen un clculo directo de la medida NG y sus derivadas a partir de las muestras de la seal, pero son computacionalmente muy costosas. Se requiere un total de (n + n2 ) evaluaciones de la
funcin de Gauss para el clculo de la medida NG y de su gradiente. La complejidad computacional es O(n2 ) y esto representa un problema cuando el tamao de
los datos n es elevado, lo cual es muy habitual en las aplicaciones.
53
Es sabido que los estimadores basados en ventanas de Parzen pueden ser implementados de una manera optimizada si las muestras estn ubicadas sobre una
grilla regular, ya que las sumatorias en las ecuaciones se convierten en convoluciones, que pueden ser calculadas rpidamente a travs de la transformada rpida
de Fourier (Fast Fourier Transform - FFT ) [115]. En esta tesis se desarrolla una
nueva aproximacin basada en esta propiedad [35], como se explica a continuacin.
Un estimador general de Parzen basado en un conjunto de n muestras: y(0),
y(1),.., y(n 1), tiene la siguiente forma:
S(t) =
n 1
X
(t
(3.39)
y(i))
i=0
donde es una funcin continua (una ventana de Gauss o su derivada por ejemplo)
que tiende a cero en innito (j (t)j ! 0 cuando t ! 1). Se divide el rango
continuo de la variable y en n segmentos, es decir, si los valores de las muestras
estn en el segmento [a; b), se dene la grilla formada por n segmentos de ancho
= (b a) =n y cada segmento est denido por (k) = [a + k ; a + (k + 1) )
para k = 0, 1, .., n
1.
La aproximacin de la suma S(t) que se propone es:
^
S(t) = S(t)
nX1
f (k) (t
(k))
(3.40)
k=0
54
55
N G (fy )
n
1
1 X
f (k) (f
n k=0
^
2 (fy )
2
+1
1
2 (k) = p
n 2h
=p
1 (k)
2 ) (k)
(k)
h2 + 1
k
p
2h
h2
(3.41)
(3.42)
(3.43)
(3.44)
(3.45)
donde (f
2 ) (k) es la convolucin de las funciones f y
2 . Equivalentemente,
para las derivadas de la medida NG se obtiene (demostracin en el Apndice 3.9.3):
N G (fy )
@dl
^
1 (fy )
@dl
@
1 (fy )
@dl
(k)
n (h2 + 1)
k
4 (k) =
nh2
2 (fy )
@dl
@dl
nX1
2
gl (k) 3 (k)
n k=0
n
1
1 X
gl (k) (f
n k=0
2 (fy )
3 (k)
p
k
p
4 ) (k)
(k)
h2 + 1
2h
(3.46)
(3.47)
(3.48)
(3.49)
(3.50)
56
3.5.
Se generan de manera articial las mezclas a travs de (3.1) con una matriz de
mezcla arbitraria dada por
"
#
p1
10
p2
10
A=
p3
10
p1
10
(3.52)
1
=
5
p
p
10
3
p
p10
2 10
10
(3.53)
1=2
VT '
0;41 0;91
0;87 0;50
(3.54)
57
cos( 0 ) sin( 0 )
cos( 1 ) sin( 1 )
(3.55)
(3.56)
58
3.8) muestran que la aparicin de soluciones falsas est relacionada con el hecho de
que el tamao del conjunto de datos es pequeo, es decir, cuando se considera un
mayor nmero de muestras (n > 512) las soluciones falsas tienden a desaparecer
como muestran los resultados de la Fig. 3.11.
(3.57)
con 4 = j 0
= E [s0 s1 ] ! 0 (caso de fuentes no1 j. Se observa que, cuando
correlacionadas) entonces 4 ! 90 que corresponde al caso en que las fuentes
son independientes (ICA) y la matriz D es ortogonal. Por otro lado, cuando =
E [s0 s1 ] ! 1 (completamente correlacionadas) entonces 4 ! 0 lo cual signica
que los ngulos 0 y 1 tienden a ser coincidentes. Esto sugiere que, cuando las
fuentes son fuertemente correlacionadas, la deteccin de los mximos locales podra
hacerse ms dicultosa.
En la prctica la bsqueda de los mximos se realiza en forma secuencial (un
mximo local por vez) a travs de una bsqueda guiada por el gradiente y aplicando
la tcnica de eliminacin de mximos explicada anteriormente. En la Fig. 3.8
se muestra un ejemplo particular donde la bsqueda de los mximos se hace a
partir de puntos iniciales seleccionados aleatoriamente y, cada vez que un mximo
es encontrado, se procede a eliminarlo. En la Fig. 3.8. a) se muestra como el
primer mximo es encontrado a partir de una bsqueda guiada por el gradiente
(pendiente). En la Fig. 3.8. b), luego de eliminar el primer mximo detectado, se
procede a la bsqueda, guiada por el gradiente, del segundo mximo. En la Fig.
59
Figura 3.8. Etapas en la bsqueda de mximos locales: 1) Se buscan secuencialmente los mximos a partir de puntos iniciales aleatorios (a. b. y c.) y 2) Se
buscan mximos sin deation usando las posiciones antes detectadas como puntos
iniciales (d.)
60
1 nP1
log
n i=0
1
n2 h2
"
nP1
j=0
i:j
y0
#"
nP1
j=0
i:j
y1
#)
(3.58)
sin( 0 ) cos( 1 )j
donde
i:j
= cos(
m ) [x0 (i)
ym = ym (i) ym (j)
x0 (j)] sin( m ) [x1 (i) x1 (j)] for m = 0, 1:
(3.59)
3.6.
1:
(3.60)
61
(3.61)
fv1 ) (y)
(3.62)
(3.63)
Esta ecuacin es vlida para todo valor ! (frecuencia) para el cual la transformada de Fourier de la pdf del ruido no se anule fev1 (!) 6= 0. La ecuacin (3.63)
indica que la funcin pdf buscada fy1 (y1 ) puede obtenerse a partir de la transformada inversa de Fourier. Por otro lado, la pdf correspondiente al ruido v1 es
fv1 (v1 ) =
v1
v1
(3.64)
v1
n 1
1 X
nh i=0
y(i)
h
(3.65)
62
donde
h =
h2
2
v
p
h2
dT Cnn d
(3.66)
Comparando las ecuaciones (3.65) con (3.6) se concluye que el efecto de considerar la deconvolucin es modicar el parmetro de apertura de las ventanas de
Parzen, reemplazando h por h . Por lo tanto, cuando existe ruido aditivo gaussiano, una forma de disminuir su inuencia, es reduciendo el parmetro de apertura
de ventana. Sin embargo, existe un lmite de aplicacin de (3.66) ya que, cuando
el ruido es demasiado grande ( 2v > h2 ), esta ecuacin ya no tiene sentido.
En la prctica este ltimo mtodo (Mtodo 2) tiene la desventaja de que requiere el conocimiento de la matriz de covarianzas del ruido Cnn . Adems, el
parmetro resultante h depende del vector d, y por lo tanto las derivadas de la
medida NG en trminos de d resultan ms complicadas de calcular si la comparamos con el mtodo anterior (Mtodo 1), donde el parmetro h es jo para todo
d.
3.6.1.
n)(x
n)T ] = Cxx
Cnn
(3.67)
donde se observa que es necesario conocer el modelo del ruido (matriz de covarianzas Cnn ). Por lo tanto, en la prctica, donde difcilmente se conoce con precisin
el modelo de ruido, resulta ms efectiva la aplicacin del Metodo 1 (Maximizar la
NG de la pdf asociada a la seal con ruido fy (y)).
3.7.
Como fue demostrado por Comon [49], existe una indeterminacin de escala
en las fuentes detectadas por los algoritmos BSS. De hecho, con MaxNG las estimaciones de las fuentes estn forzadas a tener varianza unitaria. En esta tesis
se analiza un caso muy particular de fuentes dependientes que aparecen naturalmente en aplicaciones de imgenes hiper-espectrales, para las cuales es posible
determinar los factores de escala apropiados. Estos resultados fueron presentados
63
si = 1
(3.68)
i=0
la cual aparece, por ejemplo, cuando las fuentes estn asociadas a porcentajes de
ocupacin de materiales en pxeles. En estos casos, las fuentes estn condicionadas
a satisfacer 0 si 1 y tienen medias no nulas. Adems, la condicin (3.68) hace
que las seales sean necesariamente dependientes, de hecho cualquier seal puede
escribirse como combinacin lineal de las restantes.
A continuacin, se presenta la notacin y deniciones bsicas que se usarn en
este modelo:
si = E[si ] y xi = E[xi ] son los valores medios de la fuente si y la mezcla xi
(vectorialmente son s = E[s] y x = E[x] );
s0i = si si y x0i = xi xi son las seales centradas (vectorialmente son
s0 = s s y x0 = x x).
q
s0i
si si
ui = i = i son las fuentes normalizadas, donde i = E (si si )2 es
el desvo estndar de la fuente si . Notar que E [ui ] = 0 y E [u2i ] = 1.
Dado que el vector de las fuentes tiene media s no nula, se aplica la separacin
a las mezclas centradas x0 , estimndose entonces las fuentes centradas s0 . La estimacin de las fuentes reales se obtiene sumando a las estimaciones centradas sus
correspondientes medias, es decir:
^
s = Dx0 + Dx
(3.69)
Por otro lado, se observa que, la condicin (3.68) puede ser expresada en trminos de los valores medios y las fuentes centradas de la siguiente manera:
p 1
X
si = 1
(3.70)
s0i = 0
(3.71)
i=0
p 1
X
i=0
(3.72)
64
qi (yi0
(3.73)
vi ) = 0
i=0
Si bien no es posible encontrar los valores de qi que hagan cumplir esta igualdad
idnticamente, se puede minimizar el error cuadrtico medio (Mean Squared Error
- MSE ) denido por:
2
!2 3 p 1 p 1
p 1
XX
X
qi E[yi0 yj0 ] E[vi vj ] qj
(3.74)
qi (yi0 vi ) 5 =
"2 = E 4
i=0 j=0
i=0
donde se ha utilizado que E[zi0 vj ] = E[zj0 vi ] = E[vi vj ] por ser s0i y ni independientes.
Matricialmente, la frmula anterior es:
"2 = qT (Cy0 y0
Cvv ) q = qT Rq
(3.75)
2 T
e Re =
mn
yi = (Dx)i = hi si =
si
ei
(3.76)
3.8.
= PP
1
i=0 ei
(Dx)i
(3.77)
Resultados experimentales
65
donde ui y uj son las fuentes normalizadas. Se seala que la ecuacin (3.80) garantiza la separabilidad de las fuentes ya que verica la condicin suciente del Teorema
3.
b) Seales extradas de imgenes satelitales (Tipo B): Se usan columnas
de pxeles en imgenes satelitales reales monocromticas. Estas seales tienen pdf s
que no responden a un modelo sencillo y permiten regular el grado de dependencia
entre seales eligiendo la separacin (en pxeles) entre columnas seleccionadas.
3.8.1.
10 log10 (var(ei )) =
(3.81)
En general, niveles de SIR por debajo de 8dB, 10dB o 12dB indican un error en la
separacin [22], por lo tanto se dice que una separacin es exitosa si SIRi > 8dB,
10dB o 12dB para todas las fuentes i = 0, 1, .., p 1. Al mismo tiempo se dene
la eciencia de la separacin
nA
(3.82)
Eciencia ( %) =
nT
66
Figura 3.10. Eciencia versus coeciente de correlacin para el criterio de Mnima Informacin Mutua (MinMI) y Mxima No-Gaussianidad (MaxNG)
3.8.2.
En esta subseccin se analiza la robustez al ruido de MaxNG (Mtodo 1, presentado en la Seccin 3.6). Ms precisamente, se analiza el efecto del ruido sobre
las ubicaciones tericas de los mximos locales de la medida NG. En este experimento se consideran p = 3 fuentes dependientes sintetizadas (Tipo A) y se ja el
nmero de muestras en n = 4096. Se utiliza tambin un nmero de mezclas (sensores) m = 102 para simular el tipo de seales observadas en el caso de imgenes
hiper-espectrales (Seccin 5.3). La matriz de mezcla A es generada aleatoriamente
y las mezclas xi son generadas con el modelo lineal (3.60) utilizando ruido blanco
gaussiano cuyas varianzas han sido seleccionadas de manera de garantizar un nivel
SNR constante para todos los canales (sensores).
67
(3.83)
68
Figura 3.12. Mximos locales detectados y tericos para seales Tipo A con
n = 4096, m = 102 and p = 3.
3.8.3.
1X
SIRi
SIR medio =
p i=0
(3.86)
En la Fig. 3.13 se muestra una comparacin de los SIR s medios obtenidos con
la aplicacin de MaxNG, FastICAy JADE. MaxNG ha sido aplicado sin utilizar
la informacin del modelo de ruido, es decir, usando el Mtodo 1 (medida NG de
la pdf de la seal con ruido). Los valores de SIR medios fueron calculados en el
rango de SNR de 25dB a 60dB mostrndose el promedio de los valores obtenidos
sobre un total de 60 estimaciones por cada nivel de SNR. Para la implementacin
de los algoritmos ICA, se ha utilizado el paquete de software de Matlab ICALAB
[48]. Los resultados muestran que, aproximadamente para niveles SNR< 5dB,
los tres mtodos fallan en recuperar las fuentes dado el fuerte contenido de ruido
en las mezclas.
69
Como referencia se comparan estos resultados con los que se obtendran con
una matriz de separacin perfecta, es decir, si D es tal que DA = I. En este caso,
el error en la estimacin es causado slo por el ruido (no existen interferencias
cruzadas entre las fuentes). Fcilmente puede verse que, para el caso de tener
Cnn = 2n I y una matriz de separacin perfecta, el SIR obtenido est dado por:
SIRi =
10 log10 (E (D
1=2
V T n)2 )
(3.87)
que a su vez puede ser escrita en trminos del nivel de SNR y los autovalores i
"q 1 #
X 1
SIRi = SNR 10 log10
(3.88)
i=0
Figura 3.13. Valores de SIR medio para algoritmos MaxNG, Fast ICA y JADE
para seales sintetizadas Tipo A con n = 4096, y m = 102.
3.8.4.
Existen varios factores que afectan la performance de MaxNG. En esta subseccin se analiza experimentalmente cmo inciden el nmero de sensores m (canales
70
Figura 3.14. SIR medio versus n para el caso m = 102 y h = 1;06 n 0;2 (izq.);
SIR medio versus m con n = 4096 y h = 1;06 n 0;2 = 0;2 (centro); y SIR medio
versus h con n = 4096 y m = 102 (der.)
3.9.
3.9.1.
Apndices
Demostraciones de las ecuaciones (3.8) y (3.9)
y(i)
p
h2 +1
h
p
h2 +1
dy
(3.90)
71
n 1 n 1Z
1 XX
n2 h2 i=0 j=0
+1
y(i)
h
Z
|
y y(i)
,
h
y(j)
h
dy
(3.92)
v dy
}
(3.93)
se llega a:
+1
y(j)
(v)
1
{z
y(j) y(i)
h
)(
=(
y(i)
)
1
) (x) = p
2
x
p
2
(3.94)
I) En primer lugar, se calcula la esperanza condicional de las fuentes normalizadas E[u0 ju1 ] usando la hiptesis de linealidad E[s0 js1 ] = as1 + b. Aplicando
propiedades bsicas de la esperanza y la denicin de fuentes normalizadas, se
obtiene:
E[u0 ju1 ] =
1
0
E [s0
s0 ju1 ] =
au1 +
as1 + b
s0
au1 +
(3.95)
aE[u1 ] +
= E[u0 ]
(3.96)
1
0
as1
au1
= 0 adems:
(3.97)
(3.98)
72
por lo que los parmetros a y b estn relacionados con los momentos de las fuentes
de la siguiente manera:
a=
(3.101)
1
0
b = s0
(3.102)
s1
II) Introduciendo (3.101) en (3.98), se obtiene directamente el resultado deseado, es decir, E[u0 ju1 ] = u1
III) A continuacin se demostrar que la derivada de la medida NG es cero en
el punto ( ; ) = (0; 1), con el par ( ; ) restringido a la elipse (3.14).
Se considera la siguiente parametrizacin de la elipse, donde los coecientes
y son escritos en trminos de un parmetro comn t:
(t) = t
(t) = t
t2 (
(3.103)
1) + 1
@
fz (z; ; )
@
(t)+
@
fz (z; ; )
@
(t)
(3.105)
73
Asumiendo que se pueden calcular las derivadas respecto de y introduciendo la operacin de derivada dentro de la integral1 en (3.104), y luego de manejos
algebraicos, se obtiene (demostracin ms abajo):
@
fz (z = y;
@
@
fz (z = y;
@
Las derivadas de los parmetros
= 0;
= 1) =
= 0;
= 1) =
d
(fy (y)E[xjy])
dy
d
(yfy (y))
dy
(3.106)
(3.107)
(0) = 1
(0) =
(3.108)
d
d
(fy (y)E[xjy]) + (yfy (y))
dy
dy
(3.109)
(3.110)
donde, evaluando en t = 0 y usando el hecho que fz0 (z; (0); (0)) = 0, permite
arribar al resultado deseado.
Demostraciones de las ecuaciones (3.106) y (3.107):
Se calcula primero la derivada de la ecuacin (3.104) respecto de :
Z
@
1 @
z
x
fz (z; ; ) = 2
fxy x;
xdx
(3.111)
@
@y
y, cuando evaluamos en
= 1 y z = y, se obtiene:
Z
@
@
fz (z = y; = 0; = 1) =
fxy (x; y) xdx =
@
@y
Z
d
d
fxjy (xjy) fy (y) xdx =
(fy (y) E[xjy])
dy
dy
= 0,
(3.112)
74
1
2
fxy x;
y, cuando se evala en
@
fz (z; ; ) =
@
Z
@
1
z
fxy x;
3
@y
dx
(z
x) dx
(3.113)
= 1 y z = y, se obtiene:
= 0,
@
fz (z = y;
@
= 0; = 1) =
Z
Z
d
fxy (x; y) dx y
fxy (x; y) dx =
dy
d
d
fy (y) dx y fy (y) =
(yfy (y))
dy
dy
3.9.3.
(3.114)
n
1
1 X
f (k)
n k=0
y(i)
p
h2 +1
1 (k)
(3.115)
(k)
h2 + 1
(3.116)
con
1 (k)
=p
2
h2 + 1
1
n 1n
1 XX
p
f (k)
n2 h 2 i=0 k=0
= ,t=
y(j)
p
2h
y z(i) =
(k) y(i)
p
2h
y(i)
p ,
2h
(3.117)
nX1 nX1
1
p
f (k)
n2 h 2 l=0 k=0
con
2 (l)
k l
p
2h
1
= p
n 2h
n
1
1 X
=
f (k) (f
n k=0
l
p
2h
2 ) (k)
(3.118)
(3.119)
y donde (f
2 ) (k) es la convolucin de la funciones f y
2.
Siguiendo un procedimiento equivalente, se obtiene la aproximacin (3.46).
75
Captulo 4
(4.1)
v = Dn
(4.2)
76
comportamiento usual de las imgenes [23, 62]. Para mejorar el modelo es necesario introducir, de alguna forma, las dependencias existentes entre las variables
modelando las interacciones entre pxeles.
En esta tesis se introduce un nuevo modelo de campo aleatorio gaussiano con
correlaciones de largo alcance (Long Correlation Gaussian Random Fields - LCGRF s) para el cual se analizan las propideades y se derivan nuevos algoritmos de
estimacin de parmetros [34]. La motivacin principal de este modelo, es permitir
el diseo un ltro de Wiener reductor de ruido para la restauracin de imgenes
fuente separadas con MaxNG. En particular estamos interesados en modelar un
tipo especial de imgenes astrofsicas producidas por el Cosmic Microwave Background - CMB, para las cuales se sabe que su funcin de densidad de probabilidad
es gaussiana y adems posee correlaciones espaciales de largo alcance [101]:
4.2.
El modelo LC-GRF
x
eu;v
2
(ui + vj)
l
(4.3)
2
(ui + vj)
l
(4.5)
(4.6)
77
Otro resultado muy importante que se utilizar a menudo es que, la matriz U diagonaliza cualquier matriz circulante por bloques [65]. Para simplicar la notacin, a menudo se har referencia a la operacin 2D-DFT con:
e =DF T fxg o x
x
eu;v =DF T fxi;j g.
Por denicin, un GRF fxi;j g con i; j = 0; 1; ::; l 1, con media nula E [x] = 0
y matriz de covarianzas Cxx = E xxT , posee una pdf conjunta denida por
la distribucin de Gauss multivariada [120], es decir:
1
fx (x) = p
l2
(2 ) jCxx j
exp
1 T 1
x Cxx x
2
(4.7)
xB
Def
UH
(4.8)
x; ) =
jBj =2
exp
(2 x )l 2 =2
1 T
x B x
2 x
(4.9)
78
4.3.
Clculo de autovalores: Una de las propiedades ms importantes del modelo, sobre la que se basan los resultados siguientes, es que la matriz de covarianzas puede ser diagonalizada utilizando la operacin 2D-DFT (ecuacin (4.8)).
Ms an, los autovalores i;j de la matriz B pueden ser calculados explcitamente
[15, 81] y valen:
2 T i;j
(4.10)
i;j = 1
donde, para el caso de orden o = 2 (sistemas de vecinos de primero orden), los
vectores y uv son:
=
1
2
T
ij
cos (2 i=l )
cos (2 j=l )]
with i; j = 0; 1; ::l
(4.11)
Puede demostrarse que si se asume Cxx denida positiva, existe una restriccin
para el conjunto de parmetros, por ejemplo para orden o = 2 los parmetros 1
y 2 estn sujetos a [15, 25, 81]:
j 1 j + j 2 j < 0;5
(4.12)
DFT
(4.14)
i;j
= r0;0 =
x
l2
l 1 X
l 1
X
u;v
(4.15)
u=0 v=0
x
u;v
(4.16)
79
Figura 4.1. Correlacin normalizada (rs;t =r0;0 ). Los casos para los modelos CM
y SAR corresponden a = 1 y = 2 respectivamente.
4.4.
Estimacin de parmetros
Para poder hacer un uso efectivo del modelo LC-GRF se debe contar con
mtodos de estimacin de parmetros que permitan ajustar el modelo a datos
disponibles. En esta tesis se presentan las soluciones para los siguientes problemas
de estimacin de parmetros con el modelo LC-GRF [34]:
1. Estimacin de los parmetros ,
de muestra
80
Figura 4.2. Muestras de imgenes LC-GRF generadas aleatoriamente para distintos valores de los parmetros 1 , 2 y . El parmetro x se eligi de manera
tal que asegure una varianza unitaria
Se propone un algoritmo iterativo para la estimacin de los parmetros escalares , x y el vector T = [ 1 2 :: o ] a partir de una muestra de la imagen.
El algoritmo est basado en el mtodo de mxima verosimilitud (Maximum Likelihood - ML) y se obtiene de la siguiente manera. Aplicando el logaritmo a la
ecuacin (4.9), se obtiene la funcin log-likelihood a maximizar
( ;
x;
) = log (fx (x ;
x;
(4.17)
))
x;
)=
l 1 X
l 1
X
u=0 v=0
log (
u;v )
l2
log (2
2
x)
l 1 l 1
1 XX
je
xu;v j2
2 u=0 v=0
u;v
(4.18)
81
(4.19)
(4.20)
(4.21)
( ;
x;
x;
)=
)=
1
2
l 1 X
l 1
X
u=0 v=0
lX
1 X
l 1
x;
'uv ( ;
x;
u;v ) 'uv
( ;
x;
u;v
log (
(4.23)
)
(4.24)
u=0 v=0
donde
'uv ( ;
uv
)=
1
x
je
xu;v j2
u;v
(4.25)
(0)
(0)
x
(0)
@
@
(i)
(i)
x ;
b
b (i) ; b(i)
x ;
(i)
(i)
(4.26)
(4.27)
82
(i)
en funcin de b y b (i) usando (4.22).
Calcular b(i+1)
x
Fin LOOP.
(4.28)
83
El algoritmo EM provee una tcnica iterativa para la maximizacin del loglikelihood de los datos completos usando los datos incompletos [53]. Ms formalmente, se denen:
Datos Completos: C = fx, ng
Datos Incompletos: I = fx + ng
Parmetros a estimar: bx y bn
x; n)
0
x,
0
n
j bx(i) ; b(i)
n
(4.30)
84
(0)
Inicializar las estimacines b(0)
x y bn
1
l2
1
= 2
l
=
b(i+1)
x
END LOOP.
b(i+1)
n
(i)
b(i)
x , bn , y
(i)
b(i)
x , bn , y
(4.31)
(4.32)
(i)
(i)
donde 1 b(i)
y 2 b(i)
estn dados por las siguientes exx , bn , y
x , bn , y
presiones (demostraciones en el Apndice 4.8.2):
"
#
l 1 X
l 1
1
1
X
je
yuv j2 1
1
uv
uv
+
+
1+ 2
(4.33)
uv
1 (bx , bn , y) =
bn
bx
bn
bx
bn
u=0 v=0
"
#
l 1 X
l 1
1
1
X
1
je
yuv j2 2uv 1
uv
uv
+
+
1+
(4.34)
2 (bx , bn , y) =
bn
bx
bn
bx
b2x
u=0 v=0
4.5.
Reduccin de ruido
e
donde x
buv y yeuv son las transformaciones 2D-DFT de la imagen x estimada y la
x
n
imagen con ruido y respectivamente, Su;v
y Su;v
son los correspondientes densidades espectrales, i.e. las 2D-DFT de las funciones de autocorrelacin de x y n.
En esta tesis, se obtiene una expresin del ltro de Wiener basada en el modelo
LC-GRF y se analiza su performance en forma terica [34].
85
4.5.1.
Una de las ventajas del modelo LC-GRF, es que el ltro de Wiener puede ser
implementado directamente ya que la densidad espectral de la seal es conocida y
tiene una expresin sencilla (ecuacin (4.16)). Usando que el ruido AWGN tiene
n
una densidad espectral plana Su;v
= n para todo u, v = 0; 1; ::; l 1, con n siendo
la varianza del ruido ( n = 2n ), e introduciendo (4.16) en (4.35), se obtiene:
e
x
buv = wuv yeuv
(4.36)
wuv =
1+
n
uv
(4.37)
b
e = Wy
e
x
(4.38)
b
e = UHx
b
x
e = UHy
y
(4.39)
T = UW UH
(4.40)
donde queda escrito de manera explcita la forma lineal del ltro de Wiener:
Por otro lado es fcil ver que la densidad espectral del modelo LC-GRF tiene
predominio de bajas frecuencias (largas correlaciones) por lo tanto el ltro de
Wiener resulta ser un ltro pasa bajos atenuando las componentes de alta frecuencia.
En la Fig. 4.4 se ilustra el efecto del ltro de Wiener en el espacio de las imgenes transformadas por Fourier, donde u representa a la frecuencia vertical y v a
la frecuencia horizontal. En la Fig. 4.4. a) se muestra el mdulo de la transformada de Fourier discreta en 2D (2D-DFT ) de la seal til x, que corresponde a un
LC-GRF con parmetros = 3, x = 1;0 y = 1 = 2 = 0;249, puede observarse que el contenido de esta imagen est concentrado en las bajas frecuencias,
es decir, en un entorno de (u; v) = (0; 0). En la Fig. 4.4. b) se muestra el mdulo
de la 2D-DFT del ruido aditivo gaussiano n cuya varianza es igual a la de la seal
til (SNR= 0dB), puede apreciarse que el contenido del ruido es plano en todo el
86
4.5.2.
b de la seal en el sentido
El ltro de Wiener provee la mejor estimacin x
que minimiza el error cuadrtico medio (MSE ), pero no elimina completamente el
ruido. A continuacin se incluye un anlisis terico de la calidad de la restauracin
producida por el ltro de Wiener a travs de la varianza del error remanente que
se dene como:
87
b
e=x
(4.41)
(4.42)
(4.43)
(4.44)
4.6.
4.6.1.
88
= 0;0225 y
fue calculado a partir de la ecuacin (4.15) de manera de asegurar una varianza unitaria ( x = 1;0). Los valores iniciales de los parmetros son (0) = 0;1,
(0)
= 1;0 y (0) = 0;0. Los parmetros de optimizacin fueron seleccionados
x
empricamente como su = 1;1 (speed-up) y sd = 2;0 (slow-down); y los pasos
(0)
(0)
iniciales utilizados son: d1 = d2 = 1;0 10 8 y h(0) = 1;0 10 7 .
En la Fig. 4.6 se muestra la precisin de las estimaciones luego de 400 iteraciones en trminos del error absoluto (j
b j y 1 b1 ) (no se muestran los
resultados para 2 ya que son anlogos a los del parmetro 1 ). Los errores absolutos gracados son los valores promediados sobre las 20 simulaciones hechas para
cada conjunto de parmetros.
En la Fig. 4.6-arriba se muestran los valores para los casos simtricos ( 1 = 2 ).
Se observa que las estimaciones son mejores para los casos en que las correlaciones de largo alcance son ms importantes, es decir, para valores mayores de
y parmetros de interaccin cercanos al lmite permitido, i.e. j 1 j + j 2 j ' 0;5.
Otra observacin importante es que la estimacin ML del parmetro solo es
posible cuando 1 y 2 son no nulos, lo cual puede ser vericado directamente de
la ecuacin (4.18) ya que, cuando 1 = 2 = 0, los autovalores son u;v = 1 y la
funcin de log-likelihood resulta:
x
( x; ) =
l2
log (2
2
x)
l 1 l 1
1 XX
je
xu;v j2
2 u=0 v=0
(4.46)
que es independiente del parmetro . Por esta razn cuando los parmetros 1
y 2 tienden a cero, los errores en la estimacin de tienden a ser grandes (Fig.
4.6-arriba-derecha para = 0;08).
El algoritmo presentado tambin puede ser aplicado a casos no simtricos,
es decir, cuando 1 6= 2 tal como se muestra en la Fig. 4.6-abajo, donde se
89
90
91
4.7.
4.7.1.
Apndices
Demostracin de la funcin de Log-likelihood ( ;
x;
x; ) =
log (jBj)
l2
log (2
2
x)
1 T
x B x
2 x
(4.47)
Utilizando la descomposicin cannica de la matriz B (ecuacin (4.8)), aplicando propiedades del determinante y usando la denicin de la operacin 2D-DFT
(e
x = U H x), se obtiene nalmente la ecuacin (4.18).
4.7.2.
0
x,
0
n )]
= log [f (x;
0
x )]
+ log [f (n;
0
n )]
(4.48)
0
x)
1 T
x B x
2 x
1 T
n n
2 0n
(4.49)
(4.50)
92
0
x;
l2
log (2 0x )
2
2
1 T
1 T
0
x B x
n n
n)
0
2 x
2 0n
0
n )]
l2
log (2
2
log (jBj)
(4.51)
Aplicando la esperanza condicionada a esta ecuacin, utilizando la descomposicin cannica de la matriz B (ecuacin (4.8)) y usando propiedades del determinante, se obtiene la siguiente expresin:
E flog f (C;
l 1 X
l 1
X
log (
0
x;
0
n)
( x;
x;
l2
log ( 0x )
2
u;v )
u=0 v=0
1
2 0x
j y;
n ; y)
1
2
0
n
ng
(4.52)
l2
log (
2
( x;
0
n)
n ; y)
donde se denen
0
n.
( x,
n,
( x,
n,
y) = E xT B x j y;
y) = E nT n j y;
x;
x;
(4.53)
(4.54)
1
l2
1
= 2
l
=
0
x
( x;
n ; y)
(4.55)
( x;
n ; y)
(4.56)
Primero se observa que el error remanente e, luego de aplicar el ltro de restauracin, puede ser escrito en trminos de la seal til x y el ruido n usando la
ecuacin (4.39) como sigue:
b
e=x
x =T y
x =T (x + n)
x = (T
I)x + T n
(4.57)
93
= (T
I)Cxx (T
I) + T Cnn T
(4.58)
I)
(W
I) +
nW
UH
(4.59)
1
T r fCee g
l2
(4.60)
l 1 l 1
1 XX
(wuv
l 2 u=0 v=0
1)2
x uv
n wuv
(4.61)
y, reemplazando wuv y uv por sus correspondientes valores, se obtiene una expresin nal para la varianza del error remanente:
2
e
2
n
l 1 l 1
1 XX
l 2 u=0 v=0 1 +
n
n
x
(4.62)
uv
95
Captulo 5
5.1.
Identicacin de individuos
Dado un conjunto de m = 56 imgenes de distintos especimenes que constituyen los patrones y1 ; y2 ; ::; ym (Fig. 5.2-izq.), el objetivo es identicar una imagen
alternativa x de cualquiera de esos individuos. Es natural asociar la imagen x con
aquel patrn con el cual tenga distancia euclidea mnima1 , es decir:
x pertenece al individuo j si
yj
< kx
yi k2 8 i 6= j
(5.1)
(5.2)
Existe una conexin directa entre esta clasicacin y la denicin de los diagramas de Voronoi
para Rn [125].
96
97
los tres casos de clasicacin y puede observarse que, en todos los casos el mnimo
obtenido corresponde con una clasicacin correcta.
A los efectos de analizar estadsticamente los resultados se han realizado un
total de 40 clasicaciones de imgenes alternativas obteniendo una efectividad del
100 %, adems se calcul la media y el desvo estndar de los valores mnimos
y no-mnimos de DESPj (x) obtenidos en cada caso. En la Fig. 5.4 se muestran
las franjas de los valores mnimos y no-mnimos y se observa que las mismas se
encuentran sucientemente separadas como para evitar errores de clasicacin.
5.1.2.
Clasicacin en harems
DASP(x)
kx y0 k
(5.3)
sin (
=
sin (
A)
B)
1
A
(5.4)
98
Figura 5.3. Imgenes originales de los patrones 2, 33 y 41 (arriba); y sus correspondientes imgenes alternativas sometidas a la clasicacin (abajo)
5.2.
99
100
101
5.3.
102
(5.6)
si = 1
(5.7)
i=0
103
Adems de la imagen hiper-espectral, se cuenta con una clasicacin de los pxeles en 9 clases diferentes (Fig. 5.8, abajo). Esta clasicacin fue obtenida a travs
del mtodo clsico SAM (spectral angle mapper) [89] supervisado con inspecciones
de campo. Las clases identicadas son: ladrillo (rojo), grava/cemento (amarillo),
otras supercies (gris), infraestructuras (marron), rboles (verde oscuro), arbustos/matas (verde medio), prados (verde claro), agua (azul) y no clasicado (negro). Desde luego, esta clasicacin no permite evaluar cuantitativamente la performance de los algoritmos de spectral unmixing ya que no proporciona ninguna
informacin sub-pxel, sin embargo permite hacer una evaluacin cualitativa de
los resultados.
Figura 5.8. Arriba: canales RGB de la imagen hiperespectral original (540 337
pixeles). Abajo: clasicacin a travs del mtodo SAM (Spectral Angle Mapper)
(9 clases detectadas)
Imagen hiper-espectral simulada: A los efectos de posibilitar una validacin ms precisa de la separacin de fuentes, se ha generado una imagen simulada usando la ecuacin 5.6, donde los perles espectrales (las de la matriz A)
de cada una de las clases de la Fig. 5.8 - abajo, se han estimado a travs de los
espectros promedios de los pxeles que pertenecen a ellas.
104
105
5.3.2.
106
107
M SE = E 4
p 1
X
i=0
sbi
!2 3
1 5
Si la separacin fue exitosa, el error residual ser pequeo; por otro lado un valor
alto de M SE indica un error en la separacin.
La Fig. 5.12 (Casino del bel respiroen Villa Doria-Pamphilj, Roma), muestra los resultados de aplicar MaxNG a una sub-imagen de 50 50 pxeles (Figs.
5.12.a)-.b)-.c)) junto con la imagen original en formato RGB (Fig. 5.12.a)) y su
clasicacin (Fig. 5.12. b)). Se observa que las fuentes estimadas 1 y 2 coinciden con las clases Amarillo y Rojo, respectivamente, y la tercer fuente estimada
corresponde a las clases Verde (oscuro, medio y claro) mezcladas con las clases
minoritarias Gris, Negro, Marrn y Azul. Este ejemplo muestra que MaxNG no
es capaz de discriminar las clases minoritarias, ya que el clculo estadstico se ve
afectado por la escasez de pxeles de esas clases. Adems se observa que las tres
clases de verde, aparecen identicadas como una nica clase, lo cual es razonable
ya que todas estas clases tienen un perl espectral muy similar y sufren de altos
niveles de variabilidad espectral como muestra la Fig. 5.9.
La Fig.5.13 (Palazzo Corsini alla Lungaray Jardn Botnico, Roma), muestra los resultados para una sub-imagen de tamao mayor (75 75 pxeles). En
este caso MaxNG, identic cuatro clases: las fuentes 1, 2 y 3 se corresponden
con las clases Amarillo, Verde (oscuro, medio y claro) y Rojo, respectivamente; la
fuente estimada 4 contiene una mezcla de las clases Negro, Marrn y Gris.
Finalmente, en la Tabla 5.2 se comparan los MSE obtenidos para diferentes
tamaos de sub-imagen (50 50, 75 75 y 150 150 pxeles). Se observa claramente que, para el primer y segundo caso los errores remanentes son pequeos lo
cual sugiere buenos resultados. Por otro lado, para 150 150 se obtiene un error
signicativo, causado principalmente por el alto nivel de variabilidad espectral,
que es consecuencia del tamao de la imagen.
108
109
5.4.
Modelo matemtico
(5.8)
donde x = [x0 x1 :::xm 1 ]T es un vector que contiene las mediciones correspondientes a m canales (mezclas), s = [s0 s1 :::sp 1 ]T es un vector que contiene las
seales asociadas con cada una de las p fuentes de radiacin, A 2 Rm p es una
matriz de mezcla que contiene los coecientes con los que las fuentes son combinadas en cada canal y n = [n0 n1 :::nm 1 ]T es el vector de ruido aditivo que, por
simplicidad, se asume gaussiano y de media nula.
El caso particular que se analiza aqu posee una serie de caractersticas que son
explotadas en la adaptacin del algoritmo MaxNG y que permite el diseo de un
nuevo algoritmo llamado Minimax Entropy [32]. A continuacin se discuten las
caractersticas del modelo:
El satlite cuenta con m = 4 canales de medicin (sensores) que proveen distintas mezclas lineales de diversas fuentes de radicacin electromagntica que
110
Este mtodo surge como una adaptacin natural del algoritmo MaxNG [30].
Como en cualquier problema de BSS, el objetivo es encontrar la matriz de separacin D tal que las fuentes puedan ser estimadas a partir de la ecuacin lineal
b
s = Dx
(5.9)
Las las de la matriz D, que proveen las estimaciones de las fuentes no-gaussianas
SYN y DUST son encontradas a partir de la minimizacin de la gaussianidad
(maximizacin de la NG) de la variable
y = dT x
donde el vector d es tal que la varianza de y sea unitaria. Al mismo tiempo, puede
verse que y ser siempre no-gaussiana, a menos que se corresponda con la seal
fuente CMB (gaussiana) con ruido gaussiano aditivo. Por lo tanto, la la de la
matriz D que provee la estimacin del CMB se puede obtener como el vector d
que hace que la variable y resulte gaussiana.
En consecuencia las fuentes de radicacin astrofsicas pueden encontrarse a
travs de la maximizacin y minimizacin de una medida de gaussianidad. La medida NG del algoritmo MaxNG puede generalizarse, usando ademas la medida
basada en la distancia en L2 (R), utilizando la entropa relativa que resulta en maximizar/minimizar la entropa de Shannon (Capitulo 2, Subseccin 2.1.4). En esta
tesis se analizan dos medidas de gaussianidad, que llamaremos medidas entrpicas: la entropa de Shannon (Shannon Entropy - SE ) y la medida de gaussianidad
111
(Gaussianity Measure - GM ).
HSE (fy ) =
HGM (fy ) =
(5.10)
(y)]2 dy
(5.11)
[fy (y)
1)
= x0 cos
+ x1 sin
cos
+ x2 sin
sin
(5.14)
Etapa de mnima entropa: Dado que las fuentes no-gaussianas estn asociados con mnimos locales de las medidas entrpicas de la variable y( 0 ; 1 ), se
procede a buscar los mnimos locales de las medidas SE o GM. Las fuentes asociadas a estos mnimos locales correspondern con las fuentes no-gaussianas (SYN
o DUST ).
Etapa de mxima entropa: La fuente estimada asociada con la mxima
entropa de y( 0 ; 1 ) corresponder con una fuente gaussiana que, en este caso, es
el CMB.
112
La condicin de no-correlacin de los pares de seales CMB-SYN y CMBDUST puede ser utilizada para mejorar la estimacin de la imagen CMB ya que,
en los experimentos, se observ que la posicin del mximo local asociado al CMB
est ubicado en un valle muy suave siendo mayores los errores de estimacin.
Supongamos que se han obtenido la segunda (SYN ) y tercera (DUST ) columna
de la matriz de separacin D 2 R3 3 . Fcilmente se observa que, esta matriz D se
relaciona con la matriz de covarianzas de las fuentes estimadas:
Cbsbs = E[b
sb
sT ] = DDT
(5.16)
E [b
s0 sb1 ] = E [b
s0 sb2 ] = 0
(5.17)
113
Figura 5.14. Ejemplo de imgenes fuentes (arriba), mezclas (centro) y estimaciones de fuentes usando la medida SE (abajo)
114
Figura 5.16. Curvas de nivel para las supercies de las medidas de Gaussianidad
(GM) y entropa de Shannon (SE) versus los ngulos 1 y 2 .
DM G
0;29
4
0;90
=
0;07
0;66
0;27
0;71
3
0;69
0;35 5 ;
0;70
DSE
0;28
4
1;0
=
0;03
0;67
0;02
0;72
3
0;69
0;02 5 (5.19)
0;69
115
116
Figura 5.18. Imagen CMB original (izquierda) e imagen LC-GRF generada con
los parmetros estimados.
117
Figura 5.19. Imagen CMB original (izquierda), imagen ruidosa (centro) e imagen restaurada (derecha). Se aplic el ltro de Wiener a los casos: SNR= 10dB
(arriba) y SNR=10dB (abajo)
119
Captulo 6
Conclusiones
En esta tesis se desarrollaron modelos matemticos para el tratamiento de
seales en dos dimensiones (imgenes) y se elaboraron nuevos algoritmos para la
resolucin de problemas importantes en procesamiento de imgenes, como son: la
separacin ciega de fuentes (Blind Source Separation - BSS ), la reduccin de ruido
y el reconocimiento de patrones.
Se analizaron las propiedades matemticas del mtodo estadstico de Anlisis de Componentes Principales (PCA) o Transformada Karhunen-Love (KLT ),
que es una herramienta esencial para el anlisis de datos multidimensionales que
comprime la energa(varianza) de los datos de manera ptima, en un conjunto
reducido de componentes principales ortogonales (no-correlacionadas). Asimismo,
se analizaron los mtodos derivados de PCA como es el caso del Anlisis de Componentes Independientes (ICA), donde se buscan las componentes que, adems
de ser no-correlacionadas, son lo ms independientes posibles, y Projection Pursuit (PP), donde lo que se busca es minimizar la gaussianidad o entropa de las
componentes. Se destaca que, tanto en ICA como en PP, se recurre a medidas
provenientes de la teora de la informacin como la entropa de Shannon o la
informacin mutua. Un caracterstica importante de ICA y PP es que utilizan estadsticas de orden superior a dos, a diferencia de PCA, que solo utiliza la matriz
de covarianzas de las observaciones (estadsticas de orden dos). En esta tesis se
analizaron las conexiones profundas entre PCA, ICA y PP haciendo explcitas las
relaciones entre gaussianidad, entropa, independencia, informacin mutua, etc.
Como una generalizacin de ICA, en esta tesis se abord el problema de la
se-paracin ciega de fuentes estadsticamente dependientes o Anlisis de Componentes Dependientes (DCA), que es un rea nueva de investigacin con pocos antecedentes bibliogrcos. Se propuso un nuevo algoritmo DCA, llamado MaxNG
[30] que permite resolver satisfactoriamente, por ejemplo, el problema de Spectral Unmixing en imgenes satelitales hiper-espectrales [33] y la separacin ciega de fuentes en imgenes astrofsicas [32], obteniendo mejores resultados que
los mtodos tradicionales ICA. Se presentaron resultados tericos fundamentales
para MaxNG proveyendo, por ejemplo, una condicin suciente sobre las fuentes
dependientes que garantiza su separabilidad a travs de la maximizacin de la nogaussianidad. Tambin se introdujeron resultados que permiten la implementacin
de MaxNG de manera eciente incluso en entornos con ruido. Adems se propuso
un mtodo para la determinacin de los factores de escala de las fuentes estimadas
que resulta til en la aplicacin de Spectral Unmixing.
Por otro lado se analiz la teora que da sustento a los mtodos de clasicacin de vectores utilizando distancias eucldeas mnimas en Rn , donde las bases
ortonormales tienen un rol central y los mtodos de ortogonalizacin de vectores
son de vital importancia. De todos los posibles mtodos de ortogonalizacin de
120
121
123
Bibliografa
[1] Adams J. B., Smith M. O., Spectral mixture modelling: A new analysis
of rock and soil types at the Viking Lander 1 Site, Journal of Geophysical
Research, 91, pags. 8098-8112 (1986).
[2] Ahmed N., Natarajan T., Rao K. R., Discrete cosine transform, IEEE
Trans. Comput., C-23 (1), pags. 88-93 (1974).
[3] Amari S. I., Neural theory of association and concept formation, Biological
Cybernetics, 26, pags. 175185 (1977).
[4] Amari S-I., Dierential-geometrical methods in statistics, Lecture notes in
statistics, Springer-Verlag, Berlin (1985).
[5] Araujo D., Barros A. K., Estombelo-Montesco C., Zhao H., Silva Filho A.
R., Baa O. Wakai R., Ohnoishi N., Fetal Source Extraction from Magnetocardiographic Recordings by Dependent Component Analysis. Physics
in Medicine and Biology, 50 (19), pags. 4457-4464 (2005).
[6] Attias H., Independent Factor Analysis, Neural Computation, 11 (4), pags.
803-851 (1999).
[7] Baccigalupi C., Bedini L., Burigana C., De Zotti G., Farusi A., Maino D.,
Maris M., Perrotta F., Salerno E., Toolatti L., Tonazzini A., Neural Networks and Separation of Background and Foregrounds in Astrophysical Sky
Maps, Mon. Not. R. Astron. Soc., 318, pags. 769-780 (2000).
[8] Bach F. R., Jordan M. I., Kernel Independent Component Analysis, Journal of Machine Learning Research, 3, pags. 1-48 (2002).
[9] Balram N., Moura J., Noncausal Gauss-Markov random elds: Parameter
structure and estimation, IEEE Trans. Inform. Theory 39 (4), pags. 1333
1355 (1993).
[10] Barros A., Chapter 4: The Independence Assumption: Dependent Component Analysis, Advances in Independent Component Analysis, Springer
(2000).
[11] Barros A. K., Cichocki A., Ohnishi N., Extraction of Statistically Dependent Sources with Temporal Structure. Proc. Brazilian Simposium on
Neural Networks, Rio de Janeiro (2000).
[12] Bedini L., Herranz D., Salerno E., Baccigalupi C., Kuruoglu E., Tonazzini
A., Separation of correlated astrophysical sources using multiple-lag data
covariance matrices, Eurasip J. on Appl. Sig. Proc., 15, pags. 2400-2412
(2005).
124
[13] Bell A. J., Sejnowski T. J., A Non-linear Information Maximisation Algorithm that Performs Blind Separation, Advances in Neural Information
Processing Systems, 7, pags. 467-474 (1995).
[14] Belouchrani A., Abed-Meraim K., Cardoso J. F. , Moulines E., Secondorder blind separation of temporally correlated sources, Proc. Int. Conf. on
Digital Sig. Proc., (Cyprus), pags. 346-351 (1993).
[15] Bennett J., Khotanzad A., Modeling Textured Image using Generalized
Long Correlation Models, IEEE Trans. on Pattern Analysis and Machine
Intelligence, 20 (12), pags. 1365-1370 (1998).
[16] Berman M., Kiiveri H., Lagerstrom R., Ernst A., Dunne R., Huntington J.,
ICE: A statistical approach to identifying endmembers, IEEE Transactions on Geoscience and Remote Sensing, 42 (10), pags. 2085-2095 (2004).
[17] Besag J., Spatial Interaction and Statistical Analysis of Lattice Systems,
Journal of the Royal Statistical Society. Series B (Methodological), 36 (2),
pags. 192-236 (1974).
[18] Besag J., On the statistical analysis of dirty pictures, Journal of the Royal
Statistical Society. Series B (Methodological), 48 (3), pags. 259-302 (1986).
[19] Bijaoui A., Nuzillard D., Deb Barma T., BSS, Classication and Pixel
Demixing, in Proc. of 5th International Conference on Independent Component Analysis and Blind Source Separation, University of Granada (Spain),
pags. 96-103 (2004).
[20] Blanco Y., Aplicacin de los Estadsticos de Orden en el Anlisis de Componentes Independientes, Tesis de Doctorado, Universidad Politcnica de
Madrid (2001).
[21] Blanco Y., Zazo S., New Gaussianity measures based on order statistics:
application to ICA, Neurocomputing, 51, pags 303 -320 (2003).
[22] Boscolo R., Pan H., Roychowdhury V. P., Independent Component Analysis Based on Nonparametric Density Estimation, IEEE Trans. on Neural
Networks, 15 (1), pags. 55-65 (2004).
[23] Bouman C. A., Tutorial: Markov Random Fields and Stochastic Image
Models, IEEE International Conference on Image Processing (ICIP 95)
(1995).
[24] Brown L. G., A survey of image registration techniques, ACM Computing
Surveys (CSUR), 24 (4), pags. 325-376 (1992).
[25] Caiafa C. F., Procesos Aleatorios Bidimensionales. Su aplicacin al Procesamiento de Imgnes, Tesis de Ingeniera Electrnica, Facultad de Ingeniera,
Universidad de Buenos Aires, Argentina (1996).
125
126
[37] Cardoso J. F., Souloumiac A., Jacobi angles for simultaneous diagonalization, SIAM Journal of Matrix Analysis and Applications, 17 (1), pags.
161-164 (1996).
[38] Cardoso J. F., Dependence, Correlation and Gaussianity in Independent
Component Analysis, Journal of Machine Learning Research, 4, pags. 11771203 (2003).
[39] Chaturvedi S., Kapoor A. K., Srinivasan V., A new orthogonalization procedure with an extremal property, J. Phys. A: Math. Gen., 31, pags. 367-370
(1998).
[40] Chavez P. S., Stuart J., Sides C., Anderson J. A., Comparison of three
dierent methods to merge multiresolution and multispectral data: Landsat
TM and SPOT panchromatic, Photogramm. Eng. Remote Sens., 57, pags.
259303 (1991).
[41] Chellappa R., Kashyap R. L., Synthetic Generation and Estimation in Random Field Models of Images, Proc. IEEE CS Conf. Pattern Recognition and
Image Processing, pags. 577-582, Dallas, Texas. (1981).
[42] Chellappa R. Two-Dimensional Discrete Gaussian Markov Random Field
Models for Image Processing, Progress in Pattern Recognition, 2, pags 79112 (1985).
[43] Chiang S-S, Chang C-I, Ginsberg I. W., Unsupervised Hyperspectral Image
Analysis Using Independent Component Analysis, in Proc. of International Geoscience and Remote Sensing Symposium (IGARSS 2000), Honolulu
Hawaii, July 24-28, pags. 3136-3138 (2000).
[44] Cichocki A., Unbehauen R. Robust estimation of principal components in
real time, Electronics Letters, 29 (21), pags. 18691870 (1993).
[45] Cichocki A., Swiniarski R., Bogner R. E., Hierarchical neural network for
robust PCA of complex-valued signals. Proc. of the World Congress on
Neural Networks (WCNN-96), San Diego, USA, pags. 818821 (1996).
[46] Cichocki A., Rutkowski T., Barros A. K., Blind Extraction of Temporally
Correlated but Statistically Dependent Acoustic Signals. Proc. of IEEE
Workshop on Neural Networks for Signal Processing (NNSP 2000), Sydney
(2000).
[47] Cichocki A., Amari S. I., Adaptive Blind Signal and Image Processing: Learning Algorithms and Applications. J. Wiley & Sons, Chichester UK (2002).
[48] Cichocki A., Amari S., Siwek K., Tanaka T., et al., ICALAB Toolboxes,
http://www.bsp.brain.riken.jp/ICALAB.
127
128
[63] Georgiev P., Cichocki A., Blind source separation via symmetric eigenvalue
decomposition, Proc. of Sixth International Symposium on Signal Processing and its Applications, Aug. 2001, pags. 17-20, Kuala Lumpur, Malaysia
(2001).
[64] Gonzalez R. C., Woods R. E. Digital Image Processing., Prentice Hall. Upper
Saddle River, 2da Edicin, New Jersey (2002).
[65] Gray R. M., Toeplitz and Circulant Matrices: A review, Foundations and
Trends in Communications and Information Theory, 2 (3), pags. 155-239
(2006).
[66] Greaeath D., Introduction to Random Fields, Springer-Verlag, New York
(1976).
[67] Hall P., Polynomial Projection Pursuit, Annals of Statistics, 17, pags.
589-605 (1989).
[68] Halmos P. R., Finite-Dimensional Vector Spaces, Springer-Verlag (1974).
[69] Haykin S., Unsupervised Adaptive Filtering. Volume I: Blind Source Separation, J. Wiley, New York (2000).
[70] Hocking J. G., Young G. S., Topology. Dover, New York (1988).
[71] Hotelling H., Analysis of a complex of statistical variables into principal
components, Journal of Educational Psychology, 24, pags. 417-441 (1933).
[72] Huang K., Statistical Mechanics, Wiley, 2da Edicin, New Jersey (1987).
[73] Huber P. J., Projection Pursuit, The Annals of Statistics, 13, pags. 435475 (1985).
[74] Hyvrinen A., Oja E., A fast xed-point algorithm for independent component analysis, Neural Computation, 9 (7), pags. 14831492 (1997).
[75] Hyvrinen A., Oja E., Independent component analysis: algorithms and
applications, Neural networks, 13 (4-5), pags. 411-430 (2000).
[76] Hyvrinen A., Karhunen J., Oja E., Independent Component Analysis, J.
Wiley & Sons, New York (2001).
[77] Ising E., Beitrag zur theorie des ferromagnetismus, Z. Physik, 31, pags.
253-258 (1925).
[78] Jollie I.T., Principal Component Analysis, Springer Series in Statistics,
Springer-Verlag, New York (2002).
[79] Jones M. C.,Sibson R., What is projection pursuit? (with discussion), J.
R. Statist. Soc. A, 150, pags. 1-36 (1987).
129
[80] Jutten C., Herault J., Blind separation of sources, part I: An adaptive
algorithm based on neuromimetic architecture, Signal Processing, 24 (1),
pags. 1-10 (1991).
[81] Kashyap R. L., Chellapa R., Estimation and choice of neighbors in spatialinteraction models of images, IEEE Trans. Inform. Theory, 29 (1), pags.
60-72 (1983).
[82] Karhunen K., Uber lineare methoden in der Wahrsccheilichkeitsrechnung,
Annales Academiae Scientiarum Fennicae, Seried A1: Mathematica-Physica,
37, pags. 3-79 (1947).
[83] Kendall M., Stuart A., The advanced theory of statistics, volume 2. Gri n,
London, 4th edition (1979).
[84] Keshava N., Mustard J., Spectral unmixing, IEEE Signal Process. Mag.,
19 (1), pags. 4457 (2002).
[85] Kolmogorov A. N., Fomin S. V., Measure, Lebesgue Integrals and Hilbert
Space, Academic Press,New York and London (1961).
[86] Kosaka N., Uto K., Kosugi Y., ICA-Aided Mixed-Pixel Analysis of Hyperspectral Data in Agricultural Land, IEEE Geoscience and Remote Sensing
Letters, 2, pags. 220-224 (2005).
[87] Kramer H. P., Mathews M. V., A linear coding for transmitting a set of
correlated signalsIRE Trans. Inform. Theory, 23, pags. 4146 (1956).
[88] Kuruoglu E. E. , Bedini L., Paratore M. T., Salerno E., Tonazzini A., Source
separation in astrophysical maps using independent factor analysis, Neural
Networks, 6 (3-4), pags. 479-491 (2003).
[89] Kruse F., Lefko A., Boardman J., Heidebrecht K., Shapiro A., Barloon
P., Goetz A. The spectral image processing system (SIPS) - interactive
visualization and analysis of imaging spectrometer data, Remote Sensing
of Environment, 44, pags. 145-163 (1993).
[90] Kruskal J. B., Toward a practical method which helps uncover the structure of a set of multivariate observations by nding the linear transformation which optimizes a new index of condensation, Statistical Computation,
pags. 427-440, Academic, New York, 1969.
[91] Kruskal J. B., Linear transformation of multivariate data to reveal clustering, Multidimensional Scaling: Theory and Applications in the Behavioral
Sciences, pags. 179-191, Semenir Press, New York-London (1972).
[92] Lee D.T., JPEG 2000: retrospective and new developments, Proc. of the
IEEE, 93 (1), pags. 32-41 (2005).
130
[93] Le Moigne J., Morisette J., Cole-Rhoades A., Netanyahu N. S., Eastman
R., Stone H., Earth science imagery registration, Proc. of International
Geoscience and Remote Sensing Symposium (IGARSS03), Touluse, pags.
161-163 (2003).
[94] Lennon M., Mercier G., Mouchot M. C., Hubert-Moy L., Spectral unmixing of hyperspectral images with the Independent Component Analysis and
wavelet packets, in IEEE Proc. of the International Geoscience and Remote
Sensing Symposium, Sydney, Austrialia, July (2001).
[95] Love M., Probability Theory, Van Nostrand, New York (1963).
[96] Lwdin P-O., A Quantum Mechanical Calculation of the Cohesive Energy,
the Interionic Distance, and the Elastic Constants of Some Ionic Crystals.
I, Ark. Mat. Astr. Fys. 35A, 9, pags. 1-10 (1947).
[97] Luenberger D. G., Optimization by Vector Space Methods, John Wiley &
Sons, Inc. (1997).
[98] Maes F., Vandermeulen D., Suetens P., Medical image registration using
mutual information, Proc. of the IEEE , 91 (10), pags. 1699-1722 (2003).
[99] Mallat S., A Wavelet Tour of Signal Processing, Academic Press Elsevier,
2da Edicin (1999).
[100] Meyer C. D., Matrix Analysis and Applied Linear Algebra, Society for Industrial and Applied Mathematics (SIAM), Philadelphia (2000).
[101] Movahed M. S., Ghasemi F., Rahvar S., Tabar M. R. R., New Computational Approaches to Analysis of CMB Map: The Statistical Isotropy and
Gaussianity, eprint arXiv:astro-ph/0602461 (2006).
[102] Moran P. A. P., A Gaussian Markovian Process on a Square Lattice, J.
Appl. Prob., 10 (1), pags. 54-62 (1973).
[103] Nascimento J. M. P., Bioucas Dias J. M., Does Independent Component
Analysis Play a Role in Unmixing Hyperspectral Data?, IEEE Transactions
on Geoscience and Remote Sensing, 43 (1), pags. 175-187 (2005).
[104] Oja E., Principal components, minor components and linear neural networks, Neural Networks, 5, pags. 927935 (1992).
[105] Oja E., Karhunen J., Hyvrinen A. From neural principal components to
neural independent components, Lecture Notes In Computer Science, 1327,
Proc. of the 7th International Conference on Articial Neural Networks,
Lausanne, Switzerland, pags. 519-528 (1997).
[106] Moghaddam B., Pentland A., Probabilistic Visual Learning for Object Representation, IEEE Trans. on Pattern Analysis and Machine Intelligence, 19
(7), pags. 696-710 (1997).
131
[107] Parzen E., On the estimation of a probability density function and mode,
Annals of Mathematical Statistics, 33, pags.1065-1076 (1962).
[108] Pearson K., On lines and planes of closest t to systems of points in space,
Philosophical Magazine, 2, pags. 559-572 (1901).
[109] Pluim, J. P. W., Fitzpatrick J. M., Image registration, IEEE Transactions
on Medical Imaging, 22 (11), pags. 1341-1343 (2003).
[110] Pratt W. K., Digital Image Processing: PIKS Inside, John Wiley & Sons,
3ra Edicin (2001).
[111] Press W. H., Flannery B. P., Teukolsky S. A., Vetterling W. T., Numerical
Recipes in C: The Art of Scientic Computing, Cambridge University Press,
2da Edicin, Cambridge (1992).
[112] Sarajedini A., Chau P.M., Blind signal separation with a projection pursuit index, Proc. of the 1998 IEEE International Conference on Acoustics,
Speech, and Signal Processing, 1998 (ICASSP 98), pags. 2125-2128 (1998).
[113] Schweinler H. C., Wigner E. P., Orthogonalization Methods, J. Math.
Phys, 11, pags. 1693-1694 (1970).
[114] Shannon C. E., A mathematical theory of communication, Bell System
Tech. J., 27, pags. 379-423, (1948).
[115] Silverman B. W., Density Estimation for Statistics and Data Analysis, Chapman and Hall, New York (1985).
[116] Srivastava V., A unied view of the orthogonalization methods, J. Phys.
A: Math. Gen., 33, pags. 6219-6222 (2000).
[117] Stauer D., Stanley H. E., From Newton to Mandelbrot, Springer-Verlag, 2da
Edicin, New York (1995).
[118] Thevenaz P., Ruttimann U. E., Unser M., A pyramid approach to subpixel
registration based on intensity, IEEE Transactions on Image Processing, 7
(1), pags. 27-41 (1998).
[119] Tong L., Soon V., Huang Y. F., Liu R., Indeterminacy and identiability
of blind identication, IEEE Trans. Circuits and Systems, 38 (5), pags 499509 (1991).
[120] Tong, L. The Multivariate Normal Distribution. New York: Springer-Verlag,
1990.
[121] Tso B., Mather P. M., Classication methods for remotely sensed data, Taylor and Francis, New York (2001).
132
[122] Turk M., Pentland A., Eigenfaces for Recognition, J. Cognitive Neuroscience, 3 (1), pags. 71-86 (1991).
[123] Unser M., Wavelets, Filterbanks, and the Karhunen-Love Transform,
Proc. of the 9th European Signal Processing Conference (EUSIPCO98),
Rhodes, Greece, Sep. 8-11, pags. 1737-1740 (1998).
[124] Vaseghi S. V., Advanced Digital Signal Processing and Noise Reduction, Wiley & Sons, 3ra Edicin, New York (2000).
[125] Voronoi G., Nouvelles applications des paramtres continus la thorie des
formes quadratiques Journal fr die Reine und Angewandte Mathematik,
133, pags. 97-178 (1907)
[126] Vetterli M., Wavelets, Approximation and Compression, IEEE Signal
Processing Magazine, 18 (5), pags. 59-73 (2001).
[127] Wiener N., Extrapolation, Interpolation, and Smoothing of Stationary Time
Series, Wiley, New York (1949).
[128] Xie H., Pierce L. E., Ulaby F. T., Mutual information based registration of
SAR images, Proc. of International Geoscience and Remote Sensing Symposium (IGARSS03), Touluse, pags. 4028-4031 (2003).
[129] Yokoo T., Knight B. W., Sirovich L., L2 De-Gaussianization and Independent Component Analysis. Proc. of ICA 2003, pags. 757-762, 4th International Symposium on Independent Component Analysis and Blind Source
Separation, Nara, Japan (2003).