Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fusión de Datos
Fusión de Datos
3. Fusin de datos
3.1 Definicin
La fusin de datos (DF: Data fusin) de mltiples fuentes es un compendio de tcnicas
multidisciplinares, anlogas al proceso cognitivo que realizamos los humanos, para
integrar los datos de mltiples sensores (sentidos) con el fin de realizar inferencias sobre
el mundo exterior, convergiendo en un conjunto de resultados (reaccin).
As la fusin de datos pretende obtener un resultado de mejor calidad, a partir de
mltiples sensores, eventualmente heterogneos, realizando inferencias que pueden no
ser posibles a partir de uno solo. Teniendo mltiples aplicaciones tanto en el mundo
militar, reconstitucin de imgenes, diagnosis mdica y en la ltima dcada en el mundo
del transporte (Klein 2001; Hall y McMullen 2004).
17
D. Abeijn (2007) FUSION DE DATOS
18
D. Abeijn (2007) FUSION DE DATOS
N0 N1 N2 N3
Pre-proceso Evaluacin Evaluacin de Evaluacin
de las fuentes del objeto la situacin del futuro
N5
Fuentes Refin.
cognitivo
Sin considerar que tienen la entidad de los niveles antes mencionados hay que tener en
cuenta tambin:
19
D. Abeijn (2007) FUSION DE DATOS
20
D. Abeijn (2007) FUSION DE DATOS
21
D. Abeijn (2007) FUSION DE DATOS
3.3.2.1 Probabilstica
Es el modelo de lgica matemtica ms difundido y tambin el que cuenta con una base
terica ms potente, basada en la teora clsica de la probabilidad. Pero la determinacin
de las funciones de distribucin de probabilidades y de las probabilidades
condicionales, a travs de mtodos empricos o estocsticos, imponen hiptesis muy
restrictivas, poco crebles en problemas complejos.
Por otro lado esa potencia de la base terica permite tener poca complejidad
computacional.
Las Leyes clsicas de probabilidad y Bayes son las tcnicas de fusin con base
probabilstica.
3.3.2.2 Evidencial
La lgica evidencial define (a diferencia de la probabilidad) probabilidades no aditivas
como nocin general para la suposicin lgica y la probabilidad. La idea es aumentar la
lgica proposicional standard considerando un operador que representa el estado de
conocimiento que un agente racional tiene del mundo. Las probabilidades son as
definidas sobre el universo de operadores de todas las sentencias, y est argumentado
que esta es la mejor informacin disponible para el analista.
Dempster-Shafer y la Teora evidencial generalizada son las tcnicas de fusin con base
evidencial.
3.3.2.2 Difusa
La lgica difusa nace en un artculo de L.A. Zadeh publicado en 1965, titulado Fuzzy
Sets. Aparece como respuesta a la lgica clsica bivalente, permitiendo representar de
forma matemtica conceptos o conjunto imprecisos. Incluyndose as en la lgica
multivaluada, admitiendo varios valores como verdades posibles.
Los Conjuntos difusos y algunos operadores Hbridos de Inteligencia artificial son las
tcnicas de fusin con esta base lgica.
3.3.3.1 Bayes
Esta tcnica de inferencia, que utiliza la lgica probabilstica, est basada en la regla de
Bayes, y pertenece as a los algoritmos que usan conocimientos a priori (razonamiento
22
D. Abeijn (2007) FUSION DE DATOS
causa efecto) sobre el espacio de observacin para realizar inferencias sobre la identidad
de los objetos. La inferencia bayesiana provee un mtodo para calcular la veracidad de
la probabilidad condicional o a posteriori (razonamiento efecto causa) de una hiptesis
dada (Klein 2001).
Si E es el evento a evaluar, y x1 y x 2 los elementos de informacin dados por dos
sensores, a partir del Teorema de Bayes obtenemos (Bloch 96):
p( x 2 | E , x1 ) p(E | x1 )
p(E | x1 , x 2 ) = p( E )
p( x 2 | x1 )
p ( x 2 | E , x1 ) p( x1 | E ) p 2 (E )
=
p ( x 2 | x1 ) p ( x1 )
p ( x 2 | E , x1 ) p( x1 | E ) p 2 (E )
=
p ( x 2 | x1 ) p ( x1 )
p 2 (E )
= p ( x 2 | E , x1 ) p ( x1 | E ) [4]
p ( x1 , x 2 )
Esta ecuacin relativamente compleja, se puede simplificar suponiendo que nuestras
fuentes y sus datos son independientes entre ellos. Quedando as:
p ( x 2 | E ) p ( x1 | E ) p 2 (E )
p(E | x1 , x 2 ) = [5]
p ( x1 ) p ( x 2 )
Si deseamos generalizarlo para un nmero n de elementos de informacin, obtenemos:
p ( x n | E , x1 ,K , x n 1 )L p ( x1 | E ) p n (E )
p(E | x1 ,K , x n ) = [6]
p ( x1 ,K , x n )
Si esta expresin no depende del orden en que se reciben los elementos de informacin,
podemos simplificar la ecuacin [6], ya que dada la complejidad de entrenamiento de
las diferentes fuentes resulta conveniente:
n
p (x | E ) i
p(E | x1 ,K , xn ) = p (E )
2 i =1
n
[7]
p(x )
i =1
i
Si definimos = {E1 ,K, E r }como el conjunto de eventos a evaluar (El Faouzi 2005)
podemos tomar la decisin final segn los siguientes criterios:
1. Regla de mxima probabilidad a posteriori: El estado ms probable es aquel con
la mayor probabilidad a posteriori.
E k = arg max 1i r {p (Ei | x1 , K , x n )} [8]
23
D. Abeijn (2007) FUSION DE DATOS
X1
Fuente 1 p ( x1 | Ei )
Formula
combinatoria de
Bayes
X2 Lgica
Fuente 2 p (x2 | Ei ) de Resultado
p ( Ei | x1 , K , x n )
decisin Fusin
para i = 1, K , r
Xn
Fuente n p (xn | Ei )
3.3.3.2 Dempster-Shafer
La inferencia Dempster-Shafer, algoritmo de fusin de datos basado en la lgica
evidencial, se utiliza cuando a la suma de informaciones aportada por las fuentes de
datos no se les puede asociar el 100% de la probabilidad de certeza. El algoritmo
captura y combina la certeza o conocimiento existente usando la regla de Dempster,
que encuentra la interseccin o conjuncin de los eventos identificados por las fuentes
de informacin y sus probabilidades asociadas (Klein 2001).
La informacin del sensor i est representada por la funcin de masa (o credibilidad)
mi [0,1] que asigna valores a cada uno de los subconjuntos del conjunto de
24
D. Abeijn (2007) FUSION DE DATOS
1 si A = D
donde A, B1 , K , Bn son subconjuntos de D y k , que se puede interpretar como la
medida de conflicto entre fuentes, resulta:
k = m1 (B1 )m2 (B2 )L mn (Bn ) [11]
Altos valores de k representan un grado de conflicto alto entre las fuentes, dando
tambin una indicacin de la exhaustividad del conjunto de discernimiento D . As debe
tenerse en cuenta a la hora de evaluar la calidad de la combinacin, ya que cuando el
valor sea muy alto, la combinacin normalizada (Siendo 1 k el factor de
normalizacin) tomar decisiones cuestionables que no podrn apoyar conclusiones
aceptables (El Faouzi 2005).
Podemos definir adems la credibilidad, la plausibilidad y la comunalidad como:
Comi ( A) = m (B ) i [12]
A B
donde
Pl ( A) = m(B ) = 1 Cre(A)
B A =
[15]
25
D. Abeijn (2007) FUSION DE DATOS
Fuente 1 Def. de
m
Combinacin de Lgica
Fuente 2 Def. de las funciones de de Resultado
m masa con la regla decisin Fusin
de Dempster
Fuente n Def. de
m
26
D. Abeijn (2007) FUSION DE DATOS
1. Operadores ICC
Las tres familias de operadores que se comportan segn estos parmetros son:
las normas triangulares (T-norma), las conormas triangulares (T-conorma) y los
operadores medios.
Un ejemplo de T-norma es min( x, y ) . As si definimos i como T-norma, que
tiene un comportamiento severo:
( x, y ) I 2 , i ( x, y ) min (x, y ) [20]
Un ejemplo de T-conorma es max( x, y ) . As si definimos u como T-conorma,
que tiene un comportamiento indulgente:
( x, y ) I 2 , u ( x, y ) max ( x, y ) [21]
Un ejemplo de operador medio es la media aritmtica. As si definimos m como
operador medio, que tiene un comportamiento prudente:
( x, y ) I 2 , min ( x, y )m( x, y ) max( x, y ) [22]
2. Operadores ICV
3. Operadores DC
27
D. Abeijn (2007) FUSION DE DATOS
Clasificacin segn
Lgica Operador matemtico Comportamiento del operador
el comportamiento Tcnica de fusin
matemtica especfico especfico
del operador
Medio Prudente
Conjuntos difusos Difusa Operador dependiente del Severo si las fuentes son
conflicto consonantes
Prudente si el conflicto es
parcial
(Operador DC)
28
D. Abeijn (2007) FUSION DE DATOS
Fusin de Agregacin
datos de modelos
Integracin
de datos
29
D. Abeijn (2007) FUSION DE DATOS
Figura 6: Relacin del nmero de fuentes con el rendimiento del sistema. Fuente: Nahum y Pokoski
30
D. Abeijn (2007) FUSION DE DATOS
31
D. Abeijn (2007) FUSION DE DATOS
Ventajas Limitaciones
Tambin hay que considerar el esfuerzo de clculo y memoria que supone la gestin de
un sistema de mltiples fuentes de datos y su consiguiente fusin. Si bien, segn Hall y
McMullen (2004), la mayor parte del esfuerzo se emplea en la gestin de los datos.
20
Porcentaje del Software total
15
10
Display especial
Control del Hardware
Procesamiento datos
Control de procesos
Gestin de datos
Comunicaciones
Interfaz usuario
Fusin de datos
Sistema Op.
Figura 7: Perfil del software requerido para un sistema de fusin de datos. Fuente: Hall y McMulen
32
D. Abeijn (2007) FUSION DE DATOS
33
D. Abeijn (2007) FUSION DE DATOS
Por otra parte Weizhong Zheng, Lee y Shi, investigadores de Singapur y China, han
realizado predicciones de flujos de trfico mediante inferencia bayesiana sobre
estructura neural a partir de una nica fuente, obteniendo resultados superiores que
redes neurales simples en el 85% de los casos.
Desde Francia se ha apostado por sistema de fusin de datos ms sencillos desde el
punto de vista conceptual. As El Faouzi y sus colaboradores (2000 y 2005) han optado
por la inferencia evidencial de Dempster-Shafer que consideran una generalizacin de la
teora de Bayes. Obteniendo con el primer mtodo resultados superiores al de Bayes y al
de tcnicas habituales en una va de Toulouse, a partir de lectura de matrculas y de
espiras inductivas.
Aparte, los operadores de autopistas franceses AREA, ASF. ESCOTA y SAPN estn ya
utilizando o estudiando sistemas de fusin de datos para el clculo de tiempos de viaje
en sus vas (AREA 2006; Guiol y Schwab 2006; Ferr).
Suecia y Escocia a travs de sus direcciones generales de trfico SRA (Sweden Road
Administration) y Transport Scottland estn estudiando detalladamente, desde 2001, la
implantacin de la fusin de datos para la obtencin de tiempos de viaje. Escocia utiliza
en sus pruebas (en la A1 en los alrededores de Edimburgo) hasta 4 fuentes (telefona
mvil, espiras inductivas, coche flotante y lectura de matrculas) donde destacan por su
fiabilidad la telefona mvil y la lectura de matrculas (Peterson 2006; Scott 2006).
En Alemania dgg, empresa perteneciente al grupo T-Systems, ha desarrollado un
software capaz de inferir difusamente sobre las variables del trfico para la obtencin
del estado de congestin, utilizando adems dominios de definicin dinmicos. Ahora
estn estudiando evolucionar dicho software para obtener las demoras debidas a la
congestin, utilizando para ello informacin proporcionada por las espiras inductivas y
coches flotantes.
Por su parte, en Holanda, van Lint, Hoogendoorn y van Zuylen (2005) utilizan redes
neurales para la prediccin de tiempos de viaje con datos faltantes, obteniendo
resultados satisfactorios a pesar de la falta de datos.
Park y Lee (2004), ambos coreanos, han obtenido tiempos de viaje en ambiente urbano
mediante la implementacin de redes neurales e inferencia bayesiana, ambos de forma
independiente, a partir de espiras inductivas y coche flotante. Considerando en ambos
casos prometedores los resultados.
34