Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Recibido para revisión 24 de Noviembre de 2004, aceptado 29 de Agosto de 2005, versión final recibida 7 de Abril de
2004
RESUMEN: Un nuevo método para la selección de atributos relevantes basado en Información Mutua es
presentado. Este se basa en el concepto de probabilidad de relevancia de cada atributo, el cual es medido a
través de una prueba de permutación, y permite descartar variables irrelevantes así como ordenar por
importancia aquellas relevantes. La metodología propuesta es probada usando tres problemas de clasificación
bien conocidos. Igualmente, se realiza una investigación con miras a esclarecer su robustez cuando las
variables relevantes están contaminadas con ruido, o existen variables aleatorias artificiales irrelevantes. Los
resultados indican las bondades de la metodología propuesta, por lo que se sugiere que ella debe ser una
parte integral de las herramientas usadas en la selección de características relevantes.
ABSTRACT: A new method for relevant attribute selection based on Mutual Information is presented. It is
based on the concept of relevance probability of each attribute, which is measured using a permutation test,
and it allows to discard irrelevant variables thus as to order by importance the relevant variables. The
proposed methodology is tested using three well know classification problems. Also, a research is conducted
to clarify its performance when the relevant variables are contained with noise, or there are irrelevant artificial
random variables. The results show the success of the proposed methodology, by which it is recommended its
use as integral part of the tools used in relevant attribute selection
Dyna, Año 73, Nro. 149, pp. 149-163. Medellín, Julio de 2006. ISSN 0012-7353
150 Cardona et al
observación de particularidades de los objetos medida de error M, entre los resultados del
llamados atributos o características (Koller y clasificador y las clases C, tal que:
Sahami, 1996). Las categorías a las que
pertenecen los objetos pueden estar definidas
están definidas sobre el mismo espacio de tiene fácil solución debido a que se trabaja
probabilidad, se expresan como: con sumatorias, donde las probabilidades son
estimadas desde el conteo de frecuencia en
H ( X , Y ) = − ∑ ∑ p ( x , y ) log p ( x , y ) (4) los datos.
x∈ X y ∈Y
Algunas propuestas que usan IM de alguna
La entropía condicional representa la manera para la selección de características
incertidumbre que se tiene sobre Y cuando se relevantes pueden ser encontradas en
conoce el valor de X: Bonnlander (1996), Battiti (1994), Kwak y
Choi (2002) y Hall (1999).
H (Y / X ) = ∑ p ( x ) H (Y / X = x )
x∈ X
(5) 4 ESTIMACIÓN DE LA FUNCIÓN DE
= − ∑ p ( x ) ∑ p ( y / x ) log p ( y / x )
x∈X y∈Y DENSIDAD DE PROBABILIDAD
(FDP)
Si se sabe que:
La FDP es un modelo matemático que
I ( X ; Y ) = H ( X ) + H (Y ) − H ( X / Y ) (6) describe el comportamiento probabilístico de
una variable aleatoria. Las funciones
utilizadas como estimadores (Wilfahrt, 2002),
Entonces la IM es:
deben cumplir las propiedades de verdadera
p ( x, y ) densidad, consistencia y adicionalmente
I (X ;Y )= ∑ p ( x , y ) log (7)
x∈X , y∈Y p( x) p( y ) deben ser insesgados.
A partir de la definición para el caso discreto, Existen dos tipos de acercamientos para
es fácil entender que la definición de IM para llevar a cabo la estimación de la FDP, ellos
el caso continuo es: son los métodos paramétricos y los no
paramétricos. Los primeros consideran que la
FDP que se desea estimar pertenece a una
( )
p( x , y)
I ( X ; Y ) = ∫ ∫ p x , y log dxdy (8) determinada clase de funciones paramétricas
x y p( x ) p y ( ) como la distribución normal, exponencial,
poisson, etc. Bajo esta suposición, la
La IM mide indirectamente la relación entre estimación se reduce a determinar el valor de
el conjunto de variables supuestamente los parámetros del modelo a partir de la
explicativas X y la variable de salida Y, a muestra. Este método solo es útil cuando la
través de la medida de la distancia entre la distribución subyacente es conocida de
distribución conjunta actual de los datos antemano e impone una estructura a la
p(xi,y) y la distribución que ellos tendrían si xi función que puede conducir a inferencias y
y y fueran independientes, esto es p(xi,y) = predicciones incorrectas.
p(xi)p(y) en el caso de independencia lineal.
Dicha medida es conocida como la distancia Los métodos no paramétricos, a diferencia de
de Kullback-Leiber. los paramétricos, no exigen a priori la
especificación de una forma de la FDP, en su
El cálculo o estimación de la IM debe salvar lugar tratan de estimarla dejando que los
un serio obstáculo como es la estimación de datos “hablen” por sí mismos. Es por lo
las funciones de densidad p(xi), p(y) y p(xi,y) anterior, que son más consistentes y flexibles
las cuales son desconocidas a priori y deben bajo una menor cantidad de suposiciones
ser estimadas de los datos mismos. Para restrictivas, cuando son comparados con las
superar este problema, los valores deben funciones obtenidas mediante los métodos
discretizarse o aproximar sus densidades con paramétricos (Bonnlander, 1996).
métodos paramétricos o no paramétricos. En
el caso de variables discretas, este problema
Dyna 149, 2006 153
Se ha demostrado la imposibilidad de
existencia de un estimador que cumpla la
propiedad de verdadera densidad y que sea
insesgado para todas las propiedades
continuas, esto ha hecho que se centre la
atención en secuencias de estimadores no
paramétricos que sean asintóticamente
insesgados, es decir, que la esperanza de la
estimación tienda a la función verdadera
cuando el tamaño de la muestra tiende a
infinito.
d 3
∑ K (( xi − x ) / h )
1
fˆ ( x ) = (9) ∏ (1− x 2 ) para | x|<1
nh 4
K ( x ) = i =1 (10)
0
Donde K es la función núcleo o kernel, n es el de otra forma
número de observaciones, h es el ancho de
ventana escogido para la función núcleo, xi es
el elemento número i en el grupo de datos. En la búsqueda del mejor tamaño de
ventana se trata de minimizar el error
El estimador de núcleo puede interpretarse absoluto o minimizar el error cuadrático de la
como una suma de protuberancias situadas estimación. Con base en la minimización de
en cada una de las observaciones. Esto puede alguno de estos errores, se han propuesto
verificarse en la Figura 1. La función núcleo diversas metodologías que tratan de
K determina la forma de las protuberancias, determinar el tamaño óptimo de ventana,
mientras el parámetro h determina el ancho y algunas de ellas son validación cruzada de
nivel de suavizamiento de la función mínimos cuadrados, validación de máxima
obtenida como estimativo. La función núcleo verosimilitud, distribución estándar, métodos
más comúnmente utilizada es la plug-in y bootstrapping.
Epanechnikov, aunque se utilizan otras como A pesar de que los dos últimos métodos
Biweight, Triweight, Triangular y Gauss. presentan los mejores resultados, sus altos
costos computacionales los hacen
Cuando se utiliza el estimador de núcleo se prohibitivos, por lo cual uno de los métodos
obtienen estimaciones de FDP continuas y más comúnmente usados es el que utiliza el
diferenciables, aunque se tiene un nuevo reto criterio de verosimilitud. La idea básica en
como es la elección del ancho de ventana h este método es escoger un h que maximice el
que se utilizará, una tarea compleja que valor de verosimilitud:
requiere de un juicioso análisis.
154 Cardona et al
( )
n
log L = ∑ log f xi (11)
i =1 Cn p ( x , y / y = Ci )
I(X;Y) = ∑ ∫ p ( x , y / y = Ci ) log dx
y∈C1 x p ( x ) p ( y / y = Ci )
Un estimativo para log L es:
(14)
( )
n
log L = ∑ log fˆ xi = log L ( h ) (12) De igual forma, en el proceso de estimación
i =1
de la FDP, se propone utilizar el método de
histograma para encontrar soluciones
Donde fˆ ( xi ) es un estimador de densidad aproximadas de las integrales que deben
de f y depende de h. resolverse.
valor y como punto extremo, el punto agregada a los patrones de ejemplo, por lo
extremo antes obtenido. que estos atributos pueden ser descartados.
relevantes; y en el grupo Sonar pueden mayores valores de IM, es aquí en este punto,
considerarse relevantes cerca de veinte donde la prueba de umbral prestó una valiosa
variables, pero solo se tuvieron en cuenta las colaboración ayudando a determinar el límite
primeras doce. Para tomar la decisión de entre variables relevantes y no relevantes.
cuales variables eran más relevantes, se tuvo
en cuenta los resultados de la prueba de Cuando se comparan los resultados de
permutación en unión con los resultados clasificación obtenidos por medio de la IM
obtenidos en la prueba de umbral. con los reportados por Kwak y Choi (2003),
Tabla 2, usando el método Taguchi con IM,
(a) Ionosphere puede notarse como en términos generales, se
presenta un mejor desempeño del método
1
0, 4
tenerse presente que el clasificador utilizado
0, 2 por ellos fue un perceptrón multicapa con 3
0
neuronas ocultas, 300 épocas y 0.5 de tasa de
NUM E RO DE V A RI A B LE
aprendizaje, lo cual hace que no se pueda
tener una base de comparación equitativa.
(b) Iris Plant Los resultados obtenidos en este trabajo, así
1
como el de Kwak y Choi (2003), muestran
0, 8
0, 6
que aumentar el número de atributos
0, 4 relevantes para el clasificador, no
0, 2
0 necesariamente redundan en un mejor
1 2 3 4 5
NUM E RO DE V A RI A B LE
desempeño de este; por el contrario, puede
llegarse a clasificadores con desempeños
mucho más pobres. Lo anterior es
congruente con Koller y Sahami (1996),
(c) Sonar cuando afirman que características
redundantes e irrelevantes pueden causar
problemas a los algoritmos de aprendizaje,
IMPORTANCIA RELATIVA
0,98
0,96
dado que pueden eclipsar el pequeño
0,94 subconjunto de variables relevantes que
0,92
0,9
poseen la información más valiosa, haciendo
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
1
Figura 2. Importancia relativa de las variables de Se llevó a cabo una prueba complementaria
entrada respecto a las más importantes desde el que permitiera medir la capacidad de la IM
punto de vista de la IM. para encontrar relación entre las variables de
Figure 2. Relative importance for the input entrada y la variable de salida de funciones
variables related to the most important using MI. no lineales con diferentes grados de
complejidad, cuando ellas presentaban y
En la prueba de permutación, Figura 4, puede carecían de señales de ruido. Con este fin se
observarse que algunas variables tienen un utilizaron las funciones Aditiva, Harmónica,
desempeño óptimo (100% de eficiencia o Interacción Simple, Interacción Complicada y
cercano a él), mientras que para otras no Radial, propuestas por Hwang et al. (1994).
sucedió así (0%), por lo cual las ultimas se
consideran totalmente irrelevantes. Dado que
se presentaban muchas variables con un
óptimo desempeño, se tuvo en cuenta
aquellas variables que presentaban los
158 Cardona et al
1
0,8
conclusiones:
0,6
0,4
0,2 La capacidad de la IM para detectar la
0
relevancia de variables es robusta ante la
11
13
15
17
19
21
23
25
27
29
31
33
35
1
NÚMERO DE VARIABLE
complejidad de las relaciones entre los
atributos. Esto puede corroborarse, al
observar que para todas las variables sin
(b) Iris Plant ruido, la prueba de permutación indica
relevancias cercanas al 100%,
IMPORTANCIA RELATIVA
1
0,8
0,6
independientemente de la complejidad de la
0,4 función.
0,2
0
1 2
NÚMERO DE VARIABLE
3 4
A medida que aumenta el ruido adicionado a
las variables, la prueba de permutación indica
un aumento de la probabilidad de encontrar
(c) Sonar combinaciones aleatorias entre las variables
independientes y la variable dependiente que
IMPORTANCIA RELATIVA
4
7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
Figura 3. Importancia relativa de las variables de Ante variables contaminadas con ruido, la IM
entrada respecto a la más importante cuando se es más robusta en la medida de que la función
usa MARS generadora de la variable dependiente sea
Figure 3. Relative importance for the input menos lineal. Es así como para la función
variables selected by MARS Aditiva, ante niveles de ruido del 100% la
probabilidad de relevancia es muy cercana a
la unidad; mientras que para la función
Para iniciar la prueba, cada una de las cinco Radial, dicha probabilidad se reduce a un
funciones fue evaluada en los mismos 225 valor cercano al 50%.
puntos aleatorios del plano en el intervalo [0 ,
1]X[0 , 1] . Se adicionó a cada una de las
variables un ruido aleatorio modelado como 7 CONCLUSIONES
una distribución normal de varianzas iguales
a la unidad, 0.5 y 0.05. Ello implica que si la El problema de la selección de características
varianza de las variables independientes es relevantes depende del clasificador y de las
unitaria, se están adicionando ruidos características. Cuando se intenta realizar la
equivalentes al 100%, al 50% y 5% de su selección de características conjuntamente
varianza. De esta forma, se obtuvieron ocho con la clasificación, el problema aumenta en
variables para las que se calculó la IM con complejidad debido a que es más difícil
respecto al valor evaluado de su comprobar mayor cantidad de variables y
correspondiente función. Para finalizar, se estimar los parámetros del clasificador al
realizó una prueba de permutación de la mismo tiempo. Es así como los métodos
variable de salida de la misma forma que se destinados a la eliminación de variables no
hizo en la selección de características relevantes y clasificación por contenido de
relevantes. Los resultados obtenidos cuando información, permiten romper este problema
en dos más simples, tal que se pueda
Dyna 149, 2006 159
0, 400
NÚM E RO DE V A RI A B LE
1
TASA DE MAYOR
0,8
información de una está contenida en la otra. 0,6
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
1
Tabla 2. Tasas de clasificación correcta usando diferentes métodos de selección de características relevantes.
(SIMU: IM Uniforme como selector de características, TSIM: Método de Taguchi con IM como selector de
características, TSIMU: Método Taguchi con IM Uniforme como selector de características).
Table 2. Rate of corrected clasification using several methods for feature selection. (SIMU: Uniform using
IM as method of selection, TSIM: Taguchi method using IM for feature selection, TSIUM: Taguchi method
using uniform IM).
CANTIDAD DE * SIMU
5 7 3 3 0,87 0,91
0,93
IONOSPHERE 5 7 3 27 1 5 0,92 0,91
0,93
5 7 3 27 1 9 15 23 33 21 10 0,91 0,92
0,92
5 27 2 0,93
4 1 0,95
3 4 2 0,95
1 2 3 4 4 0,97
4 1 0,95
10 36 49 3 0,75
Tabla 3. Tasa en que la IM calculada inicialmente es mayor que la IM obtenida en 1000 permutaciones de la
variable de salida. (X = Abscisa, Y = Ordenada, R1 = Ruido con distribución N(0,1), R2 = Ruido con
distribución N(0,0.5), R3 = Ruido con distribución N(0,0.05)).
Table 3. Frequency in that the IM calculated from the original dataset is higher than the IM estimated in 1000
permutations of the dependent variable. (X = Abscise, Y = Dependent variable, R1 = random noise with
distribution N(0,1), R2 = random noise with distribution N(0,0.5), R3 = random noise with distribution
N(0, 0.005)).
[25] SHANNON C.E. & WEAVER W. En: Economics Bulletin. Vol. 3, No.16.
1949. The Mathematical Theory of p.1-10.
Communication. Urbana, IL: University [30] TORKKOLA K. 2003. Feature
of Illinois Press. extraction by non-parametric mutual
[26] SIGILLITO V., WING S., HUTTON information maximization. En: Journal
L. & BAKER K. 1989. Classification of of Machine Learning Research. Vol 3; p.
radar returns from the ionosphere using 1415-1438.
neural networks. En: Johns Hopkins [31] TORKKOLA K. & CAMPBELL W.
APL Technical Digest. Vol 10; p. 262- 2000. Mutual information in learning
266. feature transformations. En: Proceedings
[27] SILVERMAN B. W. 1986. Density of the 17th International Conference on
estimation for statistics and data analisys. Machine Learning, Stanford, California.
London: Chapman and Hall. p. 1015-1022.
[28] STOPPIGLIA H., DREYFUS G., [32] WAND M. & JONES M. 1995.
DEBOIS R. & OUSSAR Y. 2003. Monographs on Statistics and Applied
Ranking a random feature for variable Probability. New York: Chapman and
and feature selection. En: Journal of Hall.
Machine Learning Research. Vol 3; p. [33] WILFAHRT R. 2002. An Analysis
1399-1414. of Feature Subset Selection Methods.
[29] TAKADA T. 2001. Nonparametric En: Computer Science Seminar Fall,
density estimation: A comparative study. University of Minnesota.