Está en la página 1de 2

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/319610035

Selección de atributos en clasificación supervisada. Uso de la entropía condicional

Poster · September 2013


DOI: 10.13140/RG.2.2.15476.45446

CITATIONS READS

0 76

3 authors, including:

María del Carmen Romero Julio Alejandro Di Rienzo


National University of the Center of the Buenos Aires Province National University of Cordoba, Argentina
44 PUBLICATIONS   51 CITATIONS    213 PUBLICATIONS   3,615 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Statistical consulting View project

Análisis de las condiciones y factores que limitan/facilitan la conformación y desarrollo de clusters tecnológicos en la región centro de la Pcia. de Buenos Aires View project

All content following this page was uploaded by María del Carmen Romero on 10 September 2017.

The user has requested enhancement of the downloaded file.


Selección de atributos en clasificación
supervisada. Uso de la entropía condicional
M. del C. Romero ,
1 Julio A. Di Rienzo2 y Alejandro Clausse3
1Fac. Cs. Económicas, Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina
2 Estadística y Biometría, Fac. Cs. Agropecuarias, Universidad Nacional de Córdoba, Argentina
3 PLADEMA, Fac. Cs. Exactas, Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina

mariadelc.romero@gmail.com

Introducción Implementación
Los avances tecnológicos de las últimas décadas facilitaron la • Generación de datos de microarreglos de ADN - algoritmo
creación de grandes bases de datos de alta dimensionalidad, lo desarrollado por Di Rienzo, 2006.
cual implica grandes exigencias en la adquisición de los datos, el • Escenarios: 1000 repeticiones para: 1000 genes, 2 tratamientos,
almacenamiento, el mantenimiento, y el procesamiento de los 5 y 10 réplicas biológicas y 5, 10 y 30% de genes diferenciales.
mismos. En 1996, Fayyad y otros, introdujeron la estrategia de • Programa en R.
análisis conocida como descubrimiento de conocimiento en • Package entropy de R (Hausser y Strimmer, 2013).
bases de datos, la cual involucra métodos y técnicas para extraer • Alternativas de discretización (para la aplicación de la entropía
conocimiento de alto nivel a partir de grandes conjuntos de datos condicional): en 2, 5, 10 y 20 intervalos de igual amplitud.
de bajo nivel. Comprende el proceso completo de descubrir
conocimiento a partir de los datos, incluyendo los pasos que van Por cada “simulación” (1000 en total)
- Generar la matriz de expresión génica MEG (Di Rienzo, 2006)
desde la obtención de los mismos hasta la aplicación del
Atributos (genes) = x1, x2, …, xn, n = cantidad de atributos. Clases: C={1,2}
conocimiento adquirido. Lo esencial de este proceso es la
- Seleccionar el subconjunto de atributos diferenciales
minería de datos. Otros autores, como Kantardzic (2011) la Paso 1: Inicializar el conjunto de atributos seleccionados S como vacío:
definen como el proceso en sí mismo. S = {}
La clasificación supervisada es muy usada en contextos de alta Paso 2: Ciclo que se repite mientras se tenga una entropía condicional
dimensionalidad. Pero, los clasificadores convencionales suelen H (clase / (xi  S)) mayor a 0 o mientras no logre mejorarse
producir resultados inestables (sobreparametrización y (disminuirse) la entropía del ciclo anterior
propensión al sobreajuste) en aplicaciones con mayor cantidad Para cada uno de los atributos no incluidos en S, calcular las entropías
de atributos que de observaciones. condicionales de la clase considerando la inclusión de ellos en el
El área genómica es un contexto con las particularidades subconjunto resultante S: H (clase / (xi  S))
descriptas, en el cual la clasificación supervisada suele ser un Seleccionar el atributo xi cuya H (clase / (xi  S)) sea la mínima
objetivo. Ante este requerimiento, se expone un método que usa (conociendo al atributo xi, se tiene menor incertidumbre sobre la clase
la entropía condicional y algunos resultados preliminares. C) y agregarlo al subconjunto S = S  xi

Resultados y Conclusiones
Desarrollo
El comportamiento de la entropía condicional se expone, para
Datos todos los escenarios propuestos, considerando el tamaño
Continuos, provenientes de experimentos con matrices de promedio del subconjunto seleccionado y el porcentaje de
expresión génica. Gran cantidad de atributos (genes), baja atributos seleccionados que efectivamente son diferenciales
cantidad de observaciones (cantidad de tratamientos x cantidad (Tabla 1). Entre las principales conclusiones:
de réplicas) y una fracción pequeña de genes diferenciales. • En la mayoría de los casos, la entropía condicional de la clase
Las “clases” hacen referencia a los
dado el subconjunto de atributos seleccionados es 0.
Clase 1 Clase 2 tratamientos. • Mayor cantidad de intervalos en los cuales se discretiza, menor
Las “réplicas” a la cantidad de individuos
R11 R12 R13 R21 R22 R23 (perfiles genéticos) que hay dentro de cada tamaño del subconjunto seleccionado y mayor porcentaje de
grupo. Rij donde i indexa la clase y j la
1 Y111 Y121 Y131 Y211 Y221 Y231
repetición dentro de la clase. atributos efectivamente diferenciales.
2 Y112 Y122 Y132 Y212 Y222 Y232
Gen
… … … … … … …
Las expresiones génicas están denotadas por
Yijk, i indexa la clase, j la réplica y k indexa al
• Mayor cantidad de réplicas, mayor tamaño del subconjunto y
N Y11N Y12N Y13N Y21N Y22N Y23N gen. mayor porcentaje de atributos efectivamente diferenciales.
• Mayor porcentaje de atributos diferenciales, menor tamaño del
Medida de Evaluación: Entropía Condicional subconjunto de atributos seleccionados y mayor porcentaje de
Entropía: cantidad media de información que es necesario atributos efectivamente diferenciales.
proveer para no tener incertidumbre sobre una fuente Tabla 1. Tamaño promedio del subconjunto seleccionado (tamaño) y Porcentaje de atributos
determinada: seleccionados que efectivamente son diferenciales (%dif)

X: variable aleatoria, p (xi): probabilidad de ocurrencia de Discretización en 2 intervalos Discretización en 5 intervalos


𝐻 𝑋 =− 𝑝 𝑥𝑖 . 𝑙𝑜𝑔2 𝑝(𝑥𝑖 ) cada uno de sus valores y el logaritmo en base 2 considera
que la información se representará mediante código binario 5 réplicas 10 réplicas 5 réplicas 10 réplicas
𝑖 (bits)
Tamaño % dif Tamaño % dif Tamaño % dif Tamaño % dif
Entropía condicional: entropía que tiene una determinada variable 5% dif 3.37 24.07 4.85 26.20 2.71 44.45 4.49 51.28
10% dif 3.34 30.52 5.30 38.14 2.66 54.37 4.56 67.51
Y (en el caso de la aplicación, el tratamiento) conociendo la
30% dif 2.93 52.45 5.01 57.68 2.32 74.07 3.90 85.21
información que aporta otra variable X (genes).
Discretización en 10 intervalos Discretización en 20 intervalos

𝐻 𝑌/𝑋 = − 𝑝 𝑥 𝑝 𝑦/𝑥 . 𝑙𝑜𝑔2 𝑝(𝑦/𝑥) 5 réplicas 10 réplicas 5 réplicas 10 réplicas


Tamaño % dif Tamaño % dif Tamaño % dif Tamaño % dif
𝑥 𝑦
5% dif 2.44 64.30 3.71 72.88 1.89 73.00 2.67 77.75
10% dif 2.08 65.75 3.49 82.80 1.62 76.67 2.22 84.08
Si la entropía (incertidumbre) del tratamiento disminuye por 30% dif 1.88 82.5 2.77 92.58 1.31 93.50 1.99 85.33
el conocimiento de algún gen, dicho gen es relevante para la
distinción entre tratamientos Los resultados resultan ser preliminares, se prevé la generación
de contextos con mayor cantidad de atributos de diferentes
Algoritmo escalas de medición para evaluar el rendimiento de la medida
El objetivo es generar un subconjunto de atributos que permita la propuesta y el uso de técnicas de validación cruzada.
clasificación supervisada (basado en la entropía condicional).
El algoritmo consiste en agregar incrementalmente al
subconjunto de atributos seleccionados aquéllos que minimicen
Referencias
la entropía condicional de la clase. Esta evaluación se realiza [1] Di Rienzo, J. y Romero, M. (2006). “Simulación de matrices de expresión génica de experimentos con
micromatrices de ADN”. Jornadas Internacionales de Estadística. Rosario, Argentina.
considerando los atributos ya ingresados en dicho subconjunto y [2] Fayyad, U.; Piatetsky-Shapiro, G. y Smyth, P. (1996). “From Data Mining to Knowledge
Discovery in Databases”. Artificial Intelligence Magazine, 17(3): 37-54.
el ciclo termina cuando se obtiene una entropía igual a 0 o [3] Hauser, J. y Strimmer, K. (2013). Package Entropy: Estimation of Entropy, Mutual Information and Related
Quantities. R package, versión 1.2.0. Versión obtenida en abril de 2013. http://strimmerlab.org/software/entropy
cuando no logra mejorarse la entropía del ciclo anterior. [4] Kantardzic, M. (2011). Data Mining: Concepts, Models, Methods, and Algorithms. IEEE
Press & John Wiley. Segunda Edición. Agosto, 2011.

View publication stats

También podría gustarte