Documentos de Académico
Documentos de Profesional
Documentos de Cultura
net/publication/319610035
CITATIONS READS
0 76
3 authors, including:
Some of the authors of this publication are also working on these related projects:
Análisis de las condiciones y factores que limitan/facilitan la conformación y desarrollo de clusters tecnológicos en la región centro de la Pcia. de Buenos Aires View project
All content following this page was uploaded by María del Carmen Romero on 10 September 2017.
mariadelc.romero@gmail.com
Introducción Implementación
Los avances tecnológicos de las últimas décadas facilitaron la • Generación de datos de microarreglos de ADN - algoritmo
creación de grandes bases de datos de alta dimensionalidad, lo desarrollado por Di Rienzo, 2006.
cual implica grandes exigencias en la adquisición de los datos, el • Escenarios: 1000 repeticiones para: 1000 genes, 2 tratamientos,
almacenamiento, el mantenimiento, y el procesamiento de los 5 y 10 réplicas biológicas y 5, 10 y 30% de genes diferenciales.
mismos. En 1996, Fayyad y otros, introdujeron la estrategia de • Programa en R.
análisis conocida como descubrimiento de conocimiento en • Package entropy de R (Hausser y Strimmer, 2013).
bases de datos, la cual involucra métodos y técnicas para extraer • Alternativas de discretización (para la aplicación de la entropía
conocimiento de alto nivel a partir de grandes conjuntos de datos condicional): en 2, 5, 10 y 20 intervalos de igual amplitud.
de bajo nivel. Comprende el proceso completo de descubrir
conocimiento a partir de los datos, incluyendo los pasos que van Por cada “simulación” (1000 en total)
- Generar la matriz de expresión génica MEG (Di Rienzo, 2006)
desde la obtención de los mismos hasta la aplicación del
Atributos (genes) = x1, x2, …, xn, n = cantidad de atributos. Clases: C={1,2}
conocimiento adquirido. Lo esencial de este proceso es la
- Seleccionar el subconjunto de atributos diferenciales
minería de datos. Otros autores, como Kantardzic (2011) la Paso 1: Inicializar el conjunto de atributos seleccionados S como vacío:
definen como el proceso en sí mismo. S = {}
La clasificación supervisada es muy usada en contextos de alta Paso 2: Ciclo que se repite mientras se tenga una entropía condicional
dimensionalidad. Pero, los clasificadores convencionales suelen H (clase / (xi S)) mayor a 0 o mientras no logre mejorarse
producir resultados inestables (sobreparametrización y (disminuirse) la entropía del ciclo anterior
propensión al sobreajuste) en aplicaciones con mayor cantidad Para cada uno de los atributos no incluidos en S, calcular las entropías
de atributos que de observaciones. condicionales de la clase considerando la inclusión de ellos en el
El área genómica es un contexto con las particularidades subconjunto resultante S: H (clase / (xi S))
descriptas, en el cual la clasificación supervisada suele ser un Seleccionar el atributo xi cuya H (clase / (xi S)) sea la mínima
objetivo. Ante este requerimiento, se expone un método que usa (conociendo al atributo xi, se tiene menor incertidumbre sobre la clase
la entropía condicional y algunos resultados preliminares. C) y agregarlo al subconjunto S = S xi
Resultados y Conclusiones
Desarrollo
El comportamiento de la entropía condicional se expone, para
Datos todos los escenarios propuestos, considerando el tamaño
Continuos, provenientes de experimentos con matrices de promedio del subconjunto seleccionado y el porcentaje de
expresión génica. Gran cantidad de atributos (genes), baja atributos seleccionados que efectivamente son diferenciales
cantidad de observaciones (cantidad de tratamientos x cantidad (Tabla 1). Entre las principales conclusiones:
de réplicas) y una fracción pequeña de genes diferenciales. • En la mayoría de los casos, la entropía condicional de la clase
Las “clases” hacen referencia a los
dado el subconjunto de atributos seleccionados es 0.
Clase 1 Clase 2 tratamientos. • Mayor cantidad de intervalos en los cuales se discretiza, menor
Las “réplicas” a la cantidad de individuos
R11 R12 R13 R21 R22 R23 (perfiles genéticos) que hay dentro de cada tamaño del subconjunto seleccionado y mayor porcentaje de
grupo. Rij donde i indexa la clase y j la
1 Y111 Y121 Y131 Y211 Y221 Y231
repetición dentro de la clase. atributos efectivamente diferenciales.
2 Y112 Y122 Y132 Y212 Y222 Y232
Gen
… … … … … … …
Las expresiones génicas están denotadas por
Yijk, i indexa la clase, j la réplica y k indexa al
• Mayor cantidad de réplicas, mayor tamaño del subconjunto y
N Y11N Y12N Y13N Y21N Y22N Y23N gen. mayor porcentaje de atributos efectivamente diferenciales.
• Mayor porcentaje de atributos diferenciales, menor tamaño del
Medida de Evaluación: Entropía Condicional subconjunto de atributos seleccionados y mayor porcentaje de
Entropía: cantidad media de información que es necesario atributos efectivamente diferenciales.
proveer para no tener incertidumbre sobre una fuente Tabla 1. Tamaño promedio del subconjunto seleccionado (tamaño) y Porcentaje de atributos
determinada: seleccionados que efectivamente son diferenciales (%dif)