Teoria 3 Mineria Secuencias de ADN

Base de Datos en Biología.
Minería de datos
Marco Cabrera González

Aplicación de la minería de datos en la bioinformática
En los próximos años existe un avance de las ciencias biomédicas como
resultado del proyecto Genoma Humano.
Las nuevas tecnologías, basadas en genética, informática, son claves

para este desarrollo, estas disciplinas suministran información para la
obtención y el análisis de la información genética.
Estas tecnologías han permitido el desarrollo de la genómica, las

interacciones de los genes, su influencia en el desarrollo de
enfermedades, el diagnóstico clínico, investigación de nuevos fármacos,
la epidemiología.
En los últimos años, la minería de datos (data mining) esta en auge como
soporte en gestión de información y conocimiento, así como para
interpretar el significado de los metadatos almacenados.
 En la actualidad, es frecuente la generación masiva de datos económicos,
comerciales, científicos, etc., almacenados sistemáticamente en bases de datos
como entidades financieras, universidades (experimentos científicos),
(Terabytes).
 Tradicionalmente la búsqueda y análisis en datos se hacia mediante la

estadística, utilizando correlación, regresión, etc
 En 1980, la estadística se amplió a la lógica difusa, razonamiento heurístico y

redes neuronales. Ahora, estas técnicas se emplean para generar conocimiento
a partir de un conjunto de datos.
 Debido a los avances tecnológicos en cuanto a automatización de procesos,
almacenamiento, etc., hoy nos encontramos "inundados" de datos.
 Hay empresas que guardan información como bitácoras de registros de años

atrás, datos de clientes, información y de conocimiento
 El conocimiento es poder, el poder es la habilidad de tener control o influencia

en los eventos.
 Los datos son simplemente registros en forma no mental de observaciones o

sucesos.
 La Minería de Datos estudia métodos y algoritmos para extraer información
sistematizada, predictiva, facilitando el análisis y la eficiencia de datos.
 También agrupa diversas técnicas estadísticas y del aprendizaje automático

(Inteligencia Artificial) para visualizar, analizar y modernizar los datos masivos.
 Obtener información a partir de un conjunto de datos no es nueva, la gente

obtiene datos útiles a partir de una colección de datos, esto también es el
propósito de la minería de datos.
 Las técnicas de minería de datos han surgido a partir de sistemas de
aprendizaje inductivo en computadoras.
 En el caso tradicional de aprendizaje en computadoras, se usa un conjunto de

datos pequeño y cuidadosamente seleccionado para entrenar al sistema.
 Por el contrario, en la minería de datos se parte de una base de datos grande,

en la que los datos han sido generados y almacenados para propósitos
diferentes del aprendizaje.
 La acción de explorar y analizar las bases de datos disponibles para toma de
decisiones; la extracción de la información existente en los textos y la creación
de sistemas inteligentes se denomina comúnmente como minería de textos
(text mining).
Biología computacional; informática medica; bases de datos; toma de decisiones
 El conocimiento es un recurso estratégico para el desarrollo económico y social

contemporáneo.
 La información es básico en el proceso de adquisición, generación, gestión y

trasmisión del conocimiento.
 La aparición de Internet ha facilitado el compartir conocimientos, resultados

científicos, los análisis en línea es un enfoque novedoso que ha tomado gran fuerza
en los últimos tiempos.
 El surgimiento de la minería de datos está asociado con la necesidad de procesar y
analizar grandes volúmenes de datos para obtener información mediante consolidación
de datos y conocimientos útiles para la toma de decisiones a partir de los millones de
transacciones, lo cual es trascendental actividad científica.
La minería de datos
 Es necesario convertir los grandes volúmenes de datos existentes en
experiencia y conocimiento para toma de decisiones, especialmente en
proyectos científicos.
 La búsqueda de información relevante siempre es útil al diseño en ingeniería y

exploración científica, para respuestas más apropiadas a las necesidades
 Varias preguntas se relacionan frecuentemente con los datos, la información y el
conocimiento por ejemplo ¿De qué manera puede utilizarse la información para
la toma de decisiones?.
 La respuesta a estas preguntas es el objetivo de la minería de datos mediante

técnicas agrupadas para dar respuestas adecuadas pudiendo citarse a la
estadística, el reconocimiento de patrones, la clasificación y la predicción.
.
 Con frecuencia, el investigador formula una hipótesis; luego, diseña un
experimento para captar los datos necesarios y realizar el experimento que
confirmen o eliminen la hipótesis planteada.
 En la minería de datos, por el contrario, se captan y procesan los datos con la

esperanza de que de ellos surja una hipótesis apropiada.
 Como afirma algunos investigadores: “La más inocente mirada a los datos
puede inspirar una hipótesis.
 Las técnicas de minería de datos no pueden utilizarse para confirmar o rechazar
hipótesis, porque puede conducir a errores fatales.
 Su función es otra, es explorar datos, darles sentido, convertir un volumen de

datos, para interpretar un fenómeno, para adoptar decisiones de acuerdo con
las necesidades.
Componentes de la minería de datos
Las componentes básicas de los métodos de la minería de datos son:
1. Lenguaje de representación del modelo:
comprende las suposiciones y restricciones utilizadas en la representación empleada.
2. Evaluación del modelo:
Incluye el uso de técnicas de validación cruzada para la predictividad y evaluar la calidad

descriptiva del modelo.
3. Método de búsqueda:
puede dividirse en búsqueda de parámetros y del modelo

Algunas de las técnicas más comunes usadas en la minería de datos son:
 Árboles de decisión y reglas de clasificación.
Sistemas que predicen o clasifican observaciones futuras basándose en un conjunto de

reglas de decisión.
 Métodos de clasificación y regresiones no-lineales.
Son relativamente simples de implementar e interpretar.
Sim embargo, pueden estar limitados en cuanto a capacidad predictiva si la variable es

más compleja.
 Métodos basados en ejemplos prototípicos.
este proceso se usa un conjunto de entrenamiento, donde se proporciona

información al clasificador durante su etapa de entrenamiento.
 Modelos gráficos de dependencias probabilísticas.
Conjunto de técnicas inteligentes que permiten modelar y resolver problemas

complejos en una distribución de probabilidad de las variables del problema.
 Modelos relacionales.
Se basa en el concepto matemático que se representa mediante una tabla con

columnas y filas
La minería de datos y el descubrimiento de conocimientos en bases de
datos
 El descubrimiento de conocimientos en bases de datos - , KDD (Knowledge Discovery
in Data Bases) convergencia la estadística, la inteligencia artificial, las bases de datos,
la visualización de datos, los sistemas para el apoyo a la toma de decisiones, la
recuperación de información y otros muchos campos.
 El KDD es el proceso completo de extracción de conocimientos, no trivial, previamente

desconocidos y potencialmente útil a partir de un conjunto de datos,
 Mientras “la minería de datos” es una compilación de técnicas reunidas para crear
mecanismos adecuados para la toma de decisiones.
La minería de datos y el descubrimiento de conocimientos en bases de
datos
 Actualmente esta cobrando fuerza el análisis en línea (On-Line Analytical
Processing u OLAP) para acceso y análisis de datos en línea.
 En contraste el procesamiento de transacciones en línea (On-Line Transaction

Processing, OLTP) que depende de bases de datos relacionadas, el OLAP ha
desarrollado una tecnología de bases de datos multidimensionales.
Bioinformática
 Se encuentra en la intersección de las ciencias de la vida y de la información,

proporciona las herramientas y recursos necesarios para favorecer la
investigación biomédica.
 Es interdisciplinario, integra sistemas para entender el flujo de información

desde los genes a las estructuras moleculares, su función bioquímica, su
conducta biológica y, finalmente, su influencia en las enfermedades y en la
salud
Bioinformática
Los estímulos para el desarrollo de la bioinformática son:
 El enorme volumen de datos generados por proyectos denominados genomas

(humano y de otros organismos).
 Los nuevos enfoques experimentales, basados en biochips, para obtener datos

genéticos a gran velocidad, de genomas individuales (mutaciones,
polimorfismos) y de enfoques celulares (expresión génica).
 El desarrollo de Internet, que permite el acceso universal a las bases de datos

de información biológica.
Bioinformática
 La magnitud de información que genera las investigaciones sobre el genoma humano

probablemente, supera otras investigaciones. Como se sabe, la vida es la forma más
compleja de organización de la materia que se conoce.
 Actualmente los ordenadores para uso civil más potentes del mundo con una capacidad
de cálculo hasta 2 Teraflops, están dedicados a la investigación biológica, como análisis
de secuencias de nucleótidos y genomas conocidos.
 El reto de la bioinformática es integrar datos genómicos de secuencia, expresión,

estructura, interacciones, etc., para explicar el comportamiento global de la célula.
Bioinformática
 En otras palabras, la bioinformática representa la biología molecular

computacional.
Bioinformática
Las metas fundamentales de la bioinformática son:
 Predicción de la estructura tridimensional de las proteínas a partir de su

secuencia.
 Predicción de las funciones biológicas y biofísicas a partir de la secuencia,

simular el metabolismo y otros procesos biológicos basados en esas funciones.
https://www.uniprot.org/
https://www.ncbi.nlm.nih.gov/
Bioinformática
 Por lo que los científicos, encargados de la construcción de estas bases de

datos, deben tener conocimientos que permitan determinar cuáles problemas
científicos necesitan una solución y cuál es el método mejor para resolverlo
Bioinformática
 De los 3.120 millones de datos que componen el libro de la vida, se ha

encontrado que el 99,8 % son idénticos para todas las personas.
 El principal escollo de la proteómica, y en general la biología básica, es la

carencia de sistemas informáticos apropiados para la inmensa cantidad de
cálculos implicados en este tipo de investigaciones
 Los investigadores y las empresas guardan celosamente los resultados de sus

trabajos debido a la posibilidad de realizar patentes a partir de ellos.
Bioinformática
 La base de datos National Library of Medicine de Estados Unidos es la mayor

fuente accesible computadorizada y contiene 10 millones de referencias,
https://www.ncbi.nlm.nih.gov/
Bioinformática
 El desarrollo de la tecnología de minería de datos está en un punto de inflexión,

con respecto a su consolidación, en las aplicaciones.
 Existen una serie de elementos que la hacen aplicable, sin embargo, existen
retos que atentan contra su credibilidad.
 Como sus productos comercializados son costosos, así los consumidores

pueden hallar una relación costo/beneficio improductiva.
Minería de datos y genómica
 El área de la biología molecular se ha visto beneficiada por un gran avance tecnológico

en los últimos años.
 El mejoramiento de técnicas como los microarreglos de ADN y la implementación con

equipos mas poderosos de secuenciación ha permitido generar gran cantidad de datos.
 La secuenciación de ácidos nucleicos es un método para determinar el orden exacto de

nucleótidos presentes en una molécula de ADN o ARN.
 Actualmente existe un gran interés en la biociencia por los métodos de secuenciación

de nueva generación (NGS), los cuales secuencian de manera más rápida y menos
costosa el genoma completo
 Todo esto en conjunto ha permitido avanzar en el entendimiento de ciertos fenómenos

biológicos.
 Sin embargo, aun no existe una comprensión total sobre por qué ciertos genes se
“activan” y otros se “inactivan”, y/o la interacción de la red génica en el caso de ciertas
enfermedades
 En medicina genómica, el objetivo es inferir modelos clínicamente relevantes a partir de

datos moleculares y dar así sustento a la toma de decisiones.
Actualmente, los datos moleculares están disponibles en tres formas:

1) Datos de genotipos, representados por polimorfismos de único nucleótido.
2) Datos de expresión de genes, pueden ser medidos por técnicas como microarreglos de
ADN o reacción en cadena de la polimerasa (PCR) para conocer la actividad de genes
en un tejido
3) Datos de expresión de proteínas, las cuales pueden ser analizadas mediante estudios
a gran escala del proteoma para brindar información sobre abundancia de proteínas
específicas, variaciones y modificaciones.
 La oncología es de interés en medicina genómica, para definir estrategias terapéuticas

individualizadas a partir de datos de expresión de genes de pacientes obtenidos
mediante microarreglos de ADN.,.
 Esto consiste que fragmentos pequeños de ADN (sondas) se unen fragmentos de ADN
del paciente. Luego se mide el nivel de hibridación entre las sondas y el ADN y, a través
de un análisis de imágenes, se evalúan los niveles de expresión de los genes en la
muestra.
 Usando una técnica no supervisada de clustering se diferencia tumores benignos y

malignos sobre la base del desarrollo de metástasis.
 Además, cuando se relacionó resultado con datos histopatológicos, el clustering no

supervisado indicó la existencia de dos subgrupos de cáncer que difieren en la
infiltración linfocitaria y marcación de receptor de estrógenos.
 Posteriormente, usando un método supervisado de clasificación se determinó que “mal

pronóstico” está asociada al aumento en la expresión de genes del ciclo celular,
invasión, metástasis y angiogénesis
Métodos y técnicas en minería de datos
Las técnicas de minería de datos crean modelos que son predictivos y/ o

descriptivos.
 Un modelo predictivo responde preguntas sobre datos futuros.
 Un modelo descriptivo proporciona información sobre las relaciones entre los

datos y sus características.
Métodos y técnicas en minería de datos
 Cuando una aplicación no es lo suficientemente madura no tiene potencial para una

solución predictiva, en ese caso hay que recurrir a métodos no supervisados o de
descubrimiento del conocimiento y tendencias en los datos actuales (no utilizan datos
históricos).
 El descubrimiento de esa información sirve para llevar a cabo acciones y obtener un

beneficio (científico o de negocio) de ellas.
Gracias

Teoria 3 Mineria Secuencias de ADN

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoria 3 Mineria Secuencias de ADN

Cargado por

Copyright:

Formatos disponibles

Base de Datos en Biología.

Marco Cabrera González

Las nuevas tecnologías, basadas en genética, informática, son claves

Estas tecnologías han permitido el desarrollo de la genómica, las

 Tradicionalmente la búsqueda y análisis en datos se hacia mediante la

 En 1980, la estadística se amplió a la lógica difusa, razonamiento heurístico y

 Hay empresas que guardan información como bitácoras de registros de años

 El conocimiento es poder, el poder es la habilidad de tener control o influencia

 Los datos son simplemente registros en forma no mental de observaciones o

 También agrupa diversas técnicas estadísticas y del aprendizaje automático

 Obtener información a partir de un conjunto de datos no es nueva, la gente

 En el caso tradicional de aprendizaje en computadoras, se usa un conjunto de

 Por el contrario, en la minería de datos se parte de una base de datos grande,

 El conocimiento es un recurso estratégico para el desarrollo económico y social

 La información es básico en el proceso de adquisición, generación, gestión y

 La aparición de Internet ha facilitado el compartir conocimientos, resultados

 La búsqueda de información relevante siempre es útil al diseño en ingeniería y

 La respuesta a estas preguntas es el objetivo de la minería de datos mediante

 En la minería de datos, por el contrario, se captan y procesan los datos con la

 Su función es otra, es explorar datos, darles sentido, convertir un volumen de

1. Lenguaje de representación del modelo:

comprende las suposiciones y restricciones utilizadas en la representación empleada.

2. Evaluación del modelo:

Incluye el uso de técnicas de validación cruzada para la predictividad y evaluar la calidad

puede dividirse en búsqueda de parámetros y del modelo

 Árboles de decisión y reglas de clasificación.

Sistemas que predicen o clasifican observaciones futuras basándose en un conjunto de

 Métodos de clasificación y regresiones no-lineales.

Son relativamente simples de implementar e interpretar.

Sim embargo, pueden estar limitados en cuanto a capacidad predictiva si la variable es

este proceso se usa un conjunto de entrenamiento, donde se proporciona

 Modelos gráficos de dependencias probabilísticas.

Conjunto de técnicas inteligentes que permiten modelar y resolver problemas

Se basa en el concepto matemático que se representa mediante una tabla con

 El KDD es el proceso completo de extracción de conocimientos, no trivial, previamente

 En contraste el procesamiento de transacciones en línea (On-Line Transaction

 Se encuentra en la intersección de las ciencias de la vida y de la información,

 Es interdisciplinario, integra sistemas para entender el flujo de información

Los estímulos para el desarrollo de la bioinformática son:

 El enorme volumen de datos generados por proyectos denominados genomas

 Los nuevos enfoques experimentales, basados en biochips, para obtener datos

 El desarrollo de Internet, que permite el acceso universal a las bases de datos

 La magnitud de información que genera las investigaciones sobre el genoma humano

 El reto de la bioinformática es integrar datos genómicos de secuencia, expresión,

 En otras palabras, la bioinformática representa la biología molecular

Las metas fundamentales de la bioinformática son:

 Predicción de la estructura tridimensional de las proteínas a partir de su

 Predicción de las funciones biológicas y biofísicas a partir de la secuencia,

 Por lo que los científicos, encargados de la construcción de estas bases de

 De los 3.120 millones de datos que componen el libro de la vida, se ha

 El principal escollo de la proteómica, y en general la biología básica, es la

 Los investigadores y las empresas guardan celosamente los resultados de sus

 La base de datos National Library of Medicine de Estados Unidos es la mayor

 El desarrollo de la tecnología de minería de datos está en un punto de inflexión,

 Como sus productos comercializados son costosos, así los consumidores

 El área de la biología molecular se ha visto beneficiada por un gran avance tecnológico

 El mejoramiento de técnicas como los microarreglos de ADN y la implementación con

 La secuenciación de ácidos nucleicos es un método para determinar el orden exacto de

 Actualmente existe un gran interés en la biociencia por los métodos de secuenciación

 Todo esto en conjunto ha permitido avanzar en el entendimiento de ciertos fenómenos

 En medicina genómica, el objetivo es inferir modelos clínicamente relevantes a partir de

Actualmente, los datos moleculares están disponibles en tres formas:

1) Datos de genotipos, representados por polimorfismos de único nucleótido.

 La oncología es de interés en medicina genómica, para definir estrategias terapéuticas