Está en la página 1de 37

Base de Datos en Biología.

Minería de datos

Marco Cabrera González


Aplicación de la minería de datos en la bioinformática

En los próximos años existe un avance de las ciencias biomédicas como
resultado del proyecto Genoma Humano.

Las nuevas tecnologías, basadas en genética, informática, son claves


para este desarrollo, estas disciplinas suministran información para la
obtención y el análisis de la información genética.
Aplicación de la minería de datos en la bioinformática

Estas tecnologías han permitido el desarrollo de la genómica, las


interacciones de los genes, su influencia en el desarrollo de
enfermedades, el diagnóstico clínico, investigación de nuevos fármacos,
la epidemiología.

En los últimos años, la minería de datos (data mining) esta en auge como
soporte en gestión de información y conocimiento, así como para
interpretar el significado de los metadatos almacenados.
Aplicación de la minería de datos en la bioinformática
 En la actualidad, es frecuente la generación masiva de datos económicos,
comerciales, científicos, etc., almacenados sistemáticamente en bases de datos
como entidades financieras, universidades (experimentos científicos),
(Terabytes).

 Tradicionalmente la búsqueda y análisis en datos se hacia mediante la


estadística, utilizando correlación, regresión, etc

 En 1980, la estadística se amplió a la lógica difusa, razonamiento heurístico y


redes neuronales. Ahora, estas técnicas se emplean para generar conocimiento
a partir de un conjunto de datos.
Aplicación de la minería de datos en la bioinformática
 Debido a los avances tecnológicos en cuanto a automatización de procesos,
almacenamiento, etc., hoy nos encontramos "inundados" de datos.

 Hay empresas que guardan información como bitácoras de registros de años


atrás, datos de clientes, información y de conocimiento

 El conocimiento es poder, el poder es la habilidad de tener control o influencia


en los eventos.

 Los datos son simplemente registros en forma no mental de observaciones o


sucesos.
Aplicación de la minería de datos en la bioinformática
 La Minería de Datos estudia métodos y algoritmos para extraer información
sistematizada, predictiva, facilitando el análisis y la eficiencia de datos.

 También agrupa diversas técnicas estadísticas y del aprendizaje automático


(Inteligencia Artificial) para visualizar, analizar y modernizar los datos masivos.

 Obtener información a partir de un conjunto de datos no es nueva, la gente


obtiene datos útiles a partir de una colección de datos, esto también es el
propósito de la minería de datos.
Aplicación de la minería de datos en la bioinformática
 Las técnicas de minería de datos han surgido a partir de sistemas de
aprendizaje inductivo en computadoras.

 En el caso tradicional de aprendizaje en computadoras, se usa un conjunto de


datos pequeño y cuidadosamente seleccionado para entrenar al sistema.

 Por el contrario, en la minería de datos se parte de una base de datos grande,


en la que los datos han sido generados y almacenados para propósitos
diferentes del aprendizaje.
Aplicación de la minería de datos en la bioinformática
 La acción de explorar y analizar las bases de datos disponibles para toma de
decisiones; la extracción de la información existente en los textos y la creación
de sistemas inteligentes se denomina comúnmente como minería de textos
(text mining).
Biología computacional; informática medica; bases de datos; toma de decisiones

 El conocimiento es un recurso estratégico para el desarrollo económico y social


contemporáneo.

 La información es básico en el proceso de adquisición, generación, gestión y


trasmisión del conocimiento.

 La aparición de Internet ha facilitado el compartir conocimientos, resultados


científicos, los análisis en línea es un enfoque novedoso que ha tomado gran fuerza
en los últimos tiempos.
Aplicación de la minería de datos en la bioinformática
 El surgimiento de la minería de datos está asociado con la necesidad de procesar y
analizar grandes volúmenes de datos para obtener información mediante consolidación
de datos y conocimientos útiles para la toma de decisiones a partir de los millones de
transacciones, lo cual es trascendental actividad científica.
La minería de datos
 Es necesario convertir los grandes volúmenes de datos existentes en
experiencia y conocimiento para toma de decisiones, especialmente en
proyectos científicos.

 La búsqueda de información relevante siempre es útil al diseño en ingeniería y


exploración científica, para respuestas más apropiadas a las necesidades
La minería de datos
 Varias preguntas se relacionan frecuentemente con los datos, la información y el
conocimiento por ejemplo ¿De qué manera puede utilizarse la información para
la toma de decisiones?.

 La respuesta a estas preguntas es el objetivo de la minería de datos mediante


técnicas agrupadas para dar respuestas adecuadas pudiendo citarse a la
estadística, el reconocimiento de patrones, la clasificación y la predicción.
.
La minería de datos
 Con frecuencia, el investigador formula una hipótesis; luego, diseña un
experimento para captar los datos necesarios y realizar el experimento que
confirmen o eliminen la hipótesis planteada.

 En la minería de datos, por el contrario, se captan y procesan los datos con la


esperanza de que de ellos surja una hipótesis apropiada.

 Como afirma algunos investigadores: “La más inocente mirada a los datos
puede inspirar una hipótesis.
La minería de datos
 Las técnicas de minería de datos no pueden utilizarse para confirmar o rechazar
hipótesis, porque puede conducir a errores fatales.

 Su función es otra, es explorar datos, darles sentido, convertir un volumen de


datos, para interpretar un fenómeno, para adoptar decisiones de acuerdo con
las necesidades.
Componentes de la minería de datos
Las componentes básicas de los métodos de la minería de datos son:

1. Lenguaje de representación del modelo:

comprende las suposiciones y restricciones utilizadas en la representación empleada.

2. Evaluación del modelo:

Incluye el uso de técnicas de validación cruzada para la predictividad y evaluar la calidad


descriptiva del modelo.

3. Método de búsqueda:

puede dividirse en búsqueda de parámetros y del modelo


Componentes de la minería de datos
Algunas de las técnicas más comunes usadas en la minería de datos son:

 Árboles de decisión y reglas de clasificación.

Sistemas que predicen o clasifican observaciones futuras basándose en un conjunto de


reglas de decisión.

 Métodos de clasificación y regresiones no-lineales.

Son relativamente simples de implementar e interpretar.

Sim embargo, pueden estar limitados en cuanto a capacidad predictiva si la variable es


más compleja.
Componentes de la minería de datos
 Métodos basados en ejemplos prototípicos.

este proceso se usa un conjunto de entrenamiento, donde se proporciona


información al clasificador durante su etapa de entrenamiento.

 Modelos gráficos de dependencias probabilísticas.

Conjunto de técnicas inteligentes que permiten modelar y resolver problemas


complejos en una distribución de probabilidad de las variables del problema.
Componentes de la minería de datos
 Modelos relacionales.

Se basa en el concepto matemático que se representa mediante una tabla con


columnas y filas
La minería de datos y el descubrimiento de conocimientos en bases de
datos
 El descubrimiento de conocimientos en bases de datos - , KDD (Knowledge Discovery
in Data Bases) convergencia la estadística, la inteligencia artificial, las bases de datos,
la visualización de datos, los sistemas para el apoyo a la toma de decisiones, la
recuperación de información y otros muchos campos.

 El KDD es el proceso completo de extracción de conocimientos, no trivial, previamente


desconocidos y potencialmente útil a partir de un conjunto de datos,

 Mientras “la minería de datos” es una compilación de técnicas reunidas para crear
mecanismos adecuados para la toma de decisiones.
La minería de datos y el descubrimiento de conocimientos en bases de
datos
 Actualmente esta cobrando fuerza el análisis en línea (On-Line Analytical
Processing u OLAP) para acceso y análisis de datos en línea.

 En contraste el procesamiento de transacciones en línea (On-Line Transaction


Processing, OLTP) que depende de bases de datos relacionadas, el OLAP ha
desarrollado una tecnología de bases de datos multidimensionales.
Bioinformática

 Se encuentra en la intersección de las ciencias de la vida y de la información,


proporciona las herramientas y recursos necesarios para favorecer la
investigación biomédica.

 Es interdisciplinario, integra sistemas para entender el flujo de información


desde los genes a las estructuras moleculares, su función bioquímica, su
conducta biológica y, finalmente, su influencia en las enfermedades y en la
salud
Bioinformática

Los estímulos para el desarrollo de la bioinformática son:

 El enorme volumen de datos generados por proyectos denominados genomas


(humano y de otros organismos).

 Los nuevos enfoques experimentales, basados en biochips, para obtener datos


genéticos a gran velocidad, de genomas individuales (mutaciones,
polimorfismos) y de enfoques celulares (expresión génica).

 El desarrollo de Internet, que permite el acceso universal a las bases de datos


de información biológica.
Bioinformática

 La magnitud de información que genera las investigaciones sobre el genoma humano


probablemente, supera otras investigaciones. Como se sabe, la vida es la forma más
compleja de organización de la materia que se conoce.

 Actualmente los ordenadores para uso civil más potentes del mundo con una capacidad
de cálculo hasta 2 Teraflops, están dedicados a la investigación biológica, como análisis
de secuencias de nucleótidos y genomas conocidos.

 El reto de la bioinformática es integrar datos genómicos de secuencia, expresión,


estructura, interacciones, etc., para explicar el comportamiento global de la célula.
Bioinformática

 En otras palabras, la bioinformática representa la biología molecular


computacional.
Bioinformática

Las metas fundamentales de la bioinformática son:

 Predicción de la estructura tridimensional de las proteínas a partir de su


secuencia.

 Predicción de las funciones biológicas y biofísicas a partir de la secuencia,


simular el metabolismo y otros procesos biológicos basados en esas funciones.

https://www.uniprot.org/

https://www.ncbi.nlm.nih.gov/
Bioinformática

 Por lo que los científicos, encargados de la construcción de estas bases de


datos, deben tener conocimientos que permitan determinar cuáles problemas
científicos necesitan una solución y cuál es el método mejor para resolverlo
Bioinformática

 De los 3.120 millones de datos que componen el libro de la vida, se ha


encontrado que el 99,8 % son idénticos para todas las personas.

 El principal escollo de la proteómica, y en general la biología básica, es la


carencia de sistemas informáticos apropiados para la inmensa cantidad de
cálculos implicados en este tipo de investigaciones

 Los investigadores y las empresas guardan celosamente los resultados de sus


trabajos debido a la posibilidad de realizar patentes a partir de ellos.
Bioinformática

 La base de datos National Library of Medicine de Estados Unidos es la mayor


fuente accesible computadorizada y contiene 10 millones de referencias,

https://www.ncbi.nlm.nih.gov/
Bioinformática

 El desarrollo de la tecnología de minería de datos está en un punto de inflexión,


con respecto a su consolidación, en las aplicaciones.

 Existen una serie de elementos que la hacen aplicable, sin embargo, existen
retos que atentan contra su credibilidad.

 Como sus productos comercializados son costosos, así los consumidores


pueden hallar una relación costo/beneficio improductiva.
Minería de datos y genómica

 El área de la biología molecular se ha visto beneficiada por un gran avance tecnológico


en los últimos años.

 El mejoramiento de técnicas como los microarreglos de ADN y la implementación con


equipos mas poderosos de secuenciación ha permitido generar gran cantidad de datos.

 La secuenciación de ácidos nucleicos es un método para determinar el orden exacto de


nucleótidos presentes en una molécula de ADN o ARN.

 Actualmente existe un gran interés en la biociencia por los métodos de secuenciación


de nueva generación (NGS), los cuales secuencian de manera más rápida y menos
costosa el genoma completo
Minería de datos y genómica

 Todo esto en conjunto ha permitido avanzar en el entendimiento de ciertos fenómenos


biológicos.

 Sin embargo, aun no existe una comprensión total sobre por qué ciertos genes se
“activan” y otros se “inactivan”, y/o la interacción de la red génica en el caso de ciertas
enfermedades

 En medicina genómica, el objetivo es inferir modelos clínicamente relevantes a partir de


datos moleculares y dar así sustento a la toma de decisiones.

Actualmente, los datos moleculares están disponibles en tres formas:


Minería de datos y genómica

1) Datos de genotipos, representados por polimorfismos de único nucleótido.

2) Datos de expresión de genes, pueden ser medidos por técnicas como microarreglos de
ADN o reacción en cadena de la polimerasa (PCR) para conocer la actividad de genes
en un tejido

3) Datos de expresión de proteínas, las cuales pueden ser analizadas mediante estudios
a gran escala del proteoma para brindar información sobre abundancia de proteínas
específicas, variaciones y modificaciones.
Minería de datos y genómica

 La oncología es de interés en medicina genómica, para definir estrategias terapéuticas


individualizadas a partir de datos de expresión de genes de pacientes obtenidos
mediante microarreglos de ADN.,.

 Esto consiste que fragmentos pequeños de ADN (sondas) se unen fragmentos de ADN
del paciente. Luego se mide el nivel de hibridación entre las sondas y el ADN y, a través
de un análisis de imágenes, se evalúan los niveles de expresión de los genes en la
muestra.
Minería de datos y genómica

 Usando una técnica no supervisada de clustering se diferencia tumores benignos y


malignos sobre la base del desarrollo de metástasis.

 Además, cuando se relacionó resultado con datos histopatológicos, el clustering no


supervisado indicó la existencia de dos subgrupos de cáncer que difieren en la
infiltración linfocitaria y marcación de receptor de estrógenos.

 Posteriormente, usando un método supervisado de clasificación se determinó que “mal


pronóstico” está asociada al aumento en la expresión de genes del ciclo celular,
invasión, metástasis y angiogénesis
Métodos y técnicas en minería de datos

Las técnicas de minería de datos crean modelos que son predictivos y/ o


descriptivos.

 Un modelo predictivo responde preguntas sobre datos futuros.

 Un modelo descriptivo proporciona información sobre las relaciones entre los


datos y sus características.
Métodos y técnicas en minería de datos

 Cuando una aplicación no es lo suficientemente madura no tiene potencial para una


solución predictiva, en ese caso hay que recurrir a métodos no supervisados o de
descubrimiento del conocimiento y tendencias en los datos actuales (no utilizan datos
históricos).

 El descubrimiento de esa información sirve para llevar a cabo acciones y obtener un


beneficio (científico o de negocio) de ellas.
Gracias

También podría gustarte