Está en la página 1de 95

Elementos de Bioinformática

Dra. Paula Fernandez


Instituto de Biotecnología
INTA Castelar
pfernandez@cnia.inta.gov.ar
Bioinformática

El término se acuñó por primera vez en 1988 (Dra. Hwa Lim)

Definición original:

“a collective term for data compilation, organisation, analysis and


dissemination”
¿Qué es la Bioinformática?
Bioinformática
PROBLEMA: DEFINICIÓN
Objetivos
• Describir la importancia e impacto de la
bioinformática asociada de manera indisoluble a
la genómica
• Identificar fuentes de información disponibles: su
calidad, jerarquía y confianza
• Ejecutar búsquedas en portales de distribución
pública de datos
Secuenciación: Método de Sanger
Secuenciación: Método de Sanger
Equipamiento automatizado
INTRODUCCIÓN:
ESTs
INTRODUCCIÓN:
ESTs

• Un EST (del inglés expressed sequence tag) es un fragmento corto de


ADNc entre 300-700 pb obtenidos por la secuenciación de una sola
lectura y que puede servir para identificar, localizar o mapear un gen.

• Actualmente, se encuentran representadas más de 100 especies de


plantas en la división EST de GenBank con un total aproximado de
40.000.000 secuencias. De este número, 134.000 secuencias
aproximadamente corresponden a girasol (al 31/08/2011).
INTRODUCCIÓN:
ESTs
INTRODUCCIÓN:
ESTs
Armando el rompecabezas del gen
INTRODUCCIÓN:
Contigs
Bases de ESTs
http://compbio.dfci.harvard.edu/tgi/ (exTIGR)
http://www.plantgdb.org

http://www.ncbi.nlm.nih.gov/sites/entrez?db=unigene
Bases de datos
Lab vs. compus

• Cada vez más estudios comienzan con el análisis de


bases de datos para luego formular hipótesis o diseñar
experimentos.

• El trabajo de laboratorio culmina en la acumulación de


colecciones masivas de datos que deben ser
posteriormente analizados.
Bases de datos
Qué es una base de datos? Una colección de datos

Cómo colecciono los datos? Decisión del usuario. Diseño de


la base de datos.

Puedo usar:

Procesador de texto? (Word) Si. Permite sólo búsqueda y


ordenamiento simples.

Planilla de Cálculo? (Excel) También. Como los datos están


en columnas independientes, se
puede ordenar en formas más
complejas. Las búsquedas
siguen siendo simples.
Tipos de datos
 Numéricos (enteros, decimales)
 Texto
 Fechas (DD/MM/YYYY, HH:MM:SS)
 Lógicos (boolean) = verdadero / falso
 Geométricos (punto, línea, círculo,
polígonos, etc.)
Bases de datos: conceptos básicos: clave primaria

gi Accession version date Genbank Division taxid organims Number of Chromosomes


6226959 NM_000014 3 01/06/2000 PRI 9606 homo sapiens 22 diploid + X+Y
6226762 NM_000014 2 12/10/1999 PRI 9606 homo sapiens 22 diploid + X+Y
4557224 NM_000014 1 04/02/1999 PRI 9606 homo sapiens 22 diploid + X+Y
41 X63129 1 06/06/1996 MAM 9913 bos taurus 29+X+Y

gi = Genbank Identifier: Clave única : Clave primaria


Cambia con cada actualización del registro correspondiente a la secuencia

Accession Number: Clave secundaria


Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia.

Accession + Version es equivalente al gi (representa un identificador único)


Ejemplo: AF405321.2 Accession: AF405321 Version: 2
Bases de datos: distribución de la información

gi Annotation
5693 Trypanosoma cruzi chromosome 3, ORF 1234, similar to gi|12345|AF934567 caseine
kinase (Candida albicans)

5694 Candida albicans hypothetical protein in region 21922..24568

5695 Sarcocystis cruzi 16SRNA gene

5696 Lutzomyia cruzi cytochrome b; best similarity to gi|1234568


Búsquedas en una base de datos: índices

 Para facilitar las búsquedas en una base de datos, se construyen


índices.
 Un índice es una lista de claves primarias asociadas a un
determinado campo (o grupo de campos).
 Un ejemplo más complejo: buscar todos los records que
contengan la palabra „kinase‟ en la descripción de la secuencia.
Búsquedas en bases de datos: búsquedas indexadas

Importante: no se busca en el total de los datos disponibles, sino sobre


un subset pre-computado.

 Buscadores de páginas en internet

 PubMed / Entrez / SRS

 BLAST
Búsquedas simples
 Los motores de búsqueda ofrecen búsquedas simples

 No imponen restricciones

 El usuario tipea palabras libremente

 Usan estrategias para intentar “adivinar” la intención del


usuario (sobre qué campo de la base de datos buscar)
Sistemas de búsqueda avanzada:
Entrez y SRS

Recuperación y almacenamiento de secuencias


específicas.
The Entrez System: Text Searches
Sistemas de búsqueda avanzada:
Entrez y SRS

Las bases de datos no solo proveen la información molecular, sino


también los medios adecuados para acceder fácilmente a esa
información. Las interfases de búsqueda principales son ENTREZ y
SRS.
Sistemas de búsqueda avanzada:
Entrez y SRS (Cont.)

ENTREZ, el primero en incorporar relaciones lógicas o nexos entre las entradas


individuales de datos en distintas bases de datos públicas

SRS reúne unas 400 bases de datos, en los últimos años se desarrolló como un
sistema integrado de búsqueda y recuperación de datos asociados y
aplicaciones para análisis de secuencias.

DBGET es un sistema simple de acceso de datos a un grupo diverso de bases


de datos moleculares
Sistemas de búsqueda avanzada:
Entrez y SRS (Cont.)
http://www.ncbi.nlm.nih.gov/Entrez/

• Es una interfaz de usuario.


• Constituye el nexo entre el usuario y las bases de datos.
• Permite realizar consultas simples y obtener resultados, aún
desconociendo la arquitectura de las bases de datos.
• Sin embargo, si se conoce esa arquitectura, las búsquedas
pueden resultar más precisas y eficaces.
• No es fácil acceder a ese conocimiento y su uso es poco intuitivo,
por lo que se recomienda siempre visitar la ayuda del NCBI.
Sistemas de búsqueda avanzada:
Entrez y SRS (Cont.)

http://srs.ebi.ac.uk/

• SRS es una mejor opción desde el punto de la facilidad en su uso


simple y avanzado.
• Dicha opción se da fundamentalmente por el formulario guiado de
búsqueda avanzada.
Uso de

• Entrez es un sistema de búsqueda y adquisición de información


integrada de las distintas bases de datos de NCBI:

Secuencias proteicas
Secuencias nucleotídicas
Estructuras macromoleculares
Genomas y mapas de genes
Literatura científica (MEDLINE)
Uso de

• Entrez permite combinar términos utilizando operadores lógicos


(AND, OR, NOT). Los operadores lógicos, también llamados
operadores voláneos („boolean operators‟), deben ser ingresados
en mayúsculas para ser reconocidos como tales por Entrez (por
ejemplo: vitamin C OR zinc, DNA AND Crick AND 1993).
• Entrez lee los operadores lógicos de izquierda a derecha.
• Es posible cambiar el orden de evaluación de los operadores
usando paréntesis.
Uso de

AND / OR / NOT Delimitadores booleanos. En mayúsculas


Affiliation [AD] Lugar en el que se ha hecho el trabajo (Univ. Buenos Aires)
All fields [ALL] En cualquier campo
Author name [AU] Nombre del autor. Formato: Smith JL [AU], sin comas ni puntos
EC/RN Number [RN] Número asignado a una enzima por la Comisión de Enzimas
Entrez Date [EDAT] Fecha de incorporación a Entrez
Issue [IP] Ejemplar del volumen de una revista
Journal Title [TA] Título de la revista: entero, abreviatura MEDLINE o número ISSN
[molecular biology of the cell] [mol biol cell], sin puntos
Language [LA] Idioma: English, French, German, Italian, Japanese
MeSH Terms [MH] Medical Subject Headings (19000 términos, actualizados y
clasificados)
Uso de

La página de inicio de este servidor presenta


distintas opciones:

•Comenzar un proyecto temporario o permanente


•Correr una aplicación
•Acceder a información disponible sobre las bases
de datos
•Acceder a la documentación en línea
Uso de
Uso de
• Luego se accede a la solapa de búsqueda estándar
(denominada QUERY) donde se definen las opciones
de búsqueda y se ingresan las palabras clave. Dentro
de la opciones de búsqueda, si seleccionamos “Append
wildcards to words” la búsqueda se realizará sobre las
palabras clave ingresadas y también sobre todas
aquellas posibles terminaciones de dichas palabras.
Uso de

• “Combine searches with” permite relacionar los términos


de la búsqueda mediante los conectores & (AND), (OR)
y (BUTNOT). “Number of entries to display per page”
permite definir el número máximo de registros listados
en cada página.
Recuperación y almacenamiento de
secuencias específicas

• Ejemplos:

ENTREZ: Helianthus annuus [Organism] AND gbdiv_est [properties]

SRS: ESTs Helianthus annuus


Orden de los términos en un query
 El orden de los términos es importante

 Un query se evalúa de izquierda a derecha


 human NOT genome no es lo mismo que genome NOT

human

 Si el query tiene muchos términos pueden forzar el orden de


evaluación usando paréntesis
 human AND cancer AND (cell OR science OR nature)

 casein kinase NOT (human OR mouse)


Sistema Entrez

Genómica aplicada a la medicina


clínica
Sistema Entrez
Sistema Entrez
Sistema Entrez
Sistema Entrez
Genome Browser (http://genome.ucsc.edu/)
Genómica aplicada a la medicina
clínica
Genómica aplicada a la medicina
clínica
Genómica aplicada a la medicina
14/10/2009 clínica 51
Trusted annotation

Translation from DNA


The NCBI ftp site

30,000 files per day


620 Gigabytes per day
GenBank File Formats
ASN.1 – The Raw Data flat file

XML

FASTA
GenBank
 Redundante (es un Banco, no busca unificar datos)
 Con errores
 Difícil de actualizar
 Para poder corregir, mejorar y mantener actualizada la anotación
de los registros, el NCBI creó RefSeq (colección curada de
registros de GenBank)
 toma records de GenBank y los actualiza/corrije

 unifica para reducir redundancia

 Accession numbers del tipo XX_123456


Bases de datos primarias
 Una base de datos primaria es un repositorio de datos derivados de un experimento o
de conocimiento científico.

 Genbank (Repositorio de secuencias nucleotídicas)


 Protein DB, Swissprot
 PDB
 Pubmed (literatura)
 Genome Mapping
 Kegg (Kyoto Encyclopedia of Genes and Genomes, base de datos de vías
metabólicas)
 Bases de datos colaborativas
 DNA Database of Japan (DDBJ)
 European Molecular Biology Laboratory (EMBL) Database
Bases de datos secundarias

 Una base de datos secundaria contiene información derivada de


otras fuentes (primarias, entre otras).
 Refseq (Colección curada de GenBank en NCBI)

 Unigene (Clustering de ESTs en NCBI)

 Las bases de datos organismo-específicas son en general una


mezcla entre primaria y secundaria.
RefSeq: Base de datos secundaria

mRNAs and Proteins


NM_123456 Curated mRNA
NP_123456 Curated Protein
NR_123456 Curated non-coding RNA
XM_123456 Predicted mRNA
XP_123456 Predicted Protein
XR_123456 Predicted non-coding RNA
Gene Records
NG_123456 Reference Genomic Sequence
Chromosome
NC_123455 Microbial replicons, organelles
NT_123456 Contig
NW_123456 WGS Supercontig
Anotando el gen

Genomic DNA
(NC, NT, NW)
Scanning....

Model mRNA (XM) Model protein (XP)


(XR)
= ?!
Curated mRNA (NM) Curated Protein (NP)
(NR)

RefSeq

Genbank
Sequences
Bases primarias vs. secundarias
Algorithms UniGene

Sequencing
Centers
EST UniSTS
GenBank
STS Updated
Updated ONLY RefSeq:
by submitters GSS continually Annotation
by NCBI Pipeline
HTG
INV VRT PHG VRL
PRI ROD PLN MAM BCT
RefSeq:
Gene and
Curators
Genomes Pipelines
TATAGCCG
Labs AGCTCCGATA
CCGATGACAA
Ejemplos de integración de información en NCBI

Word weight

PubMed

Phylogeny

Taxonomy 3-D
mmdb
Structure
(3D structure)
VAST
Genomes

Nucleotide Protein
BLASTn sequences sequences BLASTp
 IDENTIFICANDO SIMILITUD:

 COMPARACION DE SECUENCIAS A
TRAVES DE ALINEAMIENTOS
¿Qué es el alineamiento?

 ACCGGTATCCTAGGAC
 ACCTATCTTAGGAC

 ¿Están estas dos secuencias


relacionadas?

 ¿Cuán similares (o distintas) son?


¿Qué es el alineamiento?

 ACCGGTATCCTAGGAC
 | | | || || || | || |
 ACC - - TATCTTAGGAC

•Hacer coincidir las dos secuencias lo más


posible es igual a que estén alineadas
•Por lo tanto, es necesario un puntaje de
evaluación de alineamientos
¿Porqué nos interesa?

 El ADN y las proteínas se basan en


secuencias lineales
 La información está codificada en estas
secuencias
 Todo análisis bioinformático en algún
punto vuelve al alineamiento de
secuencias que podrían tener algo de
ruido o variabilidad
¿Cual es el objetivo de la comparación?

 El objetivo es encontrar el alineamiento


que con mayor probabilidad (nunca
sabremos si es el real) refleje qué cambios
se han producido
<---------------(--------------------HELIX 19-----------
<---------------(22222222-000000-111111-00000-111111-000
Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGG
Th. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGG
E.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AAC
Ancyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACA
B.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGG
Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAG
match ** *** * ** ** *
Tipos de Alineamiento entre dos
secuencias

 Locales: utilizado cuando se quieren encontrar


sub-secuencias compartidas
 Para buscar dominios en proteínas
 Para encontrar elementos de regulación
 Para localizar un gen similar en un genoma
 Globales: utilizado cuando hay que comparar
secuencias de tamaño similar
 Para comparar genes similares
 Para buscar mutaciones o polimorfismos en una
secuencia comparándola contra una secuencia de
referencia.
¿Cómo evaluamos un alineamiento?

 ACCGGTATCCTAGGAC
| || | ||| | || | ||
 ACC - - TATCTTAGGAC
 •Asignamos un puntaje a cada
coincidencia (match) dada a lo largo del
alineamiento
¿Cómo evaluamos un alineamiento?

 ACCGGTATCCTAGGAC
| | | |||| ||| | | |
ACC - - TATCTTAGGAC

 Asignamos un puntaje (o penalidad) por


cada sustitución
¿Cómo evaluamos un alineamiento?
ACCGGTATCCTAGGAC
|| | ||| | || | | ||
ACC - - TATCTTAGGAC
•Asignamos un puntaje (o penalidad) por cada
inserción o eliminación
•Inserciones / eliminaciones (deletions) son
también conocidas como indels
¿Cómo evaluamos un gap?

 ACCGGTATCC - - -GAC
|| | |||| || || | |
 ACC - - TATCTTAGGAC
 Un gap es grupo de indel consecutivos
 La longitud del gap esta dada por el número
de indels
 Este simple ejemplo tiene dos gaps de
longitudes 2 y 3
Matrices de Sustitución

 Las matrices de sustitución se utilizan para


penalizar los eventos de sustitución en un
alineamiento
 Particularmente importantes en alineamientos
de secuencias de proteínas, pero también se
usan en secuencias de ADN
 Cada matriz de puntación representa una
teoría particular de la evolución
Resumen alineamientos
BLAST

• Encuentra regiones de similitud entre secuencias


• Compara secuencias de nucleótidos o de proteínas
contra bases de datos y calcula la significancia
estadística del apareamiento.
• Infiere relaciones funcionales y evolutivas entre
secuencias
• Ayuda a identificar miembros de una familia de
genes.
Bioinformática

Siempre que sea


posible, debe
emplearse un abanico
de métodos de
análisis diferentes, y
los resultados
deberían unirse con
toda la información
biológica disponible.
GenBank Releases

Release 255 December 2010


150,388,382 Records
183,874,179,730 Nucleotides
>158,559 Species
455 Gigabytes 1549 files

• liberación completa cada 2 meses


• incremental y acumulativo diario
• disponible sólo vía web

ftp://ftp.ncbi.nih.gov/genbank/
Lista de bases de datos de
biología molecular en NAR

http://nar.oupjournals.org/content/
vol28/issue1/
Genómica comparativa

Humano -

Chimpancé

Ratón

Perro

Gallina

Rana

Pez cebra
El investigador genera nuevos CONOCIMIENTOS,
que pone a disposicion de otros como DATOS, que
al ordenarse son INFORMACIÓN, que puede
llegar a ser CONOCIMIENTO útil, apropiado o
adaptado, por la infraestructura de investigación de
C&T que posea un país.
Aplicaciones del genoma

Nature 2003 422


(6934):835-47
Cluster INTA
(http://bioinformatica.inta.gov.ar)
Construcción de un índice de genes para girasol

Biblioteca de ESTs de girasol (dbEST /Org: Helianthus annuus/GeneBank)

1. B ús queda BLAST de secuencias


de vectores y adaptadores

2a. Remoción de contaminantes en los extremos de los ESTs


2b. Eliminación de ESTs con contaminantes internos
2c. Eliminación de colas de poli-A
poli pol
- - T y de secuencias de
baja calidad en los extremos de los ESTs
2c. Eliminación de ESTs cortos

3.Ensamblado de contigs con CAP3

4. Construcción de familias de contigs

Diseño de sondas Anotaciones


Actualización de anotación utilizando Blast2Go
PME 024: Desarrollo de un prototipo de micromatriz de oligonucleótidos
representando los unigenes de girasol disponibles para estudios transcriptómicos

Diseño y síntesis del chip de girasol

•Un total de 28.089 singletons y 12.924 contigs fueron ensamblados, y


aproximadamente 22.000 unigenes se anotaron con terminología GO y se
mapearon metabólicamente por KEGG.
• El diseño de la micromatriz comprende un total de 45.220 sondas, con 1.417
controles de Agilent y 74 controles de hibridación, impresos 10 veces
(Fernández y col. 2008, 2011).

Diseño 4 x 44 K –

También podría gustarte