Bioinformatica

Elementos de Bioinformática
Dra. Paula Fernandez

Instituto de Biotecnología
INTA Castelar
pfernandez@cnia.inta.gov.ar
Bioinformática
El término se acuñó por primera vez en 1988 (Dra. Hwa Lim)
Definición original:
“a collective term for data compilation, organisation, analysis and

dissemination”
¿Qué es la Bioinformática?
Bioinformática
PROBLEMA: DEFINICIÓN
Objetivos
• Describir la importancia e impacto de la
bioinformática asociada de manera indisoluble a
la genómica
• Identificar fuentes de información disponibles: su
calidad, jerarquía y confianza
• Ejecutar búsquedas en portales de distribución
pública de datos
Secuenciación: Método de Sanger
Secuenciación: Método de Sanger
Equipamiento automatizado
INTRODUCCIÓN:
ESTs
INTRODUCCIÓN:
ESTs
• Un EST (del inglés expressed sequence tag) es un fragmento corto de

ADNc entre 300-700 pb obtenidos por la secuenciación de una sola
lectura y que puede servir para identificar, localizar o mapear un gen.
• Actualmente, se encuentran representadas más de 100 especies de

plantas en la división EST de GenBank con un total aproximado de
40.000.000 secuencias. De este número, 134.000 secuencias
aproximadamente corresponden a girasol (al 31/08/2011).
INTRODUCCIÓN:
ESTs
INTRODUCCIÓN:
ESTs
Armando el rompecabezas del gen
INTRODUCCIÓN:
Contigs
Bases de ESTs
http://compbio.dfci.harvard.edu/tgi/ (exTIGR)
http://www.plantgdb.org
http://www.ncbi.nlm.nih.gov/sites/entrez?db=unigene
Bases de datos
Lab vs. compus
• Cada vez más estudios comienzan con el análisis de

bases de datos para luego formular hipótesis o diseñar
experimentos.
• El trabajo de laboratorio culmina en la acumulación de

colecciones masivas de datos que deben ser
posteriormente analizados.
Bases de datos
Qué es una base de datos? Una colección de datos
Cómo colecciono los datos? Decisión del usuario. Diseño de

la base de datos.
Puedo usar:
Procesador de texto? (Word) Si. Permite sólo búsqueda y

ordenamiento simples.
Planilla de Cálculo? (Excel) También. Como los datos están

en columnas independientes, se
puede ordenar en formas más
complejas. Las búsquedas
siguen siendo simples.
Tipos de datos
 Numéricos (enteros, decimales)
 Texto
 Fechas (DD/MM/YYYY, HH:MM:SS)
 Lógicos (boolean) = verdadero / falso
 Geométricos (punto, línea, círculo,
polígonos, etc.)
Bases de datos: conceptos básicos: clave primaria
gi Accession version date Genbank Division taxid organims Number of Chromosomes

6226959 NM_000014 3 01/06/2000 PRI 9606 homo sapiens 22 diploid + X+Y
41 X63129 1 06/06/1996 MAM 9913 bos taurus 29+X+Y
gi = Genbank Identifier: Clave única : Clave primaria

Cambia con cada actualización del registro correspondiente a la secuencia
Accession Number: Clave secundaria

Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia.
Accession + Version es equivalente al gi (representa un identificador único)

Ejemplo: AF405321.2 Accession: AF405321 Version: 2
Bases de datos: distribución de la información
gi Annotation
5693 Trypanosoma cruzi chromosome 3, ORF 1234, similar to gi|12345|AF934567 caseine
kinase (Candida albicans)
5694 Candida albicans hypothetical protein in region 21922..24568
5695 Sarcocystis cruzi 16SRNA gene
5696 Lutzomyia cruzi cytochrome b; best similarity to gi|1234568

Búsquedas en una base de datos: índices
 Para facilitar las búsquedas en una base de datos, se construyen

índices.
 Un índice es una lista de claves primarias asociadas a un
determinado campo (o grupo de campos).
 Un ejemplo más complejo: buscar todos los records que
contengan la palabra „kinase‟ en la descripción de la secuencia.
Búsquedas en bases de datos: búsquedas indexadas
Importante: no se busca en el total de los datos disponibles, sino sobre

un subset pre-computado.
 Buscadores de páginas en internet
 PubMed / Entrez / SRS
 BLAST
Búsquedas simples
 Los motores de búsqueda ofrecen búsquedas simples
 No imponen restricciones
 El usuario tipea palabras libremente
 Usan estrategias para intentar “adivinar” la intención del

usuario (sobre qué campo de la base de datos buscar)
Sistemas de búsqueda avanzada:
Entrez y SRS
Recuperación y almacenamiento de secuencias

específicas.
The Entrez System: Text Searches
Entrez y SRS
Las bases de datos no solo proveen la información molecular, sino

también los medios adecuados para acceder fácilmente a esa
información. Las interfases de búsqueda principales son ENTREZ y
SRS.
Entrez y SRS (Cont.)
ENTREZ, el primero en incorporar relaciones lógicas o nexos entre las entradas

individuales de datos en distintas bases de datos públicas
SRS reúne unas 400 bases de datos, en los últimos años se desarrolló como un
sistema integrado de búsqueda y recuperación de datos asociados y
aplicaciones para análisis de secuencias.
DBGET es un sistema simple de acceso de datos a un grupo diverso de bases

de datos moleculares
http://www.ncbi.nlm.nih.gov/Entrez/
• Es una interfaz de usuario.

• Constituye el nexo entre el usuario y las bases de datos.
• Permite realizar consultas simples y obtener resultados, aún
desconociendo la arquitectura de las bases de datos.
• Sin embargo, si se conoce esa arquitectura, las búsquedas
pueden resultar más precisas y eficaces.
• No es fácil acceder a ese conocimiento y su uso es poco intuitivo,
por lo que se recomienda siempre visitar la ayuda del NCBI.
http://srs.ebi.ac.uk/
• SRS es una mejor opción desde el punto de la facilidad en su uso

simple y avanzado.
• Dicha opción se da fundamentalmente por el formulario guiado de
búsqueda avanzada.
Uso de
• Entrez es un sistema de búsqueda y adquisición de información

integrada de las distintas bases de datos de NCBI:
Secuencias proteicas
Secuencias nucleotídicas
Estructuras macromoleculares
Genomas y mapas de genes
Literatura científica (MEDLINE)
Uso de
• Entrez permite combinar términos utilizando operadores lógicos

(AND, OR, NOT). Los operadores lógicos, también llamados
operadores voláneos („boolean operators‟), deben ser ingresados
en mayúsculas para ser reconocidos como tales por Entrez (por
ejemplo: vitamin C OR zinc, DNA AND Crick AND 1993).
• Entrez lee los operadores lógicos de izquierda a derecha.
• Es posible cambiar el orden de evaluación de los operadores
usando paréntesis.
Uso de
AND / OR / NOT Delimitadores booleanos. En mayúsculas

Affiliation [AD] Lugar en el que se ha hecho el trabajo (Univ. Buenos Aires)
All fields [ALL] En cualquier campo
Author name [AU] Nombre del autor. Formato: Smith JL [AU], sin comas ni puntos
EC/RN Number [RN] Número asignado a una enzima por la Comisión de Enzimas
Entrez Date [EDAT] Fecha de incorporación a Entrez
Issue [IP] Ejemplar del volumen de una revista
Journal Title [TA] Título de la revista: entero, abreviatura MEDLINE o número ISSN
[molecular biology of the cell] [mol biol cell], sin puntos
Language [LA] Idioma: English, French, German, Italian, Japanese
MeSH Terms [MH] Medical Subject Headings (19000 términos, actualizados y
clasificados)
Uso de
La página de inicio de este servidor presenta

distintas opciones:
•Comenzar un proyecto temporario o permanente

•Correr una aplicación
•Acceder a información disponible sobre las bases
de datos
•Acceder a la documentación en línea
Uso de
Uso de
• Luego se accede a la solapa de búsqueda estándar
(denominada QUERY) donde se definen las opciones
de búsqueda y se ingresan las palabras clave. Dentro
de la opciones de búsqueda, si seleccionamos “Append
wildcards to words” la búsqueda se realizará sobre las
palabras clave ingresadas y también sobre todas
aquellas posibles terminaciones de dichas palabras.
Uso de
• “Combine searches with” permite relacionar los términos

de la búsqueda mediante los conectores & (AND), (OR)
y (BUTNOT). “Number of entries to display per page”
permite definir el número máximo de registros listados
en cada página.
Recuperación y almacenamiento de
secuencias específicas
• Ejemplos:
ENTREZ: Helianthus annuus [Organism] AND gbdiv_est [properties]
SRS: ESTs Helianthus annuus

Orden de los términos en un query
 El orden de los términos es importante
 Un query se evalúa de izquierda a derecha

 human NOT genome no es lo mismo que genome NOT
human
 Si el query tiene muchos términos pueden forzar el orden de

evaluación usando paréntesis
 human AND cancer AND (cell OR science OR nature)
 casein kinase NOT (human OR mouse)

Sistema Entrez
Genómica aplicada a la medicina

clínica
Sistema Entrez
Sistema Entrez
Sistema Entrez
Sistema Entrez
Genome Browser (http://genome.ucsc.edu/)
clínica
clínica
14/10/2009 clínica 51
Trusted annotation
Translation from DNA

The NCBI ftp site
30,000 files per day

620 Gigabytes per day
GenBank File Formats
ASN.1 – The Raw Data flat file
XML
FASTA
GenBank
 Redundante (es un Banco, no busca unificar datos)
 Con errores
 Difícil de actualizar
 Para poder corregir, mejorar y mantener actualizada la anotación
de los registros, el NCBI creó RefSeq (colección curada de
registros de GenBank)
 toma records de GenBank y los actualiza/corrije
 unifica para reducir redundancia
 Accession numbers del tipo XX_123456

Bases de datos primarias
 Una base de datos primaria es un repositorio de datos derivados de un experimento o
de conocimiento científico.
 Genbank (Repositorio de secuencias nucleotídicas)

 Protein DB, Swissprot
 PDB
 Pubmed (literatura)
 Genome Mapping
 Kegg (Kyoto Encyclopedia of Genes and Genomes, base de datos de vías
metabólicas)
 Bases de datos colaborativas
 DNA Database of Japan (DDBJ)
 European Molecular Biology Laboratory (EMBL) Database
Bases de datos secundarias
 Una base de datos secundaria contiene información derivada de

otras fuentes (primarias, entre otras).
 Refseq (Colección curada de GenBank en NCBI)
 Unigene (Clustering de ESTs en NCBI)
 Las bases de datos organismo-específicas son en general una

mezcla entre primaria y secundaria.
RefSeq: Base de datos secundaria
mRNAs and Proteins

NM_123456 Curated mRNA
NP_123456 Curated Protein
NR_123456 Curated non-coding RNA
XM_123456 Predicted mRNA
XP_123456 Predicted Protein
XR_123456 Predicted non-coding RNA
Gene Records
NG_123456 Reference Genomic Sequence
Chromosome
NC_123455 Microbial replicons, organelles
NT_123456 Contig
NW_123456 WGS Supercontig
Anotando el gen
Genomic DNA
(NC, NT, NW)
Scanning....
Model mRNA (XM) Model protein (XP)

(XR)
= ?!
Curated mRNA (NM) Curated Protein (NP)
(NR)
RefSeq
Genbank
Sequences
Bases primarias vs. secundarias
Algorithms UniGene
Sequencing
Centers
EST UniSTS
GenBank
STS Updated
Updated ONLY RefSeq:
by submitters GSS continually Annotation
by NCBI Pipeline
HTG
INV VRT PHG VRL
PRI ROD PLN MAM BCT
RefSeq:
Gene and
Curators
Genomes Pipelines
TATAGCCG
Labs AGCTCCGATA
CCGATGACAA
Ejemplos de integración de información en NCBI
Word weight
PubMed
Phylogeny
Taxonomy 3-D
mmdb
Structure
(3D structure)
VAST
Genomes
Nucleotide Protein
BLASTn sequences sequences BLASTp
 IDENTIFICANDO SIMILITUD:
 COMPARACION DE SECUENCIAS A
TRAVES DE ALINEAMIENTOS
¿Qué es el alineamiento?
 ACCGGTATCCTAGGAC
 ACCTATCTTAGGAC
 ¿Están estas dos secuencias

relacionadas?
 ¿Cuán similares (o distintas) son?

¿Qué es el alineamiento?
 | | | || || || | || |
 ACC - - TATCTTAGGAC
•Hacer coincidir las dos secuencias lo más

posible es igual a que estén alineadas
•Por lo tanto, es necesario un puntaje de
evaluación de alineamientos
¿Porqué nos interesa?
 El ADN y las proteínas se basan en

secuencias lineales
 La información está codificada en estas
secuencias
 Todo análisis bioinformático en algún
punto vuelve al alineamiento de
secuencias que podrían tener algo de
ruido o variabilidad
¿Cual es el objetivo de la comparación?
 El objetivo es encontrar el alineamiento

que con mayor probabilidad (nunca
sabremos si es el real) refleje qué cambios
se han producido
<---------------(--------------------HELIX 19-----------
<---------------(22222222-000000-111111-00000-111111-000
Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGG
Th. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGG
E.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AAC
Ancyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACA
B.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGG
Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAG
match ** *** * ** ** *
Tipos de Alineamiento entre dos
secuencias
 Locales: utilizado cuando se quieren encontrar

sub-secuencias compartidas
 Para buscar dominios en proteínas
 Para encontrar elementos de regulación
 Para localizar un gen similar en un genoma
 Globales: utilizado cuando hay que comparar
secuencias de tamaño similar
 Para comparar genes similares
 Para buscar mutaciones o polimorfismos en una
secuencia comparándola contra una secuencia de
referencia.
¿Cómo evaluamos un alineamiento?
| || | ||| | || | ||
 •Asignamos un puntaje a cada
coincidencia (match) dada a lo largo del
alineamiento
| | | |||| ||| | | |
ACC - - TATCTTAGGAC
 Asignamos un puntaje (o penalidad) por

cada sustitución
ACCGGTATCCTAGGAC
|| | ||| | || | | ||
ACC - - TATCTTAGGAC
•Asignamos un puntaje (o penalidad) por cada
inserción o eliminación
•Inserciones / eliminaciones (deletions) son
también conocidas como indels
¿Cómo evaluamos un gap?
 ACCGGTATCC - - -GAC
|| | |||| || || | |
 Un gap es grupo de indel consecutivos
 La longitud del gap esta dada por el número
de indels
 Este simple ejemplo tiene dos gaps de
longitudes 2 y 3
Matrices de Sustitución
 Las matrices de sustitución se utilizan para

penalizar los eventos de sustitución en un
alineamiento
 Particularmente importantes en alineamientos
de secuencias de proteínas, pero también se
usan en secuencias de ADN
 Cada matriz de puntación representa una
teoría particular de la evolución
Resumen alineamientos
BLAST
• Encuentra regiones de similitud entre secuencias

• Compara secuencias de nucleótidos o de proteínas
contra bases de datos y calcula la significancia
estadística del apareamiento.
• Infiere relaciones funcionales y evolutivas entre
secuencias
• Ayuda a identificar miembros de una familia de
genes.
Bioinformática
Siempre que sea

posible, debe
emplearse un abanico
de métodos de
análisis diferentes, y
los resultados
deberían unirse con
toda la información
biológica disponible.
GenBank Releases
Release 255 December 2010

150,388,382 Records
183,874,179,730 Nucleotides
>158,559 Species
455 Gigabytes 1549 files
• liberación completa cada 2 meses

• incremental y acumulativo diario
• disponible sólo vía web
ftp://ftp.ncbi.nih.gov/genbank/
Lista de bases de datos de
biología molecular en NAR
http://nar.oupjournals.org/content/
vol28/issue1/
Genómica comparativa
Humano -
Chimpancé
Ratón
Perro
Gallina
Rana
Pez cebra
El investigador genera nuevos CONOCIMIENTOS,
que pone a disposicion de otros como DATOS, que
al ordenarse son INFORMACIÓN, que puede
llegar a ser CONOCIMIENTO útil, apropiado o
adaptado, por la infraestructura de investigación de
C&T que posea un país.
Aplicaciones del genoma
Nature 2003 422

(6934):835-47
Cluster INTA
(http://bioinformatica.inta.gov.ar)
Construcción de un índice de genes para girasol
Biblioteca de ESTs de girasol (dbEST /Org: Helianthus annuus/GeneBank)
1. B ús queda BLAST de secuencias

de vectores y adaptadores
2a. Remoción de contaminantes en los extremos de los ESTs

2b. Eliminación de ESTs con contaminantes internos
2c. Eliminación de colas de poli-A
poli pol
- - T y de secuencias de
baja calidad en los extremos de los ESTs
2c. Eliminación de ESTs cortos
3.Ensamblado de contigs con CAP3
4. Construcción de familias de contigs
Diseño de sondas Anotaciones

Actualización de anotación utilizando Blast2Go
PME 024: Desarrollo de un prototipo de micromatriz de oligonucleótidos
representando los unigenes de girasol disponibles para estudios transcriptómicos
Diseño y síntesis del chip de girasol
•Un total de 28.089 singletons y 12.924 contigs fueron ensamblados, y

aproximadamente 22.000 unigenes se anotaron con terminología GO y se
mapearon metabólicamente por KEGG.
• El diseño de la micromatriz comprende un total de 45.220 sondas, con 1.417
controles de Agilent y 74 controles de hibridación, impresos 10 veces
(Fernández y col. 2008, 2011).
Diseño 4 x 44 K –

Bioinformatica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioinformatica

Cargado por

Copyright:

Formatos disponibles

Elementos de Bioinformática

Dra. Paula Fernandez

El término se acuñó por primera vez en 1988 (Dra. Hwa Lim)

“a collective term for data compilation, organisation, analysis and

• Un EST (del inglés expressed sequence tag) es un fragmento corto de

• Actualmente, se encuentran representadas más de 100 especies de

• Cada vez más estudios comienzan con el análisis de

• El trabajo de laboratorio culmina en la acumulación de

Cómo colecciono los datos? Decisión del usuario. Diseño de

Procesador de texto? (Word) Si. Permite sólo búsqueda y

Planilla de Cálculo? (Excel) También. Como los datos están

gi Accession version date Genbank Division taxid organims Number of Chromosomes

gi = Genbank Identifier: Clave única : Clave primaria

Accession Number: Clave secundaria

Accession + Version es equivalente al gi (representa un identificador único)

5694 Candida albicans hypothetical protein in region 21922..24568

5695 Sarcocystis cruzi 16SRNA gene

5696 Lutzomyia cruzi cytochrome b; best similarity to gi|1234568

 Para facilitar las búsquedas en una base de datos, se construyen

Importante: no se busca en el total de los datos disponibles, sino sobre

 Buscadores de páginas en internet

 PubMed / Entrez / SRS

 El usuario tipea palabras libremente

 Usan estrategias para intentar “adivinar” la intención del

Recuperación y almacenamiento de secuencias

Las bases de datos no solo proveen la información molecular, sino

ENTREZ, el primero en incorporar relaciones lógicas o nexos entre las entradas

DBGET es un sistema simple de acceso de datos a un grupo diverso de bases

• Es una interfaz de usuario.

• SRS es una mejor opción desde el punto de la facilidad en su uso

• Entrez es un sistema de búsqueda y adquisición de información

• Entrez permite combinar términos utilizando operadores lógicos

AND / OR / NOT Delimitadores booleanos. En mayúsculas

La página de inicio de este servidor presenta

•Comenzar un proyecto temporario o permanente

• “Combine searches with” permite relacionar los términos

ENTREZ: Helianthus annuus [Organism] AND gbdiv_est [properties]

SRS: ESTs Helianthus annuus

 Un query se evalúa de izquierda a derecha

 Si el query tiene muchos términos pueden forzar el orden de

 casein kinase NOT (human OR mouse)

Genómica aplicada a la medicina

Translation from DNA

30,000 files per day

 unifica para reducir redundancia

 Accession numbers del tipo XX_123456

 Genbank (Repositorio de secuencias nucleotídicas)

 Una base de datos secundaria contiene información derivada de

 Unigene (Clustering de ESTs en NCBI)

 Las bases de datos organismo-específicas son en general una

mRNAs and Proteins

Model mRNA (XM) Model protein (XP)

 ¿Están estas dos secuencias

 ¿Cuán similares (o distintas) son?

•Hacer coincidir las dos secuencias lo más

 El ADN y las proteínas se basan en

 El objetivo es encontrar el alineamiento

 Locales: utilizado cuando se quieren encontrar

 Asignamos un puntaje (o penalidad) por

 Las matrices de sustitución se utilizan para

• Encuentra regiones de similitud entre secuencias

Siempre que sea

Release 255 December 2010

• liberación completa cada 2 meses