Está en la página 1de 65

Bioinformtica

para educacin secundaria


Sesin 1
Bases de datos en Biologa Molecular

Julin Dorado

Bsquedas en Internet.
SNPs como marcadores de enfermedades complejas.
Micro-arrays.
Sesin 2
Laboratorio on-line para Bachillerato. Genmica

Carlos de Paz


Anlisis de secuencias de ADN.
Alineamientos.
Comparacin de secuencias entre especies.
Prediccin de zonas significativas (codones de inico,
promotores, lugares de empalme intron/exn, seales poli-A o
islas CpG).
Bsqueda automtica de genes.
rboles filogenticos.
Sesin 3
Laboratorio on-line para Bachillerato. Protemica


Carlos de Paz y Julin Dorado


Anlisis de secuencias de Protenas.
Prediccin de estructuras secundarias.
Visualizacin 3D de estructuras de protenas.
Bioinformtica para Enseanza Secundaria Carlos de Paz
Bioinformtica
Redes de Informacin
Recursos sobre genomas
Anlisis de secuencias de ADN
Tcnicas de alineamiento de pares de secuencias
Alineamientos de secuencias mltiples
Protocolo de bsqueda de secuencias



Bioinformtica
Bioinformtica
Abarca todas las
aplicaciones de los
ordenadores en las
ciencias biolgicas,
pero fue acuado a
mediados de los aos
80 para el anlisis de
datos de secuencias
biolgicas.
Bioinformtica
La cantidad de datos de
secuencias conocidas
sobrepasa el de datos de
estructuras proteicas en
100:1 y, gracias a los
proyectos genoma, las
bases de datos de
secuencias duplican su
tamao anualmente.
100 1
Bioinformtica
Un reto clave para la bioinformtica es
analizar el caudal de datos de secuencias
con el fin de comprender la informacin
amasada en trminos de estructura, funcin
y evolucin proteicas.
Bioinformtica
El Santo Grial de la Bioinformtica
Bioinformtica
Se ha conseguido un
progreso considerable con
los mtodos de
reconocimiento de patrones
debido a la disponibilidad
de bases de datos de
referencia y moldes de
plegamiento.
La incompleta comprensin
del problema del plegamiento
de protenas determina una
barrera a los intentos actuales
de predecir la conformacin a
partir de la secuencia.
Hay dos aproximaciones analticas importantes en
bioinformtica: el reconocimiento de patrones y la
prediccin.
Bioinformtica
La homologa es un concepto central: se dice que dos secuencias
son homlogas si estn relacionadas por divergencia de un
ancestro comn. Homologa no es un trmino sinnimo de
similitud. La esencia del anlisis de secuencias es la deteccin de
relaciones homlogas mediante bsquedas en bases de datos de
secuencias.
Ortologa
Misma funcin
Especies diferentes
Paraloga
Funciones diferentes
Relacionadas en un
mismo organismo
Bioinformtica
El trmino analoga se emplea en el contexto de
plegamientos proteicos similares que no comparten
similitud de secuencias detectables, o protenas que
comparten grupos catalticos con las mismas geometras
espaciales pero que por lo dems no guardan similitud
estructural o de secuencias. Se piensa que tales
divergencias han resultado del proceso evolutivo de
convergencia.
Bioinformtica
Siempre que sea posible,
debe emplearse un
abanico de mtodos de
anlisis diferentes, y los
resultados deberan
unirse con toda la
informacin biolgica
disponible.
Redes de Informacin
Redes de informacin
Red Europea de
Biologa Molecular
(EMBnet)
Red la laboratorios
europeos de
biocomputacin.
Nodos nacionales
Nodos especialistas
Redes de informacin
Centro Nacional
(Americano) para la
Informacin Biotecnolgica
(NCBI)
Suministrador lder americano
de informacin.
Abanico de diferentes bases de
datos accesibles a travs de un
interface nico.
Redes de informacin
EMBnet
Sede de la base de datos
GeneBank


SRS (Sistema de
recuperacin de
secuencias)
NCBI
Sede de las bases de datos
EMBL, SWISS-PROT y
TrEMBL.

Entrez
Recursos sobre genomas
Recursos sobre genomas
Las principales bases de
datos de cidos nucleicos
son GenBank, EMBL y
DDBJ, cada una recoge
una fraccin de los datos
totales de secuencias
producidas en todo el
mundo y que
intercambian los
registros nuevos y los
actualizados diariamente.
Recursos sobre genomas
GenBank, que se produce en el
NCBI, est se reparte en
divisiones discretas y ms
pequeas. Esto facilita las
bsquedas rpidas y
especficas, mediante la
restriccin de las consultas a
subconjuntos particulares de
la base de datos. Durante
1992-1997 el nivel de datos
GenBank creci unas 10
veces.
Recursos sobre genomas
Adems de las bases de
datos exhaustivas de
secuencias de ADN, hay
una variedad de recursos
genmicos ms
especializados. Estas
llamadas bases de datos
boutique tienen como
objeto la genmica de
especies concretas y
tcnicas particulares de
secuenciacin.
Recursos sobre genomas
El abanico de recursos
disponibles en Internet
es inmenso y ha tenido
un tremendo impacto
sobre la capacidad de los
cientficos para presentar
y diseminar los
resultados de sus
investigaciones.
Anlisis de
secuencias de ADN
Anlisis de secuencias de
ADN
Las comparaciones de
secuencias son ms sensibles
en protenas, porque el
cdigo gentico redundante
es reducido a un conjunto
nico de aminocidos, pero
esta prdida de degeneracin
significa que se pierde
informacin relacionada
directamente con procesos
evolutivos.
Anlisis de secuencias de
ADN
Las bases de datos de secuencias
de ADN incluyen datos de
secuencias genmicas y, por
tanto, contienen un surtido
de datos que no pueden
tratarse por igual (p.ej.,
regiones no traducidas
(UTR), intrones y exones,
mRNA, cDNA y
traducciones). Esto afecta a la
forma en que deben
interpretarse las bsquedas.
Anlisis de secuencias de
ADN
Las UTR flanquean las
regiones codificantes del
ARN o del ADN, pero
no son traducidas. La
traduccin de ADN a
protena mediante una
tabla de cdigo gentico
se denomina conceptual,
indicando que no tiene
validacin experimental.
Anlisis de secuencias de
ADN
En una longitud arbitraria
de ADN, no se sabe qu
base marca el inicio de la
secuencia codificante
(CDS), de forma que
debe realizarse una
trduccin en seis pautas.
El reto es determinar cul
es la pauta de lectura
correcta.
Anlisis de secuencias de
ADN
Las caractersticas empleadas
para predecir posibles
regiones codificantes en el
ADN son: suficiente longitud
de la ORF, presencia de
secuencias de Kozak
flanqueantes, patrones de uso
de codones, preferencia de la
tercera base y presencia de
sitios de unin a ribosomas
(secuencias de
Shine.Dalgarno) antes del
codn de inicio.
Anlisis de secuencias de
ADN
La presencia de intrones y
exones en los genes
eucariticos puede dar lugar a
productos gnicos de
longitudes diferentes, porque
puede que no todos los
exones estn incluidos en el
transcrito final. Las protenas
resultantes se conocen como
variantes de procesado o
formas procesadas
alternativamente.
Anlisis de secuencias de
ADN
Las CDS completas raramente
son secuenciadas en una
reaccin, de modo que se
alinean fragmentos
solapantes de longitud
variable para construir un
consenso (el ensamblaje de
secuencias). Las lecturas
mltiples de bases de cada
posicin de la secuencia dan
una mayor fiabilidad al
resultado.
Anlisis de secuencias de
ADN
Una proporcin sustancial de
los datos de ADN
disponibles en la actualidad
deriva de marcas de
secuencias expresadas (EST),
que son secuencias parciales.
La produccin de EST est
altamente automatizada y los
resultados suelen estar
contaminados con bases
ambguas o que faltan. Esto
da lugar a dificultades en la
interpretacin de las
secuencias.
Anlisis de secuencias de
ADN
La jerarqua de informacin
genmica (genoma
cromosmico, genoma
expresado, proteoma,
etc.) precisa de que se
apliquen diferentes
herramientas analticas y
habilidades
interpretativas en cada
nivel.
Anlisis de secuencias de
ADN
Se han desarrollado varios
enfoques para el
establecimiento de
genotecas de EST para
su explotacin comercial
o acadmica. Entre los
proveedores de
informacin de EST se
encuentran
Merck/IMAGE, Incyte y
TIGR.
Anlisis de secuencias de
ADN
Las herramientas
pblicamente
disponibles para el
anlisis de EST son
las de bsqueda,
ensamblaje y
agrupamiento de
secuencias.
Tcnicas de alineamiento de
pares de secuencias
Alineamiento de secuencias
Las consultas a bases de
datos pueden tomar la
forma de consultas de
texto o bsquedas de
similitud de secuencias.
Para identificar una
relacin evolutiva entre
una secuencia recin
determinada y una
familia gnica conocida
debe evaluarse la
cantidad de similitud
compartida.
Alineamiento de secuencias
Un algoritmo es un
conjunto de pasos que
definen un proceso
computacional; un
programa es la
implementacin de un
algoritmo. Puede haber
varias implementaciones
diferentes del mismo
algoritmo, que deberan
(pero puede que no) dar
los mismos resultados.
Alineamiento de secuencias
La forma ms simple de
comparar dos secuencias
es alinearlas insertando
caracteres de hueco para
hacer que estn en
concordancia vertical.
Contar las posiciones
con caracteres
coincidentes da una
puntuacin simple para
el alineamiento.
Alineamiento de secuencias
Las matrices de identidad son ralas
(1)
y en consecuencia
tienen poca potencia para el diagnstico. Las
matrices de similitud ponderan las coincidencias de
resduos no idnticos segn tasas de sustitucin
observadas a lo largo de grandes distancia evolutivas.
Tales matrices dan lugar a ruido porque aumentan
tanto las coincidencias aleatorias como las seales
dbiles. La distincin entre seales biolgicas de baja
puntuacin y ruidos de puntuacin elevada es un
desfo central en el anlisis de secuencias.
Alineamiento de secuencias
Las puntuaciones de la Matriz de
Datos de mutacin de Dayhoff
se basan en el concepto de de
mutuacin puntual aceptada
(PAM). Una distancia evolutiva
de 250 PAM da puntuaciones
de similitud equivalentes a que
quede un 20% de coincidencias
entre dos secuencias. A
menudo se emplea la PAM 250
como matriz por defecto en los
programas de comparacin.
Alineamiento de secuencias
Un mtodo bsico para comparar
dos secuencias es el grfico de
puntos (dotplot). Este es un
grfico en el que las secuencias se
disponen sobre los ejes x e y y se
dibujan cruces o puntos en todas
las posiciones en las que se
observan resduos coincidentes.
Para secuencias idnticas, esto da
lugar a una lnea diagonal
ininterrumpida a travs de la
grfica, mientras que secuencias
similares originan diagonales
discontnuas.
Alineamiento de secuencias
Los alineamientos son modelos
que reflejan diferentes
perspectivas biolgicas. Un
modelo no es por tanto ms
o menos correcto que otro.
Dos enfoques generales
consideran la similitud (a) a
travs de toda la longitud de
las secuencias
(1)
y (b) a travs
de slo parte de las
secuencias
(2)
.
Alineamiento de secuencias
Los programas FastA y BLAST
son mtodos de bsqueda de
similitud local que se
concentran en hallar
emparejamientos cortos
idnticos, que pueden
contribuir a un
emparejamiento total. Las
implementaciones recientes
de BLAST puede generar
alineamientos con huecos.
Alineamiento de secuencias
mltiples
Alineamiento de secuencias mltiples
El anlisis de grupos de secuencias que forman familias
gnicas precisa de la capacidad de hacer conexiones
entre ms de dos miembros de la familia. Los
alineamientos mltiples se utilizan para revelar
caractersticas conservadas de la familia.
Alineamiento de secuencias mltiples
Los alineamientos mltiples, al
igual que los emparejados,
son simplemente modelos.
No hay nada
inherentemente correcto o
incorrecto en un
alineamiento concreto. Lo
importante es si el modelo
refleja con precisin los
datos biolgicos conocidos.
Alineamiento de secuencias mltiples
Los alineamientos basados en la
secuencia o la estructura son,
ambos, modelos imperfectos,
pues ninguno puede recoger
todos los niveles de
informacin biolgica.
Ambos enfoques son
representaciones bsicas de
aspectos particulares de la
biologa y no se debe
considerar que cualquiera de
ellos representa cierta verdad
ltima o patrn dorado.
Alineamiento de secuencias mltiples
Un alineamiento mltiple puede
definirse como una tabla 2D
en la que las filas representan
secuencias individuales y las
columnas posiciones de los
residuos. Una posicin de un
residuo en una secuencia no
alineada se denomina
posicin absoluta, mientras
que la posicin del resduo
alineado se llama posicin
relativa.
Alineamiento de secuencias mltiples
A menudo se descartan los
mtodos manuales por
ser subjetivos. Sin
embargo, los resultados
de los programas de
alineamiento automtico
casi invariablemente
necesitan un pulido
manual, por lo que los
editores de alineamiento
se han convertido en
herramientas esenciales.
Alineamiento de secuencias mltiples
Hay numerosas bases de datos
de alineamientos accesibles a
travs de la web. Son el
resultado de aproximaciones
diferentes: p.ej., la aplicacin
de mtodos automticos para
agrupar los recursos de
secuencias primarias en
familias o de intentos de
producir discriminadores de
familias gnicas para la
inclusin en bases de datos
secundarias.
Alineamiento de secuencias mltiples
Los alineamientos producidos por mtodos puramente
automticos deben tratarse con cuidado, especialmente
en los casos en que la similitud de las secuencias es baja;
a menudo dan lugar a un exceso de insercin de huecos
que produce alineamientos incorrectos.
Alineamiento de secuencias mltiples
Se han desarrollado varias
tcnicas computacionales
para consultar bases de datos
de secuencias primarias
empleando estructuras de
datos basadas en
alineamientos. Un enfoque
hbrido reciente es el PSI-
BAST
(1)
. Aunque de rpida
ejecucin, tiene la desventaja
de que la bsqueda
automtica iterativa puede
degenerar y llevar a la prdida
del perfil.
Construccin de un
protocolo de bsqueda de
secuencias
Protocolo de bsqueda de secuencias
Al intentar caracterizar una secuencia de determinacin
reciente, queremos saber de qu protena se trata, a qu
familia puede pertenecer, cul es su funcin y cmo
podemos explicar su funcin en trminos estructurales.
Protocolo de bsqueda de secuencias
Todava no existe la base de
datos o el software que
permita dar respuesta
directa a todas estas
cuestiones. Es razonable
conjuntar diversas
tcnicas en un protocolo
de bsqueda.
Protocolo de bsqueda de secuencias
1. Bsqueda de
identidades en una
base de datos
compuesta.

Es la primera y ms
rpida prueba de si
existe una secuencia
exacta en las bases
de datos pblicas.
Protocolo de bsqueda de secuencias
2. Bsqueda de similitudes. Mostrar si la secuencia
problema pertenece a una familia ampliada
(p.ej.)
.
Protocolo de bsqueda de secuencias
3. Bsqueda en bases de datos de patrones. Indicar si la
secuencia problema contiene algn motivo
caracterstico que pueda sugerirnos aspectos
particulares de su estructura o funcin
(recursos)
.
Protocolo de bsqueda de secuencias
4. Bsquedas en bases de datos de clasificaciones de
plegamientos; una vez se ha alcanzado un diagnstico de
consenso, se puede acceder a ms imformacin (si se conoce
una estructura) consultando las bases de datos de clases de
plegamientos o examinando el resumen de informacin
proporcionado en PDBSum.
Protocolo de bsqueda de secuencias
Slo mediante el empleo de
un conjunto de bases de
datos y herramientas
podemos obtener el
mximo de nuestro
anlisis de secuencias,
porque ninguna de las
bases es completa y
ninguno de los mtodos
de bsqueda infalible.
Protocolo de bsqueda de secuencias
Uniendo todos los
resultados, como las
piezas de un
rompecabezas, puede
surgir una imagen
estructural, funcional
y evolutiva ms
completa de una
protena.
Un enfoque prctico se bosqueja en el tutorial
interactivo en lnea en:

http://umber.sbs.man.ac.uk/dbbrowser/bioactivity/
Protocolo de bsqueda de secuencias
Ejercicios prcticos
Ejercicios prcticos

www.bioxeo.com/bioinfo