Está en la página 1de 72

Introducción a la Bioinformática

Dr. Alfonso Méndez Tenorio


Laboratorio de Biotecnología y Bioinformática Genómica
Escuela Nacional de Ciencias Biológicas- IPN.
e-mail: amendezt@ipn.mx
La revolución informática en biología.

 La forma como son estudiados los organismos en


biología y todas las ciencias relacionadas ha sufrido
una revolución.
 Un componente de esta revolución ha sido el
incremento en el número genomas completos
secuenciados de varios organismos.
 Otro componente ha sido la integración de las
computadoras en el análisis de la información.

Dr. Alfonso Méndez Tenorio


Determinación de la secuencia de
proteínas

 1945-1955: Frederick Sanger y Cols. determinaron


exitosamente la secuencia de aminoácidos de la
insulina.
 Paralelamente Pehr Edman desarrolla un método más
conveniente para la determinación de secuencia
(degradación de Edman).Permitió la sistematización.
 A finales de la década de los 60s P. Edman desarrolla
un dispositivo automatizado para determinar la
secuencia de aminoácidos.

Dr. Alfonso Méndez Tenorio


Cubierta viral
Oxitocina Mosaico del
Tabaco
Vasopresina Inmunoglobulina
Insulina Lisozima Tripsinógeno (cadena )
Glucagon Citocromo c
(cadena )

1951 1953 1957 1960 1961 1962 1963 1965 1966 1967 1969

Deshidrogenasa del
Hemoglobina Mioglobina Glicerarldehído 3 – fosfato
Insulina Ribonucleasa
(cadena )
(cadena ) Hormona de
crecimiento
Hemoglobina
(cadena )

Figura 1: Historial de las primeras secuencias de proteínas que fueron establecidas. En un periodo de 19
años se conoció la secuencia de 13 proteínas.
Margaret Dayhoff.

 Margaret Oakley Dayhoff (NBRF-NIH): En la década de los


60s ideó las primeras técnicas matemáticas para analizar
datos de secuencia.
 Desarrolló técnicas computacionales para reconstruir la
secuencia de proteínas a partir de la secuencia de
fragmentos generados por los métodos de digestión parcial
 Estableció el Atlas of Protein Sequence and Strcuture.
 Desarrolló la Matriz de Porcentajes de Mutación Aceptados
(PAM) para evaluar la probabilidad de que un aminoácido
sea substituido por otro durante el transcurso de un proceso
evolutivo.

Dr. Alfonso Méndez Tenorio


Determinación de la secuencia de
nucleótidos.

 En 1973 se determinó la secuencia de un fragmento del


DNA del bacteriófago X174 (48 nt) mediante un complejo
proceso de digestiones de DNA marcado con P32 y análisis
posterior de los fragmentos obtenidos por cromatografía
 En 1977 Maxam y Gilbert publicaron un método para la
determinación de secuencia basado en un rompimiento
químico específico de la molécula.
 Ese mismo año Sanger, Nicklen y Coulson publican de
manera independiente un método enzimático para la
determinación de secuencia.

Dr. Alfonso Méndez Tenorio


Bases de datos primarias

Fueron las primeras en ser creadas


Son las primeras en consultarse

DNA Proteínas

GenBank EMBL JDDB PIR SWISS- PDB


PROT
International Nucleotide Sequence
Database Collaboration UniProt

Dr. Alfonso Méndez Tenorio


Figura 7: Algunas bases de datos importantes en bioinformática: La base de datos del Genbank-NCBI y la del
EMBL-EBI son dos de las bases de datos más importantes de secuencias de DNA. SWISSPROT y PIR son el
equivalente en bases de datos para proteínas. La PDB es una base de datos muy importante de proteínas de las
que se conoce su estructura tridimensional.
Crecimiento de la base de datos del GenBank. Actualmente el GenBank está en una
etapa de crecimiento exponencial
65

El problema de los grandes números. El tamaño actual de las bases de datos ha


impuesto dificultades en el almacenamiento y en el uso de las herramientas para su
análisis.
Entrez es el sistema de consulta de las
bases de datos del NCBI
Se han secuenciado 1010 genomas procarióticos
Hay 24 genomas eucarióticos completos
Hay 3255 secuencias de referencia para 2194 genomas
virales
Análisis básico en bioinformática

 Alineamiento de pares de secuencias.


 Búsqueda de similitudes en bases de
datos.
Principales tareas  Alineamiento múltiple de secuencias.
en el análisis  Elaboración de árboles filogenéticos.
bioinformático
 Predicción de estructura de ácidos
nucleicos y proteínas.
 Búsqueda de genes.
 Análisis de regulación global.

Dr. Alfonso Méndez Tenorio


Alineamiento de secuencias.

 Acomodar dos o más secuencias de tal manera que se


alcance el máximo de coincidencias entre los residuos de
las mismas.
 Global: Se pretende alinear la secuencia entera empleando
tantos caracteres como sea posible de los extremos de las
secuencias.
 Local: Se buscan las porciones de las secuencias que
presentan mayor cantidad de concordancias, con lo que se
generan zonas de concordancia llamadas
subalineamientos.
 ¿Qué nos indica que dos secuencias se parecen entre si?

Dr. Alfonso Méndez Tenorio


Primer problema:

Dr. Alfonso Méndez Tenorio


¿Homología o similitud?

 Las proteínas homólogas son aquellas que


se originaron de un ancestro común.
 Las proteínas homólogas tienen similitud
estructural.
 Generalmente hay un alto grado de similitud
en la secuencia (aunque esta no es un
indicio suficiente para la homología).
 Pueden tener función idéntica o similar.

Dr. Alfonso Méndez Tenorio


LGPSSKQTGKGC-SRIWDN
| | ||| | | GLOBAL
LN-ITKSAGKGAIMRLGDA

-------TGKG--------
||| LOCAL
-------AGKG--------

Tipos de alineamiento de secuencias. Fundamentalmente hay dos formas de


alinear las secuencias biológicas.
Ejemplo: Alineamiento de un par de secuencias de DNA. Gráfica de matriz de
puntos.

A C G T A

A
A C G - T A
C | | | | | |
A C G C T A
G

C •Las diagonales representan pares de


caracteres alineados consecutivos.
T •Los desplazamientos horizontales y
verticales representan huecos.
A
A C G T A
A C G - T A
0 -1 -2 -3 -4 -5 | | | | | |
A C G C T A
A -1 1 0 -1 -2 -3
Gap = -1 x n
C -2 0 2 1 0 -1 ScoreXY = +1 (match)
ScoreXY = - 1 (mismatch)
G -3 -1 1 3 2 1
VX, Y-1 - GAP
C -4 -2 0 2 1 1
VX,Y = Max
T -5 -3 -1 1 3 1 VX-1, Y - GAP

VX-1, Y-1 + ScoreXY


A -6 -4 -2 0 2 4

Alineamiento de una secuencia por programación dinámica. La programación dinámica


garantiza obtener el alineamiento “óptimo”
¿ Por qué deseamos comparar secuencias?

De acuerdo a la teoría de la evolución las secuencias


de DNA y proteínas de los organismos
contemporáneos se originaron por mutaciones al azar
que han ocurrido en las secuencias de organismos
ancestrales.
Por ese motivo es posible encontrar que secuencias
homólogas tienen cierto grado de similitud.
Si hay similitud entre dos secuencias ¿podemos inferir
que son homólogas?

Dr. Alfonso Méndez Tenorio


¿Cómo evaluamos la similitud de dos secuencias?

H Y K S T R H E D H
1 1 0 1 0 1 0 0 1 0
H Y R S A R R C D K

No aciertos 5
% Identidad   100%   100%  50%
Longitud 10

Dr. Alfonso Méndez Tenorio


La matriz de substitución de aminoácidos PAM 250. Los valores de la tabla se han
derivado a partir de la frecuencias de substitución de pares de aminoácidos
observadas en la evolución de proteínas homólogas.
Evaluación de la similud mediante el esquema de
puntuación PAM 250

H Y K S T R H E D H
6 10 3 2 1 6 2 -5 4 0
H Y R S A R R C D K

Puntuación  6  10  3  2  1  6  2  5  4  0  29

Dr. Alfonso Méndez Tenorio


Secuencia de función Secuencia de
desconocida función conocida

¿ son parecidas?

si no

Es posible que Buscar otra secuencia de


tengan la misma función conocida que sea
función similar

Proceso de inferencia en el análisis comparativo de secuencias. Asumimos que dos


secuencias “similares” tienen estructura y funciones similares.
¿Qué representa la puntuación de un
alineamiento?

 En principio se trata del logaritmo de una relación entre dos


probabilidades:

Probabilid ad A y B estén relacionadas evolutivamente


Puntuacion AB  Log
Probabilid ad de que el alineamiento A y B sea al azar
P( Alineamiento AB | M ) P( M )
 Log 
P( Alineamiento AB | R ) P( R)

 De acuerdo con esto: Si la puntuación del alineamiento es


positiva, la probabilidad de que haya una relación evolutiva será
mayor que aquella de un alineamiento al azar.

Dr. Alfonso Méndez Tenorio


Tripsina bovina 5PTP vs tripsina de S. griseus 5SGT

Dr. Alfonso Méndez Tenorio


Tripsina bovina 5PTP vs Proteasa A S. griseus 1SGT
Tripsina bovina 5PTP vs Subtilisina 1SBT

¿Homólogos?
Tripsina S. griseus 5SGT Proteasa A S. griseus 5SGC
34.6% identidad 50.8% similitud 24.3% identidad 40.4% similitud

rmsd=1.4Å
rmsd=2.7Å
Tripsina bovina
5PTP

rmsd=muy grande (no significativo)

Subtilisina 5SBT
24.2% de identidad 39.8%
¿Qué sucedió?

 En la práctica no basta que la puntuación de


un alineamiento sea positiva, ya que hay
errores en la medición de los valores de las
matrices.
 Además el alineamiento debería realizarse
usando la matriz que corresponde con la
distancia evolutiva correcta entre las
proteínas.

Dr. Alfonso Méndez Tenorio


# Matrix: EPAM250
# Gap_penalty: 10.0
# Extend_penalty: 0.5
# Identity: 93/373 (24.9%)
# Similarity: 181/373 (48.5%)
# Gaps: 88/373 (23.6%)
# Score: 336.5
Distribución de puntuaciones de 10000 alineamientos al azar (PAM250)

600

500

400
Frecuencia

300

200

100

100 150 200 250


Puntuación Proteína

336.5
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
# Identity: 1051/2731 (38.5%)
# Similarity: 1051/2731 (38.5%)
# Gaps: 1408/2731 (51.6%)
# Score: 1582.0
Distribución de puntuaciones de 1000 alineamientos al azar (DNAFULL)

600

500

400
Frecuencia

300

200

100

1350 1450 1550 1650


Puntuaciones DNA

1582.0
Distribución de valores extrem os (Gum bel)

0.40

 Kmn e   x
0.35
P( S  x)  1  e  Kmn e   x

0.30

0.25
f(x)

0.20

0.15

0.10

0.05

0.00
-6.00 -4.00 -2.00 0.00 2.00 4.00 6.00

u 

ln( Kmn)
  0.5771   E (S ) 
u    0.4500 

Búsqueda de similitudes en grandes
bases de datos.

 Dada una secuencia (A.N. ó proteína): encontrar


secuencias altamente similares en una base de datos
determinada.
 Para esta tarea se utilizan programas de cómputo basados
en algoritmos acelerados para la comparación de
secuencias.
 Se utiliza un análisis estadístico para estimar si la similitud
es significativa:
 Los programas más difundidos son BLAST (Altschul et al.,
1990) y FASTA (Pearson y Lipman, 1988).

Dr. Alfonso Méndez Tenorio


Basic Local Aligment Search Tool (Blast). Blast es una de las heramientas
más rápida y eficiente para la búsqueda de similitudes de secuencias en
las bases de datos, no obstante se trata de un algoritmo heurístico.
Comparación de algoritmos de búsqueda de similitudes de secuencias. Los algoritmos heurísticos
son considerablemente más rápidos pero rinden respuéstas subóptimas.
Página principal de BLAST en el NCBI
Descripción inicial de resultados
Representación gráfica de resultados
Resultados de mayor similitud
Resultados de similitud baja pero significativa
Resultados no significativos
El trabajo de Russell F. Doolittle.

 Por los años 70s se sabía que el virus del sarcoma del simio
causaba cáncer en ciertas especies de primates.
 El oncogene responsable (v-sis) fue aislado y se determinó su
secuencia en 1983.
 Ese mismo año se obtuvo la secuencia parcial del factor de
crecimiento derivado de plaquetas (PDGF).
 R.F. Doolittle, realizó una búsqueda de similitudes entre la
secuencia del PDGF y una base de datos de proteínas
personal, encontrando concordancias entre esta secuencia y la
del v-sis.

Referencia: Doolittle R. F., et al (1983): Simian sarcoma virus onc gene, v-sis, is derived from the gene (or
genes) encoding a platelet-derived growth factor. Science, 221(4607):275-277.

Dr. Alfonso Méndez Tenorio


Actualmente vivimos en la época de las
“ómicas”...

Dr. Alfonso Méndez Tenorio


Y la meta es llegar a la biología de sistemas

Dr. Alfonso Méndez Tenorio


Alineamiento múltiple de secuencias de citocromo c de diferentes especies obtenido por el programa Clustal X. Un alineamiento múltiple permite distinguir
fácilmente las zonas mejor conservadas de secuencias de DNA o de proteínas. Las zonas de alta conservación son importantes para la estructura y/o
función de estas secuencias. Existen diversas herramientas de cómputo para llevar a cabo el alineamiento, principalmente métodos progresivos (como
Clustal X), reiterativos (más efectivos pero considerablemente más lentos) y estadísticos (muy efectivos cuando el número de secuencias a alinear es
grande)..
Relación entre el alineamiento múltiple y árboles filogenéticos. El árbol
filogenético representa gráficamente los pasos evolutivos que dieron origen a
las secuencias.
Métodos para la construcción de árboles
filogenéticos.

 Medición de distancias. Encontrar el árbol filogenético que sea


consistente con los datos de distancia evolutiva entre las
secuencias.
 Máxima parsimonia: Encontrar el árbol filogenético en que se
necesita el menor número de “pasos” para generar las
secuencias.
 Máxima probabilidad (verosimilitud): De todas las posibles
combinaciones de árboles filogenéticos para un grupo de
secuencias encontrar aquel con la mayor probabilidad tomando en
cuenta la factibilidad de los eventos evolutivos necesarios para
producir el árbol.
 Bayesiano: Se utiliza el teorema de Bayes para calcular el árbol
con la mayor probabilidad, utilizando una estrategia de muestreo
de las probabilidades a priori. Dr. Alfonso Méndez Tenorio
Alineamiento de secuencias Arbol filogenético

Tabla de distancias

Cálculo de árboles filogenéticos basados en medición de distancias. Las distancias


se calculan a partir del número de diferencias entre las secuencias. Se trata de
obtener el árbol en el que las distancias entre las secuencias sean mínimas.
Walter Fitch
Método de la máxima parsimonia.
Máxima probabilidad (verosimilitud)

I K  g X 0 PX 0 X 5 (v5 ) PX 5 X 1 (v1 ) PX 5 X 2 (v2 ) PX 0 X 6 (v6 ) PX 6 X 3 (v3 ) PX 6 X 4 (v4 )


Niveles de estructura de proteínas. Las proteínas presentan hasta cuatro
niveles de estructura.
Fundamento de las Predicciones 1D

I K N L E P K I I H G S E S M D S G I S L D ...
I K N L E P K I I H G S E S M D S G I S L D ...
I K N L E P K I I H G S E S M D S G I S L D ...
I K N L E P K I I H G S E S M D S G I S L D ...
I K N L E P K I I H G S E S M D S G I S L D ...

Tamaño de la ventana = 13
   c c

K I I H G
Funcionamiento de

PHDsec
1fdx 5fd1

1fdx AYVINDSC-- IACGACKPEC PVNIIQGSI- -YAIDADSCI DCGSCASVCP VGAPNPED


5fd1 AFVVTDNCIK CKYTDCVEVC PVDCFYEGPN FLVIHPDECI DCALCEPECP AQAIFSED
*.*. *.* * * **. . . * .* ** **. * . ** * .**
1fdx sss hhh sss sss hhhhh sss
5fd1 sssss hhh sssss sssss hhhh sssss

Predicción de estructura tridimensional por modelación por homología. La estructura tridimensional de la ferrodoxina de
Azotobacter vinelandii es conocida (No. Acceso PDB: 5fd1). Esta estructura se utilizó para predecir la estructura de la
ferrodoxina 1fdx (no conocida). En este tipo de predicción se hace un alineamiento estructural entre las dos secuencias, el cual
se refina tomando en cuenta las interacciones entre los átomos. En este caso la estructura a modelar es mas pequeña y se
muestra también la predicción de la estructura secundaria (s=beta plegada, h=alfa hélice). Predicción llevada a cabo con los
programas Modeller version 6 y DeepView..
CH3
O Tm( °C)
H N 110
N N N
H R
N
N O
100
N N
R 90
A-T
80
H

N 70
H

O N N
R 60
N H
N O
0 0.2 0.4 0.6 0.8
H
N N N Fracción molar de G+C (Xgc)
R H

G-C

Estructura y estabilidad de los ácidos nucleicos. La molécula del DNA es una doble cadena
polinucleotídica que se mantiene unida por el apareamiento entre las bases Adenina - Timina y
Guanina – Citosina. Desde hace varios años se sabe que hay una dependencia de la estabilidad
de la doble cadena con el contenido de pares G-C.
Componentes de la estructura secundaria de ácidos nucleicos
Contribuciones energéticas de diversos tipos de subestructuras.

Apilamiento Bases No Apareadas


5’- ATGGGGCGATTGTTCGATA -3’
|||| || ||
3’- CCCGACGGCAGGC -5’

Extremo Colgante 2
Extremo Colgante 1 Horquilla

GGTotal
Total 
GGAAGGBNA  G  G EC1 GGEC
BNA  GHH  GEC EC2 2
1

También podría gustarte