Documentos de Académico
Documentos de Profesional
Documentos de Cultura
la Bioinformtica
Lic. Mara Isabel Fonseca
Lic. Ernesto Martn Giorgio
Lic. Mara Mercedes Tiscornia
Curso pre-Jornadas.
Laboratorio de Biotecnologa Molecular.
Facultad de Ciencias Exactas, Qumicas y Naturales.
Universidad Nacional de Misiones.
Introduccin a la
Bioinformtica
Podemos
definir la bioinformtica
La
Anlisis de
secuencias de
ADN: Estructura
gnica y
secuencia de
ADN.
Estructura del
gen
Dogma central
de la biologa
molecular
Estructura de
ADN: Modelo
descubierto por
Watson y Crick. Las
cadenas estn formadas
por unos componentes
llamados nucletidos.
Una secuencia de ADN
puede definirse como la
sucesin de sus
nucletidos, ordenadas
de los 5- al 3'-terminal.
Existen 4 tipos de nucletidos. La Adenina (A) siempre
empareja con la Timina (T). La Citosina (C) establece
enlaces con la Guanina (G). Las uniones A-T estn
formadas por dos enlaces de puentes de hidrgeno y
las C-G por tres.
Letra de nucletido
Nombre
Purina
Adenina
Pirimidina
Citosina
Purina
Guanina
Pirimidina
Timina
X/N
Cualquier nucletido
GoAoCoT
Purina
AoG
Pirimidina
CoT
Ninguno
----- (gap)
Purina y pirimidina
AoT
Purina y pirimidina
CoG
Purina y pirimidina
GoT
Purina y pirimidina
AoCoG
Purina y pirimidina
AoCoT
Purina y pirimidina
CoGoT
secuencia
complementaria.
Afortunadamente, la mayora de los programas de
minera de base de datos, tales como BLAST, sabe de
esta propiedad, y tiene en cuenta las dos vertientes a
la hora de informar sus resultados. Pero algunos
programas no se toman la molestia - y slo analizar la
secuencia que les dio.
ADN y ARN
ADN
Bases de datos de
secuencias de ADN
EMBL:
Bsqueda de un Gen en
GenBank
Accesos a Nucletidos y
Protenas
Bsqueda de secuencia
nucleotdica en el GenBank
Secuencia Nucleotdica
etiquetados),
whole
genome
shotgun
(WGS)
secuencias, pero no EST o secuencias GSS.
EST: Marcas de secuencias expresadas.
GSS: Secuencias reconocidas de genoma.
Los nucletidos y bases de datos de protenas tambin
incluyen Referencia secuencias controladas por NCBI
(refSeqs). Adems,
en el proyecto de RefSeq las
secuencias de Patentes se incorporan a travs de
acuerdos con la Oficina de Patentes y Marcas de los
EE.UU. (USPTO) y a travs de las bases de datos
internacionales colaboradoras de otras oficinas de
patentes internacionales.
La base de datos de nucletidos contiene toda la
secuencia de datos GenBank, EMBL, y DDBJ, que son los
miembros del Organismo Internacional de bases de
datos de secuencias de nucletidos de colaboracin
(INSDC).
EST (Expressed
Sequence
Tags)
Para obtener EST: se
obtiene una
muestra de clulas luego se extrae el
ARN y utilizando la transcriptasa
reversa se obtiene el ADNc.
La
Si
Bsqueda en bases de
datos
Determinar
si
una
coincidencia
buena es el reflejo de un suceso
gentico genuino.
Si la EST es bastante corta como para
caer en un exn completo, y si se
observan formas alternativas que
contenga este exn, no hay manera de
saber a que forma representa la EST.
Si al contrastar con la base de datos no
encontramos un emparejamiento no se
puede asumir que se ha encontrado un
nuevo gen, puede que represente una
secuencia no codificante para un gen
conocido.
ALL DATABASES
INTRODUCCIN AL
ALINEAMIENTO DE
PARES DE SECUENCIAS
NUCLEOTDICAS
Alfabetos y Complejidad
Una
Algoritmos y Programas
Algoritmo:
Identidad y Similitud
El
Medidas estadsticas de la
significacin del
Para comparar 2 secuencias.
alineamiento.
Alineamiento de a pares
Matriz de puntos
Dot - plot
El enfoque de matriz de puntos (o matrix-dot), que
implcitamente
produce
una
familia
de
alineamientos para regiones individuales de la
secuencia, es cualitativo y simple, a pesar de que
consume mucho tiempo para anlisis a gran escala.
Es
fcil identificar visualmente determinadas
caractersticas de la secuencia (tales como
inserciones, borrados, repeticiones, o repeticiones
invertidas) en una grfica de matriz de puntos.
Algunas implementaciones varan el tamao o la
intensidad de los puntos en funcin del grado de
similitud de los dos caracteres, para dar cabida a
las sustituciones conservadas. La grfica de puntos
de secuencias muy estrechamente relacionadas
aparece como una nica lnea a lo largo de la
diagonal principal de la matriz .
Matriz unitaria
0.5
0.5
0.5
0.5
:
AG -GC
Con la matriz
unitaria ambos
alineamientos
tienen un score
de +3
AATGC
A -GGC
Depende de la tabla de
valores que se use para los
matches
Score y penalidades de
Gaps
El score del alineamiento es la suma de los
scores
individuales de cada posicin, el mismo se define posicin
por posicin.
Un gap biolgicamente puede ser interpretado como una
delecin en la secuencia donde se introduce el gap y una
insercin en la secuencia alineada. Esto es un evento INDEL.
La existencia de un gap debe ser penalizada de alguna
manera (se resta al score del alineamiento), ya que de otra
forma, el alineamiento ptimo tendra una enorme cantidad
de pequeos gaps, lo cual es incompatible con una
interpretacin biolgica.
Penalizacin de apertura del gap (gap opening penalty)
Penalizacin de la extensin del gap (gap extension
penalty)
W(X)= g + t . x
W= gap penalty
g= gap opening
penalty
t= gap extension
Matriz de Identidad
La
Medicin de Informacin
Esto
Alfabeto de 4
letras:
A=00
B=01
C=10
D=11
GENERALIZANDO
Se puede expresar de la siguiente
manera
2y = N o y = log2N
N= es la cantidad de caracteres del alfabeto.
y = es la cantidad de bits que definen una
letra.
N=(N-1)-1, entonces y = -log2 (1/N)
Si todas las letras tienen la misma probabilidad
de aparicin entonces 1/N es la probabilidad
de aparicin de cada smbolo.
FRECUENCIA DE
APARICIN
Reemplazamos en la ecuacin anterior
MEDICIN DE LA
SORPRESA
Tribus (1961)
Matrices de Sustitucin
0(1)
5(0)
5(0)
1(0)
5(0)
0(1)
1(0)
5(0)
5(0)
1(0)
0(1)
5(0)
1(0)
5(0)
5(0)
0(1)
Matrices de logprobabilidades
APLICACIN DE LA
TEORA DE LA
INFORMACIN
Matrices de log-probabilidades
Algoritmo SmithWaterman
Algoritmo NeedlemanWunsch
El algoritmo de Needleman-Wunsch sirve
para
Matrices de sustitucin
Una de las primeras
matrices de sustitucin,
la PAM (Point accepted
mutation, o mutacin
puntual aceptada), fue
desarralloda
por
Margaret Dayhoff en los
aos 70 del pasado
siglo.
Esta matriz se calcula
observando
las
diferencias en protenas
cercanamente
relacionadas (con un
mnimo del 85% de
similitud).
Alineamientos locales y
globales
Volviendo al Alineamiento
de Secuencias calculando el
Se puede fijar una palabra con el
score
mximo score, se extiende en ambas
direcciones, se recalcula el score, si es
mayor se contina extendiendo (BLAST).
Los alineamientos de secuencia por
mtodos de comparacin de ventanas
requiere gran capacidad de memoria y
gran capacidad de almacenamiento.
Entonces el tiempo de computacin se
incrementa de forma cuadrtica en
funcin de la longitud de la secuencia.
Programacin Dinmica
Completar la matriz
A
las dos
secuencias a comparar se restan para obtener un
valor de desplazamiento; se manifestar as una
regin de alineamiento si varias palabras
diferentes producen el mismo desplazamiento.
Slo si esta regin es detectada, estos mtodos
aplicarn criterios de alineamiento ms sensibles.
De esta forma se eliminan muchas comparaciones
innecesarias
entre
secuencias
de
similitud
inapreciable.
La velocidad de ejecucin es ciertamente un
aspecto de la bsqueda de la base de datos y, para
los 2 algoritmos descriptos hasta el momento, la
velocidad depende fundamentalmente de la
longitud de la secuencia problema y del tamao de
la base de datos analizada.
Blast
HELP
BLAST especializado
Blastn
Parameter settings for standard blastn and
"Search for short and nearly exact
matches"
DUST
Expect
Program
Word Size
Filter
Value
Setting
Standard
11
On
10
blastn
Search for
short
nearly
7
Off
1000
exact
matches
FORMATO FASTA
Sigue el siguiente esquema
>
My_Sequence_Name
ARCGTCRGCKINTANDRGCKINTAND
CKINTANDARCGTCRGCKINTANDRG
CKINTAND
La lnea de salida con > (la lnea de definicin)
contiene un identificador nico seguido por un
facultativo de breve definicin.
Las lneas que siguen contienen la secuencia
de ADN o de protenas hasta que el carcter
siguiente > en el archivo indica el comienzo
de una nueva secuencia.
MUCHAS GRACIAS
POR SU ATENCIN