Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resume BioI
Resume BioI
Bioinformtica
INTRODUCCIN
La bioinformtica se ha convertido en una ciencia que est entrando en auge en
Latinoamrica debido a que la tecnologa ha tenido un gran desarrollo y ha
permitido unir la informtica con otras ciencias como la biologa y la gentica.
La secuenciacin de genomas lleva la necesidad de obtener conclusiones de la
lectura de esos millones de pares de bases, saber qu codifican, cmo se
relacionan y regulan la expresin de los distintos productos gnicos, adems de
encontrar la funcin de protenas desconocidas y de generar modelos que
permitan estudiar mutaciones puntuales. La rapidez y eficacia de esas
conclusiones se ha generado gracias al desarrollo de la Bioinformtica.
Este libro tiene por objetivo entregar una descripcin bsica de la recopilacin de
informacin acerca de las temticas tratadas en clase de Bioinformtica, su
relacin con la Informtica Mdica, sus principales herramientas, bases de datos y
funciones en la Medicina Molecular y Biotecnologa.
Bioinformtica
TABLA DE CONTENIDO
INTRODUCCIN ............................................................................................................... 2
1. Qu es la Bioinformtica ............................................................................................ 6
2. Bases de Qumica ...................................................................................................... 7
2. Bases de Biologa ...................................................................................................... 8
3. Bases de Gentica ................................................................................................... 10
3.1 Gentica ............................................................................................................. 10
3.2 Dogma Central de la Biologa Molecular ............................................................. 11
3.3 cido Desoxirribunocleico (ADN) ........................................................................ 11
3.4 Traduccin y Transcripcin Gentica .................................................................. 13
3.5 Cdigo Gentico ................................................................................................. 14
3.6 Protenas ............................................................................................................ 17
4. NCBI Entrez .......................................................................................................... 21
1. Cdigo Gentico...................................................................................................... 31
1.1 Caractersticas Del Cdigo Gentico .................................................................. 31
1.2 Splicing ............................................................................................................... 34
2. Open Reading Frames (ORF) .................................................................................. 35
Bioinformtica
1. Introduccin.............................................................................................................. 74
2. Tipos de Base de Datos ........................................................................................... 75
2.1 Modelo jerrquico. .............................................................................................. 75
2.2 Modelo en red. .................................................................................................... 76
2.3 Modelos Avanzados............................................................................................ 77
2.4 Modelo orientado a objetos. ................................................................................ 77
Bioinformtica
Bioinformtica
1. Qu es la Bioinformtica
La Bioinformtica es el uso de tcnicas computacionales, matemticas y
estadsticas para el anlisis, interpretacin y generacin de datos biolgicos.
La bioinformtica es una ciencia muy joven, si miramos a travs del tiempo
algunos descubrimientos fueron de la siguiente manera:
|->1958 Primera secuencia de protena
|->1975 Primera secuencia de ADN
|->1986 Desarrollo PCR (Polmeros)
|-> Inicio de la era Genmica.
La bioinformtica estudia la Minera de Datos de:
|->ADN (cido Desoxirribonucleico)
|->Protenas
|-> Genmicas
-> Mutacin /Polimorfismo
Figura 1. El alineamiento de
secuencias biolgicas es una
de las herramientas bsicas
de la bioinformtica.
Bioinformtica
Figura 2. Modelos
Atmicos.
-Molcula: Conjunto de tomos. Las molculas se dibujan con ngulos porque con
ngulos disminuyo la energa potencial.
Bioinformtica
Figura 4.Esquema de la
relacin entre bioqumica,
gentica, biologa estructural y
biologa molecular.
Bioinformtica
Bioinformtica
los
genes
que
determinan
nuestras
Figura 7.Una
molcula de ADN:
las dos cadenas se
componen de
nucletidos, cuya
secuencia es la
informacin
gentica.
10
Bioinformtica
11
Bioinformtica
|- Timina
|- Guanina
0
1
2
3
4 Smbolos
A
Sirve para
T
codificar en
C
dos bits
G
00
01
10
11
Nuestro ADN codifica nuestra informacin en cuatro (4) bits. El ADN codifica la
informacin en ATCG.
Genoma Humano: Se realiz en el 2001. Es una secuencia de caracteres.
Encontramos que el ADN cuando codifica tiene una
regla bsica es ah donde se habla de Bases
Complementarias estos son:
A<- ->T (Solo se enlaza A con T y viceversa)
G<- ->C (Solo se enlaza G con C y viceversa)
Hebra: Es la doble hlice o doble cadena.
El ADN tiene mecanismos de Reparacin y
Recuperacin, por esto debemos saber que l tiene
tres niveles de Estructura que son:
Figura 10. Situacin del ADN
dentro de una clula.
12
Bioinformtica
13
Bioinformtica
14
Bioinformtica
El cdigo gentico fue "roto" por Marshall Nirenberg y Heinrich Matthaei (del NIH),
10 aos despus que Watson y Crick "rompieran" el misterio de la estructura del
ADN.
Nirenberg descubri que el
ARNm, independientemente del
organismo de donde proviene,
puede iniciar la sntesis proteica
cuando se lo mezcla con el
contenido del homogneo de
Escherichiacoli.
Adicionando poli-U (un ARNm
sinttico) a cada uno de 20 tubos
de ensayo (cada uno de los
cuales
tena un aminocido diferente)
Figura 12.Cdigo gentico
Nirenberg y Matthaei determinaron que
el codn UUU, el nico posible en el
poli-U, codificaba para el aminocido fenilalanina.
Asimismo un ARNm artificial compuesto por bases A y C alternando codifica
alternativamente para histidina y treonina. Gradualmente se fue confeccionando
una lista completa del cdigo gentico.
El cdigo gentico consiste en 61 codones para aminocidos y 3 codones de
terminacin, que detienen el proceso de traduccin. El cdigo gentico es por lo
tanto redundante, en el sentido que tiene varios codones para un mismo
aminocido. Por ejemplo, la glicina es codificada por los codones GGU, GGC,
GGA, y GGG. Si un codn muta por ejemplo de GGU a CGC, se especifica el
mismo aminocido.
3.5.1 Caractersticas
Universalidad
El cdigo gentico es compartido por todos los organismos conocidos, incluyendo
virus y organelos, aunque pueden aparecer pequeas diferencias. As, por
ejemplo, el codn UUU codifica el aminocido fenilalanina tanto en bacterias,
como en arqueas y en eucariontes. Este hecho indica que el cdigo gentico ha
tenido un origen nico en todos los seres vivos conocidos.
Gracias a la gentica molecular, se han distinguido 22 cdigos genticos, que se
diferencian del llamado cdigo gentico estndar por el significado de uno o ms
codones. La mayor diversidad se presenta en las mitocondrias, orgnulos de las
clulas eucariotas que se originaron evolutivamente a partir de miembros del
15
Bioinformtica
16
Bioinformtica
Ntese que el codn AUG codifica la metionina pero adems sirve de sitio de
iniciacin; el primer AUG en un ARNm es la regin que codifica el sitio donde la
traduccin de protenas se inicia.
3.6 Protenas
Las protenas son biomolculas formadas por cadenas lineales de aminocidos. El
nombre protena proviene de la palabra griega ("proteios"), que significa
"primario" o del dios Proteo, por la cantidad de formas que pueden tomar.
17
Bioinformtica
18
Bioinformtica
19
Bioinformtica
20
Bioinformtica
4. NCBI Entrez
Entrez es un portal y un buscador que permite acceder a la base de datos del
National Center forBiotechnologyInformation (NCBI). NCBI es una parte de la
National Library of Medicine (NLM), as como un departamento de
NationalInstitutes of Health (NIH) del Gobierno de los Estados Unidos.
Cada
fundamental y diferente.
Permite
encontrar:
21
Bioinformtica
22
Bioinformtica
Significado
Adenina
Citosina
Guanina
Timina
Uracilo
Purina
Pirimidina
GoT
A, C, G o T
Hueco
23
Bioinformtica
Significado
Smbolo Significado
Alanina
P
Prolina
Asparagina
Q
Glutamina
Cisteina
R
Arginina
cido
S
Serina
Asprtico
cido
T
Treonina
Glutmico
Fenilalanina
U
Selenocysteina
Glicina
V
Valina
Histidina
W
Triptfano
Isoleucina
Y
Tirosina
Lisina
Z
cido Glutmico
Leucina
M
Metionina
Asparagina
*
Fin de la traduccin
gap de longitud indeterminada
2. Alineamiento de Secuencias
Alinear: Comparar dos (2) secuencias. Resaltar sus similitudes y diferencias.
Cuando se analizan secuencias es comn utilizar los trminos similitud y
homologa de forma indiscriminada, pero estos dos trminos hacen referencia a
conceptos distintos.
|-SIMILITUD: Es el resultado del anlisis (observacin cuantitativa) de la estructura
primaria de dos o ms secuencias; la secuencias pueden ser cidos nucleicos o
protenas. Puesto que la similitud es obtenida de observar las secuencias no
puede ser tomada como un indicador para establecer la relacin biolgica
(descendencia) entre las secuencias, ya que el grado de similitud puede deberse a
cambios aleatorios acumulados en las secuencias a travs del tiempo.
|-HOMOLOGA: La homologa es una medida cualitativa entre las secuencias se
presenta cuando la similitud que ests tienen es atribuible a razones evolutivas y
no al azar, es decir, la homologa establece regiones entre las secuencias que se
han conservado con el tiempo.
La similitud es el resultado de una medida cuantitativa, la homologa es una
hiptesis postulada por el investigador basndose en la similitud de las secuencias
y en otros datos biolgicos que previamente conozca sobre el origen de dichas
secuencias. Es permitido establecer el porcentaje se similitud de dos o ms
secuencias, pero esto no es posible para la homologa, ya que las secuencias son
o no son homlogas.
24
Bioinformtica
Figura 1.Un alineamiento de secuencias, generada por ClustalW entre dos protenas dedos de zinc
identificadas por el nmero de acceso GenBank (Clave).
S tengo dos (2) secuencias y quiero saber cunto se parecen lo hago a travs del
Score el cual es el puntaje de nuestro alineamiento. S este score es ms alto es
decir que hay ms similitud y nuestra secuencia es ms completa.
Este puntaje se da de acuerdo a la situacin s se encuentran parejas que
coinciden se le da un puntaje positivo, pero si no se le dar un puntaje negativo.
Hay dos tipos de alineamiento:
|-Pareado: (==2)
|-Mltiple: (>2) Es ms complicado.
Para estos tipos de alineamiento encontramos dos (2) tipos de algoritmos, pero
antes debemos explicar algunas caractersticas que pueden tener como son:
|-Determinstico: Es un algoritmo dada la entrada (input) siempre tenemos una
misma salida.
|-Heurstico: No es segura la misma salida.
|-Aleatorio: Siempre da una salida distinta.
Los algoritmos para el alineamiento son Globales y Locales:
* Globales: Toman la secuencia 1 y la secuencia 2 completas las coloca en una
matriz y empieza a comparar. Este algoritmo es lento y ocupa mucha memoria,
sus ventajas es que es fcil de programar y es determinstico.
* Locales: Toma las secuencias y las divide en pedazos o partes pequeas y
despus empieza a comparar. Son Heursticos, son ms rpidos y trabaja el tipo
de alineamiento Mltiple.
En bioinformtica lo ms bsico es el alineamiento, por esto el algoritmo de
Needleman-Wunsches comnmente usado para alinear secuencias de nucletidos
o protenas a travs del alineamiento Global. El algoritmo Needleman-Wunsch se
basa en programacin dinmica; esta forma de programacin es un mtodo que
nos permite reducir el orden de complejidad de un algoritmo.
Lo siguiente es un ejemplo de cmo trabaja el algoritmo Needleman-Wunsch:
Alinear las siguientes secuencias:
25
Bioinformtica
A = GAATTCAGTTA
B = GGATCGA
Parmetros:
Coincidencias = 1
No coincidencias = 0
Huecos = 0
Inicializacin:(Tabla 1)
1
G
0
6
G
0
7
A
0
1 2 3 4 5 6
G G A T C G
0 0 0 0 0 0 0
1 G 0 1 1 1 1 1 1
2 A 0 1 1 2 2 2 2
3 A 0 1 1 2 2 2 2
4 T 0 1 1 2 3 3 3
5 T 0 1 1 2 3 3 3
6 C 0 1 1 2 3 4 4
7 A 0 1 1 2 3 4 4
8 G 0 1 2 2 3 4 5
9 T 0 1 2 2 3 4 5
10 T 0 1 2 2 3 4 5
11 A 0 1 2 3 3 4 5
Tabla 2. Llenado de la matriz.
7
A
0
1
2
3
3
3
4
5
5
5
5
6
1
2
3
4
5
6
7
8
9
10
11
G
A
A
T
T
C
A
G
T
T
A
2
G
0
3
A
0
4
T
0
5
C
0
0
0
0
0
0
0
0
0
0
0
0
0
Tabla 1. Inicializacin.
26
Bioinformtica
27
Bioinformtica
Figura 1.BLAST.
3.1 ETAPAS
1. Asemilladlo (Seeding): BLAST busca coincidencias exactas de una pequea
longitud fija W entre la secuencia de consulta y las secuencias de la base de
datos. Por ejemplo, dadas las secuencias AGTTAC y ACTTAG y el largo de
palabra W = 3, BLAST podra identificar la subcadena coincidente TTA que es
comn en ambas secuencias. Por defecto, W = 11 para "semillas" nucleicas.
2. Extensin: BLAST trata de extender la coincidencia en ambas direcciones,
comenzando por la semilla. El proceso de alineamiento sin huecos, extiende la
coincidencia de la semilla inicial de longitud W en cada direccin en un intento de
estimular el puntaje de alineacin. Inserciones y eliminaciones no son
consideradas durante esta etapa. Para nuestro ejemplo, el alineamiento sin
huecos entre las secuencias AGTTAC y ACTTAG centrado alrededor de la palabra
en comn TTA podra ser: Si es encontrado un alineamiento sin huecos de alto
puntaje, la base de datos de secuencias pasa a la tercera etapa.
3. Evaluacin: BLAST realiza un alineamiento con huecos entre la secuencia de
consulta y la secuencia de la base de datos usando una variacin del algoritmo de
Smith-Waterman. Entonces los alineamientos relevantes estadsticamente son
mostrados al usuario.
28
Bioinformtica
29
Bioinformtica
30
Bioinformtica
I
M
C
E
R
A
B
A
S
UUU
Phe
UCU
Ser
UAU
Tyr
UGU
Cys
UUC
Phe
UCC
Ser
UAC
Tyr
UGC
Cys
UUA
Leu
UCA
Ser
UAA
FIN
UGA
FIN
UUG
Leu
UCG
Ser
UAG
FIN
UGG
Trp
CUU
Leu
CCU
Pro
CUA
His
CGU
Arg
CUC
Leu
CCC
Pro
CAC
His
CGC
Arg
CUA
Leu
CCA
Pro
CAA
Gln
CGA
Arg
CUG
Leu
CCG
Pro
CAG
Gln
CGG
Arg
AUU
Ile
ACU
Thr
AAU
Asn
AGU
Ser
AUC
Ile
ACC
Thr
AAC
Asn
AGC
Ser
AUA
Ile
ACA
Thr
AAA
Lys
AGA
Arg
AUG
Met
ACG
Thr
AAG
Lys
AGG
Arg
GUU
Val
GCU
Ala
GAU
Asp
GGU
Gly
GUC
Val
GCC
Ala
GAC
Asp
GGC
Gy
GUA
Val
GCA
Ala
GAA
Glu
GGA
Gly
T
E
R
C
E
R
A
B
A
S
GUG
al
GCG
Ala
GAG
Glu
GGG
Gly
G
E
Tabla 1. El cdigo gentico nos indica que aminocido corresponde a cada triplete o codn del
ARN mensajero.
31
Bioinformtica
32
Bioinformtica
33
Bioinformtica
34
Bioinformtica
35
Bioinformtica
36
Bioinformtica
Interfaz:
Grfico 4. Bsqueda con ORF Finder - Ingreso formato FASTA para empezar.
37
Bioinformtica
y obtenemos
la siguiente imagen:
Grfico 5. Bsqueda con ORF Finder - Resultado encontrado del formato FASTA insertado.
38
Bioinformtica
3. Modelos Estocsticos
* Estocstico: Utiliza probabilidad. un proceso estocstico es un concepto
matemtico que sirve para caracterizar una sucesin de variables aleatorias
(estocsticas) que evolucionan en funcin de otra variable, generalmente el
tiempo. Cada una de las variables aleatorias del proceso tiene su propia funcin
de distribucin de probabilidad y, entre ellas, pueden estar correlacionadas o no.
39
Bioinformtica
40
Bioinformtica
* En el modelo de Markov normal los estados son visibles. (a son los nicos
parmetros)
* En el HMM el estado no es visible ms s las variables influidas por el estado.
* Cada estado tiene una distribucin de probabilidad sobre los posibles
smbolos de salida.
* Se utiliza para analizar la composicin de secuencias, para localizar genes
prediciendo ORF y para producir predicciones de estructuras secundarias de
protenas.
En los trminos de un tpico modelo oculto de Markov:
Estados observables -> columnas individuales del alineamiento
Estados ocultos -> la supuesta secuencia ancestral desde la cual las secuencias
del conjunto problema se presume han descendido.
El xito de un HMM (HiddenMarkovModels) depende de tener un buen modelo a
priori.
El HMM comienza con un alineamiento al azar -> construye un modelo -> mejora
las probabilidades en base a un entrenamiento iterativo -> se detiene cuando los
alineamientos no cambian.
41
Bioinformtica
42
Bioinformtica
Burge, CB (1998) las dependencias de modelado de seales de empalme preARNm. En Salzberg, S., Searls, D. y Kasif, S., eds. Mtodos Computacionales en
Biologa Molecular ,ElsevierScience, Amsterdam, pp 127-163.
Interfaz
Grfico 1. GENSCAN.
Lo primero que hacemos es buscar en entrez una secuencia del ser humano para
que pueda ser analizada por Genscan.
43
Bioinformtica
44
Bioinformtica
45
Bioinformtica
46
Bioinformtica
47
Bioinformtica
48
Bioinformtica
49
Bioinformtica
Los tres dominios propuestos por Carl Woese (1990) son: Archaea, que rene a
las arqueo bacterias; Bacteria, que comprende a las eubacterias; y Eucarya, que
incluye a todos los seres eucariotas.
En 1998, Cavalier-Smith propuso un nuevo sistema de clasificacin con dos
suprareinos (Prokariota y Eukaryota) y seis reinos: Bacterias, Protozoos,
Chromistas, Hongos, Plantas y Animales.
Las Hojas son diferentes y representan una secuencia que tendr un puntaje.
Los rboles filogenticos son una representacin grfica de las similitudes y
diferencias entre unas secuencias determinadas . Habitualmente, las secuencias
de los genes y las protenas son ms parecidas entre organismos ms cercanos
evolutivamente. Los organismos que hace ms tiempo que se separaron en la
evolucin suelen tener ms diferencias en las secuencias de sus respectivos
genes, y, por lo tanto, cuando se realiza un rbol filogentico, aparecen ms
alejados entre s
2. ClustalWJalview
2.1 Clustal
CLUSTAL es un programa que permite hacer alineamientos globales de protenas
y cidos nucleicos y que adems tiene un algoritmo heurstico progresivo,
bastante rpido, para calcular alineamientos mltiples. En combinacin con
herramientas como BLAST, CLUSTAL es muy til para definir familias de
protenas y de cidos nucleicos.
Al igual que BLAST, tambin hay servidores web para correr CLUSTALW sin
necesidad de instalar software, pero asimismo tiene ventajas instalarlo localmente,
sobre todo para correr trabajos de alineamiento mltiple a gran escala y tener todo
el proceso bajo control.
Podemos ver ahora como trabajar en clustal:
50
Bioinformtica
51
Bioinformtica
52
Bioinformtica
2.2 Jalview
JalView es un editor de alineamiento mltiple por escrito en Java. Se utiliza
ampliamente en una variedad de pginas web (por ejemplo, el servidor de EBI
Clustalw y la base de datos de protenas Pfam dominio), pero est disponible
como un editor de propsito general, la alineacin y banco de trabajo de anlisis.
Se usa JalView para:
* Ver
Lee y escribe en las alineaciones en una variedad de formatos (Fasta, PFAM,
MSF, Clustal, BLC, PIR).
Guarda las alineaciones y los rboles asociados en JalView formato XML.
* Editar
Las lagunas se pueden insertar / borrar con el ratn o el teclado.
Instrucciones simples.
Grupo de edicin (supresin de insercin de las lagunas en los grupos de
secuencias).La eliminacin de las columnas con huecos.
* Anlisis
Alinear las secuencias utilizando Servicios Web ( Clustal , muscular ...)
Aminocidos anlisis de conservacin similar a la de AMAS.
Las opciones de alineacin de clasificacin (por su nombre, para los rboles, el
porcentaje de identidad, grupo).
rboles UPGMA y NJ calculado y elaborado a partir de distancias por ciento de
identidad.
Clsteres de secuencia mediante el anlisis de componentes principales.
La eliminacin de las secuencias redundantes.
Smith Waterman pares de alineacin de las secuencias seleccionadas.
* Anotar
Uso de la Web basada en los programas de prediccin de estructura secundaria
( JNET ).
Usuario predefinidos o personalizados esquemas de color a las alineaciones de
color o de grupos.
Secuencia de recuperacin de funcin y se muestran en la alineacin.
* Publicar
Imprimir su alineacin con los colores y anotaciones.
Crear pginas HTML.
Salida de alineacin de imagen Portable Network Graphics (PNG).
Salida de la alineacin como un archivo PostScript encapsulado (EPS).
Podemos ingresar a la pgina original de Jalview descargarlo y conocer todas sus
opciones, caractersticas para poder trabajar con l.
53
Bioinformtica
Grfico 5. Jalview.
54
Bioinformtica
3. Protenas y Protemica
3.1 Protenas
Es una macromolcula -> Cadena muy larga de aminocidos. Los tipos
principales de macromolculas son las protenas, formadas por cadenas lineales
de aminocidos; los cidos nucleicos, DNA y RNA, formados por bases
nucleotdicas (purinas y pirimidinas), los polisacridos, formados por subunidades
de azcares y los lpidos formados por glicerol, cidos grasos o colesterol. Los
aminocidos de las protenas estn unidos por enlaces peptdicos, los
carbohidratos de los polisacridos por enlaces glucosdicos o peptdicos y los
lpidos y cidos nucleicos por enlaces ster.
Nuestro cuerpo posee 500.000 protenas.
El estudio de las protenas permite estudiar:
* Su Estructura: Es la manera como se organiza una protena para adquirir
cierta forma. Se puede estudiar su forma:
3D: Se realiza Experimentalmente (Rayos X, etc.) o
Matemticamente.
Dominios Funcionales: Subsecuencia que desarrolla una funcin
especfica.
55
Bioinformtica
3.2 Protema
Es el conjunto de todas las protenas producidas por una clula en un instante de
tiempo. El trmino proteoma se utiliz por primera vez en 1995 y ha sido aplicado
a diferentes escalas en los sistemas biolgicos. El proteoma celular es la totalidad
de protenas expresadas en una clula particular bajo condiciones de
medioambiente y etapa de desarrollo, (o ciclo celular) especficas, como lo puede
ser la exposicin a estimulacin hormonal. Tambin se puede hablar del proteoma
completo de un organismo que puede ser conceptualizado como las protenas de
todas las variedades de proteomas celulares. Es aproximadamente, el equivalente
protenico del genoma.
El Proteoma es un elemento altamente dinmico, cuyos componentes varan en
un organismo, tejido, clula o compartimento subcelular, como consecuencia de
cambios en su entorno, situaciones de estrs, administracin de drogas, seales
bioqumicas o su estado fisiolgico o patolgico.
Estrategias empleadas en los estudios de proteomas
La estrategia de eleccin ms utilizada actualmente para el estudio de proteomas,
que ha demostrado ser eficiente, es la combinacin de electroforesis en gel de
poliacrilamida bidimensional con espectrometra de masa (Grfico 2). La
electroforesis permite la separacin de protenas de un dado sistema biolgico con
alta resolucin y reproductibilidad, mientras que la espectrometra de masa
permite, a travs de alta demanda y sensibilidad, la identificacin de protenas
presentes en un spot de gel.
56
Bioinformtica
3.3 Protemica
Ciencia que estudia el Proteoma. estudios que se han realizado tradicionalmente
mediante la tcnica de electroforsis en gel de dos dimensiones. En la primera
dimensin las protenas se separan por isoelectroenfoque, que separa las
protenas con base en su carga elctrica. En la segunda dimensin, las protenas
se separan por peso molecular utilizando SDS-PAGE.
57
Bioinformtica
58
Bioinformtica
59
Bioinformtica
60
Bioinformtica
manualmente construyendo rboles para tantos genes. Por eso (entre otras
razones) existen numerosas bases de datos y mtodos para estudiar la
organizacin de las familias de protenas.
Las distintas bases de datos y los distintos mtodos afrontan el problema de forma
diferente, persiguiendo diversos objetivos. Unas aproximaciones tratan de
encontrar grupos de ortlogos. Otras aproximaciones, grupos de homlogos, etc.
5. PROSITE, PRINTS, Pfam, InterPro
5.1 PROSITE
PROSITE es una base de datos de familias y dominios de protenas creada por
Amos Bairoch en 1988.Consiste en entradas que describen dominios, familias y
sitios funcionales as como patrones de aminocidos. Estos son manualmente
verificados por un equipo del Instituto Suizo de Bioinformtica e integrado con la
base de datos de Swiss-Prot.
Sus usos incluyen la identificacin de posibles funciones de las protenas
recientemente descubiertas y el anlisis de aquellas ya conocidas pero con
actividades previamente desconocidas. PROSITE ofrece herramientas para el
anlisis de secuencias de protenas y deteccin de motivos de protenas; es parte
de los servidores de anlisis de protemica de ExPASy.
La base de datos ProRule se basa en las descripciones de dominio de PROSITE.
Esta proporciona informacin adicional acerca de funcionalidades o de
aminocidos estructuralmente crticos. Las reglas contienen informacin sobre los
residuos biolgicamente significativos, como sitios activos, sitios de unin a
sustrato o cofactores, modificaciones postraduccionales o enlaces disulfuro, para
ayudar a determinar la funcin. Estas pueden automticamente generar
anotaciones basados en los motivos de PROSITE.
En PROSITE existe un patrn para describir la superfamilia de las protenas que
unen ATP/GTP, que es enorme. En Pfam, sin embargo, existen diversos dominios
para las distintas familias que unen ATP/GTP: la familia ras, la familia de factores
de elongacin de la traduccin, etc.
Veamos cmo funciona Prosite:
Cogeremos una secuencia de una protena prueba en este caso ser de Miosina
de Arabidopsisthaliana. Entonces lo primero que haremos es seleccionarla si ya la
hemos buscado, en nuestro caso la tomaremos de la plataforma moodle:
61
Bioinformtica
62
Bioinformtica
5.2 PRINTS
Es una coleccin de las llamadas "FingerPrints ": proporciona tanto un recurso de
anotacin detallada de las familias de protenas , y una herramienta de diagnstico
para recin determinar las secuencias. Una huella digital es un grupo de
conservacin motivos tomados de un alineamiento de secuencias mltiples - en
conjunto, los motivos forman una firma caracterstica de la familia de protenas
alineadas. Los mismos motivos que no son necesariamente contiguos en la
63
Bioinformtica
64
Bioinformtica
65
Bioinformtica
66
Bioinformtica
5.3 Pfam
La base de datos Pfam es una de las ms importantes colecciones de informacin
en el mundo para la clasificacin de las protenas. La base de datos clasifica el 75
por ciento de protenas conocidas para formar una biblioteca de familias de
protenas - una "tabla peridica" de la biologa. El recurso de acceso abierto se
estableci en el Instituto Wellcome Trust Sanger en 1998. Su visin es ofrecer una
herramienta que permite a los bilogos experimentales, computacionales y la
evolucin de clasificar las secuencias de protenas y responder a preguntas sobre
lo que hacen y cmo han evolucionado. El proyecto Pfam es dirigido por el Dr.
Alex Bateman en el Instituto Sanger.
Para cada familia en Pfam se puede:
Ver alineamientos mltiples
Revisar las arquitecturas y organizacin de los dominios proteicos
Examinar la distribucin de especies
Seguir enlaces a otras bases de datos
67
Bioinformtica
68
Bioinformtica
69
Bioinformtica
70
Bioinformtica
5.4 InterPro
InterPro es una base de datos de familias, dominios y sitios funcionales de
protenas en donde las caractersticas identificables encontradas en protenas
conocidas pueden ser aplicadas a nuevas secuencias de protenas.
Fue creada en 1999 tras la formacin del InterProConsortium entre el grupo de
Swiss-Prot en el Instituto Europeo de Bioinformtica y el Instituto Suizo de
Bioinformtica y los miembros fundadores de las bases de datos Pfam, PRINTS,
PROSITE y ProDom. Actualmente integra informacin de las bases de datos
PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMs, PIRSF, SUPERFAMILY,
GENE3D y PANTHER.
La base de datos est disponible para bsquedas por texto y basadas en
secuencia a travs de un servicio web, y para descargas por FTP annimo.
Incluye varios formatos de salida como tablas de texto, documentos XML y
grficos para facilitar el anlisis de sus resultados. Al igual que las otras bases de
datos del Instituto Europeo de Bioinformtica, se encuentra en dominio pblico.
Veamos cmo funciona InterPro:
Cogeremos la misma secuencia de la protena prueba (Miosina de
Arabidopsisthaliana). Entonces lo primero que haremos es seleccionar la
secuencia de la misma manera que en Prosite, PRINTS y Pfam:
71
Bioinformtica
72
Bioinformtica
73
Bioinformtica
74
Bioinformtica
Al igual que cuando se habla, p.ej., de coches no existe un nico modelo, ni una
sola marca, ni siquiera una sola tecnologa sobre su funcionamiento, cuando se
trabaja con bases de datos ocurre una cosa parecida: no existe una sola marca,
sino varias, y adems cada marca puede tener diferentes productos cada uno de
ellos apropiado a un tipo de necesidades.
Sin embargo, la divisin que vamos a hacer aqu de las bases de datos ser en
funcin de la tecnologa empleada en su funcionamiento. Hablando de coches
tenemos los tradicionales de motor a gasolina, los de gasleo, los turbo diesel, los
que funcionaban con gasgeno, y mucho menos frecuentes los coches solares o
incluso los de propulsin a chorro; pues bien, hablando de bases de datos
tenemos que las ms utilizadas son la bases de datos relacionales, las ms
antiguas son las jerrquicas y en red, y las ms avanzadas son las orientadas a
objetos, y las declarativas. Estas se diferencian como hemos dicho, en la forma de
trabajar con los datos y en la concepcin o mentalidad que el usuario debe
adoptar para interactuar con el sistema.
2.1 Modelo jerrquico.
El sistema jerrquico ms comnmente conocido es el sistema IMS de IBM. Esta
base de datos tiene como objetivo establecer una jerarqua de fichas, de manera
que cada ficha puede contener a su vez listas de otras fichas, y as
sucesivamente. P.ej., una ficha de clientes puede contener una lista de fichas de
facturas, cada una de las cuales puede contener a su vez una lista de fichas de
lneas de detalle que describen los servicios facturados.
75
Bioinformtica
Una base de datos jerrquica est compuesta por una secuencia de bases de
datos fsicas, de manera que cada base de datos fsica se compone de todas las
ocurrencias de un tipo de registro o ficha determinada.
Una ocurrencia de registro es una jerarqua de ocurrencias de segmento.
Cada ocurrencia de segmento est formada por un conjunto de ocurrencias o
instancias de los campos que componen el segmento.
P.ej., en la figura siguiente tenemos una ocurrencia del tipo de registro Curso, de
manera que como cabeza principal tenemos una instancia del segmento curso, de
la cual dependen una o varias instancias de los segmentos Requisito y Oferta; a
su vez, de Oferta dependen otros que son Profesor y Estudiante.
76
Bioinformtica
77
Bioinformtica
determinada posicin de las manecillas, que son interpretadas por una persona
como la hora actual. Cada uno de estos objetos es un elemento. Cuando un
engranaje, por ejemplo, gira, no lo hace por capricho, sino para obtener como
resultado el movimiento de otro engranaje, de una cremallera, o de la propia
manecilla. De esta forma, cuando el usuario da cuerda a la maquinaria, lo que est
haciendo realmente es modificar el estado de un objeto del reloj, normalmente la
espiral de la cuerda cuya energa potencial mueve la corona haciendo que un
oscilador avance el segundero. A su vez el movimiento del segundero hace
avanzar el del minutero, que hace avanzar el de la hora. Si el reloj es de cuco,
cada hora se activar la portezuela del cuco que saldr un nmero determinado de
veces segn la hora. De esta manera, una modificacin del estado de un objeto
por parte de un usuario, desencadena una serie de acciones cuyo objetivo final es
solucionar un problema al usuario: darle a conocer la hora exacta. As, la
programacin orientada a objetos pretende ser una simulacin de los procesos de
la realidad.
De este ejemplo podemos sacar varios conceptos tiles:
- Clase. Cuando hay varios objetos semejantes, pueden agruparse en una clase.
De hecho, todo objeto debe pertenecer a una clase, que define sus caractersticas
generales.. P.ej., nuestro reloj posee varios engranajes. Sern diferentes, puesto
que cada uno de ellos posee un dimetro y un nmero de dientes distinto, adems
de poder ser o no helicoidal. Pero al fin y al cabo todos son engranajes. De esta
manera cada engranaje pertenece a la misma clase, a pesar de tener unas
caractersticas particulares que lo diferencian de los dems.
- Estado. Son las caractersticas propias de cada objeto. Siguiendo con el caso de
los engranajes, su estado puede ser el nmero de dientes, el tamao, etc. El
estado se utiliza especialmente para guardar la situacin del objeto que vara con
el tiempo. En nuestro caso almacenaramos la situacin en un espacio
tridimensional, y la posicin o postura en que se encuentra.
- Encapsulacin. Cada objeto es consciente de sus propias caractersticas. El
engranaje sabe que si recibe una fuerza en uno de sus dientes, debe girar, y lo
sabe porque obedece a unas leyes fsicas.
En el caso de un programa, es el programador el que debe indicarle al objeto
cmo comportarse ante cada estmulo del exterior o de otro objeto. Los dems
objetos simplemente se limitan a indicarle al engranaje las fuerzas que le hacen, y
ya sabr el engranaje para dnde se ha de mover, y a qu otros objetos modificar.
- Mensaje. Es cada uno de los estmulos que se envan a un objeto.
- Herencia. Para facilitar la programacin, se puede establecer toda una jerarqua
de tipos o clases.
78
Bioinformtica
P.ej., podemos declarar una clase Engranaje con las caractersticas bsicas de
los engranajes. De ella podemos derivar otras tres: Eng. fijo, Cremallera, y Eng.
helicoidal. Cada una de estas clases especializa la clase general, con la ventaja
de que las caractersticas comunes a los tres tipos de engranajes slo hay que
decirlas una vez.
79
Bioinformtica
3. Descomposicin y Normalizacin
Siempre que un analista de sistemas de base de datos arma una base de datos,
queda a su cargo descomponer dicha base en grupos y segmentos de registros.
Este proceso es la descomposicin; el mismo es necesario independientemente
de la arquitectura de la base de datos - relacional, red o jerrquica-. Sin embargo,
para la base de datos relacional, la accin correspondiente puede dividirse y
expresarse en trminos formales y se denominanormalizacin a la misma.
La normalizacin convierte una relacin en varias sub-relaciones, cada una de las
cuales obedece a reglas. Estas reglas se describen en trminos de dependencia.
Una vez que hayamos examinado las distintas formas de dependencia,
encontraremos procedimientos a aplicar a las relaciones de modo tal que las
mismas puedan descomponerse de acuerdo a la dependencia que prevalece. Esto
no llevar indefectiblemente a formar varias subrelaciones a partir de la nica
relacin preexistente.
3.1 Normalizacin
Qu es normalizacin?
Normalizacin es un proceso que clasifica relaciones, objetos, formas de relacin
y dems elementos en grupos, en base a las caractersticas que cada uno posee.
Si se identifican ciertas reglas, se aplica un categora; si se definen otras reglas,
se aplicar otra categora.
80
Bioinformtica
Grfico 6. Normalizacin.
81
Bioinformtica
82
Bioinformtica
83
Bioinformtica
84
Bioinformtica
85
Bioinformtica
2. Estructura ARN
El ARN es un polmero de ribonucletidosde uracilo, citosina,
guanina y adenina, organizado en una banda simple, como la
mitad de una escalera con la misma estructura del ADN: los
laterales estn formados por los grupos fosfatos y azcares
de los cuales parte una base nitrogenada.
Para traducir de un idioma a otro se necesitan un diccionario
y unas reglas gramaticales; igualmente, para traducir el ADN
a las protenas se necesita una clave o cdigo gentico de
equivalencia, que se denomina Cdigo Gentico.
Veamos el siguiente cuadro comparativo que nos podr aclarar las dudas en
cuanto a la diferencias con el ADN:
86
Bioinformtica
2.2 Estructura
del ARN
Secundaria
87
Bioinformtica
88
Bioinformtica
Estructura Terciaria
La estructura terciaria de la protena es
la forma en la que se organizan en el
espacio los diferentes tramos de la
cadena polipeptdica, que pueden tener
una estructura secundaria definida,
como las hlices u hojas o no tenerla.
La estructura terciaria est mantenida
por enlaces inicos y de puentes de
89
Bioinformtica
90
Bioinformtica
91
Bioinformtica
obtenemos
resultados
de
cuantos
92
Bioinformtica
5. Folding de Protenas
Las protenas para llevar a cabo sus
funciones deben alcanzar una forma
determinada, conocida como Pliegue,
en otras palabras, antes de realizar su
trabajo tienen que ensamblarse as
mismas. Este proceso de auto
ensamblaje se le llama Plagamiento.
Las protenas plegadas incorrectamente
por lo general carecen de actividad biolgica, pero en algunos casos pueden estar
asociadas con enfermedades.
Para esto las clulas tienen sistemas que reducen las posibilidades de que las
protenas estn mal plegadas, adems cualquier protena de este tipo son
degradados por grupos celulares especializados del sistema de eliminacin.
Por lo general, todas las molculas de protena de cualquier especie adoptan una
conformacin nica, llamada Cadena Nativa. Para la gran mayora de las
protenas, el estado natural es la forma ms estable plegada de la molcula.
Las clulas requieren un mecanismo rpido y eficiente, para el plegamiento de
protenas en su forma correcta, de lo contrario, las clulas perderan mucha
energa en la sntesis de protenas funcionales y en la degradacin de protenas
mal plegadas o desplegadas.
93
Bioinformtica
94
Bioinformtica
permitir la formacin de bandas beta. El mecanismo por el cual las cadenas poli
peptdicas se pliegan en una especfica estructura tridimensional han sido un
misterio hasta hace poco tiempo. La protena nativa casi siempre corresponde a
una estructura que es termodinmicamente estable bajo condiciones fisiolgicas.
Sin embargo el nmero total de posibles combinaciones de una cadena poli
peptdica es muy grande, una bsqueda sistemtica para una estructura en
partcula seria larga y difcil. Es claro que el proceso de plegamiento no involucra
una serie de pasos predeterminados entre partes especficas, pero lleva a cabo
una bsqueda de muchas conformaciones accesibles a la cadena polipeptdica.
Si la energa superficial es la adecuada, nicamente un pequeo nmero de
todas las posibles combinaciones darn origen a la estructura nativa de una
protena. Porque la forma final es codificada por la secuencia de aminocidos y la
seleccin natural que permite evolucionar y ser capaces de plegarse rpida y
eficientemente.
Una cuestin fundamental acerca de si una protena se pliega o no correctamente
emerge de la utilizacin de la energa. El resultado de muchos estudios sugiere
que el mecanismo fundamental del plegamiento de protenas involucra la
interaccin del menor nmero de residuos para formar un ncleo de plegado
alrededor del cual se condensaran todas las dems estructuras rpidamente, que
implica el menor gasto de energa. Mientras la topologa correcta central no se
pliegue el resto de las interacciones no se llevaran a cabo y la protena no
alcanzara su estructura globular estable; Este mecanismo por lo tanto acta
tambin como un proceso de control de calidad.
5.1.2 Chaperoninas
Las chaperoninas utilizan su
estructura para ayudar en el
plegamiento de muchas protenas
mediante un mecanismo muy
general pero poco eficiente, que se
basa en el aislamiento de la
protena
a
plegar.
En
los
organismos
eucariotas
esta
arquitectura
ha
generado
la
chaperonina CCT, que pliega
eficientemente un reducido nmero
de protenas.
Aunque es conocido desde los trabajos seminales de Anfinsen que las protenas
almacenan en su propia secuencia aminoacdica la informacin con la que adquirir
su conformacin final, tambin es cierto que en muchas ocasiones no les es
posible adquirir tal conformacin por s solas, rodeadas como estn en la clula
por una concentracin tan alta de solutos. Para resolver este problema, la
naturaleza ha diseado un tipo de protenas que se encargan de ayudar a todas
las dems a adquirir esa conformacin nativa, son las denominadas chaperonas
95
Bioinformtica
96
Bioinformtica
6. Alineamiento de Estructuras
Un alineamiento estructural es un tipo de alineamiento de secuencias basado en la
comparacin de la forma. Estos alineamientos intentan establecer equivalencias
entre dos o ms estructuras de polmeros basndose en su forma y conformacin
tridimensional. El proceso se aplica normalmente a las estructuras terciarias de las
protenas, pero tambin puede usarse para largas molculas de ARN. En
contraste a la simple superposicin estructural, donde al menos se conocen
algunos residuos equivalentes de las dos estructuras, el alineamiento estructural
no requiere un conocimiento previo de posiciones equivalentes. Es una valiosa
herramienta para la comparacin de protenas con baja similitud entre sus
secuencias, en donde las relaciones evolutivas entre protenas no pueden ser
fcilmente detectadas por tcnicas estndares de alineamiento de secuencias. El
alineamiento estructural puede usarse, por lo tanto, para sugerir relaciones
evolutivas entre protenas que comparten una secuencia comn muy corta. Sin
embargo, el uso de los resultados
como evidencia de un ancestro
evolutivo comn debe realizarse
con cautela dados los posibles
efectos de confusin con la
evolucin convergente, segn la
cual mltiples secuencias de
aminocidos
sin
relacin
filogentica entre si convergen a
una misma estructura terciaria."
Los alineamientos estructurales
pueden comparar dos o mltiples
secuencias. Puesto que estos
alineamientos
dependen
de
informacin sobre todas las
conformaciones tridimensionales
de las secuencias problema, el mtodo solo puede ser usado sobre secuencias
donde estas estructuras sean conocidas. Estas se encuentran normalmente por
cristalografa de rayos X o espectroscopia de resonancia magntica nuclear. Es
posible realizar un alineamiento estructural sobre estructuras producidas mediante
mtodos de prediccin de estructura. En efecto, la evaluacin de tales
predicciones requiere a menudo un alineamiento estructural entre el modelo y la
estructura real conocida para evaluar la calidad del modelo. Los alineamientos
estructurales son especialmente tiles para analizar datos surgidos de los campos
de la genmica estructural y de la protenica, y pueden usarse como puntos de
comparacin para evaluar alineamientos generados por mtodos bioinformticas
basados exclusivamente en secuencias.
El resultado de un alineamiento estructural es una superposicin de los conjuntos
de coordenadas atmicas, as como una distancia media cuadrtica mnima (o
RMSD, de Root Mean SquareDeviation, o desviacin de la media cuadrtica) entre
97
Bioinformtica
98
Bioinformtica
99
Bioinformtica
CONCLUSIONES
100
Bioinformtica
BIBLIOGRAFA E INFOGRAFA
Apuntes de Clase de Bioinformtica. Ingeniera Telemtica. Docente Marco
Regalia. Universidad Distrital Francisco Jos de Caldas. 2011.
http://tecnologica.udistrital.edu.co/moodle/course/view.php?id=36
http://www.um.es/molecula/anucl03.htm
http://www.slideshare.net/munevarjuan/protein-folding-2105013
http://www.cienciasaplicadas.buap.mx/convocatoria/memorias_2005/065.pdf
http://folding.stanford.edu/Spanish/Science
http://es.scribd.com/doc/2529983/Plegamiento-de-Proteinas
http://www.sebbm.es/ES/divulgacion-ciencia-para-todos_10/chaperoninasplegamiento-mediante-aislamiento_522
http://es.wikipedia.org/wiki/Alineamiento_estructural
http://www.psicologia2000.com/es/enciclopedia-general-psicologia-on-line-wikiletra-a/21805-alineamiento-estructural.html
http://aportes.educ.ar/biologia/nucleo-teorico/estado-del-arte/el-libro-de-la-vida-eladn/estructura_del_adn.php
http://www.um.es/molecula/anucl02.htm
http://www.xuletas.es/ficha/estructura-del-adn-y-arn/
http://www.profesorenlinea.cl/Ciencias/ProteinasEstruct.htm
http://milksci.unizar.es/bioquimica/temas/aminoacids/estructurprot.html
http://www.aula21.net/Nutriweb/proteinas.htm#10
http://www.slideshare.net/carmen42/presentacin-proteinas
101