Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Libro Bioinformatica PDF
Libro Bioinformatica PDF
1
Bioinformtica
INTRODUCCIN
Este libro tiene por objetivo entregar una descripcin bsica de la recopilacin de
informacin acerca de las temticas tratadas en clase de Bioinformtica, su
relacin con la Informtica Mdica, sus principales herramientas, bases de datos y
funciones en la Medicina Molecular y Biotecnologa.
2
Bioinformtica
TABLA DE CONTENIDO
INTRODUCCIN ............................................................................................................... 2
1. Qu es la Bioinformtica ............................................................................................ 6
2. Bases de Qumica ...................................................................................................... 7
2. Bases de Biologa ...................................................................................................... 8
3. Bases de Gentica ................................................................................................... 10
3.1 Gentica ............................................................................................................. 10
3.2 Dogma Central de la Biologa Molecular ............................................................. 11
3.3 cido Desoxirribunocleico (ADN) ........................................................................ 11
3.4 Traduccin y Transcripcin Gentica .................................................................. 13
3.5 Cdigo Gentico ................................................................................................. 14
3.6 Protenas ............................................................................................................ 17
4. NCBI Entrez .......................................................................................................... 21
1. Cdigo Gentico...................................................................................................... 31
1.1 Caractersticas Del Cdigo Gentico .................................................................. 31
1.2 Splicing ............................................................................................................... 34
2. Open Reading Frames (ORF) .................................................................................. 35
3
Bioinformtica
1. Introduccin.............................................................................................................. 74
2. Tipos de Base de Datos ........................................................................................... 75
2.1 Modelo jerrquico. .............................................................................................. 75
2.2 Modelo en red. .................................................................................................... 76
2.3 Modelos Avanzados............................................................................................ 77
2.4 Modelo orientado a objetos. ................................................................................ 77
4
Bioinformtica
5
Bioinformtica
1. Qu es la Bioinformtica
Por ejemplo en la siguiente figura podemos ver lo que se puede lograr con la
bioinformtica haciendo visible lo que es regular o irregular en el cuerpo del ser
humano u especie.
6
Bioinformtica
Figura 2. Modelos
Atmicos.
-Molcula: Conjunto de tomos. Las molculas se dibujan con ngulos porque con
ngulos disminuyo la energa potencial.
7
Bioinformtica
-Bioqumica: Qumica relacionada con los seres vivos. Los seres vivos tienen
cuatro tomos:
1. Hidrgeno
2. Carbono
3. Nitrgeno
4. Oxgeno
2. Bases de Biologa
8
Bioinformtica
9
Bioinformtica
|->Nutricin.
|->Crecimiento.
|->Multiplicacin.
|->Diferenciacin.
|->Sealizacin.
|->Evolucin.
3. Bases de Gentica
3.1 Gentica
10
Bioinformtica
Transcripcin Traduccin
|Genotipo|----------> |ADN|-------------------->|ARN|--------------->|Protenas|
|_________________________________ |
\/
Expresin Tcnica |Fenotipo|
|-La replicacin consiste en la copia del ADN de una clula, antes de la divisin
celular, para que la clula hija tenga el mismo ADN que la madre.
|-La transcripcin consiste en convertir la informacin contenida en el ADN en un
formato legible para la maquinaria celular de sntesis de protenas, el ARN.
|-La traduccin es el mecanismo por el que el mensaje que lleva el ARN se utiliza
para sintetizar protenas.
11
Bioinformtica
4 Smbolos
0 A Sirve para 00
1 T codificar en 01
2 C dos bits 10
3 G 11
Nuestro ADN codifica nuestra informacin en cuatro (4) bits. El ADN codifica la
informacin en ATCG.
12
Bioinformtica
La ARN polimerasa abre la parte del ADN a ser transcripta. Solo una de las hebras
del ADN (la hebra codificante) se transcribe. Los nucletidos de ARN se
encuentran disponibles en la regin de la cromatina (este proceso solo ocurre en
la interface) y se unen en un proceso de sntesis similar al del ADN.
13
Bioinformtica
Fue el astrnomo quien seal que el cdigo que representa a los aminocidos
deba consistir en grupos de al menos tres de las cuatro bases del ADN.
14
Bioinformtica
El cdigo gentico fue "roto" por Marshall Nirenberg y Heinrich Matthaei (del NIH),
10 aos despus que Watson y Crick "rompieran" el misterio de la estructura del
ADN.
3.5.1 Caractersticas
Universalidad
15
Bioinformtica
Especificidad y continuidad
Degeneracin
16
Bioinformtica
Ntese que el codn AUG codifica la metionina pero adems sirve de sitio de
iniciacin; el primer AUG en un ARNm es la regin que codifica el sitio donde la
traduccin de protenas se inicia.
3.6 Protenas
17
Bioinformtica
Las protenas de todos los seres vivos estn determinadas mayoritariamente por
su gentica (con excepcin de algunos pptidos antimicrobianos de sntesis no
ribosomal), es decir, la informacin gentica determina en gran medida qu
protenas tiene una clula, un tejido y un organismo.
Estructura
18
Bioinformtica
la a(alfa)-hlice
la conformacin beta
En esta disposicin los AAS. no forman una hlice sino una cadena en
forma de zigzag, denominada disposicin en lmina plegada.Presentan
esta estructura secundaria la queratina de la seda o fibrona.
Clasificacin
19
Bioinformtica
Segn su composicin
20
Bioinformtica
4. NCBI Entrez
21
Bioinformtica
22
Bioinformtica
1. Formato FASTA
Smbolo Significado
A Adenina
C Citosina
G Guanina
T Timina
U Uracilo
R Purina
Y Pirimidina
K GoT
N A, C, G o T
- Hueco
23
Bioinformtica
2. Alineamiento de Secuencias
24
Bioinformtica
Figura 1.Un alineamiento de secuencias, generada por ClustalW entre dos protenas dedos de zinc
identificadas por el nmero de acceso GenBank (Clave).
S tengo dos (2) secuencias y quiero saber cunto se parecen lo hago a travs del
Score el cual es el puntaje de nuestro alineamiento. S este score es ms alto es
decir que hay ms similitud y nuestra secuencia es ms completa.
Este puntaje se da de acuerdo a la situacin s se encuentran parejas que
coinciden se le da un puntaje positivo, pero si no se le dar un puntaje negativo.
|-Pareado: (==2)
|-Mltiple: (>2) Es ms complicado.
Para estos tipos de alineamiento encontramos dos (2) tipos de algoritmos, pero
antes debemos explicar algunas caractersticas que pueden tener como son:
25
Bioinformtica
A = GAATTCAGTTA
B = GGATCGA
Parmetros:
Coincidencias = 1
No coincidencias = 0
Huecos = 0
Inicializacin:(Tabla 1)
1 2 3 4 5 6 7
G G A T C G A
0 0 0 0 0 0 0 0
1 G 0
2 A 0
3 A 0
4 T 0
5 T 0
6 C 0
7 A 0
8 G 0
9 T 0
10 T 0
11 A 0
Tabla 1. Inicializacin.
1 2 3 4 5 6 7
G G A T C G A
0 0 0 0 0 0 0 0
1 G 0 1 1 1 1 1 1 1
2 A 0 1 1 2 2 2 2 2
3 A 0 1 1 2 2 2 2 3
4 T 0 1 1 2 3 3 3 3
5 T 0 1 1 2 3 3 3 3
6 C 0 1 1 2 3 4 4 4
7 A 0 1 1 2 3 4 4 5
8 G 0 1 2 2 3 4 5 5
9 T 0 1 2 2 3 4 5 5
10 T 0 1 2 2 3 4 5 5
11 A 0 1 2 3 3 4 5 6
Tabla 2. Llenado de la matriz.
26
Bioinformtica
Alineamiento:
[x=11,y=7], [x=10,y=6], [x=9,y=6], [x=8,y=6], [x=7,y=5], [x=6,y=5], [x=5,y=4],
[x=4,y=4], [x=3,y=3], [x=2,y=3], [x=1,y=2], [x=1,y=1], [x=0,y=0]
GAATTCAGTTA
GGATCGA
3. BLAST
27
Bioinformtica
Figura 1.BLAST.
3.1 ETAPAS
28
Bioinformtica
* Gapped BLAST: Esta es una mejora al algoritmo original del BLAST.2 Tambin
se lo conoce como BLAST 2.0. Se trata de un BLAST que contempla la existencia
de pequeas inserciones o eliminaciones en las secuencias que se estn
comparando, permitiendo as alinear uno o varios nucletidos o aminocidos con
huecos vacos llamados gaps.
29
Bioinformtica
30
Bioinformtica
1. Cdigo Gentico
El cdigo gentico viene a ser como un diccionario que establece una equivalencia
entre las bases nitrogenadas del ARN y el leguaje de las protenas, establecido
por los aminocidos. Despus de muchos estudios (1955 Severo Ochoa y
Grumberg; 1961 M.Nirenberg y H. Mattaei) se comprob que a cada aminocido la
corresponden tres bases nitrogenadas o tripletes (61 tripletes codifican
aminocidos y tres tripletes carecen de sentido e indican terminacin de mensaje).
SEGUNDA BASE
U C A G
P UUU Phe UCU Ser UAU Tyr UGU Cys U T
UUC Phe UCC Ser UAC Tyr UGC Cys C
R U E
UUA Leu UCA Ser UAA FIN UGA FIN A
Tabla 1. El cdigo gentico nos indica que aminocido corresponde a cada triplete o codn del
ARN mensajero.
31
Bioinformtica
32
Bioinformtica
33
Bioinformtica
1.2 Splicing
34
Bioinformtica
Es una secuencia de informacin gentica que contiene datos que pueden ser
utilizados para codificar aminocidos; Los marcos de lectura se encuentran en el
ADN y ARN. En el caso de ADN, el ADN contiene conjuntos de nucletidos
conocida como tripletes o codones. Cada codn puede ser transcrito por el ARN
en otro triplete.
Existen 6 sentidos en los que se puede aparecer un marco de lectura: +1, +2, +3, -
1, -2, -3.
35
Bioinformtica
ORF Finder busca marcos abiertos de lectura (ORF) en la secuencia de ADN que
Ud. introduzca. El programa devuelve el rango de cada ORF, junto con la
traduccin de la protena correspondiente. ORF Finder soporta el alfabeto IUPAC
y varios cdigos genticos. Utilice ORF Finder para buscar posibles segmentos de
codificacin de protenas en nuevas secuencias de ADN.
36
Bioinformtica
Interfaz:
Grfico 4. Bsqueda con ORF Finder - Ingreso formato FASTA para empezar.
37
Bioinformtica
Grfico 5. Bsqueda con ORF Finder - Resultado encontrado del formato FASTA insertado.
38
Bioinformtica
3. Modelos Estocsticos
39
Bioinformtica
40
Bioinformtica
* En el modelo de Markov normal los estados son visibles. (a son los nicos
parmetros)
* En el HMM el estado no es visible ms s las variables influidas por el estado.
* Cada estado tiene una distribucin de probabilidad sobre los posibles
smbolos de salida.
* Se utiliza para analizar la composicin de secuencias, para localizar genes
prediciendo ORF y para producir predicciones de estructuras secundarias de
protenas.
Estados ocultos -> la supuesta secuencia ancestral desde la cual las secuencias
del conjunto problema se presume han descendido.
El HMM comienza con un alineamiento al azar -> construye un modelo -> mejora
las probabilidades en base a un entrenamiento iterativo -> se detiene cuando los
alineamientos no cambian.
41
Bioinformtica
Ventajas:
Desventajas:
42
Bioinformtica
Interfaz
Grfico 1. GENSCAN.
Lo primero que hacemos es buscar en entrez una secuencia del ser humano para
que pueda ser analizada por Genscan.
43
Bioinformtica
44
Bioinformtica
1. Alineamiento de Secuencias
45
Bioinformtica
1. Mtodo Global: Confronta una secuencia con otra completa. Los primeros
programas que se desarrollaron para el alineamiento de secuencias fueron
diseados para tratar de crear alineamientos globales, es decir para detectar
similaridades utilizando las protenas enteras. Un alineamiento que se extiende a
lo largo de toda la longitud de las secuencias utilizadas se denomina alineamiento
GLOBAL, como en los ejemplos que acabamos de ver anteriormente. Este tipo de
alineamientos son buenos para protenas globulares (que carecen de dominios
definidos) y en el caso de que las dos secuencias sean muy parecidas a lo largo
de toda su longitud (secuencias que han divergido poco a lo largo de la evolucin).
Sin embargo, existen numerosas protenas "modulares", entendiendo por tal el
hecho de que en su secuencia es posible identificar varios dominios diferentes. En
estas protenas, los diferentes mdulos pueden repetirse una o ms veces, o
aparecer en distinto orden en cada una de las protenas, por lo que si realizamos
un alineamiento global entre ambas, ser imposible que el programa pueda
detectar la homologa entre mdulos que ocupan diferente posicin en las dos
secuencias. Para obtener buenos alineamientos en estos casos es necesario
utilizar mtodos de alineamiento local, que en esencia consisten en programas
que buscan regiones entre las dos protenas que son parecidas, aunque estas
regiones se hallen rodeadas de zonas completamente diferentes.
46
Bioinformtica
47
Bioinformtica
48
Bioinformtica
Todos los seres vivos comparten su origen: todos provienen del reino mneras.
Este reino abarca los seres unicelulares procariotas, que carecen de ncleo
celular. Son las arqueo bacterias y las eubacterias.
De los mneras surgieron los protoctistas. Este reino rene seres eucariotas
unicelulares hetertrofos y con digestin interna (protozoos), y eucariotas
unicelulares o pluricelulares sin tejidos, auttrofos fotosintticos (algas).
El reino de los hongos comprende seres eucariotas, unicelulares o pluricelulares,
sin tejidos, hetertrofos y con digestin externa. Las metfitas o plantas son
eucariotas pluricelulares con tejidos y nutricin auttrofa.
49
Bioinformtica
Los tres dominios propuestos por Carl Woese (1990) son: Archaea, que rene a
las arqueo bacterias; Bacteria, que comprende a las eubacterias; y Eucarya, que
incluye a todos los seres eucariotas.
Las Hojas son diferentes y representan una secuencia que tendr un puntaje.
2. ClustalWJalview
2.1 Clustal
50
Bioinformtica
51
Bioinformtica
52
Bioinformtica
2.2 Jalview
* Ver
Lee y escribe en las alineaciones en una variedad de formatos (Fasta, PFAM,
MSF, Clustal, BLC, PIR).
Guarda las alineaciones y los rboles asociados en JalView formato XML.
* Editar
Las lagunas se pueden insertar / borrar con el ratn o el teclado.
Instrucciones simples.
Grupo de edicin (supresin de insercin de las lagunas en los grupos de
secuencias).La eliminacin de las columnas con huecos.
* Anlisis
Alinear las secuencias utilizando Servicios Web ( Clustal , muscular ...)
Aminocidos anlisis de conservacin similar a la de AMAS.
Las opciones de alineacin de clasificacin (por su nombre, para los rboles, el
porcentaje de identidad, grupo).
rboles UPGMA y NJ calculado y elaborado a partir de distancias por ciento de
identidad.
Clsteres de secuencia mediante el anlisis de componentes principales.
La eliminacin de las secuencias redundantes.
Smith Waterman pares de alineacin de las secuencias seleccionadas.
* Anotar
Uso de la Web basada en los programas de prediccin de estructura secundaria
( JNET ).
Usuario predefinidos o personalizados esquemas de color a las alineaciones de
color o de grupos.
Secuencia de recuperacin de funcin y se muestran en la alineacin.
* Publicar
Imprimir su alineacin con los colores y anotaciones.
Crear pginas HTML.
Salida de alineacin de imagen Portable Network Graphics (PNG).
Salida de la alineacin como un archivo PostScript encapsulado (EPS).
53
Bioinformtica
Grfico 5. Jalview.
54
Bioinformtica
3. Protenas y Protemica
3.1 Protenas
55
Bioinformtica
3.2 Protema
56
Bioinformtica
3.3 Protemica
57
Bioinformtica
Las estrategias ms recientes extraen las protenas de las clulas o tejidos y las
cortan en fragmentos ms pequeos, o pptidos, que son analizados por
espectrometra de masas. Los espectros de masas obtenidos son procesados
mediante complejos algoritmos matemticos que permiten la identificacin y
58
Bioinformtica
Significa tomar una protena compararla con otras protenas conocidas para ver
fundamentalmente su funcin.
59
Bioinformtica
60
Bioinformtica
manualmente construyendo rboles para tantos genes. Por eso (entre otras
razones) existen numerosas bases de datos y mtodos para estudiar la
organizacin de las familias de protenas.
Las distintas bases de datos y los distintos mtodos afrontan el problema de forma
diferente, persiguiendo diversos objetivos. Unas aproximaciones tratan de
encontrar grupos de ortlogos. Otras aproximaciones, grupos de homlogos, etc.
5.1 PROSITE
Cogeremos una secuencia de una protena prueba en este caso ser de Miosina
de Arabidopsisthaliana. Entonces lo primero que haremos es seleccionarla si ya la
hemos buscado, en nuestro caso la tomaremos de la plataforma moodle:
61
Bioinformtica
62
Bioinformtica
5.2 PRINTS
63
Bioinformtica
64
Bioinformtica
65
Bioinformtica
66
Bioinformtica
5.3 Pfam
67
Bioinformtica
Ntese que una nica protena puede pertenecer a varias familias Pfam.
68
Bioinformtica
69
Bioinformtica
70
Bioinformtica
5.4 InterPro
71
Bioinformtica
72
Bioinformtica
73
Bioinformtica
1. Introduccin
El trmino base de datos fue acuado por primera vez en 1963, en un simposio
celebrado en California.
El archivo por s mismo, no constituye una base de datos, sino ms bien la forma
en que est organizada la informacin es la que da origen a la base de datos. Las
bases de datos manuales, pueden ser difciles de gestionar y modificar. Por
ejemplo, en una gua de telfonos no es posible encontrar el nmero de un
individuo si no sabemos su apellido, aunque conozcamos su domicilio.
Desde el punto de vista informtico, una base de datos es un sistema formado por
un conjunto de datos almacenados en discos que permiten el acceso directo a
ellos y un conjunto de programas que manipulan ese conjunto de datos.
Desde el punto de vista ms formal, podramos definir una base de datos como un
conjunto de datos estructurados, fiables y homogneos, organizados
independientemente en mquina, accesibles a tiempo real , compartibles por
usuarios concurrentes que tienen necesidades de informacin diferente y no
predecibles en el tiempo .
La idea general es que estamos tratando con una coleccin de datos que cumplen
las siguientes propiedades:
74
Bioinformtica
Al igual que cuando se habla, p.ej., de coches no existe un nico modelo, ni una
sola marca, ni siquiera una sola tecnologa sobre su funcionamiento, cuando se
trabaja con bases de datos ocurre una cosa parecida: no existe una sola marca,
sino varias, y adems cada marca puede tener diferentes productos cada uno de
ellos apropiado a un tipo de necesidades.
Sin embargo, la divisin que vamos a hacer aqu de las bases de datos ser en
funcin de la tecnologa empleada en su funcionamiento. Hablando de coches
tenemos los tradicionales de motor a gasolina, los de gasleo, los turbo diesel, los
que funcionaban con gasgeno, y mucho menos frecuentes los coches solares o
incluso los de propulsin a chorro; pues bien, hablando de bases de datos
tenemos que las ms utilizadas son la bases de datos relacionales, las ms
antiguas son las jerrquicas y en red, y las ms avanzadas son las orientadas a
objetos, y las declarativas. Estas se diferencian como hemos dicho, en la forma de
trabajar con los datos y en la concepcin o mentalidad que el usuario debe
adoptar para interactuar con el sistema.
75
Bioinformtica
Una base de datos jerrquica est compuesta por una secuencia de bases de
datos fsicas, de manera que cada base de datos fsica se compone de todas las
ocurrencias de un tipo de registro o ficha determinada.
P.ej., en la figura siguiente tenemos una ocurrencia del tipo de registro Curso, de
manera que como cabeza principal tenemos una instancia del segmento curso, de
la cual dependen una o varias instancias de los segmentos Requisito y Oferta; a
su vez, de Oferta dependen otros que son Profesor y Estudiante.
- Registro: Viene a ser como cada una de las fichas almacenadas en un fichero
convencional.
- Campos o elementos de datos. Son cada uno de los apartados de que se
compone una ficha.
- Conjunto: Es el concepto que permite relacionar entre s tipos de registro
distintos.
76
Bioinformtica
Las bases de datos relacionales han sido y siguen siendo ampliamente utilizadas
para una extensa gama de aplicaciones. Sin embargo, el aumento de potencia de
los ordenadores personales, ha hecho aparecer nuevas aplicaciones potentes que
requieren la utilizacin de datos complejamente relacionados o con necesidades
de consultas muy particulares, como puedan ser p.ej., los sistemas de informacin
geogrficos, el diseo de circuitos electrnicos por ordenador, etc.
77
Bioinformtica
determinada posicin de las manecillas, que son interpretadas por una persona
como la hora actual. Cada uno de estos objetos es un elemento. Cuando un
engranaje, por ejemplo, gira, no lo hace por capricho, sino para obtener como
resultado el movimiento de otro engranaje, de una cremallera, o de la propia
manecilla. De esta forma, cuando el usuario da cuerda a la maquinaria, lo que est
haciendo realmente es modificar el estado de un objeto del reloj, normalmente la
espiral de la cuerda cuya energa potencial mueve la corona haciendo que un
oscilador avance el segundero. A su vez el movimiento del segundero hace
avanzar el del minutero, que hace avanzar el de la hora. Si el reloj es de cuco,
cada hora se activar la portezuela del cuco que saldr un nmero determinado de
veces segn la hora. De esta manera, una modificacin del estado de un objeto
por parte de un usuario, desencadena una serie de acciones cuyo objetivo final es
solucionar un problema al usuario: darle a conocer la hora exacta. As, la
programacin orientada a objetos pretende ser una simulacin de los procesos de
la realidad.
- Clase. Cuando hay varios objetos semejantes, pueden agruparse en una clase.
De hecho, todo objeto debe pertenecer a una clase, que define sus caractersticas
generales.. P.ej., nuestro reloj posee varios engranajes. Sern diferentes, puesto
que cada uno de ellos posee un dimetro y un nmero de dientes distinto, adems
de poder ser o no helicoidal. Pero al fin y al cabo todos son engranajes. De esta
manera cada engranaje pertenece a la misma clase, a pesar de tener unas
caractersticas particulares que lo diferencian de los dems.
- Estado. Son las caractersticas propias de cada objeto. Siguiendo con el caso de
los engranajes, su estado puede ser el nmero de dientes, el tamao, etc. El
estado se utiliza especialmente para guardar la situacin del objeto que vara con
el tiempo. En nuestro caso almacenaramos la situacin en un espacio
tridimensional, y la posicin o postura en que se encuentra.
78
Bioinformtica
P.ej., podemos declarar una clase Engranaje con las caractersticas bsicas de
los engranajes. De ella podemos derivar otras tres: Eng. fijo, Cremallera, y Eng.
helicoidal. Cada una de estas clases especializa la clase general, con la ventaja
de que las caractersticas comunes a los tres tipos de engranajes slo hay que
decirlas una vez.
Antes de comenzar, aclararemos que, cuando se vea el lenguaje SQL sobre las
bases de datos relacionales, diremos que este es un lenguaje no procedural, en el
sentido de que el usuario especifica qu es lo que quiere, pero no cmo. No se
debe confundir este aspecto del SQL con un lenguaje puramente declarativo, ya
que stos, amplan la filosofa de la base de datos, de manera que el usuario no
es consciente de los mtodos de bsqueda que se realizan internamente, y la
forma en que se manejan los datos tambin es muy distinta; adems, en el caso
de las funcionales, es necesario complicar soberanamente los mtodos utilizados
79
Bioinformtica
3. Descomposicin y Normalizacin
Siempre que un analista de sistemas de base de datos arma una base de datos,
queda a su cargo descomponer dicha base en grupos y segmentos de registros.
Este proceso es la descomposicin; el mismo es necesario independientemente
de la arquitectura de la base de datos - relacional, red o jerrquica-. Sin embargo,
para la base de datos relacional, la accin correspondiente puede dividirse y
expresarse en trminos formales y se denominanormalizacin a la misma.
3.1 Normalizacin
Qu es normalizacin?
80
Bioinformtica
Grfico 6. Normalizacin.
81
Bioinformtica
82
Bioinformtica
83
Bioinformtica
1. Estructura ADN
* Un azcar: desoxirribosa en
este caso (en el caso de ARN
o cido ribonucleico, el azcar
que lo forma es una ribosa)
Grfico 2.Estructura del ADN.
* Un grupo fosfato El cido desoxirribonucleico es
un polmero de dos cadenas anti
* Una base nitrogenada: paralelas (orientacin 5' 3' y 3'
adenina (A), guanina (G), 5'). Cada cadena est compuesta
citosina (C) y timina (T). Estas por unidades de un azcar
(desoxirribosa), un fosfato y una
forman puentes de hidrgeno base nitrogenada unidas entre s
entre ellas, respetando una por enlaces fosfodister. Las
estricta complementariedad: A slo se aparea con T (y bases presentes en el ADN son:
viceversa) mediante dos puentes de hidrgeno, y G slo con adenina (A), timina (T), citosina
C (y viceversa) mediante 3 puentes de hidrgeno. (C) y guanina (G). Para recordar
cmo aparean entre s las bases
Si la molcula tiene slo el azcar unido a la base podemos pensar en las iniciales
de dos grandes personajes del
nitrogenada entonces se denomina nuclesido. tango: Anbal Troilo (adenina es
la base complementaria de
timina) y Carlos Gardel (citosina
es la complementaria a guanina).
84
Bioinformtica
85
Bioinformtica
2. Estructura ARN
Veamos el siguiente cuadro comparativo que nos podr aclarar las dudas en
cuanto a la diferencias con el ADN:
86
Bioinformtica
87
Bioinformtica
3. Estructura de Protenas
Estructura Primaria
Una cadena polipeptdica consiste
en una cadena lineal de
aminocidos unidos por enlaces
peptdicos. El primer puesto de la
cadena corresponde al grupo
amino terminal, y la estructura
primaria es la secuencia en la que
estn situados todos los
constituyentes hasta llegar al
carboxilo terminal. Esta secuencia
88
Bioinformtica
Estructura Secundaria
La estructura secundaria es la forma en la que la cadena poli peptdica se pliega
en el espacio. En una protena, cada tramo de cadena polipeptdica tiene distinta
estructura secundaria. Existen varias formas definidas de estructura secundaria,
las ms importantes de las cuales son las llamadas hlice a y hoja plegada b. Las
estructuras secundarias definidas estn mantenidas por puentes de hidrgeno
formados exclusivamente entre los grupos amino y carboxilo que constituyen el
esqueleto de la cadena polipeptdica. Consecuentemente, los parmetros
estructurales (distancias, ngulos) sern iguales, independientemente de la
protena y de los aminocidos que formen la estructura.
Estructura Terciaria
La estructura terciaria de la protena es
la forma en la que se organizan en el
espacio los diferentes tramos de la
cadena polipeptdica, que pueden tener
una estructura secundaria definida,
como las hlices u hojas o no tenerla.
La estructura terciaria est mantenida
por enlaces inicos y de puentes de
89
Bioinformtica
Estructura Cuaternaria
90
Bioinformtica
Crecimiento
Cuando se fund, el PDB contena tan slo 7 estructuras de protenas. Desde
entonces ha experimentado un crecimiento aproximadamente exponencial en el
nmero de estructuras y nada parece indicar que el ritmo vaya a decaer.
El ritmo de crecimiento del PDB ha sido analizado en profundidad en diversos
estudios.
91
Bioinformtica
92
Bioinformtica
5. Folding de Protenas
Por lo general, todas las molculas de protena de cualquier especie adoptan una
conformacin nica, llamada Cadena Nativa. Para la gran mayora de las
protenas, el estado natural es la forma ms estable plegada de la molcula.
Las clulas requieren un mecanismo rpido y eficiente, para el plegamiento de
protenas en su forma correcta, de lo contrario, las clulas perderan mucha
energa en la sntesis de protenas funcionales y en la degradacin de protenas
mal plegadas o desplegadas.
93
Bioinformtica
94
Bioinformtica
permitir la formacin de bandas beta. El mecanismo por el cual las cadenas poli
peptdicas se pliegan en una especfica estructura tridimensional han sido un
misterio hasta hace poco tiempo. La protena nativa casi siempre corresponde a
una estructura que es termodinmicamente estable bajo condiciones fisiolgicas.
Sin embargo el nmero total de posibles combinaciones de una cadena poli
peptdica es muy grande, una bsqueda sistemtica para una estructura en
partcula seria larga y difcil. Es claro que el proceso de plegamiento no involucra
una serie de pasos predeterminados entre partes especficas, pero lleva a cabo
una bsqueda de muchas conformaciones accesibles a la cadena polipeptdica.
Si la energa superficial es la adecuada, nicamente un pequeo nmero de
todas las posibles combinaciones darn origen a la estructura nativa de una
protena. Porque la forma final es codificada por la secuencia de aminocidos y la
seleccin natural que permite evolucionar y ser capaces de plegarse rpida y
eficientemente.
5.1.2 Chaperoninas
95
Bioinformtica
96
Bioinformtica
6. Alineamiento de Estructuras
97
Bioinformtica
La informacin mnima
producida por un alineamiento
estructural correcto es un
conjunto de coordenadas
tridimensionales superpuestas
para cada estructura inicial.
Ntese que uno de los
elementos de entrada puede
estar fijado como referencia y
que, por lo tanto, sus
coordenadas superpuestas no
cambiaran. Las estructuras
encajadas pueden usarse para
calcular valores RMSD mutuos, as como otras medidas de similitud estructural
ms sofisticadas como el test de distancia global (GDT, de sus siglas en ingls, y
que es la mtrica utilizada en CASP, CriticalAssessment of Techniques for Protein
Structure Prediction). Un alineamiento estructural tambin implica un alineamiento
de secuencias unidimensional desde el que una secuencia identidad, o el
porcentaje de residuos que son idnticos entre las estructuras de entrada, puede
calcularse como una medida de cuan cercanamente se encuentran ambas
secuencias.
98
Bioinformtica
La comparacin ms
sencilla posible entre
estructuras de protenas
no intenta alinear las
estructuras de entrada,
sino que necesita un
alineamiento pre
calculado como input
para determinar cules
de los residuos en la
secuencia deben
considerarse para el
clculo de la RMSD. La
superposicin estructural
se usa comnmente para comparar conformaciones mltiples de la misma
protena (en cuyo caso no es necesario el alineamiento ya que la secuencia es la
misma) y para evaluar la calidad de los alineamientos producidos usando solo
informacin de las secuencias entre dos o ms secuencias cuyas estructuras son
conocidas. Este mtodo utiliza tradicionalmente un sencillo algoritmo de ajuste por
mnimos cuadrados, en el que las rotaciones y translaciones ptimas se
encuentran minimizando la suma de los cuadrados de las distancias entre todas
las estructuras de la superposicin. Ms recientemente, los mtodos bayesianos y
de mxima verosimilitud han incrementado enormemente la precisin de las
rotaciones, translaciones y matrices de covarianza estimadas para la
superposicin.
99
Bioinformtica
CONCLUSIONES
100
Bioinformtica
BIBLIOGRAFA E INFOGRAFA
http://tecnologica.udistrital.edu.co/moodle/course/view.php?id=36
http://www.um.es/molecula/anucl03.htm
http://www.slideshare.net/munevarjuan/protein-folding-2105013
http://www.cienciasaplicadas.buap.mx/convocatoria/memorias_2005/065.pdf
http://folding.stanford.edu/Spanish/Science
http://es.scribd.com/doc/2529983/Plegamiento-de-Proteinas
http://www.sebbm.es/ES/divulgacion-ciencia-para-todos_10/chaperoninas-
plegamiento-mediante-aislamiento_522
http://es.wikipedia.org/wiki/Alineamiento_estructural
http://www.psicologia2000.com/es/enciclopedia-general-psicologia-on-line-wiki-
letra-a/21805-alineamiento-estructural.html
http://aportes.educ.ar/biologia/nucleo-teorico/estado-del-arte/el-libro-de-la-vida-el-
adn/estructura_del_adn.php
http://www.um.es/molecula/anucl02.htm
http://www.xuletas.es/ficha/estructura-del-adn-y-arn/
http://www.profesorenlinea.cl/Ciencias/ProteinasEstruct.htm
http://milksci.unizar.es/bioquimica/temas/aminoacids/estructurprot.html
http://www.aula21.net/Nutriweb/proteinas.htm#10
http://www.slideshare.net/carmen42/presentacin-proteinas
101