Libro Bioinformatica PDF

Bioinformtica
1
Bioinformtica
INTRODUCCIN
La bioinformtica se ha convertido en una ciencia que est entrando en auge en

Latinoamrica debido a que la tecnologa ha tenido un gran desarrollo y ha
permitido unir la informtica con otras ciencias como la biologa y la gentica.
La secuenciacin de genomas lleva la necesidad de obtener conclusiones de la

lectura de esos millones de pares de bases, saber qu codifican, cmo se
relacionan y regulan la expresin de los distintos productos gnicos, adems de
encontrar la funcin de protenas desconocidas y de generar modelos que
permitan estudiar mutaciones puntuales. La rapidez y eficacia de esas
conclusiones se ha generado gracias al desarrollo de la Bioinformtica.
Este libro tiene por objetivo entregar una descripcin bsica de la recopilacin de
informacin acerca de las temticas tratadas en clase de Bioinformtica, su
relacin con la Informtica Mdica, sus principales herramientas, bases de datos y
funciones en la Medicina Molecular y Biotecnologa.
2
Bioinformtica
TABLA DE CONTENIDO
INTRODUCCIN ............................................................................................................... 2
CAPITULO I INTRODUCCIN A LA BIOINFORMATICA ................................................. 6
1. Qu es la Bioinformtica ............................................................................................ 6
2. Bases de Qumica ...................................................................................................... 7
2. Bases de Biologa ...................................................................................................... 8
3. Bases de Gentica ................................................................................................... 10
3.1 Gentica ............................................................................................................. 10
3.2 Dogma Central de la Biologa Molecular ............................................................. 11
3.3 cido Desoxirribunocleico (ADN) ........................................................................ 11
3.4 Traduccin y Transcripcin Gentica .................................................................. 13
3.5 Cdigo Gentico ................................................................................................. 14
3.6 Protenas ............................................................................................................ 17
4. NCBI Entrez .......................................................................................................... 21
CAPITULO II SECUENCIAS DE ADN ............................................................................. 23
1. Formato FASTA ....................................................................................................... 23

2. Alineamiento de Secuencias .................................................................................... 24
3. BLAST...................................................................................................................... 27
3.1 ETAPAS ............................................................................................................. 28
3.2 FAMILIA BLAST ................................................................................................. 29
3.3 Variantes De BLAST ........................................................................................... 29
CAPITULO III GENES ..................................................................................................... 31
1. Cdigo Gentico...................................................................................................... 31
1.1 Caractersticas Del Cdigo Gentico .................................................................. 31
1.2 Splicing ............................................................................................................... 34
2. Open Reading Frames (ORF) .................................................................................. 35
3
Bioinformtica
2.1 Marco Abierto de Lectura .................................................................................... 35

2.2 ORF Finder (Open Reading Frame Finder) - NCBI ............................................. 36
3. Modelos Estocsticos ............................................................................................... 39
3.1 Modelo Oculto de Markov ................................................................................... 39
4. GENSCAN ............................................................................................................... 42
CAPITULO IV ALINEAMIENTO DE SECUENCIAS Y PROTENAS ............................... 45
1. Alineamiento de Secuencias ................................................................................... 45

1.1 Alineamiento mltiple de Secuencias .................................................................. 45
1.2 rbol Filogentico ............................................................................................... 49
2. ClustalWJalview ....................................................................................................... 50
2.1 Clustal................................................................................................................. 50
2.2 Jalview ................................................................................................................ 53
3. Protenas y Protemica ............................................................................................ 55
3.1 Protenas ............................................................................................................ 55
3.2 Protema ............................................................................................................ 56
3.3 Protemica.......................................................................................................... 57
4. Anlisis Comparativo de Protenas ....................................................................... 59
5. PROSITE, PRINTS, Pfam, InterPro .......................................................................... 61
5.1 PROSITE ............................................................................................................ 61
5.2 PRINTS .............................................................................................................. 63
5.3 Pfam ................................................................................................................... 67
5.4 InterPro ............................................................................................................... 71
CAPITULO V BASES DE DATOS .................................................................................. 74
1. Introduccin.............................................................................................................. 74
2. Tipos de Base de Datos ........................................................................................... 75
2.1 Modelo jerrquico. .............................................................................................. 75
2.2 Modelo en red. .................................................................................................... 76
2.3 Modelos Avanzados............................................................................................ 77
2.4 Modelo orientado a objetos. ................................................................................ 77
4
Bioinformtica
2.5 Modelo declarativo. ............................................................................................. 79

3. Descomposicin y Normalizacin ............................................................................. 80
3.1 Normalizacin ..................................................................................................... 80
4. Biologa de Visualizacin de Datos........................................................................... 81
5. Base de Datos Bilogicas ......................................................................................... 82
CAPTULO VIESTRUCTURAS BIOLGICAS ................................................................ 84
1. Estructura ADN ........................................................................................................ 84

1.1 Estructura Primaria: ............................................................................................ 85
1.2 Estructura Secundaria: ....................................................................................... 85
1.3 Estructura Terciaria:............................................................................................ 86
2. Estructura ARN ........................................................................................................ 86
2.1 Estructura Primaria del ARN ............................................................................... 87
2.2 Estructura Secundaria del ARN .......................................................................... 87
2.3 Estructura Terciaria del ARN .............................................................................. 88
3. Estructura de Protenas ............................................................................................ 88
4. Protein Data Bank .................................................................................................... 91
Crecimiento .............................................................................................................. 91
5. Folding de Protenas ................................................................................................ 93
5.1 Proceso De Folding ............................................................................................ 94
6. Alineamiento de Estructuras ..................................................................................... 97
CONCLUSIONES .......................................................................................................... 100
BIBLIOGRAFA E INFOGRAFA ................................................................................... 101
5
Bioinformtica
CAPITULO I INTRODUCCIN A LA BIOINFORMATICA
1. Qu es la Bioinformtica
La Bioinformtica es el uso de tcnicas computacionales, matemticas y

estadsticas para el anlisis, interpretacin y generacin de datos biolgicos.
La bioinformtica es una ciencia muy joven, si miramos a travs del tiempo

algunos descubrimientos fueron de la siguiente manera:
|->1958 Primera secuencia de protena

|->1975 Primera secuencia de ADN
|->1986 Desarrollo PCR (Polmeros)
|-> Inicio de la era Genmica.
La bioinformtica estudia la Minera de Datos de:

Figura 1. El alineamiento de
|->ADN (cido Desoxirribonucleico) secuencias biolgicas es una
|->Protenas de las herramientas bsicas
de la bioinformtica.
|-> Genmicas
-> Mutacin /Polimorfismo
En la bioinformtica lo que se hace es:
1. Almacenar datos de genes a travs de minera de datos.

2. Observar que hacen los genes
Por ejemplo en la siguiente figura podemos ver lo que se puede lograr con la
bioinformtica haciendo visible lo que es regular o irregular en el cuerpo del ser
humano u especie.
Se pude concluir que la bioinformtica lo que busca es llegar a la medicina y

ayudar en la obtencin de curas para enfermedades como el cncer, las
enfermedades que se derivan de mutaciones, etc.
Tambin podemos encontrar que la bioinformtica abarca distintas reas:
*Genmica: Ciencia que estudia el genoma.

*Transcriptmica: Transferencia genoma a protena.
*Protemica: Estudio de Protenas.
*Metabolismo: Procesos fsico - qumicos como la respiracin, etc.
*Genmica Comparativa: Compara genomas de varios individuos, especies.
*Genmica Funcional: Estudia la funcin del gen. Saber qu hace el gen.
*Anlisis Filogenticos: Trata acerca de los rboles basados en la gentica de
las especies.
6
Bioinformtica
La bioinformtica en la biodiversidad permite llevar un control y descubrir ms

variedad de animales, plantas, flores, etc.
2. Bases de Qumica
Qumica: Estudio de la materia. La materia est

hecha de tomos.
-Modelo atmico: Es la representacin estructural

de un tomo, que trata de explicar su
comportamiento y sus propiedades.
-Modelo atmico de Rutherford, mostraba que el

tomo estaba compuesto por un ncleo de carga
positiva (protn) y alrededor carga negativa
(electrones).
-El nmero atmico es la cantidad de protones que

posee el tomo.
Figura 2. Modelos
Atmicos.
-El tomo: Es la unidad ms pequea de un elemento

qumico, que mantiene sus propiedades y no es
posible dividir por procesos qumicos.
-Un tomo cuando pierde un protn se llama in .

|->In Positivo: Cuando se pierde un electrn.
|->In Negativo: Cuando se ganan electrones.
-Neutrn: Hace que el peso aumente. Figura 3.El tomo.
|->Isotopo: Tienen dos tomos, el mismo nmero de protones pero diferente

cantidad de neutrones.
|->Deuterio: dos neutrones.
|->Tripcio: tres neutrones.
-Molcula: Conjunto de tomos. Las molculas se dibujan con ngulos porque con
ngulos disminuyo la energa potencial.
7
Bioinformtica
-Enlace Qumico: Fuerza de atraccin por fuerza electromagntica. Ah se

intercambian electrones.
-Bioqumica: Qumica relacionada con los seres vivos. Los seres vivos tienen
cuatro tomos:
1. Hidrgeno
2. Carbono
3. Nitrgeno
4. Oxgeno
-Compuesto Orgnico: Todas las molculas que contienen carbono. Podemos

encontrar cuatro (4) clases de compuesto orgnico que son:
1. Carbohidratos o Glcidos: Son los que dan energa a nuestro cuerpo.

2. Lpidos: Grasas, no son solubles en el agua. Sirven para reserva de energa.
3. Protenas: Determinan nuestras caractersticas (piel, ojos, cabello, etc.).
4. cidos nucleicos: ADN, ARN, ATP. Son formados por los nucletidos la timina,
guanina, adenina y citosina.
2. Bases de Biologa
Biologa: Ciencia que estudia los seres vivos.
|->Ser vivo: Es todo lo que es capaz de

reproducirse.
La biologa tiene las siguientes caractersticas:
1. Universalidad: Las reacciones qumicas bsicas Figura 4.Esquema de la

son las mismas en todos los seres vivos. relacin entre bioqumica,
2. Evolucin: Todos los organismos se gentica, biologa estructural y
evolucionaran de un nico ancestro comn. biologa molecular.
3. Taxonoma: Todos los seres se dividen en una
categora y subcategoras.Ejemplo:reinos.
Encontramos tres (3) niveles:
|->Orgnico: Tejidos, agregaciones de clula. Estructura o compartimento sub-

celular, anloga a los rganos de seres vivos pluricelulares, que desempea una
funcin concreta
8
Bioinformtica
|->Biologa Celular: Estudio sobre las clulas. Esto

incluye su anatoma, su fisiologa, las interacciones
de sta con el medio, su ciclo vital, y su divisin y
muerte.
|->Biologa Molecular: Estudio de las molculas. La
biologa molecular concierne principalmente al
entendimiento de las interacciones de los diferentes
sistemas de la clula, lo que incluye muchsimas
relaciones, entre ellas las del ADN con el ARN, la
sntesis de protenas, el metabolismo, y el cmo
todas esas interacciones son reguladas para
conseguir un correcto funcionamiento de la clula.
Clula:Unidad funcional de todo ser vivo.

Encontramos dos categoras de clulas:
|->Procariotas: No tienen ncleo.

|->Eucariotas: Tienen ncleo.
Figura 5.Esta sencilla Entre las clulas eucariotas encontramos la vegetal

representacin muestra y animal, estas poseen diferencias que las podemos
parecidos y diferencias
generales entre las clulas observar en la Figura 3 donde ilustra las estructuras
eucariotas y procariotas. que son comunes en las clulas animales y
vegetales, as como las estructuras que les son
nicas. Las estructuras que son comunes a plantas y animales, estn en medio de
la imagen. Las estructuras propias de las plantas, a la izquierda y las animales a la
derecha.
Figura 6.Clula vegetal y animal con sus diferencias y similitudes.
9
Bioinformtica
Las clulas hacen parte de dos clases de organismos: Pluricelulares y Mono

celulares por ejemplo la clula animal es pluricelular y las bacterias mono
celulares.
La clula tienen las siguientes funciones:
|->Nutricin.
|->Crecimiento.
|->Multiplicacin.
|->Diferenciacin.
|->Sealizacin.
|->Evolucin.
3. Bases de Gentica
3.1 Gentica
La gentica estudia los genes que determinan nuestras

caractersticas.
Hay cuatro (4) tipos de gentica:
1. Gentica Clsica: trata de cromosomas y genes.
|->Cromosomas: Es como el ADN se empaqueta.

|->Genes: Secuencia larga (3Gb) en el genoma humano cada
gen codifica las protenas que dan nuestras caractersticas
fsicas. Los genes estn dentro de los cromosomas.
Figura 7.Una
molcula de ADN:
En nuestro cuerpo hay 33.000 caractersticas.
las dos cadenas se
componen de
2. Gentica Cuantitativa: Estudia el impacto de los fenotipos. nucletidos, cuya
secuencia es la
3. Gentica Evolutiva: Estudia como los genes se vuelven a travs informacin
del tiempo en determinada poblacin. gentica.
4. Gentica Molecular: Estudia lo mismo que la gentica clsica, cuantitativa y

evolutiva pero a nivel molecular.
La gentica molecular tiene un dogma denominado DOGMA CENTRAL DE LA

BIOLOGA MOLECULAR.
10
Bioinformtica
3.2 Dogma Central de la Biologa Molecular
El Dogma Central de la Biloga nos habla de cmo se pasa de genotipo a

fenotipo. El paso de genotipo a fenotipo se llama expresin gentica lo podemos
ver en la Figura 7
Transcripcin Traduccin
|Genotipo|----------> |ADN|-------------------->|ARN|--------------->|Protenas|
|_________________________________ |
\/
Expresin Tcnica |Fenotipo|
Figura 8. Dogma Central (Paso de Genotipo a Fenotipo)
-Genotipo: Conjunto de toda nuestra informacin gentica (Nuestro Disco Duro).
-Fenotipo: Conjunto de caractersticas Fsicas.
|-La replicacin consiste en la copia del ADN de una clula, antes de la divisin
celular, para que la clula hija tenga el mismo ADN que la madre.
|-La transcripcin consiste en convertir la informacin contenida en el ADN en un
formato legible para la maquinaria celular de sntesis de protenas, el ARN.
|-La traduccin es el mecanismo por el que el mensaje que lleva el ARN se utiliza
para sintetizar protenas.
Con estos tres mecanismos conseguimos extraer de la informacin gentica

(ADN), los materiales (protenas) necesarios tanto funcional como
estructuralmente para que una clula funcione.
La copia de trabajo es sobre un gen (de un archivo a la vez). El sistema es

universal.
3.3 cido Desoxirribonucleico (ADN)
cido Desoxirribonucleico (ADN): Contiene la informacin gentica. Es una

molcula -> (conjunto de tomos con estructura tridimensional). Se puede afirmar
que el ADN es un poli nucletido el cual es una cadena de molculas pequeas.
11
Bioinformtica
- Nucletido: Compuesto (Azcar, base,

fosfato).
* Azcar: cumple la funcin de estructura,

es como la columna vertebral (siempre
igual).
* Fosfato: Cumple la funcin de enlace

Figura 9.El ADN es una doble hlice de 2 (se mantiene siempre igual).
cadenas de ncleo nucletidos y cada uno
contiene: 1. Grupo fosfato 2. Pentosa (azcar
de 5 carbonos) 3. Bases nitrogenadas ya sean * Base: Da estabilidad a la molcula. Esta
Adenina, Guanina, Citosina y Timina(*hay 4 cambia encontramos cuatro tipos de
tipos de nucletidos ya que hay 4 tipos de bases:
bases nitrogenadas, estas diferencian a cada
uno de los nucletidos)
|- Adenina |- Timina
|- Citosina |- Guanina
Nuestro cuerpo trabaja en cdigo (ATCG) base 4:
4 Smbolos
0 A Sirve para 00
1 T codificar en 01
2 C dos bits 10
3 G 11
Nuestro ADN codifica nuestra informacin en cuatro (4) bits. El ADN codifica la
informacin en ATCG.
Genoma Humano: Se realiz en el 2001. Es una secuencia de caracteres.
Encontramos que el ADN cuando codifica tiene una

regla bsica es ah donde se habla de Bases
Complementarias estos son:
A<- ->T (Solo se enlaza A con T y viceversa)

G<- ->C (Solo se enlaza G con C y viceversa)
Hebra: Es la doble hlice o doble cadena.
El ADN tiene mecanismos de Reparacin y

Recuperacin, por esto debemos saber que l tiene
tres niveles de Estructura que son:
Figura 10. Situacin del ADN

*Estructura Primaria: Secuencia de nucletidos es
dentro de una clula.
decir (ATCG).
12
Bioinformtica
*Estructura Secundaria: Doble hlice, estructura tridimensional.
*Estructura Terciaria: Se compacta, como madeja y forma nucleosomas y

cromosomas. Esto se compacta por proteccin.
El ser humano posee 46 cromosomas.
3.4 Traduccin y Transcripcin Gentica
Transcripcin es el proceso de fabricacin ARN usando el ADN como molde.
Traduccin es la construccin de una secuencia de aminocidos (poli pptido) con

la informacin proporcionada por la molcula de ARN.
El esquema de este "dogma" ha sido encontrada repetidamente y se considera

una regla general (salvo en los retrovirus).
El cido Ribonucleico mensajero (ARNm) es el molde para la construccin de la

protena.
El cido Ribonucleico ribosmico (ARNr) se encuentra en el sitio donde se

construye la protena: el ribosoma.
El cido Ribonucleico de transferencia (ARNt) es el transportador que coloca el

aminocido apropiado en el sitio correspondiente.
El ARN tiene el azcar ribosa en vez de desoxirribosa. La base uracilo (U)

reemplaza a la timina (T) en el ARN. El ARN tiene una sola hebra, si bien el ARNt
puede formar una estructura de forma de trbol debido a la complementariedad de
sus pares de bases.
TRANSCRIPCION: HACIENDO UNA COPIA DEL ARNm DE LA SECUENCIA

DEL ADN
La ARN polimerasa abre la parte del ADN a ser transcripta. Solo una de las hebras
del ADN (la hebra codificante) se transcribe. Los nucletidos de ARN se
encuentran disponibles en la regin de la cromatina (este proceso solo ocurre en
la interface) y se unen en un proceso de sntesis similar al del ADN.
13
Bioinformtica
Figura 11. Transcripcin Gentica
El ARN est en el ncleo y se hace la transcripcin dentro del ncleo, luego el

ARNm sale al citoplasma.
Encontramos cinco (5) pasos en el proceso de transcripcin estos son:
1. Pre iniciacin: Llega nuestro ARN polimerasa busca el cdigo donde

empieza el archivo de inicio el cual se llama promotor o secuencia de
iniciacin. Ah empieza un gen.
2. Iniciacin: Aleja dos hlices rompiendo los enlaces solo donde ve el archivo
promotor.
3. Disgregacin promotor: Se destruye secuencia de iniciacin.
4. Elongacin: Empieza a hacer la copia. Empieza a hacer los enlaces (molde-
molde-original). En el ARN en vez de T hay U. Hace una copia sencilla
(Hebra sencilla).
5. Terminacin: Secuencia terminadora, para de copiar porque encuentra el
cdigo terminador. Se hace un gen a la vez. El ARN se vuelve compacto y
vuelve a empezar.
3.5 Cdigo Gentico
Fue el astrnomo quien seal que el cdigo que representa a los aminocidos
deba consistir en grupos de al menos tres de las cuatro bases del ADN.
En efecto, los 20 aminocidos estn representados en el cdigo gentico por la

agrupacin de tres letras (triplete) de las cuatro existentes.
Si uno considera las posibilidades de arreglo de cuatro letras agrupadas de a tres
(43) resulta que tenemos 64 posibilidades de palabras a codificar, o 64 posibles
codones (secuencia de tres bases en el ARNm que codifica para un aminocido
especfico o una secuencia de control).
14
Bioinformtica
El cdigo gentico fue "roto" por Marshall Nirenberg y Heinrich Matthaei (del NIH),
10 aos despus que Watson y Crick "rompieran" el misterio de la estructura del
ADN.
Nirenberg descubri que el

ARNm, independientemente del
organismo de donde proviene,
puede iniciar la sntesis proteica
cuando se lo mezcla con el
contenido del homogneo de
Escherichiacoli.
Adicionando poli-U (un ARNm

sinttico) a cada uno de 20 tubos
de ensayo (cada uno de los
Figura 12.Cdigo gentico cuales tena un aminocido diferente)
Nirenberg y Matthaei determinaron que
el codn UUU, el nico posible en el
poli-U, codificaba para el aminocido fenilalanina.
Asimismo un ARNm artificial compuesto por bases A y C alternando codifica

alternativamente para histidina y treonina. Gradualmente se fue confeccionando
una lista completa del cdigo gentico.
El cdigo gentico consiste en 61 codones para aminocidos y 3 codones de

terminacin, que detienen el proceso de traduccin. El cdigo gentico es por lo
tanto redundante, en el sentido que tiene varios codones para un mismo
aminocido. Por ejemplo, la glicina es codificada por los codones GGU, GGC,
GGA, y GGG. Si un codn muta por ejemplo de GGU a CGC, se especifica el
mismo aminocido.
3.5.1 Caractersticas
Universalidad
El cdigo gentico es compartido por todos los organismos conocidos, incluyendo

virus y organelos, aunque pueden aparecer pequeas diferencias. As, por
ejemplo, el codn UUU codifica el aminocido fenilalanina tanto en bacterias,
como en arqueas y en eucariontes. Este hecho indica que el cdigo gentico ha
tenido un origen nico en todos los seres vivos conocidos.
Gracias a la gentica molecular, se han distinguido 22 cdigos genticos, que se

diferencian del llamado cdigo gentico estndar por el significado de uno o ms
codones. La mayor diversidad se presenta en las mitocondrias, orgnulos de las
clulas eucariotas que se originaron evolutivamente a partir de miembros del
15
Bioinformtica
dominio Bacteria a travs de un proceso de endosimbiosis. El genoma nuclear de

los eucariotas slo suele diferenciarse del cdigo estndar en los codones de
iniciacin y terminacin.
Especificidad y continuidad
Ningn codn codifica ms de un aminocido, ya que, de no ser as, conllevara

problemas considerables para la sntesis de protenas especficas para cada gen.
Tampoco presenta solapamiento: los tripletes se hallan dispuesto de manera lineal
y continua, de manera que entre ellos no existan comas ni espacios y sin
compartir ninguna base nitrogenada. Su lectura se hace en un solo sentido (5
3), desde el codn de iniciacin hasta el codn de parada. Sin embargo, en un
mismo ARNm pueden existir varios codones de inicio, lo que conduce a la sntesis
de varios poli pptidos diferentes a partir del mismo transcrito.
Degeneracin
El cdigo gentico tiene redundancia pero no ambigedad (ver tablas de

codones). Por ejemplo, aunque los codones GAA y GAG especifican los dos el
cido glutmico (redundancia), ninguno especfica otro aminocido (no
ambigedad). Los codones que codifican un aminocido pueden diferir en alguna
de sus tres posiciones, por ejemplo, el cido glutmico se especfica por GAA y
GAG (difieren en la tercera posicin), el aminocido leucina se especfica por los
codones UUA, UUG, CUU, CUC, CUA y CUG (difieren en la primera o en la
tercera posicin), mientras que en el caso de la serina, se especfica por UCA,
UCG, UCC, UCU, AGU, AGC (difieren en la primera, segunda o tercera posicin).
De una posicin de un condn se dice que es cuatro veces degenerada si con

cualquier nucletido en esta posicin se especfica el mismo aminocido. Por
ejemplo, la tercera posicin de los codones de la glicina (GGA, GGG, GGC, GGU)
es cuatro veces degenerada, porque todas las sustituciones de nucletidos en
este lugar son sinnimas; es decir, no varan el aminocido. Slo la tercera
posicin de algunos codones puede ser cuatro veces degenerada. Se dice que
una posicin de un codn es dos veces degenerada si slo dos de las cuatro
posibles sustituciones de nucletidos especifican el mismo aminocido. Por
ejemplo, la tercera posicin de los codones del cido glutmico (GAA, GAG) es
doble degenerada. En los lugares dos veces degenerados, los nucletidos
equivalentes son siempre dos purinas (A/G) o dos pirimidinas (C/U), as que slo
sustituciones transversionales (purina a pirimidina o pirimidina a purina) en dobles
degenerados son antnimas. Se dice que una posicin de un codn es no
degenerada si una mutacin en esta posicin tiene como resultado la sustitucin
de un aminocido. Slo hay un sitio triple degenerado en el que cambiando tres de
cuatro nucletidos no hay efecto en el aminocido, mientras que cambiando los
cuatro posibles nucletidos aparece una sustitucin del aminocido. Esta es la
tercera posicin de un codn de isoleucina: AUU, AUC y AUA, todos codifican
isoleucina, pero AUG codifica metionina. En biocomputacin, este sitio se trata a
menudo como doble degenerado.
16
Bioinformtica
Tabla del cdigo gentico estndar
El cdigo gentico estndar se refleja en las siguientes tablas. La tabla 1 muestra

qu aminocido especfica cada uno de los 64 codones. La tabla 2 muestra qu
codones especifican cada uno de los 20 aminocidos que intervienen en la
traduccin. Estas tablas se llaman tablas de avance y retroceso respectivamente.
Por ejemplo, el codn AAU es el aminocido asparagina, y UGU y UGC
representan cistena (en la denominacin estndar por 3 letras, Asn y Cys,
respectivamente).
La tabla muestra los 64 codones con sus correspondientes aminocidos. El ARNm

se da en sentido 5 3.
Figura 13. Tabla del cdigo gentico estndar
Ntese que el codn AUG codifica la metionina pero adems sirve de sitio de
iniciacin; el primer AUG en un ARNm es la regin que codifica el sitio donde la
traduccin de protenas se inicia.
3.6 Protenas
Las protenas son biomolculas formadas por cadenas lineales de aminocidos. El

nombre protena proviene de la palabra griega ("proteios"), que significa
"primario" o del dios Proteo, por la cantidad de formas que pueden tomar.
17
Bioinformtica
Las protenas desempean un papel fundamental para la vida y son las

biomolculas ms verstiles y ms diversas. Son imprescindibles para el
crecimiento del organismo. Realizan una enorme cantidad de funciones diferentes,
entre las que destacan:
* Estructural. sta es la funcin ms importante de una protena

* Inmunolgica (anticuerpos),
* Enzimtica (sacarosa y pepsina),
* Contrctil (actina y miosina).
* Homeosttica: colaboran en el mantenimiento del pH,
* Transduccin de seales (rodopsina)
* Protectora o defensiva (trombina y fibringeno)
Las protenas estn formadas por aminocidos.
Las protenas de todos los seres vivos estn determinadas mayoritariamente por
su gentica (con excepcin de algunos pptidos antimicrobianos de sntesis no
ribosomal), es decir, la informacin gentica determina en gran medida qu
protenas tiene una clula, un tejido y un organismo.
Las protenas se sintetizan dependiendo de cmo se encuentren regulados los

genes que las codifican. Por lo tanto, son susceptibles a seales o factores
externos. El conjunto de las protenas expresadas en una circunstancia
determinada es denominado proteoma.
3.6.1 Clasificacin y Estructura
Estructura
La organizacin de una protena viene definida por cuatro niveles estructurales

denominados: estructura primaria, estructura secundaria, estructura terciaria y
estructura cuaternaria. Cada una de estas estructuras informa de la disposicin de
la anterior en el espacio.
Estructura Primaria: La estructura primaria es la secuencia de AA de la

protena. Nos indica qu AAS componen la cadena polipeptdica y el orden
en que dichos AAS. se encuentran. La funcin de una protena depende de
su secuencia y de la forma que sta adopte.
Estructura Secundaria: La estructura secundaria es la disposicin de la

secuencia de aminocidos en el espacio. Los AAS, a medida que van
siendo enlazados durante la sntesis de protenas y gracias a la capacidad
de giro de sus enlaces, adquieren una disposicin espacial estable, la
estructura secundaria.
18
Bioinformtica
Existen dos tipos de estructura secundaria:
la a(alfa)-hlice
la conformacin beta
Esta estructura se forma al enrollarse helicoidalmente sobre s misma la

estructura primaria. Se debe a la formacin de enlaces de hidrgeno
entre el -C=O de un aminocido y el -NH- del cuarto aminocido que le
sigue.
En esta disposicin los AAS. no forman una hlice sino una cadena en
forma de zigzag, denominada disposicin en lmina plegada.Presentan
esta estructura secundaria la queratina de la seda o fibrona.
Estructura Terciaria: La estructura terciaria informa sobre la disposicin de

la estructura secundaria de un polipptido al plegarse sobre s misma
originando una conformacin globular.
En definitiva, es la estructura primaria la que determina cul ser la secundaria y

por tanto la terciaria.
Esta conformacin globular facilita la solubilidad en agua y as realizar funciones

de transporte, enzimticas, hormonales, etc.
Esta conformacin globular se mantiene estable gracias a la existencia de enlaces

entre los radicales R de los aminocidos. Aparecen varios tipos de enlaces:
El puente disulfuro entre los radicales de aminocidos que tiene azufre.

Los puentes de hidrgeno
Los puentes elctricos
Las interacciones hifrfobas.
Estructura Cuaternaria: Esta estructura informa de la unin, mediante enlaces

dbiles (no covalentes) de varias cadenas polipeptdicas con estructura terciaria,
para formar un complejo proteico. Cada una de estas cadenas poli peptdicas
recibe el nombre de protmero.
El nmero de protmeros vara desde dos como en la hexoquinasa, cuatro como

en la hemoglobina, o muchos como la cpsida del virus de la poliomielitis, que
consta de 60 unidades proteicas.
Clasificacin
Las protenas poseen veinte aminocidos, los cuales se clasifican en:
19
Bioinformtica
Glicina, alamina, valina, leucina, isoleucina, fenil, alanina, triptfano, serina,

treonina, tirosina, prolina, hidroxiprolina, metionina, cistena, cistina, lisina,
arginina, histidina, cido asprtico y cido glutmico.
Segn su composicin
Pueden clasificarse en protenas "simples" y protenas "conjugadas".
Las "simples" o "Holo protenas" son aquellas que al hidrolizarse producen

nicamente aminocidos, mientras que las "conjugadas" o "Heteroprotenas" son
protenas que al hidrolizarse producen tambin, adems de los aminocidos, otros
componentes orgnicos o inorgnicos. La porcin no proteica de una protena
conjugada se denomina grupos prosttico". Las protenas conjugadas se
subclasifican de acuerdo con la naturaleza de sus grupos prostticos.
Figura 15. Niveles de las Protenas
20
Bioinformtica
4. NCBI Entrez
Entrez es un portal y un buscador que permite acceder a la base de datos del

National Center forBiotechnologyInformation (NCBI). NCBI es una parte de la
National Library of Medicine (NLM), as como un departamento de
NationalInstitutes of Health (NIH) del Gobierno de los Estados Unidos.
Figura 16.Portal Entrez.
Cada cono es una base fundamental y diferente. Permite encontrar:
* PubMed: rene todos los artculos cientficos de las ciencias de la vida y la

medicina.
* PubMed Central: Parte de los artculos de PubMed que estn disponibles.
* SiteSearch: Buscar en todo el sitio.
* Books: Buscar en los libros del portal.
* Nucleotide: Secuencias del ADN y ARN.
* Protein: Todas las secuencias de las protenas.
* Genome: Buscar secuencias de los genomas completos (Genoma humano).
* Structure: Tiene todas las estructuras.
* Taxonomy: Clasificacin de las especies.
21
Bioinformtica
Aqu toda la informacin biolgica es de dominio pblico. No se puede patentar la

informacin gentica.
Podemos reducir la bsqueda con ayuda de operadores Booleanos aqu se usan

en mayscula AND, OR, NOT. Podemos seguir reduciendo la bsqueda con
Limits->limits to (Lo que se hace es poner rangos de bsqueda).
Encontramos de la misma manera en los resultados la opcin de poder el formato

FASTA o ver las estructurastridimensionales. Es por ejemplo entramos la siguiente
expresin en el buscador en la opcin Protein ->(AIDS) AND NATURE [JOURNAL]
obtendramos los resultados de todas las protenas relacionadas con el SIDA
publicadas en la revista NATURE.
22
Bioinformtica
CAPITULO II SECUENCIAS DE ADN
1. Formato FASTA
El formato FASTA es el formato ms comn de secuencia de ADN, ARN y

Protenas. Es un formato de solo texto(se puede escribir oleer en un bloc de
notas). Hay unas lneas de descripcin y unas lneas donde esta nuestra
secuencia. La secuencia mxima de las lneas del formato FASTA es de 80
caracteres de longitud, es decir que cuando llegamos a 80 se empieza una nueva
lnea.
Figura 1. Formato FASTA, NBCI.
S la secuencia es de nucletidos el formato permite los siguientes smbolos:
Smbolo Significado
A Adenina
C Citosina
G Guanina
T Timina
U Uracilo
R Purina
Y Pirimidina
K GoT
N A, C, G o T
- Hueco
23
Bioinformtica
S la secuencia es de aminocidos el formato permite los siguientes smbolos:
Smbolo Significado Smbolo Significado

A Alanina P Prolina
B Asparagina Q Glutamina
C Cisteina R Arginina
D cido S Serina
Asprtico
E cido T Treonina
Glutmico
F Fenilalanina U Selenocysteina
G Glicina V Valina
H Histidina W Triptfano
I Isoleucina Y Tirosina
K Lisina Z cido Glutmico
L Leucina M Metionina
N Asparagina * Fin de la traduccin
- gap de longitud indeterminada
2. Alineamiento de Secuencias
Alinear: Comparar dos (2) secuencias. Resaltar sus similitudes y diferencias.

Cuando se analizan secuencias es comn utilizar los trminos similitud y
homologa de forma indiscriminada, pero estos dos trminos hacen referencia a
conceptos distintos.
|-SIMILITUD: Es el resultado del anlisis (observacin cuantitativa) de la estructura

primaria de dos o ms secuencias; la secuencias pueden ser cidos nucleicos o
protenas. Puesto que la similitud es obtenida de observar las secuencias no
puede ser tomada como un indicador para establecer la relacin biolgica
(descendencia) entre las secuencias, ya que el grado de similitud puede deberse a
cambios aleatorios acumulados en las secuencias a travs del tiempo.
|-HOMOLOGA: La homologa es una medida cualitativa entre las secuencias se

presenta cuando la similitud que ests tienen es atribuible a razones evolutivas y
no al azar, es decir, la homologa establece regiones entre las secuencias que se
han conservado con el tiempo.
La similitud es el resultado de una medida cuantitativa, la homologa es una

hiptesis postulada por el investigador basndose en la similitud de las secuencias
y en otros datos biolgicos que previamente conozca sobre el origen de dichas
secuencias. Es permitido establecer el porcentaje se similitud de dos o ms
secuencias, pero esto no es posible para la homologa, ya que las secuencias son
o no son homlogas.
24
Bioinformtica
Figura 1.Un alineamiento de secuencias, generada por ClustalW entre dos protenas dedos de zinc
identificadas por el nmero de acceso GenBank (Clave).
S tengo dos (2) secuencias y quiero saber cunto se parecen lo hago a travs del
Score el cual es el puntaje de nuestro alineamiento. S este score es ms alto es
decir que hay ms similitud y nuestra secuencia es ms completa.
Este puntaje se da de acuerdo a la situacin s se encuentran parejas que
coinciden se le da un puntaje positivo, pero si no se le dar un puntaje negativo.
Hay dos tipos de alineamiento:
|-Pareado: (==2)
|-Mltiple: (>2) Es ms complicado.
Para estos tipos de alineamiento encontramos dos (2) tipos de algoritmos, pero
antes debemos explicar algunas caractersticas que pueden tener como son:
|-Determinstico: Es un algoritmo dada la entrada (input) siempre tenemos una

misma salida.
|-Heurstico: No es segura la misma salida.
|-Aleatorio: Siempre da una salida distinta.
Los algoritmos para el alineamiento son Globales y Locales:
* Globales: Toman la secuencia 1 y la secuencia 2 completas las coloca en una

matriz y empieza a comparar. Este algoritmo es lento y ocupa mucha memoria,
sus ventajas es que es fcil de programar y es determinstico.
* Locales: Toma las secuencias y las divide en pedazos o partes pequeas y

despus empieza a comparar. Son Heursticos, son ms rpidos y trabaja el tipo
de alineamiento Mltiple.
En bioinformtica lo ms bsico es el alineamiento, por esto el algoritmo de

Needleman-Wunsches comnmente usado para alinear secuencias de nucletidos
o protenas a travs del alineamiento Global. El algoritmo Needleman-Wunsch se
basa en programacin dinmica; esta forma de programacin es un mtodo que
nos permite reducir el orden de complejidad de un algoritmo.
Lo siguiente es un ejemplo de cmo trabaja el algoritmo Needleman-Wunsch:

Alinear las siguientes secuencias:
25
Bioinformtica
A = GAATTCAGTTA
B = GGATCGA
Parmetros:
Coincidencias = 1
No coincidencias = 0
Huecos = 0
Inicializacin:(Tabla 1)
1 2 3 4 5 6 7
G G A T C G A
0 0 0 0 0 0 0 0
1 G 0
2 A 0
3 A 0
4 T 0
5 T 0
6 C 0
7 A 0
8 G 0
9 T 0
10 T 0
11 A 0
Tabla 1. Inicializacin.
Llenado de la Matriz: (Tabla 2)
1 2 3 4 5 6 7
G G A T C G A
0 0 0 0 0 0 0 0
1 G 0 1 1 1 1 1 1 1
2 A 0 1 1 2 2 2 2 2
3 A 0 1 1 2 2 2 2 3
4 T 0 1 1 2 3 3 3 3
5 T 0 1 1 2 3 3 3 3
6 C 0 1 1 2 3 4 4 4
7 A 0 1 1 2 3 4 4 5
8 G 0 1 2 2 3 4 5 5
9 T 0 1 2 2 3 4 5 5
10 T 0 1 2 2 3 4 5 5
11 A 0 1 2 3 3 4 5 6
Tabla 2. Llenado de la matriz.
26
Bioinformtica
Recuperacin de la solucin: (Tabla 3)

1 2 3 4 5 6 7
G G A T C G A
0 0 0 0 0 0 0 0
1 G 0 1 1 1 1 1 1 1
2 A 0 1 1 2 2 2 2 2
3 A 0 1 1 2 2 2 2 3
4 T 0 1 1 2 3 3 3 3
5 T 0 1 1 2 3 3 3 3
6 C 0 1 1 2 3 4 4 4
7 A 0 1 1 2 3 4 4 5
8 G 0 1 2 2 3 4 5 5
9 T 0 1 2 2 3 4 5 5
10 T 0 1 2 2 3 4 5 5
11 A 0 1 2 3 3 4 5 6
Tabla 3. Recuperacin de la solucin.
Alineamiento:
[x=11,y=7], [x=10,y=6], [x=9,y=6], [x=8,y=6], [x=7,y=5], [x=6,y=5], [x=5,y=4],
[x=4,y=4], [x=3,y=3], [x=2,y=3], [x=1,y=2], [x=1,y=1], [x=0,y=0]
GAATTCAGTTA
GGATCGA
3. BLAST
El algoritmo y el programa de computadora que lo implementa fueron

desarrollados por: Stephen Altschul, Warren Gish, David Lipman en el Centro
Nacional de Informacin Biotecnolgica (NCBI, por sus siglas en ingls), Webb
Millar en la Universidad estatal de Pennsylvania, y Gene Myers en la Universidad
de Arizona. Tambin es basado en el algoritmo Smith-Waterman y es local,
bastante rpido pero no garantiza el mejor resultado solo el mejor alineamiento. Es
usado para encontrar probables genes homlogos, es decir con funciones
similares. Para ejecutarse, BLAST requiere dos secuencias como entrada: una
secuencia de consulta (tambin llamada secuencia blanco) y una base de datos
de secuencias. BLAST encontrar subsecuencias en la consulta que son similares
a subsecuencias de la base de datos. En el uso tpico, la secuencia de consulta es
mucho ms pequea que el banco de datos, por ejemplo, la consulta puede ser de
mil nucletidos mientras que la base de datos es de varios miles de millones de
nucletidos. BLAST busca alineamientos de secuencias de alto puntaje entre la
secuencia de consulta y las secuencias en el banco de datos usando un enfoque
heurstico. La velocidad y la relativamente buena precisin de BLAST son la clave
de la innovacin tcnica de los programas BLAST y probablemente el porqu es la
herramienta de bsqueda ms popular en bioinformtica.
27
Bioinformtica
Figura 1.BLAST.
3.1 ETAPAS
1. Asemilladlo (Seeding): BLAST busca coincidencias exactas de una pequea

longitud fija W entre la secuencia de consulta y las secuencias de la base de
datos. Por ejemplo, dadas las secuencias AGTTAC y ACTTAG y el largo de
palabra W = 3, BLAST podra identificar la subcadena coincidente TTA que es
comn en ambas secuencias. Por defecto, W = 11 para "semillas" nucleicas.
2. Extensin: BLAST trata de extender la coincidencia en ambas direcciones,

comenzando por la semilla. El proceso de alineamiento sin huecos, extiende la
coincidencia de la semilla inicial de longitud W en cada direccin en un intento de
estimular el puntaje de alineacin. Inserciones y eliminaciones no son
consideradas durante esta etapa. Para nuestro ejemplo, el alineamiento sin
huecos entre las secuencias AGTTAC y ACTTAG centrado alrededor de la palabra
en comn TTA podra ser: Si es encontrado un alineamiento sin huecos de alto
puntaje, la base de datos de secuencias pasa a la tercera etapa.
3. Evaluacin: BLAST realiza un alineamiento con huecos entre la secuencia de

consulta y la secuencia de la base de datos usando una variacin del algoritmo de
Smith-Waterman. Entonces los alineamientos relevantes estadsticamente son
mostrados al usuario.
28
Bioinformtica
3.2 FAMILIA BLAST
Figura 2.Familia BLAST.
*BlastN: Busca una secuencia ADN/ARN en la base de datos de Nucleotidos

(ADN/ARN).
*BlastP: Busca una protena en una base de datos de protenas.
*BlastX: Busca nucletidos (ADN) en la base de datos de protenas.
*TBlastN: Busca protenas en el ADN. Traduce de la BD(Base de Datos) a

protenas. La traduccin va en un solo sentido.
3.3 Variantes De BLAST
* Gapped BLAST: Esta es una mejora al algoritmo original del BLAST.2 Tambin
se lo conoce como BLAST 2.0. Se trata de un BLAST que contempla la existencia
de pequeas inserciones o eliminaciones en las secuencias que se estn
comparando, permitiendo as alinear uno o varios nucletidos o aminocidos con
huecos vacos llamados gaps.
* PsiBLAST: Esta variante de BLAST2 es usada para buscar posibles homlogos
29
Bioinformtica
en organismos muy lejanos entre ellos, filogenticamente hablando. Est

disponible slo para secuencias de aminocidos.
PRECAUCIN: BLAST no garantiza que las secuencias que alinea sean

homlogas y mucho menos que tengan la misma funcin, simplemente provee
posibles candidatos. Se debe recordar que el programa es heurstico y por lo tanto
puede que no encuentre la solucin ptima.
30
Bioinformtica
CAPITULO III GENES
1. Cdigo Gentico
El cdigo gentico viene a ser como un diccionario que establece una equivalencia
entre las bases nitrogenadas del ARN y el leguaje de las protenas, establecido
por los aminocidos. Despus de muchos estudios (1955 Severo Ochoa y
Grumberg; 1961 M.Nirenberg y H. Mattaei) se comprob que a cada aminocido la
corresponden tres bases nitrogenadas o tripletes (61 tripletes codifican
aminocidos y tres tripletes carecen de sentido e indican terminacin de mensaje).
SEGUNDA BASE
U C A G
P UUU Phe UCU Ser UAU Tyr UGU Cys U T
UUC Phe UCC Ser UAC Tyr UGC Cys C
R U E
UUA Leu UCA Ser UAA FIN UGA FIN A
I UUG Leu UCG Ser UAG FIN UGG Trp G R

CUU Leu CCU Pro CUA His CGU Arg U
M CUC Leu CCC Pro CAC His CGC Arg C C
C
CUA Leu CCA Pro CAA Gln CGA Arg A
E E
CUG Leu CCG Pro CAG Gln CGG Arg G
R AUU Ile ACU Thr AAU Asn AGU Ser U R
AUC Ile ACC Thr AAC Asn AGC Ser C
A
A AUA Ile ACA Thr AAA Lys AGA Arg A A
AUG Met ACG Thr AAG Lys AGG Arg G
B B
GUU Val GCU Ala GAU Asp GGU Gly U
A GUC Val GCC Ala GAC Asp GGC Gy C A
G GUA Val GCA Ala GAA Glu GGA Gly A
S S
GUG al GCG Ala GAG Glu GGG Gly G
E E
Tabla 1. El cdigo gentico nos indica que aminocido corresponde a cada triplete o codn del
ARN mensajero.
1.1 Caractersticas Del Cdigo Gentico
1. El Cdigo es Organizado en Tripletes o Codones: Si cada nucletido

determinara un aminocido, solamente podramos codificar cuatro aminocidos
diferentes ya que en el ADN solamente hay cuatro nucletidos distintos. Cifra muy
inferior a los 20 aminocidos distintos que existen.
Si cada dos nucletidos codificarn un aminocido, el nmero total de

dinucletidos distintos que podramos conseguir con los cuatro nucletidos
diferentes (A, G, T y C) seran variaciones con repeticin de cuatro elementos
31
Bioinformtica
tomados de dos en dos VR4,2 = 42 = 16. Por tanto, tendramos solamente 16

dinucletidos diferentes, cifra inferior al nmero de aminocidos distintos que
existen (20). Si cada grupo de tres nucletidos determina un aminocido.
Teniendo en cuenta que existen cuatro nucletidos diferentes (A, G, T y C), el
nmero de grupos de tres nucletidos distintos que se pueden obtener son
variaciones con repeticin de cuatro elementos (los cuatro nucletidos) tomados
de tres en tres: VR4,3 = 43 = 64. Por consiguiente, existe un total de 64 tripletes
diferentes, cifra ms que suficiente para codificar los 20 aminocidos distintos.
2. El Cdigo Gentico es Degenerado: Como hemos dicho anteriormente existen

64 tripletes distintos y 20 aminocidos diferentes, de manera que un aminocido
puede venir codificado por ms de un codn. Este tipo de cdigo se denomina
degenerado. Wittmann (1962) induciendo sustituciones de bases por diseminacin
con nitritos, realiz sustituciones de C por U y de A por G en el ARN del virus del
mosaico del tabaco (TMV), demostrando que la serina y la isoleucina estaban
determinadas por ms de un triplete. Las molculas encargadas de transportar los
aminocidos hasta el ribosoma y de reconocer los codones del ARN mensajero
durante el proceso de traduccin son los ARN transferentes (ARN-t). Los ARN-t
tienen una estructura en forma de hoja de trbol con varios sitios funcionales:
*Extremo 3': lugar de unin al aminocido (contiene siempre la secuencia ACC).

*Lazo dihidrouracilo (DHU): lugar de unin a la aminoacil ARN-t sintetasa o
enzimas encargadas de unir una aminocido a su correspondiente ARN-t.
*Lazo de T C: lugar de enlace al ribosoma.
*Lazo del anti codn: lugar de reconocimiento de los codones del mensajero.
Normalmente el ARN-t adopta una estructura de hoja de trbol plegada en forma

de L o forma de boomerang.
Estructura ARN transferente Estructura ARN transferente Estructura ARN transferente
32
Bioinformtica
3. El Cdigo Gentico es No Solapado o Sin Superposiciones: Un nucletido

solamente forma parte de un triplete y, por consiguiente, no forma parte de varios
tripletes, lo que indica que el cdigo gentico no presenta superposiciones. Por
tanto, el cdigo es no solapado. Wittmann (1962) induciendo mutaciones con
cido nitroso en el ARN del virus del mosaico del tabaco (TMV) pudo demostrar
que las mutaciones habitualmente producan un cambio en un solo aminocido. El
cido nitroso produce diseminaciones que provocan sustituciones de bases, si el
cdigo fuera solapado y un nucletido formar parte de dos o tres tripletes, la
sustitucin de un nucletido dara lugar a dos o tres aminocidos alterados en la
protena de la cpside del TMV.
Diferencias entre un cdigo solapado y uno Cdigo solapado: restricciones en la

no solapado secuencia de aminocidos
4. La Lectura del Cdigo Gentico es "Sin Comas": Teniendo en cuenta que la

lectura se hace de tres en tres bases, a partir de un punto de inicio la lectura se
lleva a cabo sin interrupciones o espacios vacos, es decir, la lectura es seguida
"sin comas". De manera, que si aadimos un nucletido (adicin) a la secuencia, a
partir de ese punto se altera el cuadro de lectura y se modifican todos los
aminocidos. Lo mismo sucede si se pierde (delecin) un nucletido de la
secuencia. A partir del nucletido delecionado se altera el cuadro de lectura y
cambian todos los aminocidos. Si la adicin o la delecines de tres nucletidos o
mltiplo de tres, se aade un aminocido o ms de uno a la secuencia que sigue
siendo la misma a partir de la ltima adicin o delecin. Una adicin y una
delecin sucesivas vuelven a restaurar el cuadro de lectura.
La lectura se puede hacer de dos formas:

*SMIR: Empezando desde la primera cadena.
*(C): Empezando desde la ltima cadena.
33
Bioinformtica
5. El Cdigo Gentico es Universal: El desciframiento del cdigo gentico se ha

realizado fundamentalmente en la bacteria E. coli, por tanto, cabe preguntarse si el
cdigo gentico de esta bacteria es igual que el de otros organismos tanto
procariticos como eucariticos. Los experimentos realizados hasta la fecha
indican que el cdigo gentico nuclear es universal, de manera que un
determinado triplete o codn lleva informacin para el mismo aminocido en
diferentes especies. Hoy da existen muchos experimentos que demuestran la
universalidad del cdigo nuclear, algunos de estos experimentos son:
* Utilizacin de ARN mensajeros en diferentes sistemas acelulares. Por

ejemplo ARN mensajero y ribosomas de reticulocitos de conejo con ARN
transferentes de E. coli. En este sistema se sintetiza un poli pptido igual o muy
semejante a la hemoglobina de conejo.
* Las tcnicas de ingeniera gentica que permiten introducir ADN de un

organismo en otro de manera que el organismo receptor sintetiza las protenas del
organismo donante del ADN. Por ejemplo, la sntesis de protenas humanas en la
bacteria E. coli.
1.2 Splicing
En el caso de los organismos Eucariotas el ADN no se transcribe completamente

sino solo por partes; Las secciones que no se transcriben se llaman Intrnes, los
cuales son regiones del ADN que debe ser eliminada del transcrito primario de
ARN, y las secciones que se trascriben se llaman Exones, los cuales son regiones
que codifican para una determinada protena.
El resultado de la trascripcin de los Exones es una cadena de ARNm (ARN

Mensajero) a la que se le puede realizar Transcripcin Inversa, dando lugar a una
cadena de cADN (ADN Complementario). Este cADN solo se puede hacer en el
Laboratorio o por un retrovirus, y se utiliza para leer el ADN que finalmente se va a
utilizar en el ADNm y posteriormente en la Protena.
El proceso anteriormente descrito se puede observar en el siguiente grfico:
34
Bioinformtica
Grfico 1.Proceso Splicing.
2. Open Reading Frames (ORF)
2.1 Marco Abierto de Lectura
Es una secuencia de informacin gentica que contiene datos que pueden ser
utilizados para codificar aminocidos; Los marcos de lectura se encuentran en el
ADN y ARN. En el caso de ADN, el ADN contiene conjuntos de nucletidos
conocida como tripletes o codones. Cada codn puede ser transcrito por el ARN
en otro triplete.
El marco de lectura es la seccin de ADN o ARN que contiene instrucciones para

hacer una protena completa. En el ADN, hay seis marcos de lectura posibles, ya
que el inicio de un marco de lectura depende de donde uno empieza a leer, y el
ADN es de doble cadena. Con el ARN, existen tres posibles marcos de lectura.
Una seccin de lectura comienza con un codn de inicio (AUG) y uno de parada
(UAA, UAG o UGA). Un marco abierto de lectura puede contener un gen completo,
o los genes que se solapan; el cdigo gentico no siempre es tan ordenada como
uno podra imaginar. De hecho, el cdigo gentico contiene mucho de lo que se
conoce como el ADN no codificante, es decir, que el ADN no parece cumplir una
funcin en trminos de la expresin gnica. No codificante del ADN puede
contener informacin interesante acerca de la herencia gentica de una especie, y
puede utilizarse para otras funciones.
Existen 6 sentidos en los que se puede aparecer un marco de lectura: +1, +2, +3, -
1, -2, -3.
35
Bioinformtica
Si una secuencia se empieza a leer desde el 1er carcter, entonces el marco de

lectura es +1; si se empieza desde la 2da, entonces el marco de lectura es +2; Y si
se comienza desde la 3era, entonces el marco de lectura es +3.
Para la secuencia complementaria, si se empieza a leer desde el 1er carcter,

entonces el marco de lectura es -1; si se empieza desde la 2da, entonces el marco
de lectura es -2; Y si se comienza desde la 3era, entonces el marco de lectura es -
3.
Grfico 2. Marco de Lectura.
Para complementar se puede concluir que el Marco abierto de lectura es una

porcin de una molcula de ADN que cuando se traduce a los aminocidos, no
contiene codones de terminacin. El cdigo gentico lee secuencias de ADN en
grupos de tres pares de bases, esto significa que, en una molcula de ADN de
doble hebra, hay 6 posibles sentidos en los que pueden abrirse marcos de lectura
-tres en direccin hacia adelante y tres en reverso. Un marco abierto de lectura
larga es probable que sea parte de un gen.
2.2 ORF Finder (Open Reading Frame Finder) - NCBI
ORF Finder busca marcos abiertos de lectura (ORF) en la secuencia de ADN que
Ud. introduzca. El programa devuelve el rango de cada ORF, junto con la
traduccin de la protena correspondiente. ORF Finder soporta el alfabeto IUPAC
y varios cdigos genticos. Utilice ORF Finder para buscar posibles segmentos de
codificacin de protenas en nuevas secuencias de ADN.
36
Bioinformtica
Interfaz:
Grfico 3. Interfaz ORF Finder.
Como usar este Buscador:
1. Tomamos una secuencia en Formato FASTA que introduciremos en el cuadro

correspondiente y as encontrar su marco de lectura, cdigos genticos.
Grfico 4. Bsqueda con ORF Finder - Ingreso formato FASTA para empezar.
37
Bioinformtica
2. Debemos colocar en el men de geneticcodes la opcin estndar [
] luego hacemos clic en el botn y obtenemos

la siguiente imagen:
Grfico 5. Bsqueda con ORF Finder - Resultado encontrado del formato FASTA insertado.
Grfico 6. Bsqueda con ORF Finder - Splicing en el bloque.
3. Luego de esto daremos clic en BLAST, en esta secuencia no mostrara ningn

resultado por lo corta as que hicimos lo mismo con una secuencia larga
38
Bioinformtica
(Secuencia de la Salmonella) en su bloque ms grande que escogimos nos da el

resultado con BLAST y veremos en el siguiente grfico el resultado.
Grfico 7. Bsqueda en BLAST
3. Modelos Estocsticos
* Estocstico: Utiliza probabilidad. un proceso estocstico es un concepto

matemtico que sirve para caracterizar una sucesin de variables aleatorias
(estocsticas) que evolucionan en funcin de otra variable, generalmente el
tiempo. Cada una de las variables aleatorias del proceso tiene su propia funcin
de distribucin de probabilidad y, entre ellas, pueden estar correlacionadas o no.
3.1 Modelo Oculto de Markov
Un mtodo de previsin muy fiable sera aquel que analizase la evolucin de

distintos desarrollos teniendo en cuenta las interrelaciones entre dichos
desarrollos e introdujese la variable tiempo.
39
Bioinformtica
A partir de un estudio del tipo Delphi, se obtienen como conclusiones las

probabilidades y las fechas estimadas de ocurrencia de los eventos del
cuestionario. Sin embargo, no se consideran las interrelaciones entre los distintos
desarrollos.
El modelo de Markov va a caracterizar el desarrollo secuencial tecnolgico

mediante dos parmetros probabilsticos: la secuencia de los desarrollos y el
tiempo entre desarrollos sucesivos. Estos dos parmetros se pueden representar
con los conceptos transicin de estados y tiempo de permanencia en el estado.
Se dice que un proceso es de Markov cuando verifica la propiedad de Markov: la

evolucin del proceso depende del estado actual y del prximo, y no de anteriores
o posteriores.
A partir de un Delphi clsico se pueden extraer los parmetros caractersticos del

modelo de Markov. Con estos parmetros se puede hacer un anlisis de los
procesos de Markov por ordenador, estudiando el proceso secuencial en el tiempo
y hallando la distribucin de probabilidades en el tiempo de los desarrollos.
Como consecuencia se obtienen un conjunto de cadenas, denominadas cadenas

de Markov, que indican posibles caminos para conseguir un desarrollo
tecnolgico. Usando este tipo de cadenas, se puede realizar una previsin del
futuro en la que se analiza la evolucin de distintos desarrollos, teniendo en
cuenta las interacciones entre desarrollos e introduciendo la variable tiempo.
OBJETIVO-> Determinar los parmetros desconocidos (ocultos) a partir de

parmetros observables.
Grfico 1. Modelo Oculto de Markov.
40
Bioinformtica
* En el modelo de Markov normal los estados son visibles. (a son los nicos
parmetros)
* En el HMM el estado no es visible ms s las variables influidas por el estado.
* Cada estado tiene una distribucin de probabilidad sobre los posibles
smbolos de salida.
* Se utiliza para analizar la composicin de secuencias, para localizar genes
prediciendo ORF y para producir predicciones de estructuras secundarias de
protenas.
En los trminos de un tpico modelo oculto de Markov:
Estados observables -> columnas individuales del alineamiento
Grfico 2. Modelo Oculto de Markov. Estados Observables.
Estados ocultos -> la supuesta secuencia ancestral desde la cual las secuencias
del conjunto problema se presume han descendido.
El xito de un HMM (HiddenMarkovModels) depende de tener un buen modelo a

priori.
El HMM comienza con un alineamiento al azar -> construye un modelo -> mejora
las probabilidades en base a un entrenamiento iterativo -> se detiene cuando los
alineamientos no cambian.
41
Bioinformtica
Grfico 3. Algoritmos asociados a HMM (HiddenMarkovModels).
El modelo de Markov posee ventajas y desventajas entre las cuales podemos

observar:
Ventajas:
* Usualmente un HHM arroja un MSA bueno.

*Es un mtodo fundamentado por la teora de la probabilidad
*No se requiere de un orden en las secuencias
*Las penalidades de insercin y delecin no son necesarias.
*Se puede utilizar informacin experimental
Desventajas:
*Se necesitan al menos 20 secuencias (si no ms) para poder acomodar la

historia evolutiva.
*Para construir un modelo se debe tener una base de datos de genes
antes.
4. GENSCAN
GENSCAN fue desarrollado por Chris Burge en el grupo de investigacin de

Samuel Karlin, Departamento de Matemticas de la Universidad de Stanford. El
programa y el modelo que subyace en ella se describen en: Burge, C. y Karlin, S.
(1997) Prediccin de la estructura de los genes completos en ADN genmico
humano. J. Mol. Biol. 268, 78-94.
Los modelos del sitio de empalme se describen en ms detalle en:
42
Bioinformtica
Burge, CB (1998) las dependencias de modelado de seales de empalme pre-

ARNm. En Salzberg, S., Searls, D. y Kasif, S., eds. Mtodos Computacionales en
Biologa Molecular ,ElsevierScience, Amsterdam, pp 127-163.
Interfaz
Grfico 1. GENSCAN.
Lo primero que hacemos es buscar en entrez una secuencia del ser humano para
que pueda ser analizada por Genscan.
Grfico 2. Colocar una secuencia en GENSCAN.
43
Bioinformtica
Luego podremos observar los resultados, los cuales analizaremos.
44
Bioinformtica
CAPITULO IV ALINEAMIENTO DE SECUENCIAS Y

PROTENAS
1. Alineamiento de Secuencias
1.1 Alineamiento mltiple de Secuencias
Un mtodo de alineamiento mltiple verdadero, alinea todas las secuencias al

mismo tiempo.
Pero no existe un mtodo computacional que pueda realizar esto en tiempo

razonable para ms de 3 secuencias cortas.
Grfico 1. Alineamiento mltiple de secuencias.
Por qu alinear simultneamente varias secuencias?
Un ejemplo claro de este caso sera comparar protenas muy conservadas

evolutivamente que cumplen igual funcin en distintos organismos, de esta forma
se podran confeccionar rboles evolutivos.
Un caso muy estudiado en mamferos es la insulina, la cual est muy conservada

en distintas especies.
Los cambios acumulados en una secuencia biolgica se producen a una tasa

relativamente constante e independiente de parmetros poblacionales
El alineamiento de mltiples secuencias es muy utilizado en la bsqueda de que

varias especies estn emparentadas por un ancestro comn.
45
Bioinformtica
Grfico 2. Alineamiento mltiple de secuencias.
Encontramos tres (3) formas de acercarse al alineamiento:
1. Mtodo Global: Confronta una secuencia con otra completa. Los primeros
programas que se desarrollaron para el alineamiento de secuencias fueron
diseados para tratar de crear alineamientos globales, es decir para detectar
similaridades utilizando las protenas enteras. Un alineamiento que se extiende a
lo largo de toda la longitud de las secuencias utilizadas se denomina alineamiento
GLOBAL, como en los ejemplos que acabamos de ver anteriormente. Este tipo de
alineamientos son buenos para protenas globulares (que carecen de dominios
definidos) y en el caso de que las dos secuencias sean muy parecidas a lo largo
de toda su longitud (secuencias que han divergido poco a lo largo de la evolucin).
Sin embargo, existen numerosas protenas "modulares", entendiendo por tal el
hecho de que en su secuencia es posible identificar varios dominios diferentes. En
estas protenas, los diferentes mdulos pueden repetirse una o ms veces, o
aparecer en distinto orden en cada una de las protenas, por lo que si realizamos
un alineamiento global entre ambas, ser imposible que el programa pueda
detectar la homologa entre mdulos que ocupan diferente posicin en las dos
secuencias. Para obtener buenos alineamientos en estos casos es necesario
utilizar mtodos de alineamiento local, que en esencia consisten en programas
que buscan regiones entre las dos protenas que son parecidas, aunque estas
regiones se hallen rodeadas de zonas completamente diferentes.
2. Programacin Dinmica: La tcnica de programacin dinmica es tericamente

aplicable a cualquier nmero de secuencias; sin embargo, y puesto que es
computacionalmente costosa tanto en tiempo como en memoria, raramente se usa
en su forma ms bsica para ms de tres o cuatro secuencias. Este mtodo
requiere la construccin de un equivalente n-dimensional a la matriz formada por
dos secuencias, donde n es el nmero de secuencias problema.
46
Bioinformtica
La PD constituye una tcnica muy general de programacin. Se suele aplicar

cuando existe un espacio de bsqueda muy grande y ste puede ser estructurado
en una serie o sucesin de estados tales que:
1. el estado inicial contiene soluciones triviales de subproblemas

2. cada solucin parcial de estados posteriores puede ser calculada por
iteracin sobre un nmero fijo de soluciones parciales de los estados anteriores
3. el estado final contiene la solucin final Un algoritmo de PD consta de 3
fases:
a. fase de inicializacin y definicin recurrente del score ptimo
b. relleno de la matriz de PD para guardar los scores de subproblemas
resueltos en cada iter. Se comienza por resolver el subproblemas pequeo
c. un rastreo reverso de la matriz para recuperar la estructura de la solucin
ptima
3. rbol Filogentico: La filogenia y el alineamiento de secuencias son campos

ntimamente relacionados debido a su necesidad compartida de evaluar el
parentesco entre secuencias. La filogenia hace un uso extensivo de los
alineamientos de secuencias en la construccin e interpretacin de rboles
filogenticos, que se usan para clasificar las relaciones evolutivas entre genes
homlogos representados en el genoma de especies divergentes.
En los siguientes grficos podemos ver como se realiza la alineacin de

secuencias con las dos ms cercanas y la siguiente:
Grfico 2. Alineamiento de dos secuencias cercanas.
47
Bioinformtica
Grfico 3. Alineamiento de dos secuencias cercanas.
Grfico 4. Alineamiento de la secuencia siguiente.
48
Bioinformtica
1.2 rbol Filogentico
Grfico 5. rbol Filogentico.
Todos los seres vivos comparten su origen: todos provienen del reino mneras.
Este reino abarca los seres unicelulares procariotas, que carecen de ncleo
celular. Son las arqueo bacterias y las eubacterias.
De los mneras surgieron los protoctistas. Este reino rene seres eucariotas
unicelulares hetertrofos y con digestin interna (protozoos), y eucariotas
unicelulares o pluricelulares sin tejidos, auttrofos fotosintticos (algas).
El reino de los hongos comprende seres eucariotas, unicelulares o pluricelulares,
sin tejidos, hetertrofos y con digestin externa. Las metfitas o plantas son
eucariotas pluricelulares con tejidos y nutricin auttrofa.
El reino metazoos o animal rene los eucariotas pluricelulares con tejidos y

nutricin hetertrofa, con digestin interna.
Nuevas tendencias en la clasificacin
Estudiando los cidos nucleicos, especialmente el ARN ribosmico, se ha

comprobado que se pueden clasificar los seres vivos en solo tres grandes grupos
o dominios. Esta tcnica se denomina filogenia molecular y tiene una gran utilidad
para establecer las relaciones de parentesco entre taxones de seres vivos,
basndose en la similitud gentica existente entre stos.
49
Bioinformtica
Los tres dominios propuestos por Carl Woese (1990) son: Archaea, que rene a
las arqueo bacterias; Bacteria, que comprende a las eubacterias; y Eucarya, que
incluye a todos los seres eucariotas.
En 1998, Cavalier-Smith propuso un nuevo sistema de clasificacin con dos

suprareinos (Prokariota y Eukaryota) y seis reinos: Bacterias, Protozoos,
Chromistas, Hongos, Plantas y Animales.
Las Hojas son diferentes y representan una secuencia que tendr un puntaje.
Los rboles filogenticos son una representacin grfica de las similitudes y

diferencias entre unas secuencias determinadas . Habitualmente, las secuencias
de los genes y las protenas son ms parecidas entre organismos ms cercanos
evolutivamente. Los organismos que hace ms tiempo que se separaron en la
evolucin suelen tener ms diferencias en las secuencias de sus respectivos
genes, y, por lo tanto, cuando se realiza un rbol filogentico, aparecen ms
alejados entre s
2. ClustalWJalview
2.1 Clustal
CLUSTAL es un programa que permite hacer alineamientos globales de protenas

y cidos nucleicos y que adems tiene un algoritmo heurstico progresivo,
bastante rpido, para calcular alineamientos mltiples. En combinacin con
herramientas como BLAST, CLUSTAL es muy til para definir familias de
protenas y de cidos nucleicos.
Al igual que BLAST, tambin hay servidores web para correr CLUSTALW sin
necesidad de instalar software, pero asimismo tiene ventajas instalarlo localmente,
sobre todo para correr trabajos de alineamiento mltiple a gran escala y tener todo
el proceso bajo control.
Podemos ver ahora como trabajar en clustal:
50
Bioinformtica
Grfico 1. Interfaz Clustal.
Grfico 2.Insertar Secuencia Clustal.
51
Bioinformtica
Grfico 3. Envo y espera del alineamiento.
Grfico 4. Resultado Clustal.
52
Bioinformtica
2.2 Jalview
JalView es un editor de alineamiento mltiple por escrito en Java. Se utiliza

ampliamente en una variedad de pginas web (por ejemplo, el servidor de EBI
Clustalw y la base de datos de protenas Pfam dominio), pero est disponible
como un editor de propsito general, la alineacin y banco de trabajo de anlisis.
Se usa JalView para:
* Ver
Lee y escribe en las alineaciones en una variedad de formatos (Fasta, PFAM,
MSF, Clustal, BLC, PIR).
Guarda las alineaciones y los rboles asociados en JalView formato XML.
* Editar
Las lagunas se pueden insertar / borrar con el ratn o el teclado.
Instrucciones simples.
Grupo de edicin (supresin de insercin de las lagunas en los grupos de
secuencias).La eliminacin de las columnas con huecos.
* Anlisis
Alinear las secuencias utilizando Servicios Web ( Clustal , muscular ...)
Aminocidos anlisis de conservacin similar a la de AMAS.
Las opciones de alineacin de clasificacin (por su nombre, para los rboles, el
porcentaje de identidad, grupo).
rboles UPGMA y NJ calculado y elaborado a partir de distancias por ciento de
identidad.
Clsteres de secuencia mediante el anlisis de componentes principales.
La eliminacin de las secuencias redundantes.
Smith Waterman pares de alineacin de las secuencias seleccionadas.
* Anotar
Uso de la Web basada en los programas de prediccin de estructura secundaria
( JNET ).
Usuario predefinidos o personalizados esquemas de color a las alineaciones de
color o de grupos.
Secuencia de recuperacin de funcin y se muestran en la alineacin.
* Publicar
Imprimir su alineacin con los colores y anotaciones.
Crear pginas HTML.
Salida de alineacin de imagen Portable Network Graphics (PNG).
Salida de la alineacin como un archivo PostScript encapsulado (EPS).
Podemos ingresar a la pgina original de Jalview descargarlo y conocer todas sus

opciones, caractersticas para poder trabajar con l.
53
Bioinformtica
Grfico 5. Jalview.
En la pgina de Jalview podemos encontrar simuladores de alineamientos

podemos ver en la siguiente grfica un ejemplo de este:
Grfico 6. Applet en la pgina de Jalview.
54
Bioinformtica
3. Protenas y Protemica
3.1 Protenas
Es una macromolcula -> Cadena muy larga de aminocidos. Los tipos

principales de macromolculas son las protenas, formadas por cadenas lineales
de aminocidos; los cidos nucleicos, DNA y RNA, formados por bases
nucleotdicas (purinas y pirimidinas), los polisacridos, formados por subunidades
de azcares y los lpidos formados por glicerol, cidos grasos o colesterol. Los
aminocidos de las protenas estn unidos por enlaces peptdicos, los
carbohidratos de los polisacridos por enlaces glucosdicos o peptdicos y los
lpidos y cidos nucleicos por enlaces ster.
Nuestro cuerpo posee 500.000 protenas.
El estudio de las protenas permite estudiar:
* Su Estructura: Es la manera como se organiza una protena para adquirir

cierta forma. Se puede estudiar su forma:
3D: Se realiza Experimentalmente (Rayos X, etc.) o
Matemticamente.
Dominios Funcionales: Subsecuencia que desarrolla una funcin
especfica.
Grfico 1. Protena Hemoglobina con Estructura Cuaternaria.
* Su Funcin: Especficamente es lo hace la protena.
55
Bioinformtica
Los bilogos se enfatizan en el estudio de la funcin de las protenas.
En las protenas podemos encontrar que:
* Su Estructura: Puede ser Primaria, Terciaria, Cuaternaria.
* Su Forma: Podran ser Globulares, Fibrosas, Mixtas.
* Su Funcin: Puede variar ente ser de transporte, estructural, proteccin,

sealizacin entre otras.
3.2 Protema
Es el conjunto de todas las protenas producidas por una clula en un instante de

tiempo. El trmino proteoma se utiliz por primera vez en 1995 y ha sido aplicado
a diferentes escalas en los sistemas biolgicos. El proteoma celular es la totalidad
de protenas expresadas en una clula particular bajo condiciones de
medioambiente y etapa de desarrollo, (o ciclo celular) especficas, como lo puede
ser la exposicin a estimulacin hormonal. Tambin se puede hablar del proteoma
completo de un organismo que puede ser conceptualizado como las protenas de
todas las variedades de proteomas celulares. Es aproximadamente, el equivalente
protenico del genoma.
El Proteoma es un elemento altamente dinmico, cuyos componentes varan en

un organismo, tejido, clula o compartimento subcelular, como consecuencia de
cambios en su entorno, situaciones de estrs, administracin de drogas, seales
bioqumicas o su estado fisiolgico o patolgico.
Estrategias empleadas en los estudios de proteomas
La estrategia de eleccin ms utilizada actualmente para el estudio de proteomas,

que ha demostrado ser eficiente, es la combinacin de electroforesis en gel de
poliacrilamida bidimensional con espectrometra de masa (Grfico 2). La
electroforesis permite la separacin de protenas de un dado sistema biolgico con
alta resolucin y reproductibilidad, mientras que la espectrometra de masa
permite, a travs de alta demanda y sensibilidad, la identificacin de protenas
presentes en un spot de gel.
56
Bioinformtica
Grfico 2. Estrategia para el estudio de Proteomas (Electroforesis).
3.3 Protemica
Ciencia que estudia el Proteoma. estudios que se han realizado tradicionalmente

mediante la tcnica de electroforsis en gel de dos dimensiones. En la primera
dimensin las protenas se separan por isoelectroenfoque, que separa las
protenas con base en su carga elctrica. En la segunda dimensin, las protenas
se separan por peso molecular utilizando SDS-PAGE.
57
Bioinformtica
Grfico 3. Esquema en el que se puede observar el proceso seguido para la identificacin y

cuantificacin diferencial masiva de protenas.
La Protemica engloba un conjunto de metodologas orientadas al estudio

sistemtico de las protenas, que son los componentes primordiales que regulan la
maquinaria biolgica. Los cambios experimentados por las clulas de un tejido,
por la accin de factores naturales, drogas o frmacos o a causa de alguna
patologa, son consecuencia de cambios, ms o menos sutiles, en la pauta de
protenas que producen las clulas en ese momento. El anlisis de estos cambios
est siendo cada vez ms utilizado en la moderna biomedicina con fines
diagnsticos y de pronstico (biomarcadores), para el tratamiento individualizado
de pacientes o para el estudio de mecanismos moleculares en el campo de la
investigacin bsica.
Si bien estos cambios pueden analizarse de forma indirecta mediante tcnicas

genmicas (chips de microarrays de DNA), los resultados no siempre reflejan el
grado real de expresin de las protenas. El estudio directo de estas ltimas
produce datos mucho ms fiables desde el punto de vista biomdico; sin embargo
su anlisis a escala global es considerablemente ms complejo y presenta
muchas dificultades tecnolgicas.
Las estrategias ms recientes extraen las protenas de las clulas o tejidos y las
cortan en fragmentos ms pequeos, o pptidos, que son analizados por
espectrometra de masas. Los espectros de masas obtenidos son procesados
mediante complejos algoritmos matemticos que permiten la identificacin y
58
Bioinformtica
cuantificacin de las protenas presentes en las muestras. Basndose en un

modelo matemtico de este proceso, los investigadores del CBMSO han
elaborado un mtodo que permite la identificacin de las protenas de forma
mucho ms robusta y eficiente. El mtodo permite la automatizacin absoluta del
proceso de identificacin de protenas con una tasa mxima de error que puede
ser establecida a priori, obtenindose as resultados completamente fiables.
En otro trabajo (Molecular &CellularProteomics 6, 1274-1286 (2007)), los

investigadores del mismo grupo han desarrollado un mtodo para detectar
especficamente cambios de expresin en protenas entre dos muestras
diferentes. El mtodo utiliza un proceso de marcaje isotpico enzimtico y un
complejo algoritmo matemtico que permite la cuantificacin relativa de las
protenas a partir de los espectros de masas.
Conjuntamente, las dos tcnicas permiten la identificacin y cuantificacin de

miles de protenas de forma rpida y eficiente y son aplicables al estudio de
cualquier modelo biolgico. Estas nuevas tcnicas estn siendo utilizadas por el
equipo que las ha desarrollado en proyectos de relevancia biomdica tales como
la identificacin de nuevos ligandos de las clulas T del sistema inmune, el estudio
del mecanismo molecular de la angiognesis (crecimiento de nuevos vasos
sanguneos en tumores), o el anlisis de los mecanismos de proteccin del
miocardio contra episodios de isquemia.
4. Anlisis Comparativo de Protenas
Significa tomar una protena compararla con otras protenas conocidas para ver
fundamentalmente su funcin.
La protenas al estudiar su estructura se pueden dividir por Familias esta

clasificacin es jerrquica.
Superfamilias, familias y subfamilias
Una superfamilia es un conjunto de protenas con un origen evolutivo comn, un

conjunto de homlogos. Las superfamilias se pueden dividir, ms o menos
arbitrariamente, segn lo grandes que sean, en familias y subfamilias. Son
conceptos paralelos a los de ortlogos y parlogos: las protenas de una misma
subfamilia son ortlogas entre s (tambin puede haber in-paralogs), mientras que
son parlogas de las de otras subfamilia que pertenezca a la misma superfamilia.
El inters de analizar la organizacin en familias de las protenas
El objetivo ms frecuente cuando estudiamos una protena es llegar a conocer su

funcin y averiguar cmo se las apaa para llevarla a cabo. Como hemos visto,
conocer cules son sus homlogos nos puede ayudar, pero tambin es importante
conocer cules pertenecen a su misma familia o subfamilia, de modo que, por
59
Bioinformtica
ejemplo, podamos encontrar una correlacin entre la conservacin de

determinados residuos en la subfamilia y caractersticas funcionales especficas
de sta. O por ejemplo, una correlacin entre la organizacin de dominios y las
distintas funciones.
Grfico 1. Alineamiento de protenas de unin a ATP. Algunos residuos estn conservados en

todas las familias mientras que otros varan mucho.
Y otros presentan un patrn de conservacin dependiente de cada familia.

En la superfamilia hay: chaperones (dnak), protenas implicadas en la formacin
del septo bacteriano (ftsA, mreB), hexokinasas (hxk), actina (act)....
La forma ms frecuente de determinas qu familias y subfamilias hay es

construyendo un rbol filogentico. El problema de los rboles es que uno tiene
que buscar los homlogos, alinearlos, construir el rbol... y, adems de que esto
puede llevar bastante tiempo, a veces los rboles resultantes no son buenos,
especialmente si hay protenas demasiado divergentes o si hay dominios no
homlogos en las protenas que intentamos alinear. Adems, si queremos
comparar dos genomas y ver qu funciones tiene uno y cules el otro (quizs
intentndolo correlacionarlo con caractersticas fenotpicas de los organismos)
debemos conocer las relaciones de ortologa. Y esto no podemos hacerlo
60
Bioinformtica
manualmente construyendo rboles para tantos genes. Por eso (entre otras
razones) existen numerosas bases de datos y mtodos para estudiar la
organizacin de las familias de protenas.
Las distintas bases de datos y los distintos mtodos afrontan el problema de forma
diferente, persiguiendo diversos objetivos. Unas aproximaciones tratan de
encontrar grupos de ortlogos. Otras aproximaciones, grupos de homlogos, etc.
5. PROSITE, PRINTS, Pfam, InterPro
5.1 PROSITE
PROSITE es una base de datos de familias y dominios de protenas creada por

Amos Bairoch en 1988.Consiste en entradas que describen dominios, familias y
sitios funcionales as como patrones de aminocidos. Estos son manualmente
verificados por un equipo del Instituto Suizo de Bioinformtica e integrado con la
base de datos de Swiss-Prot.
Sus usos incluyen la identificacin de posibles funciones de las protenas

recientemente descubiertas y el anlisis de aquellas ya conocidas pero con
actividades previamente desconocidas. PROSITE ofrece herramientas para el
anlisis de secuencias de protenas y deteccin de motivos de protenas; es parte
de los servidores de anlisis de protemica de ExPASy.
La base de datos ProRule se basa en las descripciones de dominio de PROSITE.

Esta proporciona informacin adicional acerca de funcionalidades o de
aminocidos estructuralmente crticos. Las reglas contienen informacin sobre los
residuos biolgicamente significativos, como sitios activos, sitios de unin a
sustrato o cofactores, modificaciones postraduccionales o enlaces disulfuro, para
ayudar a determinar la funcin. Estas pueden automticamente generar
anotaciones basados en los motivos de PROSITE.
En PROSITE existe un patrn para describir la superfamilia de las protenas que

unen ATP/GTP, que es enorme. En Pfam, sin embargo, existen diversos dominios
para las distintas familias que unen ATP/GTP: la familia ras, la familia de factores
de elongacin de la traduccin, etc.
Veamos cmo funciona Prosite:
Cogeremos una secuencia de una protena prueba en este caso ser de Miosina
de Arabidopsisthaliana. Entonces lo primero que haremos es seleccionarla si ya la
hemos buscado, en nuestro caso la tomaremos de la plataforma moodle:
61
Bioinformtica
Grfico 1.Seleccin y copia de la secuencia de la protena prueba (Miosina de

Arabidopsisthaliana).
Grfico 2.Copia de la secuencia de la protena prueba (Miosina de Arabidopsisthaliana).
62
Bioinformtica
Grfico 3. Espera de resultados en PROSITE.
Grfico 4. Resultados en PROSITE.
5.2 PRINTS
Es una coleccin de las llamadas "FingerPrints ": proporciona tanto un recurso de

anotacin detallada de las familias de protenas , y una herramienta de diagnstico
para recin determinar las secuencias. Una huella digital es un grupo de
conservacin motivos tomados de un alineamiento de secuencias mltiples - en
conjunto, los motivos forman una firma caracterstica de la familia de protenas
alineadas. Los mismos motivos que no son necesariamente contiguos en la
63
Bioinformtica
secuencia, pero pueden agruparse en un espacio 3D para definir los sitios de

unin molecular o las superficies de interaccin. La fuerza especial de diagnstico
de las huellas digitales reside en su capacidad para distinguir las diferencias de
secuencia en los niveles clan, superfamilia, familia y subfamilia. Esto permite de
grano fino diagnstico funcional de las secuencias sin caracterizar, lo que permite,
por ejemplo, la discriminacin entre los miembros de la familia sobre la base de los
ligandos que se unen o las protenas con las que interactan, y oligomerizacin
destacando el potencial o los sitios alostricos.
Veamos cmo funciona PRINTS:

Cogeremos la misma secuencia de la protena prueba (Miosina de
Arabidopsisthaliana). Lo primero que haremos es seleccionarla si ya la hemos
buscado, en nuestro caso la tomaremos de la plataforma moodle:

Arabidopsisthaliana) .
64
Bioinformtica
Grfico 6. Interfaz PRINTS .
Grfico 7. Insertar secuencia en PRINTS .
65
Bioinformtica
Grfico 8. Resultado de PRINTS.
Grfico 9. Resultado de PRINTS.
66
Bioinformtica
Grfico 10. Grfica que genera PRINTS.
5.3 Pfam
La base de datos Pfam es una de las ms importantes colecciones de informacin

en el mundo para la clasificacin de las protenas. La base de datos clasifica el 75
por ciento de protenas conocidas para formar una biblioteca de familias de
protenas - una "tabla peridica" de la biologa. El recurso de acceso abierto se
estableci en el Instituto Wellcome Trust Sanger en 1998. Su visin es ofrecer una
herramienta que permite a los bilogos experimentales, computacionales y la
evolucin de clasificar las secuencias de protenas y responder a preguntas sobre
lo que hacen y cmo han evolucionado. El proyecto Pfam es dirigido por el Dr.
Alex Bateman en el Instituto Sanger.
Para cada familia en Pfam se puede:

Ver alineamientos mltiples
Revisar las arquitecturas y organizacin de los dominios proteicos
Examinar la distribucin de especies
Seguir enlaces a otras bases de datos
67
Bioinformtica
Ver estructuras proteicas conocidas
Ntese que una nica protena puede pertenecer a varias familias Pfam.
Pfam-A es la porcin de la base de datos manualmente gestionada, y contiene

alrededor de 9.000 entradas. Por cada una de ellas se almacena un alineamiento
mltiple de secuencias de protenas y un modelo oculto de Mrkov. Estos modelos
ocultos de Mrkov pueden usarse para buscar en bases de datos de secuencias
con el paquete HMMER. Puestos que estas entradas en Pfam-A no cubren todas
las protenas conocidas, se proporciona un suplemento generado
automticamente denominado Pfam-B. Pfam-B contiene un buen nmero de
familias pequeas derivadas de la base de datos PRODOM. Aunque de menor
calidad, las familias Pfam-B pueden resultar tiles cuando no se encuentran
familias Pfam-A.
La base de datos iPfam se construye sobre las descripciones de dominios de

Pfam. Investiga si diferentes protenas descritas conjuntamente en la base de
datos PDB de estructura de protenas se encuentran lo suficientemente cercanas
para interactuar potencialmente.
Veamos cmo funciona Pfam:

Arabidopsisthaliana). Entonces lo primero que haremos es seleccionar la
secuencia de la misma manera que en Prosite y PRINTS:
Grfico 11.Seleccin y copia de la secuencia de la protena prueba (Miosina de Arabidopsisthaliana) .
68
Bioinformtica
Grfico 12. Interfaz Pfam.
Grfico 13. Insertar secuencia en Pfam.
69
Bioinformtica
Grfico 14. Resultados Pfam.
Grfico 15. Resultados grficos Pfam.
70
Bioinformtica
5.4 InterPro
InterPro es una base de datos de familias, dominios y sitios funcionales de

protenas en donde las caractersticas identificables encontradas en protenas
conocidas pueden ser aplicadas a nuevas secuencias de protenas.
Fue creada en 1999 tras la formacin del InterProConsortium entre el grupo de

Swiss-Prot en el Instituto Europeo de Bioinformtica y el Instituto Suizo de
Bioinformtica y los miembros fundadores de las bases de datos Pfam, PRINTS,
PROSITE y ProDom. Actualmente integra informacin de las bases de datos
PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMs, PIRSF, SUPERFAMILY,
GENE3D y PANTHER.
La base de datos est disponible para bsquedas por texto y basadas en

secuencia a travs de un servicio web, y para descargas por FTP annimo.
Incluye varios formatos de salida como tablas de texto, documentos XML y
grficos para facilitar el anlisis de sus resultados. Al igual que las otras bases de
datos del Instituto Europeo de Bioinformtica, se encuentra en dominio pblico.
Veamos cmo funciona InterPro:

Arabidopsisthaliana). Entonces lo primero que haremos es seleccionar la
secuencia de la misma manera que en Prosite, PRINTS y Pfam:

Arabidopsisthaliana) .
71
Bioinformtica
Grfico 17. Interfaz InterPro.
Grfico 18. Insertar secuencia en InterPro.
72
Bioinformtica
Grfico 19. Espera de resultados en InterPro.
Grfico 20. Resultados de InterPro.
73
Bioinformtica
CAPITULO V BASES DE DATOS
1. Introduccin
El trmino base de datos fue acuado por primera vez en 1963, en un simposio
celebrado en California.
De forma sencilla podemos indicar que una base de datos no es ms que un

conjunto de informacin relacionada que se encuentra agrupada o estructurada.
El archivo por s mismo, no constituye una base de datos, sino ms bien la forma
en que est organizada la informacin es la que da origen a la base de datos. Las
bases de datos manuales, pueden ser difciles de gestionar y modificar. Por
ejemplo, en una gua de telfonos no es posible encontrar el nmero de un
individuo si no sabemos su apellido, aunque conozcamos su domicilio.
Del mismo modo, en un archivo de pacientes en el que la informacin est

desordenada por el nombre de los mismos, ser una tarea bastante engorrosa
encontrar todos los pacientes que viven en una zona determinada. Los problemas
expuestos anteriormente se pueden resolver creando una base de datos
informatizada.
Desde el punto de vista informtico, una base de datos es un sistema formado por
un conjunto de datos almacenados en discos que permiten el acceso directo a
ellos y un conjunto de programas que manipulan ese conjunto de datos.
Desde el punto de vista ms formal, podramos definir una base de datos como un
conjunto de datos estructurados, fiables y homogneos, organizados
independientemente en mquina, accesibles a tiempo real , compartibles por
usuarios concurrentes que tienen necesidades de informacin diferente y no
predecibles en el tiempo .
La idea general es que estamos tratando con una coleccin de datos que cumplen
las siguientes propiedades:
Estn estructurados independientemente de las aplicaciones y del soporte de

almacenamiento que los contiene.
Presentan la menor redundancia posible.
Son compartidos por varios usuarios y/o aplicaciones.
74
Bioinformtica
Grfico 1. Fichero Excel.
2. Tipos de Base de Datos
Al igual que cuando se habla, p.ej., de coches no existe un nico modelo, ni una
sola marca, ni siquiera una sola tecnologa sobre su funcionamiento, cuando se
trabaja con bases de datos ocurre una cosa parecida: no existe una sola marca,
sino varias, y adems cada marca puede tener diferentes productos cada uno de
ellos apropiado a un tipo de necesidades.
Sin embargo, la divisin que vamos a hacer aqu de las bases de datos ser en
funcin de la tecnologa empleada en su funcionamiento. Hablando de coches
tenemos los tradicionales de motor a gasolina, los de gasleo, los turbo diesel, los
que funcionaban con gasgeno, y mucho menos frecuentes los coches solares o
incluso los de propulsin a chorro; pues bien, hablando de bases de datos
tenemos que las ms utilizadas son la bases de datos relacionales, las ms
antiguas son las jerrquicas y en red, y las ms avanzadas son las orientadas a
objetos, y las declarativas. Estas se diferencian como hemos dicho, en la forma de
trabajar con los datos y en la concepcin o mentalidad que el usuario debe
adoptar para interactuar con el sistema.
2.1 Modelo jerrquico.
El sistema jerrquico ms comnmente conocido es el sistema IMS de IBM. Esta

base de datos tiene como objetivo establecer una jerarqua de fichas, de manera
que cada ficha puede contener a su vez listas de otras fichas, y as
sucesivamente. P.ej., una ficha de clientes puede contener una lista de fichas de
facturas, cada una de las cuales puede contener a su vez una lista de fichas de
lneas de detalle que describen los servicios facturados.
75
Bioinformtica
Una base de datos jerrquica est compuesta por una secuencia de bases de
datos fsicas, de manera que cada base de datos fsica se compone de todas las
ocurrencias de un tipo de registro o ficha determinada.
Una ocurrencia de registro es una jerarqua de ocurrencias de segmento.

Cada ocurrencia de segmento est formada por un conjunto de ocurrencias o
instancias de los campos que componen el segmento.
P.ej., en la figura siguiente tenemos una ocurrencia del tipo de registro Curso, de
manera que como cabeza principal tenemos una instancia del segmento curso, de
la cual dependen una o varias instancias de los segmentos Requisito y Oferta; a
su vez, de Oferta dependen otros que son Profesor y Estudiante.
Grfico 2. Ejemplo Modelo Jerrquico.
2.2 Modelo en red.
Podemos considerar al modelo de bases de datos en red como de una potencia

intermedia entre el jerrquico y el relacional que estudiaremos ms adelante. Su
estructura es parecida a la jerrquica aunque bastante ms compleja, con lo que
se consiguen evitar, al menos en parte, los problemas de aqul.
Los conceptos fundamentales que debe conocer el administrador para definir el

esquema de una base de datos jerrquica, son los siguientes:
- Registro: Viene a ser como cada una de las fichas almacenadas en un fichero
convencional.
- Campos o elementos de datos. Son cada uno de los apartados de que se
compone una ficha.
- Conjunto: Es el concepto que permite relacionar entre s tipos de registro
distintos.
Podemos imaginar los registros simplemente como fichas de un fichero. Para

ilustrar el concepto de conjunto, supongamos que tenemos un tipo de registro de
clientes, y un tipo de registro de vuelos de avin, y supongamos que queremos
asociar ambas informaciones, de manera que para cada vuelo queremos saber
76
Bioinformtica
cules son los pasajeros que viajan en l. La forma de hacerlo es a travs de un

conjunto. Un conjunto relaciona dos tipos de registro. Uno de ellos es el registro
propietario del conjunto, y el otro es el miembro.
Grfico 3. Modelo en Red.
2.3 Modelos Avanzados
Las bases de datos relacionales han sido y siguen siendo ampliamente utilizadas
para una extensa gama de aplicaciones. Sin embargo, el aumento de potencia de
los ordenadores personales, ha hecho aparecer nuevas aplicaciones potentes que
requieren la utilizacin de datos complejamente relacionados o con necesidades
de consultas muy particulares, como puedan ser p.ej., los sistemas de informacin
geogrficos, el diseo de circuitos electrnicos por ordenador, etc.
2.4 Modelo orientado a objetos.
Actualmente, la creacin de programas ms grandes y complejos, ha hecho

avanzar los mtodos de programacin hacia nuevas formas que permiten el
trabajo en equipo de una forma ms eficaz y en la que se disminuyen los
problemas de coordinacin. Uno de estos mtodos consiste en la programacin
orientada a objetos (POO), que trata los problemas desde un punto de vista
realista, y modelando cada uno de ellos como si se tratase de un conjunto de
elementos u objetos que interrelacionan entre s para solucionar el problema.
Para entender mejor esta filosofa, podemos pensar en ella como en el
funcionamiento de un reloj de cuerda. Un reloj de cuerda posee numerosos
elementos que interactan entre s para obtener como resultado final una
77
Bioinformtica
determinada posicin de las manecillas, que son interpretadas por una persona
como la hora actual. Cada uno de estos objetos es un elemento. Cuando un
engranaje, por ejemplo, gira, no lo hace por capricho, sino para obtener como
resultado el movimiento de otro engranaje, de una cremallera, o de la propia
manecilla. De esta forma, cuando el usuario da cuerda a la maquinaria, lo que est
haciendo realmente es modificar el estado de un objeto del reloj, normalmente la
espiral de la cuerda cuya energa potencial mueve la corona haciendo que un
oscilador avance el segundero. A su vez el movimiento del segundero hace
avanzar el del minutero, que hace avanzar el de la hora. Si el reloj es de cuco,
cada hora se activar la portezuela del cuco que saldr un nmero determinado de
veces segn la hora. De esta manera, una modificacin del estado de un objeto
por parte de un usuario, desencadena una serie de acciones cuyo objetivo final es
solucionar un problema al usuario: darle a conocer la hora exacta. As, la
programacin orientada a objetos pretende ser una simulacin de los procesos de
la realidad.
De este ejemplo podemos sacar varios conceptos tiles:
- Clase. Cuando hay varios objetos semejantes, pueden agruparse en una clase.
De hecho, todo objeto debe pertenecer a una clase, que define sus caractersticas
generales.. P.ej., nuestro reloj posee varios engranajes. Sern diferentes, puesto
que cada uno de ellos posee un dimetro y un nmero de dientes distinto, adems
de poder ser o no helicoidal. Pero al fin y al cabo todos son engranajes. De esta
manera cada engranaje pertenece a la misma clase, a pesar de tener unas
caractersticas particulares que lo diferencian de los dems.
- Estado. Son las caractersticas propias de cada objeto. Siguiendo con el caso de
los engranajes, su estado puede ser el nmero de dientes, el tamao, etc. El
estado se utiliza especialmente para guardar la situacin del objeto que vara con
el tiempo. En nuestro caso almacenaramos la situacin en un espacio
tridimensional, y la posicin o postura en que se encuentra.
- Encapsulacin. Cada objeto es consciente de sus propias caractersticas. El

engranaje sabe que si recibe una fuerza en uno de sus dientes, debe girar, y lo
sabe porque obedece a unas leyes fsicas.
En el caso de un programa, es el programador el que debe indicarle al objeto

cmo comportarse ante cada estmulo del exterior o de otro objeto. Los dems
objetos simplemente se limitan a indicarle al engranaje las fuerzas que le hacen, y
ya sabr el engranaje para dnde se ha de mover, y a qu otros objetos modificar.
- Mensaje. Es cada uno de los estmulos que se envan a un objeto.
- Herencia. Para facilitar la programacin, se puede establecer toda una jerarqua

de tipos o clases.
78
Bioinformtica
P.ej., podemos declarar una clase Engranaje con las caractersticas bsicas de
los engranajes. De ella podemos derivar otras tres: Eng. fijo, Cremallera, y Eng.
helicoidal. Cada una de estas clases especializa la clase general, con la ventaja
de que las caractersticas comunes a los tres tipos de engranajes slo hay que
decirlas una vez.
Grfico 4. Modelo Orientado a Objetos.
2.5 Modelo declarativo.
El enfoque de las bases de datos declarativas es sumamente intuitivo para el

usuario, y le permite abstraerse de los problemas de programacin inherentes a
otros mtodos. Este modelo suele usarse para bases de conocimiento, que no son
ms que bases de datos con mecanismos de consulta en los que el trabajo de
extraccin de informacin a partir de los datos recae en realidad sobre el
ordenador, en lugar de sobre el usuario. Estos mecanismos de consulta exigen
que la informacin se halle distribuida de manera que haga eficiente las
bsquedas de los datos, ya que normalmente las
consultas de este tipo requieren acceder una y otra vez a los datos en busca de
patrones que se adecen a las caractersticas de los datos que ha solicitado el
usuario. Sin embargo, no hablaremos de la organizacin de los datos, sino slo de
las formas de las consultas.
Antes de comenzar, aclararemos que, cuando se vea el lenguaje SQL sobre las
bases de datos relacionales, diremos que este es un lenguaje no procedural, en el
sentido de que el usuario especifica qu es lo que quiere, pero no cmo. No se
debe confundir este aspecto del SQL con un lenguaje puramente declarativo, ya
que stos, amplan la filosofa de la base de datos, de manera que el usuario no
es consciente de los mtodos de bsqueda que se realizan internamente, y la
forma en que se manejan los datos tambin es muy distinta; adems, en el caso
de las funcionales, es necesario complicar soberanamente los mtodos utilizados
79
Bioinformtica
si se quiere mantener la pureza de la metodologa funcional. Adems, la teora

que subyace en ambos modelos difiere radicalmente.
Grfico 5. Modelo Declarativo.
3. Descomposicin y Normalizacin
Siempre que un analista de sistemas de base de datos arma una base de datos,
queda a su cargo descomponer dicha base en grupos y segmentos de registros.
Este proceso es la descomposicin; el mismo es necesario independientemente
de la arquitectura de la base de datos - relacional, red o jerrquica-. Sin embargo,
para la base de datos relacional, la accin correspondiente puede dividirse y
expresarse en trminos formales y se denominanormalizacin a la misma.
La normalizacin convierte una relacin en varias sub-relaciones, cada una de las

cuales obedece a reglas. Estas reglas se describen en trminos de dependencia.
Una vez que hayamos examinado las distintas formas de dependencia,
encontraremos procedimientos a aplicar a las relaciones de modo tal que las
mismas puedan descomponerse de acuerdo a la dependencia que prevalece. Esto
no llevar indefectiblemente a formar varias subrelaciones a partir de la nica
relacin preexistente.
3.1 Normalizacin
Qu es normalizacin?
Normalizacin es un proceso que clasifica relaciones, objetos, formas de relacin

y dems elementos en grupos, en base a las caractersticas que cada uno posee.
Si se identifican ciertas reglas, se aplica un categora; si se definen otras reglas,
se aplicar otra categora.
80
Bioinformtica
Estamos interesados en particular en la clasificacin de las relaciones BDR. La

forma de efectuar esto es a travs de los tipos de dependencias que podemos
determinar dentro de la relacin. Cuando las reglas de clasificacin sean ms y
ms restrictivas, diremos que la relacin est en una forma normal ms elevada.
La relacin que est en la forma normal ms elevada posible es que mejor se
adapta a nuestras necesidades debido a que optimiza las condiciones que son de
importancia para nosotros:
La cantidad de espacio requerido para almacenar los datos es la menor posible;
La facilidad para actualizar la relacin es la mayor posible;
La explicacin de la base de datos es la ms sencilla posible.
Grfico 6. Normalizacin.
4. Biologa de Visualizacin de Datos
Es una rama de la bioinformtica relacionada con la aplicacin de grficos por

ordenador, visualizacin cientfica, y la visualizacin de la informacin a las
diferentes reas de las ciencias de la vida. Esto incluye la visualizacin de
secuencias de genomas, las alineaciones, las filogenias, estructuras
macromoleculares, la biologa de sistemas, la microscopa, y los datos de
resonancia magntica. Herramientas de software utilizadas para la visualizacin
de los datos biolgicos van desde simples programas independientes a los
sistemas complejos e integrados.
Hoy en da estamos experimentando un rpido crecimiento en el volumen y la

diversidad de los datos biolgicos, presentando un desafo cada vez mayor para
los bilogos. Un paso clave en la comprensin y el aprendizaje a partir de estos
datos es la visualizacin. Por lo tanto, ha habido un aumento correspondiente en
el nmero y la diversidad de los sistemas de visualizacin de datos biolgicos.
81
Bioinformtica
Una nueva tendencia es la difuminacin de las fronteras entre la visualizacin de

las estructuras 3D a resolucin atmica, la visualizacin de los complejos ms
grandes de crio-microscopa electrnica, y la visualizacin de la ubicacin de las
protenas y complejos dentro de las clulas y los tejidos conjunto.
Una segunda tendencia emergente es un aumento en la disponibilidad y la

importancia de la resolucin temporal de datos de la biologa de sistemas, la
microscopa electrnica y de imgenes de clulas y tejidos. Por el contrario, la
visualizacin de trayectorias ha sido durante mucho tiempo una parte importante
de la dinmica molecular.
Grfico 7. Visualizacin de Datos.
5. Base de Datos Biolgicas
Casi todos los desarrollos que se hacen a da de hoy en bioinformtica de una u

otra manera hacen uso de datos almacenados en bases de datos biolgicas o
bioinformticas. Para aquellos de vosotros que tiene formacin en ciencias de la
computacin, cuando escuchis base de datos empezis a pensar en SQL, el
modelo relacional, etc Para la gente que las tiene que usar diariamente, les
vendr a la mente los gestores de bases de datos y los distintos productos que
hay disponibles, tanto de pago como de cdigo abierto, que permiten interrogar de
diversas maneras (usando el lenguaje de consultas SQL) la informacin
almacenada en una instancia del gestor. En bioinformtica, el concepto de base
de datos biolgica no alude tanto a la tecnologa usada como al contenido
almacenado.
Una base de datos biolgica es un almacn de datos para informacin derivada de

los datos obtenidos experimentos biolgicos, ni ms ni menos. Y una base de
datos bioinformtica es un almacn de datos para informacin derivada de datos
82
Bioinformtica
biolgicos y de programas bioinformticos. Si bajamos al nivel ms tcnico, las

bases de datos biolgicas y bioinformticas estn disponibles generalmente como
un conjunto de ficheros planos, cuyo tamao suele ser enorme. Para que os
hagis una idea, os incluyo un grfico pblico de crecimiento de la base de datos
GenBank desde 1982 hasta 2008
Grfico 8. GenBank (Base de Datos Biolgica).
Lo ms importante de todo: casi todas estas bases de datos son de libre

disposicin (cualquiera puede descargarlas). Ello es posible porque la informacin
almacenada en la mayor parte de estas bases de datos es de dominio pblico y
casi siempre esttica, al venir de investigacin cientfica ya terminada financiada
con fondos pblicos. Estos ficheros estn casi siempre en formato textual, y la
razn viene de los orgenes de la bioinformtica: poder entender, ver y manipular
sus contenidos sin depender de herramientas especializadas. Los contenidos de
estos ficheros, al ser textuales, son muy comprimibles, y por eso suelen estar
comprimidos con gzip, bzip2, xz, etc
83
Bioinformtica
CAPTULO VI ESTRUCTURAS BIOLGICAS
1. Estructura ADN
La informacin con la que se fabrican las molculas

necesarias para el mantenimiento de las funciones
celulares est guardada en una molcula de cido
nucleico llamada cido desoxirribonucleico (ADN). En este
apartado describiremos su estructura y explicaremos
cmo se almacena dentro del ncleo celular.
En la dcada de los cincuenta, el campo de la biologa fue

convulsionado por el desarrollo del modelo de la
estructura del ADN. James Watson y Francis Crick en
1953 demostraron que consiste en una doble hlice
formada por dos cadenas.
El ADN es un cido nucleico formado por nucletidos.

Cada nucletido consta de tres elementos:
* Un azcar: desoxirribosa en
este caso (en el caso de ARN
o cido ribonucleico, el azcar
que lo forma es una ribosa)
Grfico 2.Estructura del ADN.
* Un grupo fosfato El cido desoxirribonucleico es
un polmero de dos cadenas anti
* Una base nitrogenada: paralelas (orientacin 5' 3' y 3'
adenina (A), guanina (G), 5'). Cada cadena est compuesta
citosina (C) y timina (T). Estas por unidades de un azcar
(desoxirribosa), un fosfato y una
forman puentes de hidrgeno base nitrogenada unidas entre s
entre ellas, respetando una por enlaces fosfodister. Las
estricta complementariedad: A slo se aparea con T (y bases presentes en el ADN son:
viceversa) mediante dos puentes de hidrgeno, y G slo con adenina (A), timina (T), citosina
C (y viceversa) mediante 3 puentes de hidrgeno. (C) y guanina (G). Para recordar
cmo aparean entre s las bases
Si la molcula tiene slo el azcar unido a la base podemos pensar en las iniciales
de dos grandes personajes del
nitrogenada entonces se denomina nuclesido. tango: Anbal Troilo (adenina es
la base complementaria de
timina) y Carlos Gardel (citosina
es la complementaria a guanina).
84
Bioinformtica
El ADN tiene tres estructuras:

1.1 Estructura Primaria:
Se trata de la secuencia de desoxirribonucletidos de una de las cadenas. La

informacin gentica est contenida en el orden exacto de los nucletidos.
Grfico 3.Estructura Primaria (ATCCAT).
1.2 Estructura Secundaria:
Es una estructura en doble hlice. Permite explicar el almacenamiento de la

informacin gentica y el mecanismo de duplicacin del ADN.
Fue postulada por Watson y Crick, basndose en:
- La difraccin de rayos X que haban realizado Franklin y

Wilkins
- La equivalencia de bases de Chargaff,que dice que la suma

de adeninas ms guaninas es igual a la suma de timinas ms
citosinas.
Grfico 4.Estructura secundaria del ADN.
85
Bioinformtica
1.3 Estructura Terciaria:
Se refiere a como se almacena el ADN en un volumen

reducido. Vara segn se trate de organismos
procariontes o eucariontes:
a) En procariontes se pliega como una super-hlice en

forma, generalmente, circular y asociada a una
pequea cantidad de protenas. Lo mismo ocurre en la
mitocondrias y en los plastos.
b) En eucariontes el empaquetamiento ha de ser ms

complejo y compacto y para esto necesita la presencia
de protenas, como son las histonas y otras de
naturaleza no histona (en los espermatozoides las
protenas son las protaminas).
2. Estructura ARN
El ARN es un polmero de ribonucletidosde uracilo, citosina,

guanina y adenina, organizado en una banda simple, como la
mitad de una escalera con la misma estructura del ADN: los
laterales estn formados por los grupos fosfatos y azcares
de los cuales parte una base nitrogenada.
Para traducir de un idioma a otro se necesitan un diccionario

y unas reglas gramaticales; igualmente, para traducir el ADN
a las protenas se necesita una clave o cdigo gentico de
equivalencia, que se denomina Cdigo Gentico.
Veamos el siguiente cuadro comparativo que nos podr aclarar las dudas en
cuanto a la diferencias con el ADN:
86
Bioinformtica
Grfico 6.Cuadro Comparativo ADN / ARN.
2.1 Estructura Primaria del ARN
Al igual que el ADN, se refiere a la secuencia de las

bases nitrogenadas que constituyen sus
nucletidos
2.2 Estructura Secundaria

del ARN
Alguna vez, en una misma

cadena, existen regiones con
secuencias complementarias
capaces de aparearse.
87
Bioinformtica
2.3 Estructura Terciaria del ARN
Es un plegamiento, complicado, sobre la estructura

secundaria.
3. Estructura de Protenas
La palabra protena proviene del griego protop (lo

primero, lo principal, lo ms importante). Las
protenas son las responsables de la formacin y
reparacin de los tejidos, interviniendo en el desarrollo corporal e intelectual. Las
protenas son biopolmeros (macromolculas orgnicas), de elevado peso
molecular, constituidas bsicamente por carbono (C), hidrgeno (H), oxgeno (O) y
nitrgeno (N); aunque pueden contener tambin azufre (S) y fsforo (P) y, en
menor proporcin, hierro (Fe), cobre (Cu), magnesio (Mg), yodo (Y). Estos
elementos qumicos se agrupan para formar unidades estructurales (monmeros)
llamados aminocidos (aa), a los cuales se consideran como los "ladrillos de los
edificios moleculares proteicos". Estos edificios macromoleculares se construyen y
desmoronan con gran facilidad dentro de las clulas, y a ello debe precisamente la
materia viva su capacidad de crecimiento, reparacin y regulacin. La unin de un
bajo nmero de aminocidos da lugar a un pptido; si el nmero de aa que forma
la molcula no es mayor de 10, se denomina oligopptido; si es superior a 10, se
llama poli pptido y si el nmero es superior a 50 aa, se habla ya de protena.
Se clasifican, de forma general, en Holo protenas y Heteroprotenas segn estn
formadas, respectivamente, slo por aminocidos o bien por aminocidos ms
otras molculas o elementos adicionales no aminoacdicos. La organizacin de
una protena viene definida por cuatro niveles estructurales
denominados: estructura primaria, estructura secundaria, estructura
terciaria y estructura cuaternaria. Cada una de estas estructuras informa de la
disposicin de la anterior en el espacio.
Estructura Primaria
Una cadena polipeptdica consiste
en una cadena lineal de
aminocidos unidos por enlaces
peptdicos. El primer puesto de la
cadena corresponde al grupo
amino terminal, y la estructura
primaria es la secuencia en la que
estn situados todos los
constituyentes hasta llegar al
carboxilo terminal. Esta secuencia
88
Bioinformtica
est codificada genticamente.

Existen cadenas poli peptdicas de cualquier nmero de aminocidos, sin que
exista una solucin de continuidad entre pptidos y protenas. Por convencin, se
suele considerar protena aquellos poli pptidos con un peso molecular del orden
de 10.000 o ms.
Estructura Secundaria
La estructura secundaria es la forma en la que la cadena poli peptdica se pliega
en el espacio. En una protena, cada tramo de cadena polipeptdica tiene distinta
estructura secundaria. Existen varias formas definidas de estructura secundaria,
las ms importantes de las cuales son las llamadas hlice a y hoja plegada b. Las
estructuras secundarias definidas estn mantenidas por puentes de hidrgeno
formados exclusivamente entre los grupos amino y carboxilo que constituyen el
esqueleto de la cadena polipeptdica. Consecuentemente, los parmetros
estructurales (distancias, ngulos) sern iguales, independientemente de la
protena y de los aminocidos que formen la estructura.
Estructura Terciaria
La estructura terciaria de la protena es
la forma en la que se organizan en el
espacio los diferentes tramos de la
cadena polipeptdica, que pueden tener
una estructura secundaria definida,
como las hlices u hojas o no tenerla.
La estructura terciaria est mantenida
por enlaces inicos y de puentes de
89
Bioinformtica
hidrgeno entre las cadenas laterales de los aminocidos, enlaces hidrofbicos y

eventualmente puentes disulfuro.
Estructura Cuaternaria
La estructura cuaternaria de una protena es la forma en la que se asocian las

distintas subunidades constituyentes, si es que existen. Es decir, para poder
hablar de estructura cuaternaria es necesario que la protena est formada por
varias subunidades. Como ejemplos de protenas con estructura cuaternaria se
puede considerar la hemoglobina, las inmunoglobulinas o la miosina.
Funciones y Ejemplos de las Protenas
Las protenas determinan la forma y la estructura de las clulas y dirigen casi

todos los procesos vitales. Las funciones de las protenas son especficas de cada
90
Bioinformtica
una de ellas y permiten a las clulas mantener su integridad, defenderse de

agentes externos, reparar daos, controlar y regular funciones.
Todas las protenas realizan su funcin de la misma manera: por unin selectiva a
molculas. Las protenas estructurales se agregan a otras molculas de la misma
protena para originar una estructura mayor. Sin embargo, otras protenas se unen
a molculas distintas: los anticuerpos, a los antgenos especficos; la hemoglobina,
al oxgeno; las enzimas, a sus sustratos; los reguladores de la expresin gentica,
al ADN; las hormonas, a sus receptores especficos.
4. Protein Data Bank
El Protein Data Bank es un repositorio de descripciones experimentales de las

estructuras moleculares de protenas y cidos nucleicos resueltos hasta el
momento. Cada descripcin es un archivo de texto que contiene las coordenadas
atmicas de la molcula en cuestin en un formato que se llama PDB.
Crecimiento
Cuando se fund, el PDB contena tan slo 7 estructuras de protenas. Desde
entonces ha experimentado un crecimiento aproximadamente exponencial en el
nmero de estructuras y nada parece indicar que el ritmo vaya a decaer.
El ritmo de crecimiento del PDB ha sido analizado en profundidad en diversos
estudios.
Veamos en las siguientes imgenes como podemos navegar y observar las

descripciones:
Interfaz: podremos navegar dependiendo el organismo que queramos examinar,

as que seleccionamos entre las diferentes opciones brindadas.
91
Bioinformtica
Seleccionamos Homosapiens donde obtenemos resultados de cuantos

organismos se encuentran para este:
Seleccionamos una de las figuras de las estructuras que encontramos en la

bsqueda ms debajo de esta manera podemos analizar sus caractersticas.
92
Bioinformtica
Veamos ms grande la estructura:
5. Folding de Protenas
Las protenas para llevar a cabo sus

funciones deben alcanzar una forma
determinada, conocida como Pliegue,
en otras palabras, antes de realizar su
trabajo tienen que ensamblarse as
mismas. Este proceso de auto
ensamblaje se le llama Plagamiento.
Las protenas plegadas incorrectamente

por lo general carecen de actividad biolgica, pero en algunos casos pueden estar
asociadas con enfermedades.
Para esto las clulas tienen sistemas que reducen las posibilidades de que las
protenas estn mal plegadas, adems cualquier protena de este tipo son
degradados por grupos celulares especializados del sistema de eliminacin.
Por lo general, todas las molculas de protena de cualquier especie adoptan una
conformacin nica, llamada Cadena Nativa. Para la gran mayora de las
protenas, el estado natural es la forma ms estable plegada de la molcula.
Las clulas requieren un mecanismo rpido y eficiente, para el plegamiento de
protenas en su forma correcta, de lo contrario, las clulas perderan mucha
energa en la sntesis de protenas funcionales y en la degradacin de protenas
mal plegadas o desplegadas.
93
Bioinformtica
5.1 Proceso De Folding
La explicacin de la eficiencia de la clula en la promocin de plegamiento de las

protenas probablemente se encuentra en los chaperones, la cual es una clase de
protena que se encuentra en todos los organismos desde las bacterias hasta en
los seres humanos. Los chaperones estn localizados en cada compartimiento
celular, unidos a una gran variedad de protenas, y la funcin de la chaperona en
general es el mecanismo de plegamiento de las protenas en las clulas.
Existen dos tipos de Chaperonas:
Chaperonas Moleculares: Se unen para estabilizar las protenas desplegadas o

parcialmente doblados, impidiendo as que estas protenas se agreguen y se
degraden.
Chaperoninas: Facilitan directamente el plegamiento de las protenas.
5.1.1 Chaperonas Moleculares
De particular importancia son las

chaperonas presentes en todos los
tipos de clulas y en los
compartimentos celulares. Algunas
chaperonas interactan con las
cadenas recin formadas que
emergen de los ribosomas. En tanto
que otras guan en las etapas
posteriores del plegado. Las
chaperonas moleculares
frecuentemente trabajan en conjunto
asegurando que los diferentes estadios en el plegado de cada sistema sean
completamente eficientes. Muchos de los detalles del funcionamiento de las
chaperonas moleculares han sido determinados en estudios realizados in Vitro.
Cada da es ms evidente que las funciones celulares, altamente complejas y

relacionadas entre s, son llevadas a cabo por un gran nmero de protenas
actuando en forma de complejos proteicos, bien transitorios o estables. Hasta
hace poco se pensaba que el poli pptido naciente adquira espontneamente su
configuracin funcional al ser sintetizado en el ribosoma. Pero hoy se sabe que
tanto el correcto plegamiento de las protenas como su adecuado ensamblaje en
complejos requieren el concurso de unas protenas especializadas, conocidas
como chaperonas, debido a que su papel es vigilar y eventualmente corregir el
plegamiento. Estas protenas estn presentes en todos los seres vivos. Las
chaperonas tales como la trimetilamina N oxidasa (TMAO) tienen un papel activo
en el plegamiento de las protenas, esta enzima de manera especfica permite el
plegamiento correcto de la PrPc (Protenaprionica celular), la carencia de dicha
chaperona propicia la formacin de la PrPsc ( Protena prionica scrapie ) al
94
Bioinformtica
permitir la formacin de bandas beta. El mecanismo por el cual las cadenas poli
peptdicas se pliegan en una especfica estructura tridimensional han sido un
misterio hasta hace poco tiempo. La protena nativa casi siempre corresponde a
una estructura que es termodinmicamente estable bajo condiciones fisiolgicas.
Sin embargo el nmero total de posibles combinaciones de una cadena poli
peptdica es muy grande, una bsqueda sistemtica para una estructura en
partcula seria larga y difcil. Es claro que el proceso de plegamiento no involucra
una serie de pasos predeterminados entre partes especficas, pero lleva a cabo
una bsqueda de muchas conformaciones accesibles a la cadena polipeptdica.
Si la energa superficial es la adecuada, nicamente un pequeo nmero de
todas las posibles combinaciones darn origen a la estructura nativa de una
protena. Porque la forma final es codificada por la secuencia de aminocidos y la
seleccin natural que permite evolucionar y ser capaces de plegarse rpida y
eficientemente.
Una cuestin fundamental acerca de si una protena se pliega o no correctamente

emerge de la utilizacin de la energa. El resultado de muchos estudios sugiere
que el mecanismo fundamental del plegamiento de protenas involucra la
interaccin del menor nmero de residuos para formar un ncleo de plegado
alrededor del cual se condensaran todas las dems estructuras rpidamente, que
implica el menor gasto de energa. Mientras la topologa correcta central no se
pliegue el resto de las interacciones no se llevaran a cabo y la protena no
alcanzara su estructura globular estable; Este mecanismo por lo tanto acta
tambin como un proceso de control de calidad.
5.1.2 Chaperoninas
Las chaperoninas utilizan su

estructura para ayudar en el
plegamiento de muchas protenas
mediante un mecanismo muy
general pero poco eficiente, que se
basa en el aislamiento de la
protena a plegar. En los
organismos eucariotas esta
arquitectura ha generado la
chaperonina CCT, que pliega
eficientemente un reducido nmero
de protenas.
Aunque es conocido desde los trabajos seminales de Anfinsen que las protenas
almacenan en su propia secuencia aminoacdica la informacin con la que adquirir
su conformacin final, tambin es cierto que en muchas ocasiones no les es
posible adquirir tal conformacin por s solas, rodeadas como estn en la clula
por una concentracin tan alta de solutos. Para resolver este problema, la
naturaleza ha diseado un tipo de protenas que se encargan de ayudar a todas
las dems a adquirir esa conformacin nativa, son las denominadas chaperonas
95
Bioinformtica
moleculares. stas forman un grupo muy variado en cuanto a su tamao y

estructura, una gran parte de ellas acta mediante un mecanismo similar, que
consiste en ofrecer a la protena desnaturalizada una superficie con la que
interaccionar adecuadamente, librndola de otro tipo de interacciones
contraproducentes.
Uno de los ejemplos ms evidentes de este mecanismo es el de las chaperoninas

o protenas de choque trmico de 60 kDa (Hsp60). Estas chaperonas se
encuentran en todos los organismos, y en realidad son mucho mayores, pues son
grandes oligmeros compuestos por subunidades de esa masa molecular que
forman siempre la misma estructura, un doble anillo dispuesto espalda contra
espalda. La unidad funcional de las chaperoninas es sin embargo el anillo,
compuesto por 7-9 subunidades (dependiendo del tipo de chaperonina) y su
funcionamiento es a grandes rasgos comn para todas ellas, con una
conformacin en la que la cavidad del anillo est abierta, lista para reconocer la
protena desnaturalizada y unirse a ella, y otra conformacin en la que la cavidad
se cierra y libera la protena en su interior, donde libre de otras interacciones
puede adquirir su conformacin nativa utilizando la informacin codificada en su
secuencia. El cierre de la cavidad se produce a la vez en todas las subunidades
por la unin e hidrlisis de ATP. Aunque la unidad funcional sea el anillo, la
presencia de dos unidos entre s se explica porque el funcionamiento de cada
anillo est controlado por el otro, como en un motor de dos cilindros en el que la
explosin en uno de ellos empuja a la compresin en el otro, y viceversa.
Las chaperoninas se clasifican en dos grupos, las de tipo I que se encuentran en

las eubacterias y en organelos endosimbiontes, y las de tipo II que se localizan en
las arqueo bacterias y en el citosol de eucariotas. Las de tipo II son ms complejas
que las de tipo I, pero todas ellas funcionan como chaperonas generales, capaces
de plegar casi cualquier protena desnaturalizada en cualquier conformacin,
mediante interacciones hidrfobas entre los residuos de las protenas
desnaturalizadas y los que se encuentran en la entrada de la cavidad de la
chaperonina.
Todas las chaperoninas funcionan, pues, de la misma manera? Todas no,

existen diferencias entre ellas que sugieren que la naturaleza ha utilizado la
arquitectura general de las chaperoninas, que realizan una funcin muy general
aunque de una manera poco eficiente, para producir CCT, una chaperonina que
hace una labor muy especfica y muy eficiente, a veces con la colaboracin de
otras chaperonas.
96
Bioinformtica
6. Alineamiento de Estructuras
Un alineamiento estructural es un tipo de alineamiento de secuencias basado en la

comparacin de la forma. Estos alineamientos intentan establecer equivalencias
entre dos o ms estructuras de polmeros basndose en su forma y conformacin
tridimensional. El proceso se aplica normalmente a las estructuras terciarias de las
protenas, pero tambin puede usarse para largas molculas de ARN. En
contraste a la simple superposicin estructural, donde al menos se conocen
algunos residuos equivalentes de las dos estructuras, el alineamiento estructural
no requiere un conocimiento previo de posiciones equivalentes. Es una valiosa
herramienta para la comparacin de protenas con baja similitud entre sus
secuencias, en donde las relaciones evolutivas entre protenas no pueden ser
fcilmente detectadas por tcnicas estndares de alineamiento de secuencias. El
alineamiento estructural puede usarse, por lo tanto, para sugerir relaciones
evolutivas entre protenas que comparten una secuencia comn muy corta. Sin
embargo, el uso de los resultados
como evidencia de un ancestro
evolutivo comn debe realizarse
con cautela dados los posibles
efectos de confusin con la
evolucin convergente, segn la
cual mltiples secuencias de
aminocidos sin relacin
filogentica entre si convergen a
una misma estructura terciaria."
Los alineamientos estructurales

pueden comparar dos o mltiples
secuencias. Puesto que estos
alineamientos dependen de
informacin sobre todas las
conformaciones tridimensionales
de las secuencias problema, el mtodo solo puede ser usado sobre secuencias
donde estas estructuras sean conocidas. Estas se encuentran normalmente por
cristalografa de rayos X o espectroscopia de resonancia magntica nuclear. Es
posible realizar un alineamiento estructural sobre estructuras producidas mediante
mtodos de prediccin de estructura. En efecto, la evaluacin de tales
predicciones requiere a menudo un alineamiento estructural entre el modelo y la
estructura real conocida para evaluar la calidad del modelo. Los alineamientos
estructurales son especialmente tiles para analizar datos surgidos de los campos
de la genmica estructural y de la protenica, y pueden usarse como puntos de
comparacin para evaluar alineamientos generados por mtodos bioinformticas
basados exclusivamente en secuencias.
El resultado de un alineamiento estructural es una superposicin de los conjuntos

de coordenadas atmicas, as como una distancia media cuadrtica mnima (o
RMSD, de Root Mean SquareDeviation, o desviacin de la media cuadrtica) entre
97
Bioinformtica
las estructuras bsicas de las protenas superpuestas. La RMSD de estructuras

alineadas indica las divergencias entre ellas. El alineamiento estructural puede
complicarse por la existencia de mltiples dominios proteicos en el interior de una
o ms de las estructuras de entrada, ya que cambios en la orientacin relativa de
los dominios entre dos estructuras a alinear pueden exagerar la RMSD
artificialmente.
La informacin mnima
producida por un alineamiento
estructural correcto es un
conjunto de coordenadas
tridimensionales superpuestas
para cada estructura inicial.
Ntese que uno de los
elementos de entrada puede
estar fijado como referencia y
que, por lo tanto, sus
coordenadas superpuestas no
cambiaran. Las estructuras
encajadas pueden usarse para
calcular valores RMSD mutuos, as como otras medidas de similitud estructural
ms sofisticadas como el test de distancia global (GDT, de sus siglas en ingls, y
que es la mtrica utilizada en CASP, CriticalAssessment of Techniques for Protein
Structure Prediction). Un alineamiento estructural tambin implica un alineamiento
de secuencias unidimensional desde el que una secuencia identidad, o el
porcentaje de residuos que son idnticos entre las estructuras de entrada, puede
calcularse como una medida de cuan cercanamente se encuentran ambas
secuencias.
Puesto que las estructuras de las protenas se componen de aminocidos cuyas

cadenas laterales estn enlazadas por un esqueleto de protenas comunes, se
puede utilizar un nmero de los posibles subconjuntos diferentes de tomos que
conforman una macromolcula de protena para producir un alineamiento
estructural y calcular los correspondientes valores RMSD. Cuando se alinean
estructuras con secuencias muy diferentes, los tomos de la cadena lateral,
generalmente, no se toman en cuenta, ya que sus identidades difieren en muchos
de los residuos alineados. Por esta razn, en los mtodos de alineamiento
estructural es comn usar por defecto solo los tomos del esqueleto incluidos en
el enlace peptdico. Por simplicidad y eficiencia a menudo solo se consideran las
posiciones del carbono alfa, ya que el enlace peptdico tiene una conformacin
plana mnimamente variante. Solo cuando las estructuras a alinear son altamente
similares, e incluso idnticas, es significativo alinear posiciones de tomos de la
cadena lateral, en cuyo caso la RMSD refleja no solo la conformacin del
esqueleto de la protena, sino tambin los estados de las rotaciones angulares en
las cadenas laterales. Otros criterios de comparacin que reducen el ruido e
impulsan las coincidencias incluyen tomar en consideracin la estructura
secundaria de las protenas, los mapas de contactos nativos o patrones de
98
Bioinformtica
interaccin entre residuos, medidas del empaquetamiento de la cadena lateral, y

medidas del mantenimiento de los enlaces de hidrogeno.
La comparacin ms
sencilla posible entre
estructuras de protenas
no intenta alinear las
estructuras de entrada,
sino que necesita un
alineamiento pre
calculado como input
para determinar cules
de los residuos en la
secuencia deben
considerarse para el
clculo de la RMSD. La
superposicin estructural
se usa comnmente para comparar conformaciones mltiples de la misma
protena (en cuyo caso no es necesario el alineamiento ya que la secuencia es la
misma) y para evaluar la calidad de los alineamientos producidos usando solo
informacin de las secuencias entre dos o ms secuencias cuyas estructuras son
conocidas. Este mtodo utiliza tradicionalmente un sencillo algoritmo de ajuste por
mnimos cuadrados, en el que las rotaciones y translaciones ptimas se
encuentran minimizando la suma de los cuadrados de las distancias entre todas
las estructuras de la superposicin. Ms recientemente, los mtodos bayesianos y
de mxima verosimilitud han incrementado enormemente la precisin de las
rotaciones, translaciones y matrices de covarianza estimadas para la
superposicin.
99
Bioinformtica
CONCLUSIONES
Durante todo el proceso de recopilacin de la informacin para

complementar las notas de clase se conceptualizaron muchos conceptos y
se recordaron otros para el aprovechamiento de la asignatura
bioinformtica.
Algunos de los conceptos de la bioqumica aplicada a la bioinformtica

dieron ms ideas y compresin acerca de las bases de datos que se
pueden crear para el desarrollo y avance en cuanto al conocimiento de la
informacin de los organismos en general.
100
Bioinformtica
BIBLIOGRAFA E INFOGRAFA
Apuntes de Clase de Bioinformtica. Ingeniera Telemtica. Docente Marco
Regalia. Universidad Distrital Francisco Jos de Caldas. 2011.
http://tecnologica.udistrital.edu.co/moodle/course/view.php?id=36
http://www.um.es/molecula/anucl03.htm
http://www.slideshare.net/munevarjuan/protein-folding-2105013
http://www.cienciasaplicadas.buap.mx/convocatoria/memorias_2005/065.pdf
http://folding.stanford.edu/Spanish/Science
http://es.scribd.com/doc/2529983/Plegamiento-de-Proteinas
http://www.sebbm.es/ES/divulgacion-ciencia-para-todos_10/chaperoninas-
plegamiento-mediante-aislamiento_522
http://es.wikipedia.org/wiki/Alineamiento_estructural
http://www.psicologia2000.com/es/enciclopedia-general-psicologia-on-line-wiki-
letra-a/21805-alineamiento-estructural.html
http://aportes.educ.ar/biologia/nucleo-teorico/estado-del-arte/el-libro-de-la-vida-el-
adn/estructura_del_adn.php
http://www.um.es/molecula/anucl02.htm
http://www.xuletas.es/ficha/estructura-del-adn-y-arn/
http://www.profesorenlinea.cl/Ciencias/ProteinasEstruct.htm
http://milksci.unizar.es/bioquimica/temas/aminoacids/estructurprot.html
http://www.aula21.net/Nutriweb/proteinas.htm#10
http://www.slideshare.net/carmen42/presentacin-proteinas
101

Libro Bioinformatica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro Bioinformatica PDF

Cargado por

Copyright:

Formatos disponibles

Bioinformtica

La bioinformtica se ha convertido en una ciencia que est entrando en auge en

La secuenciacin de genomas lleva la necesidad de obtener conclusiones de la

CAPITULO I INTRODUCCIN A LA BIOINFORMATICA ................................................. 6

CAPITULO II SECUENCIAS DE ADN ............................................................................. 23

1. Formato FASTA ....................................................................................................... 23

CAPITULO III GENES ..................................................................................................... 31

2.1 Marco Abierto de Lectura .................................................................................... 35

CAPITULO IV ALINEAMIENTO DE SECUENCIAS Y PROTENAS ............................... 45

1. Alineamiento de Secuencias ................................................................................... 45

CAPITULO V BASES DE DATOS .................................................................................. 74

2.5 Modelo declarativo. ............................................................................................. 79

CAPTULO VIESTRUCTURAS BIOLGICAS ................................................................ 84

1. Estructura ADN ........................................................................................................ 84

CONCLUSIONES .......................................................................................................... 100

BIBLIOGRAFA E INFOGRAFA ................................................................................... 101

CAPITULO I INTRODUCCIN A LA BIOINFORMATICA

La Bioinformtica es el uso de tcnicas computacionales, matemticas y

La bioinformtica es una ciencia muy joven, si miramos a travs del tiempo

|->1958 Primera secuencia de protena

La bioinformtica estudia la Minera de Datos de:

En la bioinformtica lo que se hace es:

1. Almacenar datos de genes a travs de minera de datos.

Se pude concluir que la bioinformtica lo que busca es llegar a la medicina y

Tambin podemos encontrar que la bioinformtica abarca distintas reas:

*Genmica: Ciencia que estudia el genoma.

La bioinformtica en la biodiversidad permite llevar un control y descubrir ms

Qumica: Estudio de la materia. La materia est

-Modelo atmico: Es la representacin estructural

-Modelo atmico de Rutherford, mostraba que el

-El nmero atmico es la cantidad de protones que

-El tomo: Es la unidad ms pequea de un elemento

-Un tomo cuando pierde un protn se llama in .

-Neutrn: Hace que el peso aumente. Figura 3.El tomo.

|->Isotopo: Tienen dos tomos, el mismo nmero de protones pero diferente

-Enlace Qumico: Fuerza de atraccin por fuerza electromagntica. Ah se

-Compuesto Orgnico: Todas las molculas que contienen carbono. Podemos

1. Carbohidratos o Glcidos: Son los que dan energa a nuestro cuerpo.

Biologa: Ciencia que estudia los seres vivos.

|->Ser vivo: Es todo lo que es capaz de

La biologa tiene las siguientes caractersticas:

1. Universalidad: Las reacciones qumicas bsicas Figura 4.Esquema de la

Encontramos tres (3) niveles:

|->Orgnico: Tejidos, agregaciones de clula. Estructura o compartimento sub-

|->Biologa Celular: Estudio sobre las clulas. Esto

Clula:Unidad funcional de todo ser vivo.

|->Procariotas: No tienen ncleo.

Figura 5.Esta sencilla Entre las clulas eucariotas encontramos la vegetal

Figura 6.Clula vegetal y animal con sus diferencias y similitudes.

Las clulas hacen parte de dos clases de organismos: Pluricelulares y Mono

La clula tienen las siguientes funciones:

La gentica estudia los genes que determinan nuestras

Hay cuatro (4) tipos de gentica:

1. Gentica Clsica: trata de cromosomas y genes.

|->Cromosomas: Es como el ADN se empaqueta.

4. Gentica Molecular: Estudia lo mismo que la gentica clsica, cuantitativa y

La gentica molecular tiene un dogma denominado DOGMA CENTRAL DE LA

3.2 Dogma Central de la Biologa Molecular

El Dogma Central de la Biloga nos habla de cmo se pasa de genotipo a

Figura 8. Dogma Central (Paso de Genotipo a Fenotipo)

-Genotipo: Conjunto de toda nuestra informacin gentica (Nuestro Disco Duro).

-Fenotipo: Conjunto de caractersticas Fsicas.

Con estos tres mecanismos conseguimos extraer de la informacin gentica