Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción a la Bioinformática
Informe Final
Introducción
Bacillus subtilis es uno de los únicos organismos modelo que ha sido continuamente anotado en
profundidad. Entre las últimas actualizaciones realizadas, se propuso que el genoma de B. subtilis albergaba 4244
secuencias codificantes de proteínas (CDS) predichas, el 48 % con funciones identificadas. Desde entonces, un
número considerable de estudios han permitido a los investigadores completar, o al menos mejorar, anotaciones
específicas, incluida la identificación de nuevos genes.
La esporulación fue la fuente de interés biológico más reconocida para este organismo, siendo SpoOA el
regulador de respuesta requerido para iniciar este proceso en dicha bacteria. La actividad de este regulador se
encuentra organizada en una compleja cascada de fosforilación, que
consiste en cinco histidinas quinasas, tres asociadas a membrana KinB,
KinC y KinD y dos quinasas citoplasmáticas KinA y KinE. A su vez, cuenta
con dos proteínas denominadas Spo0F y Spo0B.
Análisis bioinformático
BUSQUEDA EN BASE DE DATOS
Se procedió con el análisis bioinformático de KinD mediante la búsqueda en bases de datos del National Center for
Biotechnlogy Information (NCBI).
• PubMed
1
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
• GenBank
Analizando los resultados obtenidos en esta base de datos se puede observar información del gen en cuestión:
-Nombre: KinD
-Ubicación en el genoma: 1,431,486...1,433,006 nt, encontrándose este gen en la cadena complementaria del
genoma completo de Bacillus subtilis.
-Longitud: 1521 nt
-GeneID: 9393000
Se descargó, además, la secuencia nucleotídica de dicho gen en formato FASTA, teniendo en cuenta la polaridad
codificante de KinD.
En la imagen a continuación se puede observar que la secuencia FASTA hace referencia a “genoma completo”, sin
embargo, las bases mostradas corresponden al gen en cuestión (señalado en verde) estando representadas las bases
que conforman a KinD, coincidente a la ubicación de la secuencia.
2
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
Secuencia Fasta:
>NC_000964.3:c1433006-1431486 Bacillus subtilis subsp. subtilis str. 168 complete
genome
ATGTTGGAGCGATGCAAATTGAAAATACTAAAAGGCGCCTGCGGGAGAGTCAAACTTTATATCATACTGG
TCGTGATTCCGGCAATCGTCATCAGCTTTTTCGTATATGAAAAAGAAAAAGATACAATAGCTGCAGAACA
TAAACAAGAAGCAAGTGTCCTGCTAAACCTTCACCGCAACAAAATCAATTATTTAATCGGAGAAACAATG
GCGAGAATGACCTCCTTGTCCATCGCCATCGACAGACCGGTTGATATAAAGAAAATGCAATCAATTTTGG
AAAAGACCTTTGATTCAGAGCCGAGATTTTCCGGTCTCTATTTTCTCAATGCCAAAGGAGACGTCACCGC
AAGCACAACCGAATTAAAAACGAAAGTAAACCTGGCCGACAGATCTTTTTTTATAAAAGCAAAGGAAACT
AAAAAGACAGTCATTTCAGATAGTTATTCGAGCAGAATTACTGGTCAGCCAATTTTCACAATTTGTGTGC
CTGTTTTGGACTCAAAACGTAATGTGACAGATTATCTTGTCGCAGCTATTCAAATTGATTATTTGAAAAA
TCTCATTAACTTACTAAGCCCTGATGTTTATATTGAAGTTGTGAACCAAGACGGGAAAATGATTTTTGCG
AGCGGACAAGCCTCTCATGCAGAGGATCAGAAACCTGTCAGCGGATATCTGGATGATATCAGCTGGAATA
TGAAAGTCTATCCGAACCCGGTCACAATAGAAGAACTGTCGAAAAGCCTTGTGCTTCCGCTTTCATGTAT
TATTGTTCTGCTGAATATCCTTTTTATTCTCGTGCTGTATTATTTGCTGAAGCGGCAGACCCAGCTGGAG
CGCTCAGAAAACGAGGCGCAAAAATTAGAGCTGATCGGGACGCTTGCTGCCAGCACAGCCCATGAAATCC
GTAACCCCCTCACCGGGATAAGCGGCTTTATTCAGCTGTTGCAAAAGAAATATAAAGGTGAGGAAGATCA
GCTTTACTTCTCCATTATCGAACAGGAGATAAAGCGCATCAATCAAATAGTGAGTGAGTTTCTCGTTCTC
GGCAAGCCGACAGCTGAAAAATGGGAGCTGAACTCACTTCAGGACATTATCGGAGAAATTATGCCGATCA
TTTATTCTGAGGGCAATCTATACAATGTTGAAGTCGAATTACAGTATCTAACCGAGCAGCCCTTACTCGT
AAAATGTACAAAAGATCATATTAAACAAGTGATTTTAAATGTAGCAAAAAATGGCCTCGAGTCAATGCCT
GAAGGAGGCAAACTGACGATCTCCCTAGGAGCTTTAGATAAAAAAGCCATAATCAAAGTTGTGGATAACG
GTGAAGGGATTTCTCAGGAAATGCTGGATCACATCTTCCTTCCCTTTGTTACTTCTAAAGAAAAAGGAAC
CGGTCTCGGCCTTGTTGTTTGTAAACGGATCGTGCTGATGTACGGAGGCTCTATTCATATTGAAAGTGAA
GTGCGAAGAGGCACAGAGGTGACGATCACCCTCCCCGTATCCGCATCATAG
NCBI PROTEIN:
Gracias a la búsqueda en esta base de datos se pudo obtener, seleccionando una de las entradas, la secuencia
correspondiente a la proteína, es decir, la secuencia aminoacídica en formato FASTA.
Además, este análisis arrojó 661 resultados de secuencias proteicas subidas.
UNIPROT
Otra búsqueda en bases de datos realizada fue en UNIPROT. Al buscar, colocando el nombre de nuestra secuencia
KinD se pueden observar cuatro resultados pertenecientes al organismo Bacillus subtilis
Esta base de dato arroja información útil acerca de la proteína en estudio, tal como:
4
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
ALINEAMIENTOS
BlastP
GALAXY
Luego de la selección de las 10 secuencias, las mismas se cargaron en Galaxy para el posterior alineamiento múltiple
utilizando clustalW. Dicha herramienta utiliza el algoritmo Needleman-Wunsch, sumando la secuencia una por una
hasta que todas estén completamente alineadas.
Utiliza un enfoque heurístico, que brinda soluciones óptimas sin analizar todas las posibles, mejorando el tiempo
de analisis. Además, calcula un árbol filogenético guía siguiendo el algoritmo de Neighbor Joining.
CLUSTAL 2.1 multiple sequence alignment
WP_080477770.1_1-506 MLERCKLKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
WP_015252216.1_1-506 MLERCKLKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
WP_080332205.1_1-506 MLERCKLKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVMLNLHRN
WP_182932251.1_1-506 MLERCKLKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
WP_268749395.1_1-506 MLERCKLKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
WP_072557174.1_1-506 MLERCKLKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
KIN32179.1_1-500 ------MKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
OIR62976.1_1-500 ------MKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
5
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
OEI73959.1_1-500 ------MKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
WP_050542688.1_1-506 MLERCKLKILKGACGKVKLYMILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
WP_268400553.1_1-506 MLERCKLKILKGACGRVKLYMILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
:********:****:********************************:******
WP_080477770.1_1-506 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
WP_015252216.1_1-506 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
WP_080332205.1_1-506 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
WP_182932251.1_1-506 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
WP_268749395.1_1-506 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
WP_072557174.1_1-506 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
KIN32179.1_1-500 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
OIR62976.1_1-500 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
OEI73959.1_1-500 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
WP_050542688.1_1-506 KINYLIGETEARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
WP_268400553.1_1-506 KINYLIGETEARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
********* **************************************************
WP_080477770.1_1-506 ELKTNVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRNVTDYLVAAI
WP_015252216.1_1-506 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRNVTDYLVAAI
WP_080332205.1_1-506 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRNVTDYLVAAI
WP_182932251.1_1-506 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRNVTDYLVAAI
WP_268749395.1_1-506 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRNVTDYLVAAI
WP_072557174.1_1-506 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRNVTDYLVAAI
KIN32179.1_1-500 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRNVADYLVAAI
OIR62976.1_1-500 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKQNVTDYLVAAI
OEI73959.1_1-500 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKQNVTDYLVAAI
WP_050542688.1_1-506 ELKMKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRDVTNYLAAAI
WP_268400553.1_1-506 ELKMKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRDVTNYLVAAI
***a:********************************************::*::**.***
WP_080477770.1_1-506 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASHAEDQKPVSGYLDDISWNMKVYPNP
WP_015252216.1_1-506 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASHAEDQKPVSGYLDDISWNMKVYPNP
WP_080332205.1_1-506 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASHAEDQKPVSGYLDDISWNMKVYPNP
WP_182932251.1_1-506 QVDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASHAEDQKPVSGYLDDISWNMKVYPNP
WP_268749395.1_1-506 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASHAEDQKPVSGYLDDISWNMKVYPNP
WP_072557174.1_1-506 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASHAEDQKPVSGYLDDISWNMKVYPNP
KIN32179.1_1-500 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGPASHAEDQKPVSGYLDDISWNMKVYPNP
OIR62976.1_1-500 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASHVKDQKPVSGYLDDISWNMKVYPNP
OEI73959.1_1-500 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASRVKDQKPVSGYLDDISWNMKVYPNP
WP_050542688.1_1-506 QIDYLKNLINLLSPDVYIEVVNQDGKMIFSSGQASHAIDQKPVSGYLDDISWNMKVYPNP
WP_268400553.1_1-506 QIDYLKNLINLLSPDVYIEVVNQDGKMIFSSGQPSHAIDQKPVSGYLDDISWNMKVYPNP
*:***************************:** .*:. **********************
WP_080477770.1_1-506 VTIEELTKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
WP_015252216.1_1-506 VTIEELSKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
WP_080332205.1_1-506 VTIEELTKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
WP_182932251.1_1-506 VTIEELTKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
WP_268749395.1_1-506 VTIEELTKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
WP_072557174.1_1-506 VTIEELTKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
KIN32179.1_1-500 VTIEELTKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
OIR62976.1_1-500 VTIEELTKSLVLPLSCSIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
OEI73959.1_1-500 VTIEELTKSLVLPLSCSIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
WP_050542688.1_1-506 VTIEELTRSLVLPLSCSIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
WP_268400553.1_1-506 VTIEELTKSLVLPLSCSIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
******::******** *******************************************
WP_080477770.1_1-506 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
WP_015252216.1_1-506 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
WP_080332205.1_1-506 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
WP_182932251.1_1-506 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
WP_268749395.1_1-506 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
WP_072557174.1_1-506 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
KIN32179.1_1-500 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
OIR62976.1_1-500 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
OEI73959.1_1-500 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
WP_050542688.1_1-506 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
WP_268400553.1_1-506 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
************************************************************
6
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
WP_080477770.1_1-506 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
WP_015252216.1_1-506 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
WP_080332205.1_1-506 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
WP_182932251.1_1-506 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
WP_268749395.1_1-506 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
WP_072557174.1_1-506 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
KIN32179.1_1-500 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
OIR62976.1_1-500 NSLQDIIGEIMPIIYSEGNLYNVEVELQHLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
OEI73959.1_1-500 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
WP_050542688.1_1-506 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
WP_268400553.1_1-506 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
****************************:*******************************
WP_080477770.1_1-506 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
WP_015252216.1_1-506 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
WP_080332205.1_1-506 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
WP_182932251.1_1-506 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
WP_268749395.1_1-506 EGGKLTISLGALDKKAIIRVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
WP_072557174.1_1-506 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
KIN32179.1_1-500 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
OIR62976.1_1-500 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
OEI73959.1_1-500 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
WP_050542688.1_1-506 EGGKLTISLGTLDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
WP_268400553.1_1-506 EGGKLTISLGTLDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
**********:*******:*****************************************
WP_080477770.1_1-506 YGGSIHIESEVRRGTEVTITLPVSAS
WP_015252216.1_1-506 YGGSIHIESEVRRGTEVTITLPVSAS
WP_080332205.1_1-506 YGGSIHIESEVRRGTEVTITLPVSAS
WP_182932251.1_1-506 YGGSIHIESEVRRGTEVTITLPVSAS
WP_268749395.1_1-506 YGGSIHIESEVRRGTEVTITLPVSAS
WP_072557174.1_1-506 YGGSIHIESEVRRGTEVTITLPVSAS
KIN32179.1_1-500 YGGSIHIESEVRRSTEVTITLPVSAS
OIR62976.1_1-500 YGGSIHIESEVRRGTEVTITLPVSAS
OEI73959.1_1-500 YGGSIHIESEVRRGTEVTITLPVSAS
WP_050542688.1_1-506 YGGSIHIESEVRRGTEVTITLPVSAS
WP_268400553.1_1-506 YGGSIHIESEVRRGTEVTITLPISAS
*************.********:***
Podemos notar que si bien las secuencias presentan una gran similitud entre ellas, la presencia de gaps y de
intercambio de aminoacidos, ya sea de la misma o de distinta naturaleza, se hace visible.
Además, observamos en dicho alineamiento múltiple símbolos marcados en diversos colores, los cuales
representan:
A: Los espacios vacíos representan posiciones en las que no hubo coincidencias en todas las secuencias.
* : Los asteriscos informan sobre coincidencia entre todas las secuencias para ese aminoácido.
: : Este símbolo manifiesta la presencia de aminoácidos que son fuertemente equivalentes por sus características
químicas (es decir que presentan una altra conservación).
. : El punto individual representa a los aminoácidos que son levemente equivalentes por lo que se considera a esa
posición como levemente conservada.
7
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
DOTLET JS
Sequence Logo
Para la realización de este gráfico, el cual es una representación gráfica de un alineamiento múltiple de secuencias,
se seleccionaron las mismas 10 secuencias aminoácidicas arrojadas por el alineamiento múltiple realizado en
ClustalW.
Cada uno consta de “pilas” de símbolos, una para cada posición en la secuencia. La altura total de la pila indica la
conservación de la secuencia en esa posición, mientras que la altura de los símbolos dentro de la pila muestra la
frecuencia relativa de cada elemento en esa posición.
Se tomó un sector de las secuencias representativo (desde el primer aminoácido hasta el aminoácido 50) pudiendo
ver la representanción de gaps y de sustición de aminoácidos en dicho gráfico.
Puede observarse que las regiones que comprenden los residuos 23 y 50 presentan un alto grado de conservación
(se puede ver un solo elemento que abarca la totalidad de la altura de la pila para esa posición). Mientras que en el
primer extremo de la secuencia encontramos un grado de conservación menor.
Ejemplificando dichas situaciones, si nos detenemos en el aminoácido 7 y 21 podemos ver que la Leucina y la
Isoluecina presentan una frecuencia relativa mayor a la Metionina respectivamente.
8
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
Compute pI/Mw
Permite estimar teóricamente el punto isoeléctrico (pI) y el peso molecular (Mw) de diferentes proteínas
unicamente colocando como entrada la secuencia de interés en formato FASTA en dicha herramienta.
SignalP
Dicha herramienta bioinformática nos brinda información acerca de la posibibilidad de que la sencuencia de interés
presente peptidos señal y sus posibles sitios de clivaje. El gráfico que se observa arroja valores de probabilidad para
CS (sitio de clivaje); LIPO, TAT y SP (representan la probabilidad de que X fragmento de la secuencia pueda ser un
péptido señal).
Como se puede visualizar en la imagen obtenida luego del análisis podría existir la presencia de un péptido señal,
con un sitio de clivaje ubicado entre en el residuo 40 y 50. Sin embargo, dado los valores extramadamente bajos de
probabilidad, no sería adecuado afirmar que corresponde a tal estrucutra.
Por su parte el valor de probabilidad para el parámetro OTHER (el cual representa la probabilidad de que la
secuencia sea cualquier otra cosa diferente a un péptido señal) adquiere un alto valor, cercano a 1 a lo largo de toda
la secuencia. Por tal motivo podemos casi asegurarnos que esta proteína carece de péptidos señal.
TMHMM
9
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
GOR
PROTEUS2
Es un servidor web diseñado para otorgar predicciones integrales de estructuras de proteínas y la anotación basada
en estas. Esta herramienta acepta secuencias únicas (para estudios dirigidos) o secuencias múltiples (para la
anotación completa del proteoma) y predice la estructura secundaria y, si es posible, terciaria de la(s) proteína(s)
de interés. A diferencia de la mayoría de las otras herramientas o servidores, PROTEUS2 agrupa la identificación de
péptidos señal, la predicción de hélice transmembrana, la predicción de hebras beta transmembrana, la predicción
de estructura secundaria (para proteínas solubles) y el modelado de homología en una sola ventana de predicción.
10
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
IUPRED2
IUPred2A es una interfaz web combinada que permite identificar regiones desordenadas de la estructura terciaria
y regiones de unión desordenadas de la proteína. El objetivo principal de IUPred2 es identificar regiones proteicas
intrínsecamente desordenadas, es decir, regiones que carecen de una estructura monomérica estable en
condiciones nativas; basado en un modelo fundamentado en la biofísica. El usuario puede introducir cualquier
secuencia de proteínas e IUPred devuelve una puntuación entre 0 y 1 para cada residuo, correspondiente a la
probabilidad del residuo que forma parte de una región desordenada.
El resultado que arroja IUPRED es un gráfico que muestra la tendencia al desorden de cada residuo en la proteína
dada, donde corresponden valores más altos a una mayor probabilidad de desarreglo.
Los valores de probabilidad para todos los residuos se encuentran por debajo del score 0.5 lo cual nos permite
concluir que la proteína analizada carece de regiones desordenadas.
11
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
AlphaFold2
AlphaFold es un sistema de inteligencia artificial desarrollado por DeepMind que predice la estructura 3D de una
proteína a partir de su secuencia de aminoácidos con una precisión casi experimental en la mayoría de los casos.
Dicha herramienta bioinformática fue capaz de mejorar en gran medida la precisión de la predicción de la estructura
mediante la incorporación de nuevas arquitecturas de redes neuronales y procedimientos de entrenamiento
basados en las restricciones evolutivas, físicas y geométricas de las estructuras de proteínas.
Las coordenadas 3D de todos los átomos pesados para una proteína dada, son predichas utilizando la secuencia de
aminoácidos primarios y secuencias alineadas de homólogos como entradas.
Colocando nuestra secuencia query y pidiéndole al programa que corra una dicha cantidad de estructuras relajadas
(1), se obtuvo el modelado de 5 estructuras diferentes:
En donde podemos visualizar que el mejor modelo predicho es el 4 debido a su alto valor pLDDT (88,8) en
comparación al resto de los modelos. Dicho valor, predicted local-distance difference test, da la precisión final por
residuo de la estructura comparándola con la posición del carbono alfa de la estructura de interés.
12
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
PyMoL
PyMOL es una herramienta de visualización de fuente abierta disponible para biología estructural. Esta es apropiada
para producir imágenes 3D de alta calidad de moléculas pequeñas y de macromoléculas biológicas, como las
proteínas.
Se optó, en primera instancia, por tomar dos de los modelos arrojados por AlphaFold, para poder realizar una
comparación desde lo experimental obtenido con otra herramienta bioinformática.
Dicho valor representa una distancia media cuadrática mínima entre las
estructuras básicas de las proteínas superpuestas. Mientras mayor sea el
valor de RMSD obtenido, mayores son las diferencias.
Si bien el RMSD adquiere un valor alto positivo, podríamos decir que las
diferencias no son tan significativas ya que hablamos de modelos que
eran divergentes entre ellos.
Por último y para finalizar el análisis a nivel de estructura de la proteína, se seleccionó el mejor modelo obtenido
por AlphaFold (modelo 4) y la primera salida obtenida en PDB.
13
Landoni Sofía
Profesor: Tadeo Enrique Saldaño
String
STRING es una base de datos de interacciones proteína-proteína conocidas y predichas. Las interacciones incluyen
asociaciones directas (físicas) e indirectas (funcionales); Se derivan de la predicción computacional, de la
transferencia de conocimientos entre organismos y de interacciones agregadas de otras bases de datos (primarias).
Cabe aclara antes del análisis que cada uno de las esferas en dicha red representa una proteína. La esfera que
adquiere color rojo es la secuencia aminoacídica de interés. Las líneas que unen nodos representan las interacciones
proteína-proteína provistas por literatura y una mayor cantidad de líneas aporta más información y credibilidad a la
interacción descripta.
Gracias al análisis de las interacciones pertenecientes a dicha red, puede verse la estrecha relación entre los
elementos de la cascada de fosforilación a la que pertenece la proteína en estudio. Se muestran las diferentes
quinasas sensoras (kinA, kinC, kinD y kinE), además de los factores de transcripción Spo0A, Spo0B y Spo0F. Este
último factor de transcripción presenta una interacción muy alta con nuestra proteína de interés lo que tiene
muchísimo sentido por lo planteado anteriormente en la introducción.
CONCLUSIÓN
La bioinformática tiene un papel central en muchas áreas de la investigación. La misma es esencial para proteómica,
permitiendo el análisis de secuencias de proteínas con el fin de determinar motivos funcionales, para la obtención
de estructura de proteínas, interacciones proteína-proteína, entre otras. Esta versatilidad ha permitido que hoy en
día sea utilizada para el diseño y el descubrimiento de nuevas secuencias, fármacos, medicamentos, plaguicidas.
Gracias a dichas herramientas, como las utilizadas en el presente trabajo práctico, a partir de una simple secuencia
de aminoácidos se logró conseguir las características, estructuras y propiedades de la proteína de interés, las cuales
resultan útiles a la hora de poner en marcha un proyecto de investigación, fomentando de esta manera la
accesibilidad y la facilidad que la bioinformática brinda para el desarrollo de la ciencia en general.
15