Introducción A La Bioinformática, Landoni Sofia

Landoni Sofía
Profesor: Tadeo Enrique Saldaño
Introducción a la Bioinformática
Informe Final
Introducción
Bacillus subtilis es uno de los únicos organismos modelo que ha sido continuamente anotado en
profundidad. Entre las últimas actualizaciones realizadas, se propuso que el genoma de B. subtilis albergaba 4244
secuencias codificantes de proteínas (CDS) predichas, el 48 % con funciones identificadas. Desde entonces, un
número considerable de estudios han permitido a los investigadores completar, o al menos mejorar, anotaciones
específicas, incluida la identificación de nuevos genes.
La esporulación fue la fuente de interés biológico más reconocida para este organismo, siendo SpoOA el
regulador de respuesta requerido para iniciar este proceso en dicha bacteria. La actividad de este regulador se
encuentra organizada en una compleja cascada de fosforilación, que
consiste en cinco histidinas quinasas, tres asociadas a membrana KinB,
KinC y KinD y dos quinasas citoplasmáticas KinA y KinE. A su vez, cuenta
con dos proteínas denominadas Spo0F y Spo0B.
Además, estas quinasas fosforilan a Spo0F y este transfiere

luego un grupo fosfato a Spo0B el cual, finalmente, fosforila a Spo0A,
activándolo. Al encontrarse el factor de transcripción Spo0A fosforilado
y activo, SpoOA-P induce la expresión de los genes asociados al proceso
de esporulación.
Siendo de interés estudiar, a nivel de análisis bioinformático, a

KinD ya que es capaz de fosforilar la proteína reguladora de la esporulación spo0F y, en menor medida, es
responsable de la expresión heterogénea de Spo0A durante el crecimiento logarítmico. También fosforila Spo0A en
condiciones de crecimiento de biofilm.
Análisis bioinformático
BUSQUEDA EN BASE DE DATOS
Se procedió con el análisis bioinformático de KinD mediante la búsqueda en bases de datos del National Center for
Biotechnlogy Information (NCBI).
• PubMed
La búsqueda realizada arrojó, dentro los

últimos 5 años, 37 artículos relacionados al
tema; los cuales brindaron información útil
focalizada en explicar, de manera concisa, el
desarrollo del proceso de fosforilación en dicho
sistema y la estructura de la secuencia de
interés, por ejemplo.
1
Landoni Sofía
• GenBank
Analizando los resultados obtenidos en esta base de datos se puede observar información del gen en cuestión:
-Nombre: KinD
-Ubicación en el genoma: 1,431,486...1,433,006 nt, encontrándose este gen en la cadena complementaria del
genoma completo de Bacillus subtilis.
-Longitud: 1521 nt
-GeneID: 9393000
Se descargó, además, la secuencia nucleotídica de dicho gen en formato FASTA, teniendo en cuenta la polaridad
codificante de KinD.
En la imagen a continuación se puede observar que la secuencia FASTA hace referencia a “genoma completo”, sin
embargo, las bases mostradas corresponden al gen en cuestión (señalado en verde) estando representadas las bases
que conforman a KinD, coincidente a la ubicación de la secuencia.
2
Landoni Sofía
Secuencia Fasta:
>NC_000964.3:c1433006-1431486 Bacillus subtilis subsp. subtilis str. 168 complete
genome
ATGTTGGAGCGATGCAAATTGAAAATACTAAAAGGCGCCTGCGGGAGAGTCAAACTTTATATCATACTGG
TCGTGATTCCGGCAATCGTCATCAGCTTTTTCGTATATGAAAAAGAAAAAGATACAATAGCTGCAGAACA
TAAACAAGAAGCAAGTGTCCTGCTAAACCTTCACCGCAACAAAATCAATTATTTAATCGGAGAAACAATG
GCGAGAATGACCTCCTTGTCCATCGCCATCGACAGACCGGTTGATATAAAGAAAATGCAATCAATTTTGG
AAAAGACCTTTGATTCAGAGCCGAGATTTTCCGGTCTCTATTTTCTCAATGCCAAAGGAGACGTCACCGC
AAGCACAACCGAATTAAAAACGAAAGTAAACCTGGCCGACAGATCTTTTTTTATAAAAGCAAAGGAAACT
AAAAAGACAGTCATTTCAGATAGTTATTCGAGCAGAATTACTGGTCAGCCAATTTTCACAATTTGTGTGC
CTGTTTTGGACTCAAAACGTAATGTGACAGATTATCTTGTCGCAGCTATTCAAATTGATTATTTGAAAAA
TCTCATTAACTTACTAAGCCCTGATGTTTATATTGAAGTTGTGAACCAAGACGGGAAAATGATTTTTGCG
AGCGGACAAGCCTCTCATGCAGAGGATCAGAAACCTGTCAGCGGATATCTGGATGATATCAGCTGGAATA
TGAAAGTCTATCCGAACCCGGTCACAATAGAAGAACTGTCGAAAAGCCTTGTGCTTCCGCTTTCATGTAT
TATTGTTCTGCTGAATATCCTTTTTATTCTCGTGCTGTATTATTTGCTGAAGCGGCAGACCCAGCTGGAG
CGCTCAGAAAACGAGGCGCAAAAATTAGAGCTGATCGGGACGCTTGCTGCCAGCACAGCCCATGAAATCC
GTAACCCCCTCACCGGGATAAGCGGCTTTATTCAGCTGTTGCAAAAGAAATATAAAGGTGAGGAAGATCA
GCTTTACTTCTCCATTATCGAACAGGAGATAAAGCGCATCAATCAAATAGTGAGTGAGTTTCTCGTTCTC
GGCAAGCCGACAGCTGAAAAATGGGAGCTGAACTCACTTCAGGACATTATCGGAGAAATTATGCCGATCA
TTTATTCTGAGGGCAATCTATACAATGTTGAAGTCGAATTACAGTATCTAACCGAGCAGCCCTTACTCGT
AAAATGTACAAAAGATCATATTAAACAAGTGATTTTAAATGTAGCAAAAAATGGCCTCGAGTCAATGCCT
GAAGGAGGCAAACTGACGATCTCCCTAGGAGCTTTAGATAAAAAAGCCATAATCAAAGTTGTGGATAACG
GTGAAGGGATTTCTCAGGAAATGCTGGATCACATCTTCCTTCCCTTTGTTACTTCTAAAGAAAAAGGAAC
CGGTCTCGGCCTTGTTGTTTGTAAACGGATCGTGCTGATGTACGGAGGCTCTATTCATATTGAAAGTGAA
GTGCGAAGAGGCACAGAGGTGACGATCACCCTCCCCGTATCCGCATCATAG
NCBI PROTEIN:
Gracias a la búsqueda en esta base de datos se pudo obtener, seleccionando una de las entradas, la secuencia
correspondiente a la proteína, es decir, la secuencia aminoacídica en formato FASTA.
Además, este análisis arrojó 661 resultados de secuencias proteicas subidas.
- Secuencia de referencia de NCBI: WP_268749395.1
>WP_268749395.1 sporulation kinase KinD [Bacillus subtilis]

MLERCKLKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRNKINYLIGETM
ARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTTELKTKVNLADRSFFTKAKET
KKTVISDSYSSRITGQPIFTICVPVLDSKRNVTDYLVAAIQIDYLKNLINLLSPDVYIEVVNQDGKMIFA
3
Landoni Sofía
SGQASHAEDQKPVSGYLDDISWNMKVYPNPVTIEELTKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLE
RSENEAQKLELIGTLAASTAHEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVL
GKPTAEKWELNSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
EGGKLTISLGALDKKAIIRVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLMYGGSIHIESE
VRRGTEVTITLPVSAS
UNIPROT
Otra búsqueda en bases de datos realizada fue en UNIPROT. Al buscar, colocando el nombre de nuestra secuencia
KinD se pueden observar cuatro resultados pertenecientes al organismo Bacillus subtilis
Seleccionándose, para analizar, la primera entrada.
Esta base de dato arroja información útil acerca de la proteína en estudio, tal como:
- Función y actividad catalítica

- Nombres y taxonomía
- Ubicación subcelular: membrana plasmática, conteniendo 2 dominios transmembrana
hélice (en la posición 298-505 - Histidina quinasa).
- Variantes: presenta, además, un residuo propenso a modificación; siendo este el 301 el cual
es una histidina que es fosforilada por auto catálisis.
- Además, indagando en profundidad dicha base de datos se pudo visualizar que la proteína
presenta una estructura cristalizada y además se ha modelado por homología utilizando AlphaFold:
4
Landoni Sofía
ALINEAMIENTOS
BlastP
Con el fin de comparar la secuencia problema (también denominada en

la literatura secuencia query) contra una gran cantidad de secuencias
que se encuentran en una base de datos se utilizó el programa BLAST. El
algoritmo encuentra las secuencias de la base de datos que tienen
mayor parecido a la secuencia problema, mediante alineamientos
locales, calculando la significancia estadística de dichas coincidencias.
La secuencia query utilizada fue WP_268749395.1 intentando comparar

diferentes parámetros de búsqueda en el alineamiento local.
Se dejaron los parámetros por default y seguido a esto se realizó otro
alineamiento modificando exclusivamente la matriz en el parámetro de
puntuación. Esto pone en evidencia una mayor divergencia entre los
resultados obtenidos, pudiendo observarlo en los valores de Score,
Identity y E-value.
Posteriormente al aliniamiento local, se proseguió a elegir 10 secuencias
con diferentes porcentajes de identidad descargando las mismas en formato FASTA múltiple. Se obtubieron valores
de E-value igual a cero, con porcentajes de identidad osilante entre 95 y 100% y valores de score altos.
GALAXY
Alineamientos múltiples - CLUSTALW
Luego de la selección de las 10 secuencias, las mismas se cargaron en Galaxy para el posterior alineamiento múltiple
utilizando clustalW. Dicha herramienta utiliza el algoritmo Needleman-Wunsch, sumando la secuencia una por una
hasta que todas estén completamente alineadas.
Utiliza un enfoque heurístico, que brinda soluciones óptimas sin analizar todas las posibles, mejorando el tiempo
de analisis. Además, calcula un árbol filogenético guía siguiendo el algoritmo de Neighbor Joining.
CLUSTAL 2.1 multiple sequence alignment
WP_080477770.1_1-506 MLERCKLKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
WP_080332205.1_1-506 MLERCKLKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVMLNLHRN
KIN32179.1_1-500 ------MKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
OIR62976.1_1-500 ------MKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
5
Landoni Sofía
OEI73959.1_1-500 ------MKILKGACGRVKLYIILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
WP_050542688.1_1-506 MLERCKLKILKGACGKVKLYMILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
WP_268400553.1_1-506 MLERCKLKILKGACGRVKLYMILVVIPAIVISFFVYEKEKDTIAAEHKQEASVLLNLHRN
:********:****:********************************:******
WP_080477770.1_1-506 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
KIN32179.1_1-500 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
OIR62976.1_1-500 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
OEI73959.1_1-500 KINYLIGETMARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
WP_050542688.1_1-506 KINYLIGETEARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
WP_268400553.1_1-506 KINYLIGETEARMTSLSIAIDRPVDIKKMQSILEKTFDSEPRFSGLYFLNAKGDVTASTT
********* **************************************************
WP_080477770.1_1-506 ELKTNVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRNVTDYLVAAI
WP_015252216.1_1-506 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRNVTDYLVAAI
KIN32179.1_1-500 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRNVADYLVAAI
OIR62976.1_1-500 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKQNVTDYLVAAI
OEI73959.1_1-500 ELKTKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKQNVTDYLVAAI
WP_050542688.1_1-506 ELKMKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRDVTNYLAAAI
WP_268400553.1_1-506 ELKMKVNLADRSFFTKAKETKKTVISDSYSSRITGQPIFTICVPVLDSKRDVTNYLVAAI
***a:********************************************::*::**.***
WP_080477770.1_1-506 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASHAEDQKPVSGYLDDISWNMKVYPNP
WP_182932251.1_1-506 QVDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASHAEDQKPVSGYLDDISWNMKVYPNP
KIN32179.1_1-500 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGPASHAEDQKPVSGYLDDISWNMKVYPNP
OIR62976.1_1-500 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASHVKDQKPVSGYLDDISWNMKVYPNP
OEI73959.1_1-500 QIDYLKNLINLLSPDVYIEVVNQDGKMIFASGQASRVKDQKPVSGYLDDISWNMKVYPNP
WP_050542688.1_1-506 QIDYLKNLINLLSPDVYIEVVNQDGKMIFSSGQASHAIDQKPVSGYLDDISWNMKVYPNP
WP_268400553.1_1-506 QIDYLKNLINLLSPDVYIEVVNQDGKMIFSSGQPSHAIDQKPVSGYLDDISWNMKVYPNP
*:***************************:** .*:. **********************
WP_080477770.1_1-506 VTIEELTKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
WP_015252216.1_1-506 VTIEELSKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
KIN32179.1_1-500 VTIEELTKSLVLPLSCIIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
OIR62976.1_1-500 VTIEELTKSLVLPLSCSIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
OEI73959.1_1-500 VTIEELTKSLVLPLSCSIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
WP_050542688.1_1-506 VTIEELTRSLVLPLSCSIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
WP_268400553.1_1-506 VTIEELTKSLVLPLSCSIVLLNILFILVLYYLLKRQTQLERSENEAQKLELIGTLAASTA
******::******** *******************************************
WP_080477770.1_1-506 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
KIN32179.1_1-500 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
OIR62976.1_1-500 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
OEI73959.1_1-500 HEIRNPLTGISGFIQLLQKKYKGEEDQLYFSIIEQEIKRINQIVSEFLVLGKPTAEKWEL
************************************************************
6
Landoni Sofía
WP_080477770.1_1-506 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
KIN32179.1_1-500 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
OIR62976.1_1-500 NSLQDIIGEIMPIIYSEGNLYNVEVELQHLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
OEI73959.1_1-500 NSLQDIIGEIMPIIYSEGNLYNVEVELQYLTEQPLLVKCTKDHIKQVILNVAKNGLESMP
****************************:*******************************
WP_080477770.1_1-506 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
WP_268749395.1_1-506 EGGKLTISLGALDKKAIIRVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
KIN32179.1_1-500 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
OIR62976.1_1-500 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
OEI73959.1_1-500 EGGKLTISLGALDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
WP_050542688.1_1-506 EGGKLTISLGTLDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
WP_268400553.1_1-506 EGGKLTISLGTLDKKAIIKVVDNGEGISQEMLDHIFLPFVTSKEKGTGLGLVVCKRIVLM
**********:*******:*****************************************
WP_080477770.1_1-506 YGGSIHIESEVRRGTEVTITLPVSAS
KIN32179.1_1-500 YGGSIHIESEVRRSTEVTITLPVSAS
OIR62976.1_1-500 YGGSIHIESEVRRGTEVTITLPVSAS
OEI73959.1_1-500 YGGSIHIESEVRRGTEVTITLPVSAS
WP_268400553.1_1-506 YGGSIHIESEVRRGTEVTITLPISAS
*************.********:***
Podemos notar que si bien las secuencias presentan una gran similitud entre ellas, la presencia de gaps y de
intercambio de aminoacidos, ya sea de la misma o de distinta naturaleza, se hace visible.
Además, observamos en dicho alineamiento múltiple símbolos marcados en diversos colores, los cuales
representan:
A: Los espacios vacíos representan posiciones en las que no hubo coincidencias en todas las secuencias.
- : Representa los gaps.
* : Los asteriscos informan sobre coincidencia entre todas las secuencias para ese aminoácido.
: : Este símbolo manifiesta la presencia de aminoácidos que son fuertemente equivalentes por sus características
químicas (es decir que presentan una altra conservación).
. : El punto individual representa a los aminoácidos que son levemente equivalentes por lo que se considera a esa
posición como levemente conservada.
7
Landoni Sofía
DOTLET JS
Dicho programa permite comparar dos secuencias de

nucleótidos o aminoácidos y además provee una
representación gráfica de las similitudes y diferencias entre las
secuencias, con la posibilidad de obtener alineamientos
alternativos y estudiar la organización de las secuencias
respecto de inserciones, deleciones, repeticiones y otras
características de su arquitectura.
Se seleccionó, al igual que en los alineamientos locales, una

matriz blosum45 para lograr ver una mayor divergencia entre
las dos secuencias elegidas.
Como se puede observar en la imagen, notamos que la similitud

entre secuencias es muy alta.
Sequence Logo
Para la realización de este gráfico, el cual es una representación gráfica de un alineamiento múltiple de secuencias,
se seleccionaron las mismas 10 secuencias aminoácidicas arrojadas por el alineamiento múltiple realizado en
ClustalW.
Cada uno consta de “pilas” de símbolos, una para cada posición en la secuencia. La altura total de la pila indica la
conservación de la secuencia en esa posición, mientras que la altura de los símbolos dentro de la pila muestra la
frecuencia relativa de cada elemento en esa posición.
Se tomó un sector de las secuencias representativo (desde el primer aminoácido hasta el aminoácido 50) pudiendo
ver la representanción de gaps y de sustición de aminoácidos en dicho gráfico.
Puede observarse que las regiones que comprenden los residuos 23 y 50 presentan un alto grado de conservación
(se puede ver un solo elemento que abarca la totalidad de la altura de la pila para esa posición). Mientras que en el
primer extremo de la secuencia encontramos un grado de conservación menor.
Ejemplificando dichas situaciones, si nos detenemos en el aminoácido 7 y 21 podemos ver que la Leucina y la
Isoluecina presentan una frecuencia relativa mayor a la Metionina respectivamente.
ANÁLISIS ESTRCUTURAL DE BIOMOLÉCULAS
Análisis estrucutura primaria
8
Landoni Sofía
Compute pI/Mw
Permite estimar teóricamente el punto isoeléctrico (pI) y el peso molecular (Mw) de diferentes proteínas
unicamente colocando como entrada la secuencia de interés en formato FASTA en dicha herramienta.
Valores obtenidos para la secuencia aminoacídica de interés (WP_268749395.1)
- Punto isoeléctrico: 6,70

- Peso molecular: 56734,28
SignalP
Dicha herramienta bioinformática nos brinda información acerca de la posibibilidad de que la sencuencia de interés
presente peptidos señal y sus posibles sitios de clivaje. El gráfico que se observa arroja valores de probabilidad para
CS (sitio de clivaje); LIPO, TAT y SP (representan la probabilidad de que X fragmento de la secuencia pueda ser un
péptido señal).
Como se puede visualizar en la imagen obtenida luego del análisis podría existir la presencia de un péptido señal,
con un sitio de clivaje ubicado entre en el residuo 40 y 50. Sin embargo, dado los valores extramadamente bajos de
probabilidad, no sería adecuado afirmar que corresponde a tal estrucutra.
Por su parte el valor de probabilidad para el parámetro OTHER (el cual representa la probabilidad de que la
secuencia sea cualquier otra cosa diferente a un péptido señal) adquiere un alto valor, cercano a 1 a lo largo de toda
la secuencia. Por tal motivo podemos casi asegurarnos que esta proteína carece de péptidos señal.
TMHMM
Predice la existencia de hélices transmembrana en las secuencias aminoacídicas de interés. La secuencia

WP_268749395.1 presenta dos dominios transmembrana entre los residuos 19 y 36 la primera hélice y la segunda
hélice entre los dominios 251 y 273.
9
Landoni Sofía
Análisis estructura secundaria
GOR
Este análisis se realiza a través de la cuarta versión del método GOR,

basado en la teoría de información, prediciendo estructuras del tipo alfa
hélices, láminas beta y loops.
La proteína en cuestión presenta alfa hélices como conformación

mayoritaria en su estructura secundaria, seguida de estructuras más
desorganizadas como las “random coil”
PROTEUS2
Es un servidor web diseñado para otorgar predicciones integrales de estructuras de proteínas y la anotación basada
en estas. Esta herramienta acepta secuencias únicas (para estudios dirigidos) o secuencias múltiples (para la
anotación completa del proteoma) y predice la estructura secundaria y, si es posible, terciaria de la(s) proteína(s)
de interés. A diferencia de la mayoría de las otras herramientas o servidores, PROTEUS2 agrupa la identificación de
péptidos señal, la predicción de hélice transmembrana, la predicción de hebras beta transmembrana, la predicción
de estructura secundaria (para proteínas solubles) y el modelado de homología en una sola ventana de predicción.
10
Landoni Sofía
Se muestra, la secuencia proteica completa con la ubicación

específica para cada una de las estructuras predichas por la
herramienta.
Al igual que en GOR se puede observar la predicción del tipo de

estructura secundaria que adquiere dicha proteína.
La primera línea representada en la imagen muestra la

secuencia query, la segunda la estructura predicha y la tercera
el score obtenido para dicha predicción.
En su mayoría los valores de score son altos, por lo que

podríamos hablar de una buena predicción.
Análisis estructura terciaria
IUPRED2
IUPred2A es una interfaz web combinada que permite identificar regiones desordenadas de la estructura terciaria
y regiones de unión desordenadas de la proteína. El objetivo principal de IUPred2 es identificar regiones proteicas
intrínsecamente desordenadas, es decir, regiones que carecen de una estructura monomérica estable en
condiciones nativas; basado en un modelo fundamentado en la biofísica. El usuario puede introducir cualquier
secuencia de proteínas e IUPred devuelve una puntuación entre 0 y 1 para cada residuo, correspondiente a la
probabilidad del residuo que forma parte de una región desordenada.
El resultado que arroja IUPRED es un gráfico que muestra la tendencia al desorden de cada residuo en la proteína
dada, donde corresponden valores más altos a una mayor probabilidad de desarreglo.
Los valores de probabilidad para todos los residuos se encuentran por debajo del score 0.5 lo cual nos permite
concluir que la proteína analizada carece de regiones desordenadas.
11
Landoni Sofía
AlphaFold2
AlphaFold es un sistema de inteligencia artificial desarrollado por DeepMind que predice la estructura 3D de una
proteína a partir de su secuencia de aminoácidos con una precisión casi experimental en la mayoría de los casos.
Dicha herramienta bioinformática fue capaz de mejorar en gran medida la precisión de la predicción de la estructura
mediante la incorporación de nuevas arquitecturas de redes neuronales y procedimientos de entrenamiento
basados en las restricciones evolutivas, físicas y geométricas de las estructuras de proteínas.
Las coordenadas 3D de todos los átomos pesados para una proteína dada, son predichas utilizando la secuencia de
aminoácidos primarios y secuencias alineadas de homólogos como entradas.
Colocando nuestra secuencia query y pidiéndole al programa que corra una dicha cantidad de estructuras relajadas
(1), se obtuvo el modelado de 5 estructuras diferentes:
En donde podemos visualizar que el mejor modelo predicho es el 4 debido a su alto valor pLDDT (88,8) en
comparación al resto de los modelos. Dicho valor, predicted local-distance difference test, da la precisión final por
residuo de la estructura comparándola con la posición del carbono alfa de la estructura de interés.
Modelo con mayor pLDDT predicho por AlphaFold
Como se puede notar en dicha

imagen la predicción obtenida de la
estructura terciaria de la proteína
de interés presenta una
confiabilidad, en casi su totalidad,
muy alta.
12
Landoni Sofía
Visualización de la estructura proteica
PyMoL
PyMOL es una herramienta de visualización de fuente abierta disponible para biología estructural. Esta es apropiada
para producir imágenes 3D de alta calidad de moléculas pequeñas y de macromoléculas biológicas, como las
proteínas.
Se optó, en primera instancia, por tomar dos de los modelos arrojados por AlphaFold, para poder realizar una
comparación desde lo experimental obtenido con otra herramienta bioinformática.
Se seleccionó de esta manera el mejor modelo predicho por AlphaFold y

el peor, siendo estos, el 4 y el 5 respectivamente.
Seguido a esto se realizó el alineamiento con dicha herramienta y se

calculó el valor de RMSD.
Dicho valor representa una distancia media cuadrática mínima entre las
estructuras básicas de las proteínas superpuestas. Mientras mayor sea el
valor de RMSD obtenido, mayores son las diferencias.
Si bien el RMSD adquiere un valor alto positivo, podríamos decir que las
diferencias no son tan significativas ya que hablamos de modelos que
eran divergentes entre ellos.
Luego, desde PDB, se seleccionaron dos estructuras

cristalizadas pertenecientes a la secuencia
aminoacídica de KinD, para realizar el alineamiento
entre ellas.
Obteniendo un valor de RMSD muy pequeño, por lo que se puede inferir

que ambas estructuras presentan una gran similitud entre ellas.
Por último y para finalizar el análisis a nivel de estructura de la proteína, se seleccionó el mejor modelo obtenido
por AlphaFold (modelo 4) y la primera salida obtenida en PDB.
Pudiendo concluir, gracias al valor tan alto de RMSD obtenido, que

dichas secuencias aminoacídica (la obtenida mediante AlphaFold y la
estructura cristalizada tomada desde PDB) presentan una gran
divergencia entre ellas, afirmando que si bien AlphaFold es una gran
herramienta para predecir estructuras tercerías, presentan grandes
diferencias con las estructuras obtenidas mediante métodos
experimentales, como por ejemplo la cristalización.
13
Landoni Sofía
INTERACCIONES – ANÁLISIS DE REDES BIOLÓGICAS
String
STRING es una base de datos de interacciones proteína-proteína conocidas y predichas. Las interacciones incluyen
asociaciones directas (físicas) e indirectas (funcionales); Se derivan de la predicción computacional, de la
transferencia de conocimientos entre organismos y de interacciones agregadas de otras bases de datos (primarias).
La red obtenida al poner como entrada nombre de la proteína KinD fue
Cabe aclara antes del análisis que cada uno de las esferas en dicha red representa una proteína. La esfera que
adquiere color rojo es la secuencia aminoacídica de interés. Las líneas que unen nodos representan las interacciones
proteína-proteína provistas por literatura y una mayor cantidad de líneas aporta más información y credibilidad a la
interacción descripta.
En donde se settiaron diversos parámetros tales como:
- Puntuación mínima de interacción requerida: confianza alta (0,700)

- Número máximo de interacciones a mostrar: en la primera esfera de coordinación se seleccionaron no más
de 20 interacciones y en la segunda esfera de coordinación no más de 5.
14
Landoni Sofía
Gracias al análisis de las interacciones pertenecientes a dicha red, puede verse la estrecha relación entre los
elementos de la cascada de fosforilación a la que pertenece la proteína en estudio. Se muestran las diferentes
quinasas sensoras (kinA, kinC, kinD y kinE), además de los factores de transcripción Spo0A, Spo0B y Spo0F. Este
último factor de transcripción presenta una interacción muy alta con nuestra proteína de interés lo que tiene
muchísimo sentido por lo planteado anteriormente en la introducción.
CONCLUSIÓN
La bioinformática tiene un papel central en muchas áreas de la investigación. La misma es esencial para proteómica,
permitiendo el análisis de secuencias de proteínas con el fin de determinar motivos funcionales, para la obtención
de estructura de proteínas, interacciones proteína-proteína, entre otras. Esta versatilidad ha permitido que hoy en
día sea utilizada para el diseño y el descubrimiento de nuevas secuencias, fármacos, medicamentos, plaguicidas.
Gracias a dichas herramientas, como las utilizadas en el presente trabajo práctico, a partir de una simple secuencia
de aminoácidos se logró conseguir las características, estructuras y propiedades de la proteína de interés, las cuales
resultan útiles a la hora de poner en marcha un proyecto de investigación, fomentando de esta manera la
accesibilidad y la facilidad que la bioinformática brinda para el desarrollo de la ciencia en general.
15

Introducción A La Bioinformática, Landoni Sofia

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción A La Bioinformática, Landoni Sofia

Cargado por

Copyright:

Formatos disponibles

Landoni Sofía

Profesor: Tadeo Enrique Saldaño

Además, estas quinasas fosforilan a Spo0F y este transfiere

Siendo de interés estudiar, a nivel de análisis bioinformático, a

La búsqueda realizada arrojó, dentro los

- Secuencia de referencia de NCBI: WP_268749395.1

>WP_268749395.1 sporulation kinase KinD [Bacillus subtilis]

Seleccionándose, para analizar, la primera entrada.

- Función y actividad catalítica

Con el fin de comparar la secuencia problema (también denominada en

La secuencia query utilizada fue WP_268749395.1 intentando comparar

Alineamientos múltiples - CLUSTALW

- : Representa los gaps.

Dicho programa permite comparar dos secuencias de

Se seleccionó, al igual que en los alineamientos locales, una

Como se puede observar en la imagen, notamos que la similitud

ANÁLISIS ESTRCUTURAL DE BIOMOLÉCULAS

Análisis estrucutura primaria

Valores obtenidos para la secuencia aminoacídica de interés (WP_268749395.1)

- Punto isoeléctrico: 6,70

Predice la existencia de hélices transmembrana en las secuencias aminoacídicas de interés. La secuencia

Análisis estructura secundaria

Este análisis se realiza a través de la cuarta versión del método GOR,

La proteína en cuestión presenta alfa hélices como conformación

Se muestra, la secuencia proteica completa con la ubicación

Al igual que en GOR se puede observar la predicción del tipo de

La primera línea representada en la imagen muestra la

En su mayoría los valores de score son altos, por lo que

Análisis estructura terciaria

Modelo con mayor pLDDT predicho por AlphaFold

Como se puede notar en dicha

Visualización de la estructura proteica

Se seleccionó de esta manera el mejor modelo predicho por AlphaFold y

Seguido a esto se realizó el alineamiento con dicha herramienta y se

Luego, desde PDB, se seleccionaron dos estructuras

Obteniendo un valor de RMSD muy pequeño, por lo que se puede inferir

Pudiendo concluir, gracias al valor tan alto de RMSD obtenido, que

INTERACCIONES – ANÁLISIS DE REDES BIOLÓGICAS

La red obtenida al poner como entrada nombre de la proteína KinD fue

En donde se settiaron diversos parámetros tales como:

- Puntuación mínima de interacción requerida: confianza alta (0,700)

También podría gustarte