Está en la página 1de 25

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE CIENCIAS BIOLÓGICAS

ESCUELA DE MICROBIOLOGÍA Y PARASITOLOGÍA

LABORATORIO DE BIOLOGÍA MOLECULAR

ANÁLISIS BIOINFORMÁTICO DE SECUENCIA PROTÉICAS

Profesor: Gustavo Sandoval

Integrantes:

NAMÓ ASENCIO, Carlos Enrique 18100049

ORIHUELA DIAZ, Víctor Franklin 18100145

ZULUAGA SUCAPUCA, Seshia 18100156

Horario: viernes 8:00 – 12:00 pm

Aula: 101

2019-II
I. INTRODUCCION

La comunidad científica que realiza investigación dentro del área biológica, en el afán de

encontrar respuestas a estudios de la estructura molecular y las secuencias de ADN, día a

día se enfrenta a mayores retos que implican el manejo de enormes volúmenes de datos

que crecen de manera exponencial en tamaño y complejidad, debido a los avances

tecnológicos que permiten hacer cálculos más precisos. Afortunadamente, el desarrollo

tecnológico tanto en el ámbito de la electrónica como el desarrollo de software y las

telecomunicaciones han permitido un avance significativo en las técnicas para el

procesamiento y análisis inteligente de los datos, beneficiando los estudios científicos que

permiten conocer mejor las estructuras de los organismos vivos. La complejidad que

conlleva el manejo de grandes volúmenes de datos exige de procesos computacionales

con alto nivel de desempeño en cuanto a espacio y tiempos de respuesta.

Bioinformática

Para poder conocer cómo es que es el procedimiento y que herramientas se utiliza, se hace

uso de la bioinformática, las tareas más importantes de las que se ocupa la bioinformática

consisten en entender las correlaciones, las estructuras y los patrones en los datos

biológicos. En los últimos años, la Bioinformática ha atraído la conjugación de varias

disciplinas, entre las que están la informática, las matemáticas, la estadística, la química

y las ciencias biológicas no tradicionales.

 Alcance de la Bioinformática

La Bioinformática se compone de dos subcampos complementarios entre sí:

 El desarrollo de herramientas informáticas y bases de datos


 La aplicación de estas en la generación de conocimientos biológicos para

comprender mejor los sistemas vivos

 ¿Cómo se puede aplicar la Bioinformática?

La bioinformática no solo se ha convertido en una ciencia esencial para la

genómica básica y la investigación en biología molecular, también esta teniendo

un gran impacto en muchas áreas de la biotecnología y las ciencias biomédicas.

Tecnologías computacionales aplicadas a la bioinformática

La biología al igual que todas las ciencias que son base de la investigación científica,

proveen (dependiendo de los objetivos planteados) grandes volúmenes de información

que requieren de técnicas computacionales avanzadas para permitir hacer procesamiento

en tiempo real.

Muchas de estas técnicas se enmarcan dentro de temas de investigación y desarrollo

informático que tienen que ver con el almacenamiento y procesamiento de datos, entre

las

cuales podemos mencionar las bases de datos (BD)relacionales y semánticas, las bodegas

de datos, minería de datos y algunas técnicas de inteligencia artificial, entre otras.

 Bases de datos biológicas

Con base en su contenido, las bases de datos biológicas se pueden dividir en tres

categorías:
 Bases de datos primarias, las cuales contienen datos biológicos originales.

Son archivos de secuencia en bruto o datos estructurales (GenBankm y

Protein Data Bank).

 Bases de datos secundarias que contienen información procesada

computacionalmente, con base en datos primarios. (Swiss-Prot y PIR).

 Bases de datos especializadas, aquellas que atienden a un interés de

investigación en particular (Flybase)

 Bodegas de Datos

Un Data Warehouse (DW) es un conjunto de datos integrados orientados a una

materia, que varían con el tiempo y que no son transitorios, los cuales soportan el

proceso de toma de decisiones de la administración.

Ligand Depot es una fuente de datos integrados para encontrar información acerca

de moléculas pequeñas, proteínas y ácidos nucleicos. Se centra en proporcionar

información química y estructural para pequeñas moléculas.

 Minería de Datos en Bioinformática

La minería de datos se orienta hacia el estudio de técnicas para extraer

información valiosa de una gran cantidad de datos biológicos. Para ello, son

necesarias herramientas de software eficientes que permitan recuperar daros,

comparar secuencias biológicas, descubrir patrones y visualizar el descubrimiento

del conocimiento.
Entre las técnicas de minería de datos en bioinformática mas comunes se pueden

destacar:

 KDD, que es el proceso completo de extracción de conocimientos, no

triviales, previamente desconocidos y potencialmente útiles a partir de un

conjunto de datos.

 Minería textual o KDT, que se orienta a la extracción de conocimiento a

partir de datos (no estructurados en lenguaje natural).

 Estadística en la minería de datos, que se puede dividir en dos grupos:

aprendizaje supervisado y no supervisado.

Las herramientas de software que facilitan la investigación en bioinformática

pueden clasificarse en cuatro clases:

 Herramientas de recuperación de datos. Por ejemplo, Entrez, que es un

sistema integrado de datos de recuperación desarrollado por la NCBI que

proporciona un acceso integrado a una amplia gama de dominios de datos.

 Comparación de la secuencia y las herramientas de alineación, un ejemplo

es BLAST, que realiza búsquedas en la totalidad de una base de datos no

redundante en poco tiempo.

GenBank y EMBL, son dos de las herramientas principales de gestión de

bases datos biológicas para alineamiento local por pares de secuencias.


FASTA se puede utilizar para hacer una comparación rápida de proteínas

o de nucleótidos. Alcanza un alto nivel de sensibilidad para la búsqueda

de similitud mediante la realización de búsquedas optimizadas.

Para la alineación de secuencias múltiples, la herramienta disponible es

ClustalW, la cual se puede utilizar para alinear las secuencias de ADN o

de proteínas con el fin dilucidar sus relaciones, así como su origen

evolutivo.

 Herramienta de descubrimiento de patrones, que utilizan para buscar

patrones o características de los datos. Análisis de Cluster es una

herramienta que se utiliza para encontrar grupos en un determinado

conjunto de datos de tal manera que los objetos en el mismo grupo sean

similares entre sí y diferentes a los de otros grupos.

 Herramienta de visualización, perminten una visualización interactiva y

grafica de los datos genómicos. Los mas grandes paquetes de análisis, tales

como Expression Profiler y GeneQuiz, tienen una herramienta de

visualización integrada en ellos.

II. PROCEDIMIENTO

Una vez obtenida la secuencia (en este caso proporcionada por el profesor),

se procede a utilizar los programas mencionados: PROTPARAM Y

UNIPROT:
a) Copiar la secuencia en PROTPARAM > Compute parameters

b) Se obtiene la secuencia de aminoácidos ordenados, además de una

serie de características que deberán ser analizadas:

Los aminoácidos son


agrupados automáticamente
de 10 en 10 y luego en filas de
60 para poder visualizar y
contabilizar; en este caso hay
503 aminoácidos. También es
calculado el peso molecular:
AMINOÁCIDO NOMENCLATURA CANTIDAD PORCENTAJE

(%)

Alanina A 36 7.2

Arginina R 44 8.7

Asparagina N 28 5.6

Aspartato D 30 6.0

Cisteina C 10 2.0

Glutamina Q 17 3.4

Ácido glutámico E 25 5.0

Glicina G 26 5.2

Histidina H 13 2.6

Isoleucina I 24 4.8

Leucina L 34 6.8

Lisina K 20 4.0

Metionina M 15 3.0

Fenilalanina F 25 5.0

Prolina P 23 4.6

Serina S 57 11.3

Treonina T 22 4.4

Triptófano W 05 1.0

Tirosina Y 13 2.6

Valina V 36 7.2
La Serina es el aminoácido más abundante de todos y desempeña un importante papel

en la función catalítica de muchas enzimas. Se observa que esta proteína podría tener

funciones catalíticas.

Quiere decir que, a este


pH, la biomolécula se
vuelve insoluble y fácil de
extraer de una muestra.

Se observa la
composición y la fórmula
molecular con el conteo
de átomos de la proteína

Importantes datos: Esta proteína está


presente en los reticulocitos de los mamíferos
(antecesores de los glóbulos rojos) por 30
horas, en las levaduras por 20 horas y en la
bacteria gramnegativo Escherichia coli por 10
horas.
c) Se abre la plataforma Unitprot > BLAST y se copia la misma

secuencia problema, luego Run BLAST.

III. RESULTADOS

PROTPARAM

Gráfico de Porcentaje de composición de aminoácidos

COMPOSICION DE AMINOACIDOS
Pyl SEC
Trp 0% 0%
Thr
1%
4%
Val Ala
7% 7% Arg Asn
Ser 9% 6%
12%
Asp
Pro 6%
5%
 Cantidad de residuos cargados
Glu Cys
Lys 5% 2%
Gly
4% Leu His
Phe Ile 5%
7% 5% 3% Gln
5%
3%
Met
3%

Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu
Lys Met Phe Pro Ser Thr Trp Val Pyl SEC
0
64

62

60

58 64

56 0

54 55
52

50
N° total de residuos con carga N° total de residuos con carga
negativa (Asp + Glu) positiva (Arg + Lys)

Serie 1 Serie 2

 Composición Atómica

4500
3887
4000

3500

3000
2468
2500

2000

1500

1000 731 751

500
25
0
Carbono Hidrogeno Nitrogeno Oxigeno Azufre

Serie 1
IV. DISCUSION SOBRE PROTPARAM

 Para el Grafico de Porcentaje de composición de aminoácidos

 El 80% de estos nutrientes se producen en el hígado, son los

llamados aminoácidos no esenciales y el restante debe

proveerse a través de la dieta y reciben el nombre de

aminoácidos esenciales.

 En principio existen aminoácidos que aparecen muy raramente

lo cual no debería afectar a los programas y servicios

bioinformáticos existentes salvo en casos excepcionales.

 Para herramientas como BLAST o FASTA, que dependen de

una matriz de pesos de los aminoácidos para realizar los

alineamientos, estos aminoácidos se mapean como

desconocido

 Para el grafico de columnas sobre Cantidad de residuos cargados

Aunque la estructura representada en el esquema general de un

aminoácido y sus estados iónicos en disolución sea formal mente

correcta, no representa el estado real en que se encuentra la molécula

de disolución acuosa, pues los grupos acido tienden a ceder protones

quedando un grupo carboxilo de carga negativa (-COO), y los grupos

amino tienden a captar protones quedando un grupo amonio de carga

positiva (-NH3).
 La comparación de las columnas nos muestra la cantidad de Aa

no esenciales (Arginina y Lisina) los cuales se encuentran en

una proporción de 64 residuos con carga positiva mientras que

los Aa no esenciales polares de la primera columna (Aspartato

y Glutamato) que se mantienen con una cantidad de 55 residuos

con carga negativa.

 Para el grafico de columnas sobre Composición Atómica

 PROTPARAM calculo el número de átomos y la formula

química de la proteína hipotética. Los valores se pueden

observar en el gráfico.

Elemento No. De átomos Formula química

Carbono C 2468

Hidrogeno H 3887

Oxigeno O 751

Nitrógeno N 731 𝐶2468 𝐻3887 𝑂751 𝑁731 𝑆25

Azufre S 25

TOTAL, ATOMOS
INTERPRETACIÓN DE DATOS EN UNIPROT

Mediante el uso del programa el total de secuencias más con mayor coinciden es de 250

resultados.

Identity

En esta categoría miramos el porcentaje de identidad que tiene la secuencia dada con los

aminoácidos de cadenas proteica que el sistema posee, por ende, los resultados son

ordenados de acuerdo a ese criterio.

En la imagen anterior observamos que los dos primero poseen una identidad al 100%;

sin embargo, la diferencia entre estos radica en la cantidad de secuencia comparada,

siendo que en la proteína D3YT61_CAEEL - Cell death protein 3 subunit p17

igualmente perteneciente al nematodo Caenorhabditis elegans la lectura solo se dio a un

aproximado de 57.05% del total de la secuencia puesta originalmente, esto según


cálculos del total de aminoácidos (503 aminoácidos) en comparación a los comparados

con esta proteína (287 aminoácidos).

Score

El Score es dado por la suma de valores designados a cada aminoácido, de tal modo que

cuando se hace el alineamiento cada uno de los aminoácidos que coinciden pasan a

tener un valor ya dados para después sumarse y generar una cifra que representara al

Score. Así es como en la siguiente imagen se muestran los 15 alineamientos con los

scores más altos.

En la siguiente imagen a presentar se vera de mejor forma las 5 primeras alineaciones,

donde los scores estan dados.


A lo que se puede ver que, comparado a lo visto en la categoría Identity, en esta el

alineamiento de secuencias en mayor al 80%.

E-value

En la evaluación del E-Value tendremos en cuenta que entre mas bajo signifique este,

mayor valor significativo tendrán las secuencias alineadas (Pundir, Martin y

O’Donovan; 2016), de este modo mostraremos los últimos 15 resultados de la lista.


Elección de dos resultados para la comparación:

Dando una revisión a las categorías analizadas, resalta de manera automática la elección

de la Cell death protein 3 (UniProtKB - P42573 (CED3_CAEEL)) perteneciente a la

Caenorhabditis elegans, que también posee el logo ( ) Que nos da la certeza de que

esta revisado por la página, que de manera más sencilla está avalado como un buen

alineamiento. Y para la comparación de los resultados nos redirigimos más abajo donde

vemos a otra proteína que posee el logo de review, la cual es la Cell death protein 3

(UniProtKB - P45436 (CED3_CAERE)) perteneciente al nematodo Caenorhabditis

remanei, que posee un porcentaje de identidad de 84.5%, un score de 2,211 y un E-

Value de 0.0 lo hace una opción mas que viable para la comparación.

RESULTADOS

1. Función:

a. Cell death protein 3 (UniProtKB - P42573 (CED3_CAEEL))

Actúa como una proteasa de cisteína en el control de la muerte celular programada

(apoptosis) mediante la activación o inactivación proteolítica de una amplia gama de

sustratos.

Componente de la cascada de señalización apoptótica egl-1, ced-9, ced-4 y ced-3

requerida para el inicio de la muerte celular programada en células destinadas a morir

durante el desarrollo embrionario y postembrionario.

Durante la ovogénesis, requerida para la apoptosis de la línea germinal aguas abajo de

ced-9 y ced-4 pero independientemente de egl-1


b. Cell death protein 3 (UniProtKB - P45436 (CED3_CAERE))

Actúa como una cisteína proteasa en el control de la muerte celular programada

(apoptosis) mediante la activación o inactivación proteolítica de una amplia gama de

sustratos.

Componente de la cascada de señalización apoptótica egl-1, ced-9, ced-4 y ced-3

requerida para el inicio de la muerte celular programada en células destinadas a morir

durante el desarrollo embrionario y postembrionario

2. Nombres y taxonomia:

a. Cell death protein 3 (UniProtKB - P42573 (CED3_CAEEL))

Nombres de Nombre Recomendado:

las proteínas Cell death protein 3

Nombre alternativo:

 Caspase ced-3

Dividido en 3:

 Cell death protein 3 subunit p17

 Cell death protein 3 subunit p15

 Cell death protein 3 subunit p13

Nombre de Nombre: ced-3

los genes ORF Names: C48D1.2

Organismo Caenorhabditis elegans

Identificador
6239 [NCBI]
Taxonómico
Eukaryota › Metazoa › Ecdysozoa › Nematoda › Chromadorea ›
Línea
Rhabditida › Rhabditina › Rhabditomorpha › Rhabditoidea ›
Taxonómica
Rhabditidae › Peloderinae › Caenorhabditis

Proteomas UP000001940 Component: Chromosome IV

b. Cell death protein 3 (UniProtKB - P45436 (CED3_CAERE))

Nombres de Nombre Recomendado:

las proteínas Cell death protein 3

Nombre alternativo:

 Caspase ced-3

Dividido en 3:

 Cell death protein 3 subunit p17

 Cell death protein 3 subunit p15

 Cell death protein 3 subunit p13

Nombre de Nombre: ced-3

los genes ORF Names: CRE_10123

Organismo Caenorhabditis remanei (Caenorhabditis vulgaris)

Identificador
31234 [NCBI]
Taxonómico

Eukaryota › Metazoa › Ecdysozoa › Nematoda › Chromadorea ›


Línea
Rhabditida › Rhabditina › Rhabditomorpha › Rhabditoidea ›
Taxonómica
Rhabditidae › Peloderinae › Caenorhabditis

Proteomas UP000008281 Component: Unassembled WGS sequence


3. Localización subcelular:

a. Cell death protein 3 (UniProtKB - P42573 (CED3_CAEEL))

b. Cell death protein 3 (UniProtKB - P45436 (CED3_CAERE))

4. PTM / Processing

En ambos la actividad catalítica da paso a la aparición de dos formas adicionales a las

subunidades p15 y p13. Herramienta que nos permite ver las descripciones de las

modificaciones postraduccionales de la proteina en cuestion. Las modificaciones

postrauccionales son modificaciones quimicas estructurales que pueden ocurrir con la

participacion de enzimas o no despues de la traduccion con efectos moduladores que


puedan generar el encendido o apagado de su función biológica, cambiar su localización,

alterar su interacción con otras proteínas o determinar la degradación de una proteína.

a. Cell death protein 3 (UniProtKB - P42573 (CED3_CAEEL))

b. Cell death protein 3 (UniProtKB - P45436 (CED3_CAERE))


5. Interacción

a. Cell death protein 3 (UniProtKB - P42573 (CED3_CAEEL))

Esta sección de UNIPROT nos proporciona


información sobre la estructura
cuaternaria de una proteína y sobre las
interacciones con otras proteínas o
complejos de proteínas.

Esta información está archivada en


diferentes subsecciones. Este modelo es
tomado de la proteína de destrucción
celular 3 de Caenorhabditis elegans.

b. Cell death protein 3 (UniProtKB - P45436 (CED3_CAERE))

Esta proteína cuaternaria observada


brinda información sobre las
interacciones mostradas entre los
posibles sitios activos, debido a que es un
programador de apoptosis. Este modelo
es tomado de la proteína de
Caenorhabditis remanei.

V. CONCLUSIONES

 Se puede comprobar mediante la realización de los métodos bioinformáticos

utilizados en este laboratorio, que las proteínas estudiadas y comparadas

comparten similitudes respecto a su función, estructura, pero a la vez también

difieren en diversos aspectos ya sea función, localización y también en sus

respectivas secuencias.
 La interfaz nos proporcionó resultados en diversos formatos, prácticos para su

entendimiento para análisis estadísticos útiles adicionales y generación de

gráficos para visualización adicionales, lo cual lo encontramos útil para poder

comprender los cambios de composición y la relación funcional en la evolución

entre organismos, todo esto gracias a la comparación entre proteínas con

diferente grado de similitud.

 Otros estudios (Kumar, 12) sobre estructura y modelación de proteínas celulasa

utilizaron PROTPARAM para el entendimiento de la composición de

aminoácidos y otras propiedades fisicoquímicas, este incidió en sus resultados

del mismo modo que en esta investigación, por lo que se recomienda el empleo

de este programa por su gran utilidad para determinar los porcentajes de

aminoácidos presentes en los distintos tipos de proteínas.

 No existe una matriz única que se pueda usar siempre, se utilizan según la

familia de proteínas y el grado de similitud esperado, entre las más usadas

fueron:

 PAM:

o Derivadas de alineamientos globales de secuencias cercanamente

relacionadas

o PAM40, PAM250. A mayor N° mayor distancia evolutiva

 BLOSUM

o Derivadas de alineamientos locales de secuencias distantes

o BLOSUM90, BLOSUM45. El N° representa porcentaje de

identidad
REFERENCIAS BIBLIOGRAFICAS

Pundir, S., Martin, M. J., & O’Donovan, C. (2016). UniProt Tools. Current Protocols in

Bioinformatics, 1.29.1–1.29.15. doi:10.1002/0471250953.bi0129s53

Gasteiger, E.; Gattiker, A; Hoogland, C; Ivanyi, I; Appel, RD; Bairoch, A

(2003). "ExPASy: The proteomics server for in-depth protein knowledge and

analysis". Nucleic Acids Research. 31 (13)

https://www.todostuslibros.com/libros/bioinformatica_978-84-7978-645-8

Cairo, O. (2005). Metodología de la programación. México: Alfaomega. Decker, R. y

Hirshfield, S. (2001).

Ruth Ortega Herrero. Metabolismo del glutatión y enzimas antioxidantes frente al estrés

por metal(oid)es y otros agentes, en el ciliado-modelo "Tetrahymena thermophila".

UNIVERSIDAD COMPLUTENSE DE MADRID.2015

Bioinformatics: Sequence and Genome Analysis. Nello Cristianini and Mathew W.

Hahn. Cambridge Univ. Press 2006

También podría gustarte