Está en la página 1de 15

Bioinformática Clásica

Bioinformática Clásica

Tema 2: Bases de Datos Moleculares


Dr. Oswaldo Trelles
Universidad de Málaga
ots@ac.uma.es

Una de las primeras colecciones de secuencias fue el "Atlas of Protein Sequences and
Structures" de la Dra. Margaret Dayhoff que apareció en 1965. Contenía las secuencias
disponibles en aquel momento y llegó a ser un documento de mucha valía, publicándose hasta
los ’70s. Conforme el número de secuencias aumentaba y aparecían medios electrónicos -
diskettes, email, internet, etc.- su disponibilidad y distribución se facilitó enormemente y hoy
constituyen uno de los principales –sino el más importante- recursos bioinformático.

Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007


Nota preliminar
Bioinformática Clásica

Estrictamente hablando un sistema de gestión de bases de datos (DBMS: Database


Management System) es un software muy específico, dedicado a servir de interfaz
entre los datos, las aplicaciones y el usuario. Ello incluye disponer de un lenguaje de
definición de datos, un lenguaje de manipulación de datos y un lenguaje de consulta.

DBMS

Por razones históricas a los ficheros de secuencias biológicas se les denomina “bases de
datos de secuencias biológicas”, aunque se trate de ficheros de texto, planos (sin estructura
o semi-estructurados). Hoy en día se tiende a utilizar DBMS’s para mejorar las prestaciones
de los servidores que suministran servicios sobre estas colecciones de datos

CC -!- FUNCTION: E3 UBIQUITIN-PROTEIN LIGASE WHICH ACCEPTS UBIQUITIN FROM


CC AN E2 UBIQUITIN-CONJUGATING ENZYME IN THE FORM OF A THIOESTER AND
CC THEN DIRECTLY TRANSFERS THE UBIQUITIN TO TARGETED SUBSTRATES (BY
CC SIMILARITY). THIS PROTEIN MAY BE INVOLVED IN MATURATION AND/OR
CC POST-TRANSCRIPTIONAL REGULATION OF MRNA.
KW Ubiquitin conjugation; Ligase.
FT DOMAIN 77 88 ASP/GLU-RICH (ACIDIC).
FT DOMAIN 127 150 PRO-RICH.
FT DOMAIN 579 590 ASP/GLU-RICH (ACIDIC).
FT BINDING 858 858 UBIQUITIN (BY SIMILARITY).
SQ SEQUENCE 889 AA; 100368 MW; DD7E6C7A CRC32;
MMSARGDFLN YALSLMRSHN DEHSDVLPVL DVCSLKHVAY VFQALIYWIK AMNQQTTLDT
PQLERKRTRE LLELGIDNED SEHENDDDTS QSATLNDKDD ESLPAETGQN HPFFRRSDSM
VYEYVRKYAE HRMLVVAEQP LHAMRKGLLD VLPKNSLEDL TAEDFRLLVN GCGEVNVQML
ISFTSFNDES GENAEKLLQF KRWFWSIVER MSMTERQDLV YFWTSSPSLP ASEEGFQPMP
SITIRPPDDQ HLPTANTCIS RLYVPLYSSK QILKQKLLLA IKTKNFGFV

Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007


Bioinformática Clásica
Función de las bases de datos de secuencias
Organización. Tener los datos juntos simplifica su localización y permite trabajar
sobre ellos como un conjunto.
Accesibilidad. Disponer de los datos en formato electrónico facilita su distribución
y acceso –e.g. Internet-. De esta forma se pueden desarrollar servicios para
consultar y recuperar datos; comparar secuencias, alinearlas, etc. Incluso los
usuarios pueden desarrollar sus propias herramientas para explorar estos datos.

Acceda al enlace http://www.ncbi.nih.gov/GenBank/GenbankOverview.html

• Realice una breve inspección de los servicios del NCBI


• Acceda al enlace “Text and Similarity Searching → Entrez Browser”
• Busque en la “Nucleotide sequence database” (1) información acerca del gen “dnaA” (2)
• Observe la riqueza de la información almacenada

Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007


Bioinformática Clásica

Tipos de bases de datos moleculares


El contenido de la BD (secuencias, estructuras, expresión génica, etc.) es el primer clasificador
de un conjunto de datos. Sin embargo, podemos también atenernos a su procedencia :
Primarias: contienen información original de los objetos biológicos, por ejemplo su secuencia
(SwissProt, EMBL, GenBank, ...) o su estructura (PDB).
Secundarias: sus datos se han obtenido a partir de una base de datos primaria, (motivos de
secuencias, perfiles, modelos de Markov), sitios activos (PROSITE, PFAM, SCOP, CATH...).
Compuestas: son BD que amalgaman o integran una variedad de fuentes de datos primarias a
fin de evitar las búsquedas múltiples en diferentes fuentes (en la línea del “data warehousing”)
PDB Entry
HEADER HORMONE 08-OCT-96 2HIU
TITLE NMR STRUCTURE OF HUMAN INSULIN IN 20% ACETIC ACID,
TITLE 2 ZINC-FREE, 10 STRUCTURES
COMPND MOLECULE: INSULIN;
SWISSPROT entry DBREF 2HIU A 1 21 SWS P01308 INS_HUMAN 90 110
DBREF 2HIU B 1 30 SWS P01308 INS_HUMAN 25 54
CC -!- FUNCTION: E3 UBIQUITIN-PROTEIN LIGASE WHICH ACCEPTS
SEQRES 1 A UBIQUITIN
21 GLY ILEFROM
VAL GLU GLN CYS CYS THR SER ILE CYS SER LEU
CC AN E2 UBIQUITIN-CONJUGATING ENZYME IN THE FORM 2OF
SEQRES A A THIOESTER
21 TYR GLNANDLEU GLU ASN TYR CYS ASN
CC THEN DIRECTLY TRANSFERS THE UBIQUITIN TO TARGETED
HELIX 1 SUBSTRATES
1 ILE A (BY
2 THR A 8 1 7
CC SIMILARITY). THIS PROTEIN MAY BE INVOLVED
HELIX IN MATURATION
2 2 LEU AND/OR
A 13 TYR A 19 1 7
CC POST-TRANSCRIPTIONAL REGULATION OF MRNA.
HELIX 3 3 SER B 9 CYS B 19 1 11
KW Ubiquitin conjugation; Ligase. TURN 1 T1 GLY B 20 GLY B 23
FT DOMAIN 77 88 ASP/GLU-RICH (ACIDIC).
SSBOND 1 CYS A 6 CYS A 11
FT DOMAIN 127 150 PRO-RICH. SSBOND 2 CYS A 7 CYS B 7
FT DOMAIN 579 590 ASP/GLU-RICH (ACIDIC).
SSBOND 3 CYS A 20 CYS B 19
FT BINDING 858 858 UBIQUITIN (BY
ATOMSIMILARITY).
1 N GLY A 1 -6.132 6.735 1.016 1.00 0.00 N
SQ SEQUENCE 889 AA; 100368 MW; DD7E6C7A ATOM
CRC32; 2 CA GLY A 1 -4.686 6.753 1.376 1.00 0.00 C
MMSARGDFLN YALSLMRSHN DEHSDVLPVL DVCSLKHVAY
ATOMVFQALIYWIK
3 C AMNQQTTLDT
GLY A 1 -3.864 6.149 0.235 1.00 0.00 C
PQLERKRTRE LLELGIDNED SEHENDDDTS QSATLNDKDD ESLPAETGQN HPFFRRSDSM
VYEYVRKYAE HRMLVVAEQP LHAMRKGLLD VLPKNSLEDL TAEDFRLLVN GCGEVNVQML
ISFTSFNDES GENAEKLLQF KRWFWSIVER MSMTERQDLV YFWTSSPSLP ASEEGFQPMP
SITIRPPDDQ HLPTANTCIS RLYVPLYSSK QILKQKLLLA IKTKNFGFV
Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007
Bioinformática Clásica
Crecimiento de las bases de datos moleculares
Desde la introducción hemos definido la
bioinformática como una ciencia “rica en
datos” en la que se ha pasado de la escala
del gen a la del genoma completo.

Las tasas de crecimiento de datos son


explosivas, llegándose a duplicarse en
menos de dos años. Por ello cada vez se
requiere mayor potencia de cálculo y
mejores algoritmos para poderlos procesar.

Consulte las estadísticas actuales del EBI en http://www3.ebi.ac.uk/Services/DBStats/


STATISTICS (July 31th, 2006)
This morning the EMBL Database contained 145,244,882,849 nucleotides in 78,162,030 entries. EMBL

Breakdown by entry type:


Entry Type Entries Nucleotides
Standard 60,409,599 64,767,283,982
Constructed (CON) 819,337 n/a
Third Party Annotation (TPA) 5,114 335,353,364
Whole Genome Shotgun (WGS) 16,920,881 77,804,027,424

Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007


Bioinformática Clásica

Crecimiento de las bases de datos moleculares (2)

Aunque las tasas de crecimiento de las bases de datos de proteínas (secuencias en SwissProt) y
estructuras (PDB) no son tan espectaculares como en el caso de secuencias de ADN, la tendencia es la
misma. Es necesario tener en cuenta las mayores dificultades para la determinación de la estructura.
Actualmente se cuenta con más de 200 mil secuencias de proteínas y unas 20 mil estructuras 3D.

• Actualice los datos para secuencias de proteínas y para estructuras.


• Obtenga información acerca de los genomas completos que ya han sido secuenciados

Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007


Bioinformática Clásica

Formato de las bases de datos moleculares

Uno de los grandes problemas con que tienen que lidiar la bioinformática y en especial los
usuarios y programadores de aplicaciones, es la diversidad de formatos en que se organizan
los datos moleculares. Quizá sea el tributo a su veloz historia lo que ha impedido la
uniformidad.

El problema no es solo a nivel sintáctico (formato de los datos) sino en algunos casos lo es
también a nivel semántico, llegándose a emplear el mismo término con diferente significado.

La solución a este problema se ha abordado desde diferentes perspectivas. Por una parte las
mismas organizaciones que mantienen las BD organizan enlaces entre ellas (referencias
cruzadas) para facilitar la navegación sobre ellas. Por otro lado hay iniciativas como UniProt
para unificar diferentes contenedores de información. También se desarrollan servidores que
realizan mediación de datos de forma transparente al usuario y finalmente hay un esfuerzo
importante para utilizar gestores de bases de datos.

Desde la perspectiva del programador de aplicaciones el uso de “wrappers” es el mecanismo


actualmente más extendido, aunque es necesario recordar que cualquier cambio en el formato
de la BD inutilizará el wrapper (un wrapper es una pieza de código que permite que dos clases
diferentes o incompatibles se entiendan)

Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007


Bioinformática Clásica
Formato de las bases de datos moleculares
ID PRIO_HUMAN STANDARD; PRT; 253 AA.
AC P04156;
DT 01-NOV-1986 (Rel. 03, Created)
DE MAJOR PRION PROTEIN PRECURSOR (PRP) (PRP27-30) (PRP33-35C) (ASCR).
GN PRNP.
OS Homo sapiens (Human).
OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Ficha: proteína PRIO_HUMAN en Swiss-Prot.
OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
RN [1]
RP SEQUENCE FROM N.A. Más detalle en http://www.expasy.org
RX MEDLINE; 86300093. .
RA Kretzschmar H.A., Stowring L.E., Westaway D., Stubblebine W.H.,
RT "Molecular cloning of a human prion protein cDNA.";
[ID] Identificación
RL DNA 5:315-324(1986). [AC]Código de acceso [ AC ]
CC -!- FUNCTION: THE FUNCTION OF PRP IS NOT KNOWN. PRP IS ENCODED IN THE [DE[ Descripción y origen de la proteína
CC HOST GENOME AND IS EXPRESSED BOTH IN NORMAL AND INFECTED CELLS.
CC -!- SUBUNIT: PRP HAS A TENDENCY TO AGGREGATE YIELDING POLYMERS CALLED
[KW] Palabras clave
CC "RODS". [CC] Comentarios diversos
CC -!- SUBCELLULAR LOCATION: ATTACHED TO THE MEMBRANE BY A GPI-ANCHOR. [RX]Referencias a otras bases de datos
CC -!- DISEASE: PRP IS FOUND IN HIGH QUANTITY IN THE BRAIN OF HUMANS AND
CC ANIMALS INFECTED WITH NEURODEGENERATIVE DISEASES KNOWN AS
[FT] Características asociadas a posiciones en
CC TRANSMISSIBLE SPONGIFORM ENCEPHALOPATHIES OR PRION DISEASES, LIKE: la secuencia
CC CREUTZFELDT-JAKOB DISEASE (CJD), GERSTMANN-STRAUSSLER SYNDROME [SQ]La secuencia de aminoácidos
CC (GSS), FATAL FAMILIAL INSOMNIA (FFI) AND KURU IN HUMANS; SCRAPIE
CC IN SHEEP AND GOAT; BOVINE SPONGIFORM ENCEPHALOPATHY (BSE) IN
CC CATTLE; TRANSMISSIBLE MINK ENCEPHALOPATHY (TME); CHRONIC WASTING Se pueden identificar otros campos como
CC DISEASE (CWD) OF MULE DEER AND ELK; FELINE SPONGIFORM especie, organismo, fechas, autores, etc.
CC ENCEPHALOPATHY (FSE) IN CATS AND EXOTIC UNGULATE ENCEPHALOPATHY
CC (EUE) IN NYALA AND GREATER KUDU. THE PRION DISEASES ILLUSTRATE
CC THREE MANIFESTATIONS OF CNS DEGENERATION: (1) INFECTIOUS (2)
CC SPORADIC AND (3) DOMINANTLY INHERITED FORMS. TME, CWD, BSE, FSE, El formato es diferente según la base de datos,
CC EUE ARE ALL THOUGHT TO OCCUR AFTER CONSUMPTION OF PRION-INFECTED
CC FOODSTUFFS.
incluso para bases de datos de mismo tipo (por
KW Prion; Brain; Glycoprotein; GPI-anchor; Repeat; Signal; ejemplo, EMBL y GenBank).
KW Polymorphism; Disease mutation.
FT SIGNAL 1 22
FT CHAIN 23 230 MAJOR PRION PROTEIN.
FT PROPEP 231 253 REMOVED IN MATURE FORM (BY SIMILARITY).
SQ SEQUENCE 253 AA; 27661 MW; 43DB596BAAA66484 CRC64;
MANLGCWMLV LFVATWSDLG LCKKRPKPGG WNTGGSRYPG QGSPGGNRYP PQGGGGWGQP
HGGGWGQPHG GGWGQPHGGG WGQPHGGGWG QGGGTHSQWN KPSKPKTNMK HMAGAAAAGA
VVGGLGGYML GSAMSRPIIH FGSDYEDRYY RENMHRYPNQ VYYRPMDEYS NQNNFVHDCV
NITIKQHTVT TTTKGENFTE TDVKMMERVV EQMCITQYER ESQAYYQRGS SMVLFSSPPV
ILLISFLIFL IVG
Tema
// 2: Bases de datos moleculares Campus Virtual Andaluz, 2007
Bioinformática Clásica

Acrónimos de referencia

Los siguientes acrónimos son de uso frecuente en el ambiente de las BD de secuencias biológicas (dejo en
inglés los nombres originales de los recursos)
DDBJ DNA Data Bank of Japan (http://www.ddbj.nig.ac.jp/)
EMBL European Molecular Biology Laboratory (http://www.embl-heidelberg.de/)
GO Gene Ontology (www.geneontology.org)
NCBI National Center of Biotechnology Information (http://www.ncbi.nlm.nih.gov/)
Entrez Motor de búsqueda en BD gestionado por el NCBI (http://www.ncbi.nlm.nih.gov/Entrez)
NREF non-redundant reference databases
PDB Protein Data Bank (estructuras 3D)
PIR Protein Information Resource (http://pir.georgetown.edu)
PIR-PSD Protein Information Resource Protein Sequence Database
RefSeq Reference Sequence
Swiss-Prot BD de proteínas (http://www.expasy.ch)
TrEMBL Secuencias de proteínas obtenidas por traducción de sus correspondientes entradas en EMBL
UniParc UniProt Archive

Para más detalles revise el documento: Rolf Apweiler, Amos Bairoch and Cathy H Wu; (2004);
“Protein sequence databases”; Current Opinion in Chemical Biology 2004, 8:76–80
Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007
Bioinformática Clásica

Bases de datos de referencia


NCBI’s Entrez Protein (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db ¼Protein) contiene secuencias de
proteínas obtenidas por traducción de DDBJ, EMBL, GenBank, Swiss-Prot, PIR, RefSeq y PDB. Se diferencia
de GenPept en que incluye información de Swiss-Prot y PIR. Contiene secuencias redundantes
DDBJ La base de datos japonesas con secuencias de ADN
EMBL La base de datos europea (EMBL-Heildelberg) de secuencias de ADN
GenBank Base de datos americana (NCBI) de secuencias de ADN
PDB Información 3D de proteínas
PIR Base de datos americana de proteínas
Swiss-Prot BD de proteínas europea de proteínas .Contiene secuencias de proteínas de diferentes especies,
cuyas anotaciones son revisadas manualmente asegurando su alta calidad. Esta BD es no-redundante lo que
quiere decir que todas las anotaciones relacionadas con una determinada proteína son integradas en una sola
entrada.
TrEMBL Secuencias de proteínas obtenidas por traducción de sus correspondientes entradas en EMBL
UniParc UniProt Archive

Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007


Bioinformática Clásica

Aplicación favorita de
las Bases de Datos

Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007


El conocimiento disponible Bioinformática Clásica

Las secuencias conocidas se almacenan en Bases de Datos y están disponible –via Internet-
para la comunidad científica. El volumen de datos que se maneja jamás fue imaginado.
Además de la secuencia en sí, en las BD se almacena valiosa información sobre la función y
propiedades de la secuencia, con enlaces a otras fuentes de información sobre su estructura o
participación en determinados procesos biológicos. En muchos casos se tiene un buen registro
de las secuencias almacenadas.
Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007
Uso del conocimiento almacenado
Bioinformática Clásica

ID 100K_RAT STANDARD; PRT; 889 AA.


AC Q62671;
SeqDB DT 01-NOV-1997 (Rel. 35, Created)
DT 01-NOV-1997 (Rel. 35, Last sequence update)
DT 15-JUL-1999 (Rel. 38, Last annotation update)
DE 100 KD PROTEIN (EC 6.3.2.-).
OS Rattus norvegicus (Rat).
OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Mammalia;
New-Seq OC Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Rattus.
RN [1]
RP SEQUENCE FROM N.A.
RC STRAIN=WISTAR; TISSUE=TESTIS;
RX MEDLINE; 92253337.
RA MUELLER D., REHBEIN M., BAUMEISTER H., RICHTER D.;
RT "Molecular characterization of a novel rat protein structurally
RT related to poly(A) binding proteins and the 70K protein of the U1
RT small nuclear ribonucleoprotein particle (snRNP).";
RL Nucleic Acids Res. 20:1471-1475(1992).
RN [2]
> qNEW-SEQ 889 AA; RP ERRATUM.
RA MUELLER D., REHBEIN M., BAUMEISTER H., RICHTER D.;
SARGDFLNAA YALFFMRSHN FGHSDVLPVL CSLKHVAYWD AYQALIYWIK
RL Nucleic Acids Res. 20:2624-2624(1992).
AMNQQTDTSI TIRPPDDQAF GHHHLPTANT CISRLYVPLY SSK CC -!- FUNCTION: E3 UBIQUITIN-PROTEIN LIGASE WHICH ACCEPTS UBIQUITIN FROM
CC AN E2 UBIQUITIN-CONJUGATING ENZYME IN THE FORM OF A THIOESTER AND
CC THEN DIRECTLY TRANSFERS THE UBIQUITIN TO TARGETED SUBSTRATES (BY

Por ello, cuando se dispone de una CC


CC
SIMILARITY). THIS PROTEIN MAY BE INVOLVED IN MATURATION AND/OR
POST-TRANSCRIPTIONAL REGULATION OF MRNA.

nueva secuencia obtenida en el CC


CC
----------------------------------------------------------------------
This SWISS-PROT entry is copyright. It is produced through ...

laboratorio cuya función se quiere CC


DR
--------------- -------------------------------------------------------
EMBL; X64411; CAA45756.1; -.

conocer, la forma “bioinformática” de DR


DR
PFAM; PF00632; HECT; 1.
PFAM; PF00658; PABP; 1.

resolver el problema consiste en KW


FT
Ubiquitin conjugation; Ligase.
DOMAIN 77 88 ASP/GLU-RICH (ACIDIC).

compararla con todas las secuencias FT


FT
DOMAIN
DOMAIN
127
579
150
590
PRO-RICH.
ASP/GLU-RICH (ACIDIC).

conocidas, que se almacenan en las FT


SQ
BINDING
SEQUENCE
858 858 UBIQUITIN (BY SIMILARITY).
889 AA; 100368 MW; DD7E6C7A CRC32;

bases de datos. MMSARGDFLN YALSLMRSHN DEHSDVLPVL DVCSLKHVAY VFQALIYWIK AMNQQTTLDT


PQLERKRTRE LLELGIDNED SEHENDDDTS QSATLNDKDD ESLPAETGQN HPFFRRSDSM
VYEYVRKYAE HRMLVVAEQP LHAMRKGLLD VLPKNSLEDL TAEDFRLLVN GCGEVNVQML
ISFTSFNDES GENAEKLLQF KRWFWSIVER MSMTERQDLV YFWTSSPSLP ASEEGFQPMP
SITIRPPDDQ HLPTANTCIS RLYVPLYSSK QILKQKLLLA IKTKNFGFV
//

Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007


Asignación de función ID 100K_RAT STANDARD; PRT; 889 AA.
AC Q62671;
SeqDB DT 01-NOV-1997 (Rel. 35, Created)
DT 01-NOV-1997 (Rel. 35, Last sequence update)
DT 15-JUL-1999 (Rel. 38, Last annotation update)
DE 100 KD PROTEIN (EC 6.3.2.-).
OS Rattus norvegicus (Rat).
OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Mammalia;
New-Seq OC Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Rattus.
RN [1]
> qNEW-SEQ 889 AA; RP SEQUENCE FROM N.A.
SARGDFLNAA YALFFMRSHN FGHSDVLPVL CSLKHVAYWD AYQALIYWIK RC STRAIN=WISTAR; TISSUE=TESTIS;
AMNQQTDTSI TIRPPDDQAF GHHHLPTANT CISRLYVPLY SSK RX MEDLINE; 92253337.
RA MUELLER D., REHBEIN M., BAUMEISTER H., RICHTER D.;
RT "Molecular characterization of a novel rat protein structurally
RT related to poly(A) binding proteins and the 70K protein of the U1
RT small nuclear ribonucleoprotein particle (snRNP).";
RL Nucleic Acids Res. 20:1471-1475(1992).
RN [2]
qNEW-SEQ --SARGDFLNAA YALFFMRSHN FGHSDVLPVL RP –-CSLKHVAY WDAYQALIYW
ERRATUM.
|||||||| ||| ||||| |||||||
RA MUELLER|||||||| ||||||H., RICHTER D.;
D., REHBEIN M., BAUMEISTER
RL Nucleic Acids Res. 20:2624-2624(1992).
100K-RAT MMSARGDFLN-- YALSLMRSHN DEHSDVLPVL CC -!- DVCSLKHVAY –VFQALIYW LIGASE WHICH ACCEPTS UBIQUITIN FROM
FUNCTION: E3 UBIQUITIN-PROTEIN
CC AN E2 UBIQUITIN-CONJUGATING ENZYME IN THE FORM OF A THIOESTER AND
CC THEN DIRECTLY TRANSFERS THE UBIQUITIN TO TARGETED SUBSTRATES (BY
qNEW-SEQ IKAMNQQTDTSI --RPPDDQAF GHHHLPQAMH CC --SRLYVPHK S-SK-----
SIMILARITY). THIS PROTEIN MAY BE INVOLVED IN MATURATION AND/OR
|||||||||| ||| | || CC| |||||| | ||REGULATION OF MRNA.
POST-TRANSCRIPTIONAL
CC ----------------------------------------------------------------------
100K-RAT IKAMNQQTTLDT TIRPPA---- GAFGLPTANT CC
CISRLYVPLY SMSKSHGTM
This SWISS-PROT entry is copyright. It is produced through ...
CC --------------- -------------------------------------------------------
DR EMBL; X64411; CAA45756.1; -.
DR PFAM; PF00632; HECT; 1.
DR PFAM; PF00658; PABP; 1.
Si durante la comparación de KW
FT
Ubiquitin conjugation; Ligase.
DOMAIN 77 88 ASP/GLU-RICH (ACIDIC).
encuentran secuencias “parecidas” a la FT
FT
DOMAIN
DOMAIN
127
579
150
590
PRO-RICH.
ASP/GLU-RICH (ACIDIC).
secuencia desconocida, se puede FT
SQ
BINDING
SEQUENCE
858 858 UBIQUITIN (BY SIMILARITY).
889 AA; 100368 MW; DD7E6C7A CRC32;
inferir –por su parecido- que ambas MMSARGDFLN YALSLMRSHN DEHSDVLPVL DVCSLKHVAY VFQALIYWIK AMNQQTTLDT
PQLERKRTRE LLELGIDNED SEHENDDDTS QSATLNDKDD ESLPAETGQN HPFFRRSDSM
tienen funciones biológicas similares. VYEYVRKYAE HRMLVVAEQP LHAMRKGLLD VLPKNSLEDL TAEDFRLLVN GCGEVNVQML
ISFTSFNDES GENAEKLLQF KRWFWSIVER MSMTERQDLV YFWTSSPSLP ASEEGFQPMP
SITIRPPDDQ HLPTANTCIS RLYVPLYSSK QILKQKLLLA IKTKNFGFV
//
A este mecanismo se le conoce como
“asignación de función por homología”.
Bioinformática Clásica

La versión ampliada de este tema se encuentra en los apuntes del


Tema 2: Bases de datos Moleculares, accesibles a través de
la plataforma Web de aprendizaje virtual de la UNIA.

Consulta estos materiales para completar tus conocimientos

Tema 2: Bases de datos moleculares Campus Virtual Andaluz, 2007

También podría gustarte