Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Definición original:
http://www.ncbi.nlm.nih.gov/sites/entrez?db=unigene
Bases de datos
Lab vs. compus
Puedo usar:
gi Annotation
5693 Trypanosoma cruzi chromosome 3, ORF 1234, similar to gi|12345|AF934567 caseine
kinase (Candida albicans)
BLAST
Búsquedas simples
Los motores de búsqueda ofrecen búsquedas simples
No imponen restricciones
SRS reúne unas 400 bases de datos, en los últimos años se desarrolló como un
sistema integrado de búsqueda y recuperación de datos asociados y
aplicaciones para análisis de secuencias.
http://srs.ebi.ac.uk/
Secuencias proteicas
Secuencias nucleotídicas
Estructuras macromoleculares
Genomas y mapas de genes
Literatura científica (MEDLINE)
Uso de
• Ejemplos:
human
XML
FASTA
GenBank
Redundante (es un Banco, no busca unificar datos)
Con errores
Difícil de actualizar
Para poder corregir, mejorar y mantener actualizada la anotación
de los registros, el NCBI creó RefSeq (colección curada de
registros de GenBank)
toma records de GenBank y los actualiza/corrije
Genomic DNA
(NC, NT, NW)
Scanning....
RefSeq
Genbank
Sequences
Bases primarias vs. secundarias
Algorithms UniGene
Sequencing
Centers
EST UniSTS
GenBank
STS Updated
Updated ONLY RefSeq:
by submitters GSS continually Annotation
by NCBI Pipeline
HTG
INV VRT PHG VRL
PRI ROD PLN MAM BCT
RefSeq:
Gene and
Curators
Genomes Pipelines
TATAGCCG
Labs AGCTCCGATA
CCGATGACAA
Ejemplos de integración de información en NCBI
Word weight
PubMed
Phylogeny
Taxonomy 3-D
mmdb
Structure
(3D structure)
VAST
Genomes
Nucleotide Protein
BLASTn sequences sequences BLASTp
IDENTIFICANDO SIMILITUD:
COMPARACION DE SECUENCIAS A
TRAVES DE ALINEAMIENTOS
¿Qué es el alineamiento?
ACCGGTATCCTAGGAC
ACCTATCTTAGGAC
ACCGGTATCCTAGGAC
| | | || || || | || |
ACC - - TATCTTAGGAC
ACCGGTATCCTAGGAC
| || | ||| | || | ||
ACC - - TATCTTAGGAC
•Asignamos un puntaje a cada
coincidencia (match) dada a lo largo del
alineamiento
¿Cómo evaluamos un alineamiento?
ACCGGTATCCTAGGAC
| | | |||| ||| | | |
ACC - - TATCTTAGGAC
ACCGGTATCC - - -GAC
|| | |||| || || | |
ACC - - TATCTTAGGAC
Un gap es grupo de indel consecutivos
La longitud del gap esta dada por el número
de indels
Este simple ejemplo tiene dos gaps de
longitudes 2 y 3
Matrices de Sustitución
ftp://ftp.ncbi.nih.gov/genbank/
Lista de bases de datos de
biología molecular en NAR
http://nar.oupjournals.org/content/
vol28/issue1/
Genómica comparativa
Humano -
Chimpancé
Ratón
Perro
Gallina
Rana
Pez cebra
El investigador genera nuevos CONOCIMIENTOS,
que pone a disposicion de otros como DATOS, que
al ordenarse son INFORMACIÓN, que puede
llegar a ser CONOCIMIENTO útil, apropiado o
adaptado, por la infraestructura de investigación de
C&T que posea un país.
Aplicaciones del genoma
Diseño 4 x 44 K –