Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El NCBI desarrolló Entrez como una herramienta para permitir a los usuarios
interaccionar (léase consultar) estas bases de datos. Desde el punto de vista
informático, Entrez es una 'interfaz de usuario' o UI (por user interface). Es
decir, constituye el nexo entre el usuario y las bases de datos subyacentes.
Como interfaz, Entrez cumple en permitir al usuario realizar consultas simples
y obtener resultados, aun desconociendo la arquitectura de las bases de datos.
Sin embargo, para realizar consultas eficientes y poderosas, es necesario
conocer la arquitectura de la base de datos, al menos en parte, y saber como
restringir búsquedas a ciertas áreas de la base de datos, combinar búsquedas con
criterios lógicos, etc.
Todo eso es posible también usando Entrez, aunque ... hay que leer el manual.
Automatic term mapping: cuando uno ingresa un término para realizar una
búsqueda en PubMed, el servidor que recibe el requerimiento intenta identificar
qué tipo de búsqueda uno está intentando hacer: está el usuario intentando
buscar un autor?, una revista o journal específico?, un área del conocimiento?, o
una frase presente en el título o abstract de la publicación?
El servidor entonces filtra los términos de la búsqueda a través de listas
sucesivas para intentar responder esta pregunta y usar los términos en forma
eficiente. Este proceso se llama automatic term mapping. Qué listas se
utilizan?
Notar cuantas citas totales obtienen y cuan relacionadas están con los términos
de la búsqueda. Clickear sobre Details, esto les permitirá ver como la consulta
realizada por ustedes fue traducida por Entrez (mapeo de términos incluído).
Puede ocurrir que alguno de los términos que utilizaron haya sido reemplazado
por un sinónimo.
Tip. para buscar citas con abstract se puede usar la palabra hasabstract, por
ejemplo en
La lista de campos disponibles para buscar y los tags que pueden usar para
entrez pueden encontrarlos aquí.
Ejercicio. Comparen los resultados que obtienen utilizando las palabras con y
sin el tag. Para hacer esto pueden utilizar el link 'Preview'.
002002[molwt]
También es posible realizar una búsqueda con un rango de pesos moleculares
002002:002009[molwt]
Tengan en cuenta que si la anotación de una proteína contiene una indicación
de clivaje, es posible que obtengan en la lista de resultados, una proteína de
peso molecular mayor al que especificaron. Asegúrense de revisar siempre la
anotación de la proteína para verificar esto.
Otras búsquedas con rangos. Al igual que en Entrez, es posible usar rangos de
fechas. En el caso de secuencias, es más relevante realizar búsquedas con la
fecha de modificación, de manera de siempre obtener como resultado la última
versión de una secuencia.
1998/02:2000/01/25[mdat]
También es posible realizar búsquedas seleccionando secuencias por su
longitud 3000:4000[slen]
O utilizar un rango de números de acceso. En las publicaciones científicas, cada
vez se utilizan más los rangos de números de acceso, en lugar de listarlos uno
por uno. En el caso de publicaciones de análisis de datasets grandes, este es
generalmente el modo en el que obtienen los números de acceso de las
secuencias utilizadas. En el caso de GSSs obtenidos a partir de Trypanosoma
cruzi:
[The sequence data described in this paper have been submitted
to the dbGSS database under the following GenBank accession
nos.:
AQ443439-AQ443513, AQ443743-AQ445667, AQ902981-AQ911366,
AZ049857-AZ051184, and AZ302116-AZ302563.]
Usando los índices. Entrez realiza las búsquedas sobre cierto tipo de campos de
la base de datos. Estos campos se encuentran indexados, y es posible acceder a
los índices para evaluar la performance de nuestra estrategia de búsqueda.
Ver los índices, les permite ahora realizar búsquedas rápidas. Sabiendo que
existe un 'Feature Key' llamado 'promoter', podemos simplemente tipear
promoter[fkey]
para obtener todos los records de GenBank que contengan un promotor.
Si miran los índices del campo 'Properties' van a ver varios items del tipo
"gbdiv": gbdiv bct, gbdiv est, gbdiv gss. Estos corresponden a las distintas
divisiones de GenBank. Por lo tanto para restringir una búsqueda a una división
en particular de GenBank pueden utilizar
"gbdiv xxx"[properties]
en sus queries. Reemplacen en cada caso xxx con la correspondiente división de
GenBank.
Ejercicios.