Está en la página 1de 10

LICAD

Seminario B
Temas principales de la Recuperación de Información

Glosario

La presente es una traducción parcial del Glosario del original de Baeza-Yates,


R.-Ribeiro-Neto, B. Modern information retrieval. Addison Press: New York, 1999.

La misma fue realizada por la Prof. Ana María Sanllorenti, y hace énfasis en aquellos
términos, en orden alfabético de la versión traducida utilizada) cuyos conceptos aparecen en
los capítulos incluidos en la bibliografía obligatoria del Seminario.

A estos términos se agregan otros, en verde, explicados de manera exhaustiva en el cuerpo


de las clases, de los cuales se indica sólo la acepción de uso elegida por la cátedra.

Término traducido Original en inglés Definición / acepción usada


Medida del rendimiento de la recuperación de
información que cuantifica la fracción de
Acierto Recall
documentos relevantes conocidos que fueron
efectivamente recuperados.
Analizador sintáctico
Parser Analizador sintáctico
Analizador léxico
Parsing Analizar sintácticamente
Analizar sintácticamente
Interpretación estructural de una consulta donde
Arbol sintáctico Syntax tree los nodos son los operadores y las ramas los
operandos.
Indices de textos basados en la ordenación
lexicográfica de sufijos de una unidad de texto
Arboles y arreglos de (oración, frase, párrafo, etc.).La estructura y el
Suffix tree and suffix array
sufijos mecanismo de recuperación es similar al de los
archivos invertidos, mientras que los elementos
que ingresan al diccionario son sufijos.
Índice de texto compuesto de un vocabulario y la
Archivo Invertido Inverted file
lista correspondiente de ocurrencias.
Código estándar binario para representar
ASCII ASCII
caracteres occidentales en un byte.
Combinación de una colección de objetos digitales
(repositorio); la descripción de esos objetos
(metadata); un conjunto de usuarios y sistemas
Biblioteca Digital Digital library que ofrecen una variedad de servicios tales como
captura, indización, catalogación, búsqueda,
browsing, recuperación, distribución, archivo y
preservación.
Tarea interactiva en la que el usuario está más
interesado en explorar la colección de documentos
Browsing Browsing
que en recuperar documentos que satisfagan una
necesidad de información específica.

Seminario B. Temas Principales de la Recuperación de Información Página 1


LICAD
Seminario B
Temas principales de la Recuperación de Información

Término traducido Original en inglés Definición / acepción usada


Búsqueda secuencial o Sequential or on-line text Búsqueda de un patrón en el texto sin utilizar el
lineal searching diccionario (sin el preprocesamiento del texto).
Información extraída de un objeto y utilizada
Característica Feature
durante el procesamiento de la consulta.
Agrupamiento de documentos que tienen un
conjunto de propiedades comunes. El propósito de
este procedimiento es reunir documentos que
están relacionados entre sí. El clustering puede
Arracimado ser utilizado, por ejemplo, para expandir una
Clustering
Agrupamiento query de un usuario con nuevos términos
relacionados.

Arracimado
Agrupamiento
Sustitución de símbolos textuales por códigos
Codificación Coding numéricos con el objetivo de, por ejemplo,
encriptar o comprimir el texto.
Colección Collection Grupo de ítems, en general documentos.
Colección de documentos utilizados para probar
modelos y algoritmos de recuperación de
información. Generalmente incluye un conjunto de
Colección de Referencia Reference collection documentos, un conjunto de consultas de prueba,
y un conjunto de documentos conocidos como
relevantes respecto de cada consulta (respuesta a
la consulta).
Expresión de la necesidad de información del
usuario en el lenguaje de input del sistema de
información. El tipo de lenguaje de input más
Consulta Query
común permite simplemente la especificación de
palabras clave y unos pocos conectores
booleanos.
Consulta que se divide en tópicos o facetas, cada
Consulta facetada Faceted query una de las cuales debe estar presente en los
documentos de la respuesta.
Consultas estructurales Structural queries Consultas estructurales
Retroalimentación por
Relevance feedback Retroalimentación por relevancia
relevancia
Cambio de una forma a otra, tales como la
conversión de analógico a digital (llamada
Conversión Conversion también digitalización) o de papel a en línea
(como la conversión retrospectiva de un catálogo
en fichas).

Seminario B. Temas Principales de la Recuperación de Información Página 2


LICAD
Seminario B
Temas principales de la Recuperación de Información

Término traducido Original en inglés Definición / acepción usada


Correspondencia con
patrones
Pattern-matching Correspondencia con patrones
Confrontación con
patrones
Algoritmo mediante el cual son recuperados como
respuesta a una consulta documentos que
Correspondencia exacta Exact match contienen al término/s solicitado/s a través de la
consulta exactamente de la misma forma en la
que fue solicitado.
Datos que combinan diferentes medios como
Datos multimedia Multimedia data
texto, imagen, sonido o video.
Datos cuya estructura no corresponde o
Datos semi estructurados Semi-structured data corresponde parcialmente con las estructuras
prescritas por un esquema de datos.
Categorización jerárquica de conceptos en un
Directorio Directory
dominio del conocimiento.
Distancia de edición Número mínimo de inserciones, borrados y
Edit distance between two
(entre dos cadenas de reemplazos de caracteres necesarios para hacer
strings
caracteres) que dos cadenas sean iguales.
Distancia Levenshtein Levenshtein distance Ver Distancia de edición.
Digital Libraries Initiative, programa de la US
DLI DLI National Science Foundation de investigación y
desarrollo vinculado con las bibliotecas digitales.
Unidad de recuperación. Puede ser un párrafo,
Documento Document una sección, un capítulo, una página Web, un
artículo o un libro completo.
Definición del tipo de documento dentro del
DTD Definición de Tipo de
Document Type Definition lenguaje de marcado SGML y derivados tales
Documento
como el XML.
Medida de información definida en base a la
Entropía Entropy estadística de las palabras o caracteres de un
texto.
Equiparación
Correspondencia
Apareamiento
Matching Correspondencia
Concordancia
Adaptación
Emparejamiento
Información presente en el texto, adicional a su
Estructura del texto Text structure contenido, que relaciona sus diferentes partes en
forma significante.
Cadena de caracteres utilizada para marcar el
Etiqueta Tag comienzo y final de un elemento estructural en el
texto.
Proceso de adición de nuevos términos a una
Expansión de la consulta Query expansion
consulta dada de un usuario con el fin de proveer

Seminario B. Temas Principales de la Recuperación de Información Página 3


LICAD
Seminario B
Temas principales de la Recuperación de Información

Término traducido Original en inglés Definición / acepción usada


mejor contextualización y posibilitar la
recuperación de documentos que sean más útiles
para el usuario.
Patrón general que permite expresar cadenas
Expresión regular Regular expression alternativas, repeticiones y concatenaciones de
subcadenas.
Tarea de recuperación en la que la necesidad del
usuario se mantiene relativamente estática
mientras ingresan de manera constante nuevos
Filtrado Filtering
documentos al sistema. Son ejemplos típicos los
servicios de noticias y las listas de correo
electrónico.
Mecanismo para dejar registro de la historia de
Historia de la búsqueda Search history una sesión de búsqueda o de una colección de
sesiones de búsqueda.
Hypertext Markup Lenguaje de marcado de hipertexto en la Web
HTML
Language basado en el SGML.
Imagen cuya mayor parte contiene texto y que
puede ser comprimida más que las imágenes
Imagen de texto Text image convencionales. Adicionalmente, mediante OCR,
pueden extraerse palabras clave que pueden ser
usadas para la recuperación de la imagen.
Estructura de datos construida a partir de los
Indice Index textos, para lograr mayor velocidad en las
búsquedas.
Indización para el caso de la asignación de
descriptores, palabras clave o asignación de
materia por parte de indizadores humanos.
Indización
Indexing
Indexación
Indexación para el caso de la construcción
automática de índices a partir de las palabras de
los documentos.
Estudio de las interfaces que asisten al usuario en
Interfaces
las tareas relativas a la búsqueda de información,
Hombre-Computadora
formulación de las consultas, selección de fuentes
Human-Computer
de información, comprensión de los resultados y
Interface Interfaces HCI
registro de las tareas de recuperación.
Interfase
Interfaz
Interfaz
Red de tipo Internet construida dentro de una
Intranet Intranet organización, que puede o no estar conectada con
Internet misma.
Técnica que muestra las ocurrencias de los
KWIC (Palabras clave en
KWIC KeyWords InContext términos de una consulta en el contexto de los
contexto)
documentos recuperados.
Lista de ocurrencias Occurrence list Estructura de datos que asigna a cada palabra de

Seminario B. Temas Principales de la Recuperación de Información Página 4


LICAD
Seminario B
Temas principales de la Recuperación de Información

Término traducido Original en inglés Definición / acepción usada


un texto la lista de sus posiciones en el texto.
Mapa bidimensional cuyas regiones representan
Mapa de características
Kohonen's feature map los temas principales en un documento o en una
de Kohonen
colección.
Formato de registros normalizado utilizado por
MARC MARC bibliotecas y aplicaciones bibliográficas para
compartir y almacenar información catalográfica.
Técnica de búsqueda común en la WWW donde, a
partir de un único punto de entrada, se efectúan
múltiples búsquedas en varios motores de
búsqueda diferentes. Un sistema de
Metabúsqueda Metasearch
metabúsqueda, o metabuscador, envía la consulta
del usuario a los motores de búsqueda, combina
los resultados y devuelve como respuesta una
lista unificada al usuario.
Atributos descriptivos de los datos de un
documento (autor, temas, etc.), generalmente
agrupados en categorías o facetas y mantenidos
en un catálogo. En entornos Web se utilizan
Metadatos Metadata técnicas de marcado para su identificación e
inclusión a través de lenguajes tales como el
SGML, HTML y XML. Pueden encontrarse
expresados de acuerdo a esquemas como el
Dublin Core o MARC.
Parte de la RI que estudia los algoritmos utilizados
para rankear los documentos de acuerdo con un
Modelización Modeling
sistema que asigna criterios de relevancia
respecto de una consulta del usuario.
Modelo clásico de recuperación de la información
Modelo booleano Boolean model
basado en la teoría clásica de conjuntos.
Modelo de recuperación de documentos
respaldado en la teoría de conjuntos y basado en
Modelo Booleano una extensión del modelo booleano clásico. La
Extended Boolean model
Extendido idea es interpretar equiparaciones parciales como
distancias euclidianas representadas en una
espacio vectorial de términos de indización.
Generalización del modelo basado en el modelo
Modelo de espacio Generalized vector space
vectorial clásico, con una interpretación menos
vectorial generalizado model
restrictiva de la independencia término a término.
Conjunto de premisas y un algoritmo para rankear
documentos respecto de una consulta del usuario.
De un modo más formal un modelo de RI es una
Modelo de recuperación
Model for IR cuádrupla [D, Q, F, R (qi,dj)] donde Des un
de información
conjunto de visiones lógicas de los documentos, Q
es un conjunto de consultas de usuario, F es un
marco teórico para modelizar los documentos y

Seminario B. Temas Principales de la Recuperación de Información Página 5


LICAD
Seminario B
Temas principales de la Recuperación de Información

Término traducido Original en inglés Definición / acepción usada


las consultas, y R (qi,dj) es una función de
ranking que asocia un ranking numérico la
consulta qi y el documento dj.
Modelo de recuperación de información basado en
Modelo difuso Fuzzy model
la teoría difusa o de lógica difusa.
Modelo de recuperación de información basado en
la representación de las relaciones de los
Modelo Hipertexto Hypertext model
documentos a modo de grafos en los que los
documentos son los nodos.
Modelo clásico de recuperación de documentos en
el cual, dada una consulta del usuario, el
Modelo Probabilístico Probabilistic model programa realiza una interpretación probabilística
de la relevancia de los documentos de acuerdo
con la query.
Modelo clásico de recuperación de información
basado en la representación de documentos y
Modelo Vectorial Vector model
consultas como vectores de términos de
indización.
Modelo
Pattern Patrón
Patrón
Declaración en lenguaje natural de la necesidad
informacional del usuario. Por ejemplo:
Encuentre documentos que presentan las
Necesidad de información
User information need implicaciones políticas del escándalo Mónica
del usuario
Lewinsky en los resultados de las elecciones
1998 para el Congreso de los Estados
Unidos.
Modelo de recuperación estructurada de
Nodos proximales Proximal nodes documentos a través de estructuras de indexación
jerárquicas.
Cadena de caracteres que es vista como una
entidad propiamente dicha (por ejemplo, un
documento a texto completo) o una parte de otro
Objeto digital Digital object objeto digital (por ejemplo, una imagen que es
parte de un libro), a menudo con metadatos
asociados y a veces con términos y condiciones
especiales de acceso.
Software que toma como entrada una imagen
como mapa de bits (por ejemplo, la producida por
OCR (Reconocimiento OCR Optical Character un escáner), y obtiene el texto presente en la
Optico de Caracteres) Recognition imagen como texto en formato ASCII. La calidad
del resultado depende del tipo de texto y de
letras, y puede ser del 99%.

Seminario B. Temas Principales de la Recuperación de Información Página 6


LICAD
Seminario B
Temas principales de la Recuperación de Información

Término traducido Original en inglés Definición / acepción usada


Ojeo
Revisión secuencial
Hojeo Browsing Browsing
Lectura al azar
Exploración
Sistema de software para gestión de bibliotecas
OPAC (Catálogo de OPAC Online Public Access
que provee al usuario acceso a la información
Acceso Público En Línea) Catalogue
contenida en una colección de una biblioteca.
Orden en el que se listan las palabras en el
Orden lexicográfico Lexicographical order
diccionario.
Ordenar
Orden según una Rank, Ranking Rankear, Ranking
magnitud decreciente
Palabra clave Keyword Ver Término de indexación
Palabra única Single Word Una sola palabra
Palabras de búsqueda Search words Palabras de búsqueda
Palabras que aparecen muy frecuentemente en el
Palabras vacías Stopwords texto de un documento, por ejemplo, artículos,
preposiciones y conjunciones.
Acción de una cámara de video que recorre de
lado a lado una escena. Este efecto puede ser
Paneo Panning
simulado en una pantalla de computadora aún en
ausencia de una cámara. Ver también ZOOM.
Conjunto de características sintácticas que
describen los segmentos del textos que serán
Patrón Pattern
correspondidos. Pueden ser palabras simples o
expresiones.
Patrón general que incluye expresiones como
Patrón extendido Extended pattern
comodines, clases de caracteres y otros.
Pedido de información
Petición de información
Formulación de búsqueda
Consulta
Solicitud de información
Query Consulta
Interrogación
Querying Consultar
Ecuación de búsqueda
Expresión de búsqueda
Formular búsquedas
Consultar
Formular una query
Pedida de rendimiento en la recuperación de
Precisión Precision información que cuantifica la fracción de
documentos recuperados que son relevantes.
Formas de asegurar que un objeto digital continúe
Preservación Digital Digital preservation siendo accesible y útil en un largo período de
tiempo, lo que generalmente requiere tanto la

Seminario B. Temas Principales de la Recuperación de Información Página 7


LICAD
Seminario B
Temas principales de la Recuperación de Información

Término traducido Original en inglés Definición / acepción usada


conversión de medios (copiar de una vieja cinta
magnética a otro formato antes de que la
información en la cinta ya no sea legible), como la
conversión de formato (cambio de una estructura
de archivo o codificación a otra nueva que está
siendo utilizada y comprendida).
Posición inicial de un elemento de texto que
Punto de índice Index point
puede ser buscado; por ejemplo, una palabra.
Dónde y cómo se inicia una tarea de búsqueda.
Punto de partida de la Las interfaces de búsqueda deberían proveer a los
Search starting point
búsqueda usuarios los caminos adecuados para iniciar estas
tareas.
Consulta que solicita como respuesta a todos los
Rangos (en consultas) Range query elementos que se encuentran dentro de un rango
dado.
Reconocimiento Optico Optical Character
VER OCR.
de Caracteres Recognition
Recuperación de ítems (tuplas, objetos, páginas
Web, documentos) cuyos contenidos satisfacen
Recuperación de Datos Data retrieval
las condiciones especificadas en una query del
usuario.
Parte de la ciencia de la computación que estudia
la recuperación de información (no datos) de una
Recuperación de
Information retrieval IR colección de documentos escritos. Los
información
documentos recuperados pretenden la satisfacción
de una necesidad de información de un usuario.
Tarea de recuperación estándar en la cual el
usuario especifica su necesidad de información a
Recuperación (tarea ad través de una query (petición de información) que
Ad hoc retrieval
hoc) inicia una búsqueda (ejecutada por el sistema de
información) de documentos que probablemente
sean relevantes para el usuario.
Lugar físico o digital donde se almacenan objetos
por un período de tiempo. A partir de él pueden
Repositorio Repository
obtenerse los objetos individuales si se solicitan y
satisfacen términos y condiciones.
Información al usuario acerca de la relación entre
Retroalimentación
Informative feedback la especificación de la consulta y los documentos
informativa
recuperados.
Proceso interactivo para obtener información que
Retroalimentación por
User relevance feedback brinda el usuario acerca de la relevancia o no
relevancia del usuario
relevancia de los documentos recuperados.
Proceso de selección de una o más colecciones de
documentos dentro de un conjunto de
Selección de fuentes Source selection
colecciones, a partir de criterios de relevancia
respecto de una consulta.

Seminario B. Temas Principales de la Recuperación de Información Página 8


LICAD
Seminario B
Temas principales de la Recuperación de Información

Término traducido Original en inglés Definición / acepción usada


Semantización
Stemming Stemming
Lematización
Serie
Orden Array Array
Arreglo
SGML (Standard Metalenguaje normalizado de Marcado. El HTML y
Generalized Markup SGML el XML son lenguajes de marcado basados en el
Languaje) SGML.
Solapado
Superpuesto Superpuesto
Overlapped, Overlapping
Solapamiento Superposición
Superposición
Stemming Stemming Técnica para reducir palabras a su raíz gramatical.
Representación de un documento, por ejemplo, el
título y un breve resumen. Los sustitutos se
Sustituto del documento Document surrogate
emplean comúnmente para visualizar las
respuestas a una query.
Término preseleccionado que puede ser utilizado
para referir el contenido de un documento.
Generalmente los términos de indización son
Término de indexación Index term or keyword sustantivos o frases sustantivadas. En la Web, sin
embargo, algunos motores de búsqueda utilizan
todas las palabras de los documentos como
términos de indexación.
Estructura de datos compuesta de (1) lista
recompilada de palabras importantes en un
dominio determinado de conocimiento y (2) para
cada palabra de la lista, una lista de palabras
Tesauro Thesaurus relacionadas (sinónimos). Nota del traductor:
Esta definición no incluye las relaciones
jerárquicas –Términos genéricos y específicos- y
no distingue entre relaciones de sinonimia y de
asociación –Términos relacionados.
Visión lógica de los documentos en la que todas
las palabras que componen el texto de los
Texto completo Full text
documentos son utilizadas como términos de
indexación.
Colección de textos que no cambia con demasiada
Texto semi estático Semi-static text
frecuencia.
Tipo de objeto retornado por un sistema de
recuperación de información como respuesta a
Unidad de Recuperación Retrieval unit
una consulta, por ejemplo, documentos, archivos,
páginas Web, etc.
Es la forma de representación de documentos y
Visión lógica de los
Logical view ofdocuments páginas Web adoptada por el sistema. La forma
documentos
más común es representar el texto del documento

Seminario B. Temas Principales de la Recuperación de Información Página 9


LICAD
Seminario B
Temas principales de la Recuperación de Información

Término traducido Original en inglés Definición / acepción usada


mediante un conjunto de términos de indexación
o palabras clave.
Conjunto de todas las palabras diferentes de un
Vocabulario Vocabulary
texto.
XML XML Subconjunto del SGML definido para la Web.
Protocolo de comunicación de arquitectura
cliente-servidor para sistemas de recuperación de
información que permite a un cliente comunicarse
con otros sistemas de recuperación basados en la
Z39.50 Z39.50 estructura de datos MARC para información
bibliográfica. Soporta las sesiones de
comunicación, envío de consultas, obtención de
información, listas de resultados y documentos
recuperados.

Seminario B. Temas Principales de la Recuperación de Información Página 10

También podría gustarte