Indización y resúmenes: teoría y práctica

Lancaster, Frederick Wilfrid. Indización y resúmenes : teoría y práctica – Buenos Aires : EB, 1996.
INTRODUCCIÓN
El propósito principal de la elaboración de índices y resúmenes es construir representaciones de documentos

publicados en una forma que se preste a su inclusión en algún tipo de base de datos. Esa base de datos de
representaciones puede ser impresa (como en una publicación de indización/resúmenes, como el Chemical
Abstracts o el Engineering Index), en forma legible por computadora (cuando la base de datos sea frecuentemente
el equivalente aproximado de un servicio impreso), o en fichas (como un catálogo convencional de biblioteca).
La función de las operaciones de indicar y resumir, en el ámbito mayor de las actividades de recuperación de
la información en general, está ilustrado en la figura 1. En primer lugar, el productor de base de datos selecciona
de la población de documentos recién publicados aquellos que satisfagan ciertos criterios para su inclusión en la
misma. El más obvio de esos criterios es el tema de qué trata el documento, pero otros, tales como tipo de
documento, lengua u origen, también son importantes. Para aquellas bases de datos que tratan principalmente con
artículos de revistas, los criterios de selección comúnmente estarán centrados preferentemente en la publicación
antes que en el artículo; esto es, algunas revistas serán incluidas y otras no (aunque algunas revistas serán
indizadas en su totalidad y otras selectivamente). La cobertura proporcionada por muchas bases de datos es, en
gran medida, determinada por razones de costo-eficacia. Particularmente en el caso dé bases de datos que abarcan
un campo altamente especializado, solo incluirán aquellas revistas que publican más sobre los temas de interés.
Los documentos seleccionados para incluir en una base de datos serán "descriptos" de varias formas. Los
procedimientos de catalogación descriptiva (que no aparecen en la figura 1) identifican autores, títulos, orígenes
de la publicación, y otros elementos bibliográficos; los procedimientos de indización identifican el tema de qué
trata el documento; y el resumen es utilizado para sintetizar el contenido del documento. Los términos utilizados
en la indización serán con frecuencia extraídos de algún tipo de vocabulario controlado, como un tesauro (el
"vocabulario del sistema" de la figura l), pero, en su lugar, pueden ser términos "libres" (por ejemplo, extraídos
del propio documento). Estas actividades de descripción crean representaciones de los documentos en una forma
que se presta para su inclusión en la base de datos. Los propios documentos normalmente serán destinados a un
tipo diferente de base de datos (el acervo de documentos) como las estanterías de una biblioteca.
1
Los miembros de la comunidad a ser atendida utilizarán la base de datos, fundamentalmente, para satisfacer las
diferentes necesidades de información. Para lograr esto, deben convertir una necesidad de información en alguna
forma de "estrategia de búsqueda?', la cual puede ser tan simple como la selección de un único término para
consultar un índice impreso o un catálogo en fichas, o incluir la combinación de varios tértninos en una estrategia
más elaborada y sofisticado, utilizada para interrogar una base de datos por medio de una terminal de
computadora.
En la búsqueda en una base de datos, desde luego, uno desea encontrar ítems que sean útiles para satisfacer
una necesidad de información, y evitar la recuperación de ítems inútiles. "Relevante" y "pertinente" son términos
empleados frecuentemente para referirse a items "útiles", y han sido definidos de diferentes formas. Hay mucho
desacuerdo sobre lo que realmente significan "relevancia" y "pertinencia" (Lancaster, 1977). En este libro
consideraré como sinónimos las expresiones "útil", "pertinente" y "relevante para una necesidad de información".
Esto es, un ítem pertinente (útil) es aquel que contribuye a satisfacer alguna necesidad de información.
Los problemas de recuperación de información están representados gráficamente en la figura 2. El rectángulo
interno representa una base de datos y los items que contiene. Los items con la señal de adición (+) son aquellos
que un consultante hipotético consideraría útiles para satisfacer alguna necesidad de información actual, y los
ítems con señal de sustracción (-) son aquellos que no consideraría útiles. Para cualquier necesidad específica de
información habrá muchos más items - que items +. En realidad, si el diagrama fuera hecho, la escala, sería casi
cierto que los 11 items útiles estarían acompañados de toda una muralla de items inútiles. El problema está en
recuperar tantos ítems útiles como sea posible, y la menor cantidad posible de items inútiles.
- - - - - - - - - - + - - - - - - - -- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
-------- ------------ ---------------------------
----- -- ------------ -+----- -------------------
- - - - - - - - - - -- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
+--------+-----------------+ ---------- ----- --
++---------------------------------------------
----++ ------ -------------------------------- -
- - - + - + - - - - - - - - - - - - - - - -- - - - - - - - - - - - - - - - - - - -
Figura 2
El problema de la recuperación de ítems pertinentes de una base de datos
El menor de los dos rectángulos internos de la figura 2 representa los resultados de una búsqueda realizada
en una base de datos. Ella recuperó 57 ítems, de los cuales 6 fueron útiles y 51 inútiles. La relación entre ítems
útiles y el total de ítems recuperados (6/57 es cerca del 10 % en este caso) es comúnmente denominada tasa de
precisión. El índice empleado habitualmente para expresar la extensión de todos los items útiles que son
encontrados es la tasa de acierto. En este caso, la tasa de acierto es de 6/11 o cerca del 54 %.
En esa situación, probablemente sería necesario, para mejorar el acierto, hacer una búsqueda más genérica.
Esto está representado por el mayor de los dos rectángulos internos. Al hacer la búsqueda más genérica aumenta
el acierto al 8/11 (73 %), pero la precisión declina también al 8/112 o cerca del 7 %. Una característica
desafortunada, propia de la recuperación de la información, es que una mejoría del acierto generalmente causa
un deterioro de la precisión y viceversa.
La figura 2 sugiere otro fenómeno. Tal vez fuese posible hacer una búsqueda suficientemente genérica para
localizar todos los items útiles (esto es, alcanzar el 100 % de acierto), pero la precisión sería probablemente
inaceptable. Además, cuanto más grande fuera la base de datos, menos aceptable sería una baja precisión.
Mientras el usuario estaría dispuesto a mirar los resúmenes de, digamos, 57 items, para encontrar 6 que le sean
útiles, tal vez se sienta mucho menos inclinado a examinar 570 resúmenes para encontrar 60 que le sean útiles.
En bases de datos muy grandes se torna, por lo tanto, progresivamente más difícil alcanzar un nivel de acierto
aceptable con un nivel de precisión tolerable.
En este libro empleo el término acierto para designar la capacidad de recuperar ítems útiles, y precisión para
designar la capacidad de evitar los inútiles. Existen otras medidas de desempeña para búsquedas realizadas en
una base de datos (ver, por ejemplo, Robertson 119691), algunas son matemáticamente exactas, pero el acierto y
la precisión componen el cuadro general y aún parecen ser las medidas obvias para ser utilizadas para expresar
los resultados de cualquier búsqueda que simplemente divida una base de datos
en dos partes (recuperados y no recuperados).
La figura 1 muestra claramente que son muchos los factores que determinan si una búsqueda en una base de
datos es o no exitosa. Estos comprenden la cobertura de la base de datos, su política de indización, sus reglas de
indización, su política y reglas para la redacción de resúmenes, la calidad del vocabulario utilizado en la
indización, la calidad de las estrategias de búsqueda, etc..Este libro no intenta tratar sobre todos esos factores
(aunque todos están ínterrelacionados), se concentra más en las actividades importantes de descripción del
documento o, al menos, aquellas concernientes con el contenido de los documentos.
PRINCIPIOS DE INDIZACIÓN
Mientras el título de este libro se refiere a "indización", su campo de acción está en realidad limitado a la
indización de temas y a la redacción de resúmenes. La indización de temas y la redacción de resúmenes son
actividades estrechamente relacionadas, ya que ambas implican la preparación de una representación del
contenido temático de los documentos. El analista redacta una descripción narrativa o concisa del documento,
mientras el indizador describe su contenido al emplear uno o varios términos de indización, comúnmente
seleccionados de algún tipo de vocabulario controlado.
El principal objetivo del resumen es indicar de qué trata el documento o sintetizar su contenido. Un grupo, de
términos de indización sirve al mismo propósito. Por ejemplo, el siguiente conjunto de términos proporciona una
buena idea sobre lo que es tratado en cierto informe hipotético:
Centros de Información
Recursos compartidos
Catálogos colectivos
Catalogación cooperativa
Redes en línea
Préstamos interbibliotecarios
En cierto sentido, esa lista de términos puede ser considerada como una especie de miniresumen. Serviría a
ese propósito el que todos los términos fuesen reunidos en un índice publicado o copiado por la impresora para
representar un ítem recuperado de alguna base de datos, como resultado de una búsqueda hecha en computadora.
Más claramente, los términos asignados por el indizador sirven como punto de acceso mediante los cuales un
ítem bibliográfico puede ser localizado y recuperado, durante una búsqueda por tema en un índice publicado o en
una base de datos legible por computadora. Así, en un índice impreso, uno debería poder encontrar el ítem
hipotético mencionado anteriormente bajo cualquiera de los seis términos. En un sistema de recuperación
computadorizado, naturalmente, uno esperaría poder encontrarlo bajo cualquiera de los términos o, en realidad,
bajo cualquier combinación de los mismos.
La diferencia entre indización y redacción de resúmenes se está tornando cada vez más difusa. Por un lado,
una lista de términos de indización pueden ser copiados de una impresora de modo de constituir un miniresumen.
Por el otro, el texto de los resúmenes pueden ser almacenados en un sistema computadorizado de forma tal'que
permita la realización de búsquedas por medio de combinación de palabras que ocurran en el texto. Esos
resúmenes pueden ser utilizados en lugar de términos de indización, permitiendo el acceso a los ítems, o
complementar los puntos de acceso proporcionados por los términos de indización. En cierta medida eso modifica
la función del analista, quien debe ahora preocuparse no sólo por la redacción de una descripción clara y de buena
calidad del contenido de un documento, sino también por la creación de un registro que sea una representación
eficaz para fines de recuperación.
Si la indización y la redacción de resúmenes fuesen consideradas como actividades enteramente
complementarias, la naturaleza de la actividad de indización sufriría algún tipo de cambio. Por ejemplo, el
indizador se concentraría en la asignación de términos que complementasen los puntos de acceso existentes en el
resumen. No obstante, esa complementariedad debe ser enteramente reconocida y comprendida por el usuario
de la base de datos. De lo contrario, un conjunto de términos de indización aislados daría una imagen bastante
equivocada del contenido de un ftem.
Extensión del registro
Una de las propiedades más importantes de una representación del contenido temático es su extensión. El
efecto de la extensión del registro está ilustrado en el ejemplo de la figura 3. A la izquierda están varias
representaciones del contenido de un artículo de revista en forma de texto narrativo; a la derecha, están dos
representaciones en forma de listas de términos de indización.
El título contiene una indicación general sobre aquello de qué trata el artículo. El resumen breve da más
detalles, indicando que los artículos presentan resultados del estudio e identificando las principales cuestiones
analizadas. El resumen ampliado va más allá, identificando todas las cuestiones a estudiar e informando sobre el
tamaño de la muestra utilizada en el estudio.
Cuanta más información es presentada, más claramente la representación señala el alcance del artículo y es
más probable que vaya a indicar al lector si ese artículo satisface o no alguna necesidad de información. Por
ejemplo, alguien tal vez esté buscando artículos que mencionen las actitudes norteamericanas en relación a
varios líderes árabes. El título no da señal alguna de que ese tema específico sea analizado, y el resumen breve,
al focalizar otros temas, sugiere que tal vez eso no acontezca. Solamente el resumen ampliado muestra que el
artículo incluye información sobre este tema.
Cuanto más extensa es la representación, también proporciona más puntos de acceso. Si las palabras del
título fuesen los únicos puntos de acceso, ese item probablemente sería omitido en muchas búsquedas para las
cuales sería considerado una respuesta válida. En la medida en que se aumenta la
extensión de la representación también se aumenta la recuperabilidad del ítem. Es probable que solamente con un
resumen ampliado se pudiera recuperar ese ítem en una búsqueda de información sobre las actitudes
norteamericanas para con los líderes árabes.
Título Indización (selectiva)

Encuesta nacional de opinión pública sobre las actitudes OPINIÓN PÚBLICA
norteamericanas sobre el Oriente Medio ENCUESTA TELEFÓNICA
ESTADOS UNIDOS
Resumen (breve) ACTITUDES
Una encuesta telefónica realizada en 1985 presenta opiniones sobre ORIENTE MEDIO
temas tales como: ayuda norteamericana a Israel y a Egipto; si los
EUA deben tomar partido por Israel, las naciones árabes o por
ninguno; si la OLP debe participar en una; y si un Estado Palestino Indización (exhaustiva)
independiente es un pre-requisito para la paz. OPINIÓN PÚBLICA
ENCUESTA TELEFÓNICA
Resumen (ampliado) ESTADOS UNIDOS
En 1985 fueron realizadas encuestas telefónicas con una muestra ACTITUDES
probabilística de 655 norteamericanos. Se obtuvieron respuesta a las ORIENTE MEDIO
siguientes cuestiones: el establecimiento de un Estado Palestino es ISRAEL
esencial para la paz; se debe reducir la ayuda norteamericana a Israel EGIPT'O
y a Egipto; los EUA deben participar en una conferencia de paz que NACIONES ÁRABES
incluya a la OLP; deben los EUA no favorecer a Israel ni a las ORGANIZACIÓN PARA
naciones árabes, pero si mantener una relación amistosa con ambas? LA LIBERACIÓN DE
También se expresaron opiniones sobre los líderes de Oriente Medio PALESTINA
(Hussein, Arafat, Peres, Mubarak, Fahd, Assad), especialmente sus CONFERENCIAS DE PAZ
esfuerzos por la paz, y si los entrevistados poseían o no información PAZ
sobre los diversos grupos nacionales de la región. ESTADO PALESTINO
POLÍTICA DE AYUDA
EXTERNA
LÍDERES POLÍTICOS
Flgura 3
Efecto de la extensión del registro sobre la recuperabilidad
La misma situación se aplica a la indización. La indización selectiva, abarcando sólo cinco términos, presenta
una i , radicación mucho más general aquello de qué trata el artículo (aproximadamente equivalente, en este aso, al
título) y un nivel de acceso muy limitado. La indización más exhaustiva proporciona una indicación mucho mei6r
del tema específico de qué trata artículo, como también permite muchos más puntos de acceso.
Etapas en la indización de temas
La indización de temas abarca dos etapas principales:

1. Análisis conceptual, y
2. Traducción
Intelectualmente son etapas completamente distintas, aunque no siempre son diferenciadas con claridad y
pueden, efectivamente, ocurrir simultáneamente.
El análisis conceptual, antes que nada, implica decidir de qué trata un documento - esto es, cuál es el tema. La
lista de términos sobre la derecha de la figura 3, representa un análisis conceptual de un artículo hecho por este
autor - lo que él consideró era el tema del artículo.
Esta afirmación acerca del análisis conceptual está bastante simplificada. La indización de temas está
normalmente hecha para satisfacer las necesidades de un determinado público - los usuarios de un centro de
información o de una publicación específica. Una indización de temas eficiente implica decidir no sólo en cuanto
a lo que es tratado en el documento, sino también por qué es probable que sea de interés para un determinado
grupo de usuarios. En otras palabras, no hay un conjunto "correcto" de términos de indización para ítem alguno.
La misma publicación puede ser indizada en forma bastante diferente en diversos centros de información, y
debiera ser indizada de modo diferente, si los grupos de usuarios estuvieran interesados
en ese ítem por razones distintas.

El indizador, entonces, debe formularse varias preguntas acerca de un ítem:
1. De qué trata?
2. Por qué fue incorporado a nuestra colección?
3. Qué aspectos serán de interés para nuestros usuarios?.
Este punto está bien ejemplificado en la figura 4. Ese ejemplo hipotético se refiere a un informe publicado por
la National Aeronautics and Space Administration (NASA) y trata sobre un vuelo espacial tripulado. Cuando la
NASA incorpora ese informe a su propia base de datos, probablemente está interesada en todas sus facetas y lo
indizará exhaustivamente, procurando cubrir todos sus aspectos, tal vez en un nivel bastante genérico. Una parte
del informe se refiere a los trajes usados por los astronautas, mencionando algunos compuestos nuevos de caucho
sintético utilizados en parte de los trajes.
Esto hace que el informe sea de interés para una fábrica de caucho. Al ser incorporado a la colección de
documentos de esa fábrica, el informe será indizado, no obstante, de modo bastante diferente. Serán utilizados
términos altamente específicos para indizar los nuevos compuestos, y el término genérico TRAJES ESPACIALES
podría ser utilizado para indicar una determinada aplicación de los compuestos. Una empresa metalúrgica podría
interesarse en este informe por otro motivo: se menciona una nueva técnica de soldadura desarrollada para
combinar ciertas aleaciones en la construcción de un vehículo espacial. Aquí será indizado bajo los términos
relativos a soldaduras, a metales y tal vez el término de aplicación genérica VEHÍCULOS ESPACIALES. La
fábrica de caucho indiza el informe en forma muy diferente de la empresa metalúrgica, y ninguno de esos
conjuntos de términos se asemeja a la lista más exhaustiva utilizada por la propia NASA.
Esto es como debe ser. Cuanto más especializada es la clientela de un centro de información, mayor la
probabilidad de que la indización pueda y deba ser hecha a la medida, para el preciso interés -del grupo.
Solamente en instituciones de carácter más genérico - por ejemplo, bibliotecas universitarias generales - existe la
posibilidad de que una organización índice un ítem exactamente de la misma forma que otra.
Relatorio Técnico de la NASA Describiendo una Nueva Misión Espacial Tripulada
NASA Fábrica de caucho Empresa Metalúrgica

- Indización - Nuevos - Nuevas
- exhaustiva - compuestos - técnicas
- cubriendo - de - de soldadura
- todoslos - caucho - y metales
- aspectos sintético - involucrados
- en un nivel
- un tanto TRAJES
- genérico ESPACIALES VEHÍCULOS
ESPACIALES
Figura 4
Ejemplo de un item indizado según diferentes puntos de vista
Existe una importante lección Para aprender de esto. Los indizadores necesitan saber mucho más que los
principios de indización. Deben, en especial, estar enteramente familiarizados con los intereses de la comunidad
atendida y las necesidades de información de los miembros de esa comunidad. En realidad, sería deseable,
habitualmente, que el indizador no permanezca "entre bastidores", sino que también debería trabajar en otras
actividades, inclusive la de bibliotecario de referencia.
Atinencia
En la exposición previa no se hizo un intento por definir "de qué trata": la expresión "de qué trata" era
simplemente un sinónimo para "tiene por tema". Esto es, se utiliza "de qué trata un documento" para significar lo
mismo que "los temas de un documento". Estas expresiones quizás no sean muy precisas y no es fácil definir
"trata de" y "tiene por tema". Sin embargo, son expresiones que parecen aceptables para la mayoría de las
personas, siendo por ello comprendidas. No es mi intención entrar en una discusión filosófica sobre el significado
de "trata de" o "atinencia". Varios autores ya lo hicieron. Y ni de esta manera consiguieron esclarecer la
situación, al menos en lo que concierne a la tarea de indización de temas. Beghtol (1986) y Hutchins (1978)
recurren a la lingüística del texto al examinar esta cuestión; Maron (1977) adopta un enfoque probabilístico, y
Swift et al. (1978) son más cautelosos al señalar que la atinencia en la indización tal vez no coincida con la
atinencia que las personas que están buscando información tienen en mente. Más recientemente, Frohmann
(1990) se vale de la obra de Wittgenstein para criticar algunos abordajes de la teoría de la indización. Wilson
(1968) llega a dar a entender que la indización de temas se enfrenta con problemas "intratables", ya que es tan
difícil decidir de qué trata un documento. Pero ¿será que necesitamos realmente comprender que es "atinencia" a
fin de indizar eficazmente? ¿No bastará que seamos capaces de reconocer que un documento es de interés para
una determinada comunidad porque contribuye a nuestra comprensión de los tópicos x, y y z? El reconocimiento
de que contribuye de esta forma ejemplifica el proceso que hemos llamado "análisis conceptual", mientras el
proceso de "traducción" involucro una decisión sobre cuáles de los rótulos disponibles representan mejor a x, y y
z.
"Concepto" es otra palabra sobre la cual algunos autores gustan de filosofar (ver, por ejemplo, Dahlberg
1979). En este libro lo empleo para referirme a un tópico estudiado por un autor. "Análisis conceptual",
entonces, significa nada más que la identificación de los tópicos tratados en un documento. Preschel (1972)
tiene un abordaje muy práctico. Ella interpreta que "concepto" significa "materia indizable" y define "análisis
conceptual" como la "percepción del indizador de la materia indizable". También Tinker es práctico (1966):
Al asignar un descriptor [por ejemplo, un término de indización] a un documento, el indizador afirma que ese descriptor
tiene un alto grado de relevancia para el contenido del documento; esto es, afirma que el significado del descriptor está
fuertemente asociado con un concepto incluido en el documento, y que es adecuado para el área temática del
documento (p. 97).
Wooster (1964) es aún más pragmático. Él se refiere a la indización como a la asignación de términos
"probablemente relacionados de alguna forma con el contenido intelectual del documento original, para ayudar a
encontrarlo cuando lo necesite".
No encuentro nada erróneo en esas definiciones o descripciones pragmáticas de indización temática. Los
puristas indudablemente tergiversaron sobre ellas argumentando que expresiones como "materia indizable",
"relevancia", "significado", "asociado con", "concepto", "adecuado para", "relacionado con" y "contenido
intelectual" no se encuentran definidas precisamente de modo de satisfacer a todos. Sin embargo, hay que llegar a
un acuerdo sobre la definición exacta de los términos antes de proseguir cualquier tarea, de otra forma difícilmente
logremos mucho, sea en indización o en cualquier otra actividad.
Weinberg (1988) sostiene la hipótesis de que la indización frustra al investigador porque trata apenas en fortna
genérica con aquello de que "trata" un documento y no focaliza aquello que le proporciona la "novedad" respecto
al tópico. Ella sostiene que esta distinción se refleja en la diferencia entre "atinencia" y "aspecto", entre "tópico" y
"comentario" o entre "tema" y "rema". Ella no logra convencer que esas distinciones sean realmente útiles en el
contexto de la indización o que sea posible para los indizadores mantener esas distinciones.
Swift et al. (1978) examinan las limitaciones de un enfoque basado en la atinencia en la indización en ciencias
sociales. Recomiendan indizar los docurnentos de acuerdo a los "problemas" con los cuales parezcan estar
relacionados. Es difícil ver cómo la distinción que hacen difiere de la distinción, hecha anteriormente en este
capftulo, entre lo que trata un ítem y porqué un determinado usuario o grupo de'usuarios tendría interés en él.
Crowe (1986) afirma que el indizador debe remitir al "punto de vista subjetivo" del autor. Uno de sus ejemplos
trata el tema de la depresión, el cual puede ser estudiado en libros 0 artículos desde distintos puntos de vista (por
ejemplo, tratamiento por medio de psicoterapia, por medio de medicamentos, etc.). Nuevamente es difícil ver
como eso difiere de la práctica habitual de la indización - por ejemplo, el empleo de subencabezamientos de la
National Library of Medicine.
Breton (1981) sostiene que los ingenieros hacen poco uso de las. bases de datos porque los indizadores rotulan
los ítems con los nombres de los materiales o dispositivos, mientras que es más probable que necesiten hacer las
búsquedas por los atributos o las funciones desempeñadas por ellos. En otras palabras, les gustaría localizar un
material o un dispositivo que satisfaga algún requisito actual (como resistencia, conductividad, resistencia a la
corrosión, o cualquiera que sea) sin tener que nombrarlo. Esto no es una condena a la indización de temas de por
sí, sino de las políticas de indización adoptadas por la mayoría de los productores de bases de datos. Si en un
informe se manifiesta, al describir un nuevo material o una aleación, que posee una cierta resistencia a la tracción,
esta propiedad puede ser indizada (por ejemplo, asignando el término RESISTENCIA A LA TRACCIÓN), pero el
valor específico de esa propiedad (esto es, la resistencia alcanzable), no sería indizado por la mayoría de los
productores de bases de datos, aunque sea posiblemente mencionado en el resumen. Naturalmente, no hay razón
para que los valores no sean indizados (por ejemplo, el término RESISTENCIA A LA TRACCIÓN podría ser
subdividido en veinte términos más específicos, cada uno representando un orden de valores de resistencia a la
tracción) y ellos estarían en algunas bases de datos, tal como los índices de una empresa para sus propios archivos
de contratos, índices de compilación de datos, o ciertas bases de datos de patentes. Algunas de la objeciones de
Breton, entonces, serían contestadas mediante la indizaci0n en un nivel mucho más alto de especificidad. Las
funciones también pueden ser indizadas ya que las posibles funciones de un dispositivo son identificadas por el
autor, y existen términos apropiados en el vocabulario de la base de datos, pero es totalmente irracional esperar
que el indizador sea capaz de reconocer aplicaciones que
no fueran específicamente afirmadas por el autor.
1 Ha llegado a estar de moda en los últimos años considerar los problemas
de recuperación de la información como fundamentalmente la comparación
del "estado anómalo del conocimiento" de un solicitante con el estado de conocimiento mas "coherente" de los
autores (ver, por ejemplo, Belkin et al.[19821), implicando esto que los problemas residen más en la salida del
sistema (búsqueda) que en la entrada. Esto es algo engañoso. Si aceptamos que la indización es más eficiente
cuando está orientada hacia las necesidades de un determinado grupo de usuarios, la función de un indizador será
preveer los tipos de pedidos para los cuales un determinado documento será probablemente una respuesta útil.
Esto es probablemente más difícil que predecir qué tipos de documentos tienen la probabilidad de ser una
respuesta útil a un determinado pedido, lo que es, en cierto sentido, la función de quien hace la búsqueda. Se
puede argumentar, entonces, que el estado "anómalo" del conocimiento se aplica más a la entrada del sistema de
recuperación que a su salida. Olafsen y Vokac (1983) marcan ese punto claramente:
El indizador tiene que hacer conjeturas sobre qué consultas serán formuladas por el futuro usuario del
sistema. Sin considerar el grado de habilidad aplicada en ese ejercicio de adivinanza, aún serán conjeturas,
mientras el usuario accede al sistema con su propia cuestión concreta, y sus asociaciones pueden ser diferentes de las
del indizador. (p. 294)
Ellos también simplifican demasiado en lo referente a las cuestiones traídas por el usuario como "concretas",
cuando, de hecho, muchas de ellas están lejos de serio. No obstante, están probablemente en lo correcto al dar a
entender que los problemas de una eficiente entrada de datos en un sistema de recuperación de información
superan los problemas de la salida. Como señaló Fairthone (1958), hace muchos años atrás: "La indización es el
problema fundamental así como también el costoso cuello de botella de la recuperación de la información."
En algunas aplicaciones de la indización tal vez sea posible ser bastante más preciso sobre qué debe ser
considerado "indizable". Al tratar la indización de una enciclopedia, por ejemplo, Preschel (1981) ofrece las
siguientes directrices:
Toda información textual de naturaleza sustantivo debe ser indizada. Se define como "sustantivo" la información que
abarca de 8 a 10 líneas de -texto o que es original o destacada y que casi con certeza no ocurre en otro lugar de la
enciclopedia.
En otras situaciones no siempre es posible ser tan preciso.
Traducción
Traducción, la segunda etapa de la indización de temas, implica la conversión del análisis conceptual de un
documento en un determinado conjunto de términos de indización. En cuanto a esto, se hace una distinción entre
indización por extracción (indización derivada) e indización por asignación. En la indización por extracción,
palabras o expresiones que realmente ocurren en un documento son seleccionadas para representar su contenido
temático. Por ejemplo, el item de la figura 3 puede ser indizado con los siguientes términos:
OPINIÓN PÚBLICA
ENCUESTA TELEFÓNICA
ESTADOS UNIDOS
ACTITUDES
ORIENTE MEDIO
ISRAEL
EGIFITO
AYUDA
PAZ
todos los cuales aparecen en el título o en el resumen. Una forma primitiva de indización derivada, conocida
como Uniterm empleaba únicamente términos de una sola palabra para representar el contenido temático. Si fuese
estrictamente observado, el sistema Uniterm acarrearía algunos resultados extraños,
como la separación de Oriente Medio en ORIENTE y MEDIO.
La indicación por asignación implica la asignación de términos a un documento a partir de una fuente que no
es el propio documento. Los términos pueden ser extraídos de la cabeza del indizador - por ejemplo, el indizador
decide que los términos AYUDA EXTERNA y RELACIONES EXTERIORES, que no aparecen explícitamente
en ninguno de los resúmenes,
serían buenos términos para usar en el ítem de la figura 3.
Usualmente, la indización por asignación implica el esfuerzo de representar la sustancia del análisis conceptual
mediante el empleo de términos extraídos de alguna forma de vocabulario controlado.
Vocabularios controlados
Un vocabulario controlado es básicamente una lista de términos autorizados. En general, el indizador

solamente puede asignar a un documento términos que aparecen en la lista adoptada por la institución para la cual
trabaja. Comúnmente, sin embargo, el vocabulario controlado es más que una mera lista. Generalmente incluye
alguna forma de estructura semántica. En particular, esta estructura esta destinada a:
1. Controlar sinónimos, optando por una única forma normalizada, con remisión de todas las otras;
2. Diferenciar homógrafos. Por ejemplo, PLANTAS (BOTÁNICA) es un término bastante diferente
de PLANTAS (INDUSTRIA); y
3. reunir o vincular términos cuyos significados presenten una relación más estrecha entre sí. Dos
tipos de relaciones son explícitamente identificadas: las jerárquicas y las no jerárquicas (o
asociativas). Por ejemplo, el término MUJERES TRABAJADORAS está relacionado
jerárquicamente con MUJERES (como una especie de este término) y con AMAS DE CASA
(también una especie del término MUJERES), así como está asociado a otros términos, como
EMPLEO o FAMILIAS UNIPATERNAS, que aparecen en jerarquías completamente diferentes.
Se identifican tres tipos principales de vocabularios controlados: esquemas de clasificación bibliográfica

(como la Clasificación Decimal de Dewey), listas de encabezamientos de materia y tesauros. Todos procuran
presentarlos términos tanto alfabética como "sistemáticamente". En las clasificaciones bibliográficas, el
ordenamiento alfabético es secundario, en la forma de un índice que reúne para el ordenamiento principal, el cual
es jerárquico. En los tesauros, el ordenamiento manifiesto de los términos es alfabético, pero una estructura
jerárquica implícita está incorporada a la lista alfabética por medio de referencias. La lista tradicional de
encabezamientos de materia es similar al tesauro en que su base es alfabética. Difiere del tesauro por incorporar
una estructura jerárquica imperfecta y por no distinguir claramente entre las relaciones jerárquicas y las
asociativas. Los tres tipos de vocabularios controlan sinónimos, distinguen los homógrafos y agrupan términos
afines, pero emplean métodos algo diferentes para alcanzar estos objetivos.
Un estudio más completo de estas cuestiones puede encontrarse en el libro de este autor Vocabulary controlfor
information retrieval (segunda edición, Arlington, VA., Information Resources Press, 1986).
Indización como clasificación
En la bibliografía de bibliotecología y ciencia de la información, se hace algunas veces, una distinción entre las
tres expresiones indización de materias, catalogación de materias y clasificación. Catalogación de materias se
refiere comúnmente a la asignación de encabezamientos de materia para representar el contenido total de ítems
bibliográficos completos (libros, informes, periódicos, etc.) en el catálogo de una biblioteca. Indización de
materias es una expresión usada de modo más impreciso; se refiere a la representación del contenido temático de
partes de items bibliográficos completos, como es el caso del índice al final de un libro. De esta manera, una
biblioteca puede "catalogar" un libro bajo el encabezamiento de materia PERROS, para indicar su contenido
temático global; su contenido detallado solamente es revelado por el índice de materias al final del libro. Esta
distinción entre las expresiones catalogación de materias e indización de materias, una refiriéndose a ítems
bibliográficos completos y la otra a partes de ítems, es artificial, engañosa e incoherente. El proceso por el cual el
contenido temático de los items bibliográficos están representados en las bases de datos publicadas - en forma
impresa o legible por computadora - está casi invariablemente designado como indización de materias, aunque se
estén examinando ítems global 0 parcialmente. De esta manera, el índice de materias del, digamos, Chemical
Abstracts remite a libros o -informes técnicos enteros, como también a partes de items bibliográficos (capítulos de
libros, trabajos publicados en anales de conferencias, artículos de revistas). Por otro lado, las bibliotecas pueden
optar por representar en sus catálogos partes de libros (por ejemplo, capítulos o artículos); a esto se denomina
comúnmente catalogación analítica. Cuando es aplicada al contenido temático, esta actividad sería catalogación
analítica de materias.
La situación es aún más confusa cuando se considera el término clasificación. Los bibliotecarios tienden a
emplear esta palabra para referirse a'la asignación de números de clasificación (extraídos de algún esquema de
clasificación - por ejemplo, la Decimal de Dewey [CDDI, fa Decimal Universal [CDU], o la Library of Congress
[LC]) a items bibliográficos, especialmente con la finalidad de ordenar esos ítems en los estantes de la biblioteca,
en gabinetes de archivos, etc. Pero el catálogo de materias de una biblioteca puede ser organizado alfabéticamente
(un catálogo alfabético de materias o un catálogo diccionario) u organizado acorde a la secuencia de algún
esquema de clasificación (un catálogo -sistemático). Supongamos que un bibliotecario tome un libro y decida que
el mismo trata de "aves". Le asigna el encabezamiento de materia AVES a ese ítem. Alternativamente, puede
asignarle el número de clasificación 598.2. Muchos se referirían a la primera operación como catalogación de
materias y a la segunda como clasificación, una distinción completamente absurda. Una mayor confusión ocurre
cuando uno comprende que la indicación de materias puede incluir el empleo de un esquema de clasificación o
que un índice de materias en forma impresa puede adoptar la secuencia de algún esquema de clasificación.
Estas diferencias terminológicas son totalmente sin sentido y sólo sirven para causar confusión. El hecho es
que la clasificación, en su sentido más amplio, penetra todas las actividades asociadas con el almacenamiento y
recuperación de la información. Parte de esa confusión terminológica es causada por la incapacidad de distinguir
entre las etapas de análisis conceptual y de traducción en la indización.
Supongamos que un especialista en información tome algún ítem bibliográfico y decida que trata el tema
"robots". La actividad intelectual que esa decisión implica es la misma, cualquiera sea el tipo de item - libro, parte
de un libro, revista, artículo de revista, anales de conferencia, trabajo leído en una conferencia, o lo que fuere. El
especialista en información clasifica el ítem, esto es, lo pone en la clase conceptual de "ítems que tratan de
robots".
Como vimos anteriormente, el proceso de traducción comprende la representación del análisis conceptual
mediante un término o términos extraídos de algún vocabulario. Un término asignado a un ítem bibliográfico es
simplemente un rótulo que identifica una determinada clase de ítems. Ese rótulo puede ser la palabra robot,
extraída de un tesauro, de una lista de encabezamientos de materia o del mismo documento, una palabra
equivalente en otra lengua, o un rótulo como 629.892 extraído de algún esquema de clasificación.
El proceso de decidir de qué trata algún ítem y de asignarle un rótulo que represente esta decisión es
conceptualmente lo mismo, si el rótulo es extraído de un esquema de clasificación, de un tesauro o de una lista de
encabezarnientos de materia, si el item es una entidad bibliográfica completa o parte de ella, si el rótulo es
subsecuentemente archivado en orden alfabético o en alguna otra secuencia (o, de hecho, no archivado de modo
alguno), y si el objeto del ejercicio es organizar ítems en estantes o registrasen catálogos, índices impresos o bases
de datos legibles por computadora.
En el campo del almacenamiento y recuperación de la información, la clasificación de documentos se refiere a

la formación de clases de items sobre la base de su contenido temático. Tesauros, encabezamientos de materia y
esquemas de clasificación bibliográfica son esencialmente listas de rótulos con los cuales se identifican y, por
ventura, se organizan esas clases. El proceso de búsqueda de información implica decidir qué clases consultar en
un índice impreso, catálogo en fichas o base de datos legible por computadora. Una búsqueda puede comprender
el examen de una única clase (por ejemplo, todo lo que aparezca bajo el encabezamiento ROBOTS) o puede
involucrar la combinación de clases (por ejemplo, ítems aparecidos bajo ROBOTS y también bajo
INTELIGENCIA ARTIFICIAL). Cuántas combinaciones son posibles, o cuán fácilmente se pueden combinar
varias clases, es algo que depende mucho del formato del instrumento utilizado en la búsqueda, principalmente si
es impreso o en forma electrónica.
En resumen, la indización de materias es conceptualmente idéntica a la catalogación de materias. La
actividad que esto abarca es la de la clasificación de materias, es decir, formar clases de objetos sobre la base de
su contenido temático. En este texto, el término indización de materias o incluso indización es usado, por razones
de comodidad, para designar todas las actividades de clasificación de materias.
Especiricidad del vocabulario
La figura 5 muestra un análisis conceptual preparado para un artículo de revista y la traducción de este análisis
conceptual en tres diferentes tipos de vocabulario. El artículo trata de la utilización de robots en la industria,
específicamente, sus aplicaciones en la fabricación y manipulación de materiales. También examina el empleo de
técnicas de inteligencia artificial en el proyecto y operación de robots, así como los problemas específicos
involucrados en hacer que los robots se muevan adecuadamente (esto es, problemas de locomoción). Con relación
a la mayoría de esos aspectos, el análisis conceptual puede ser traducido efectivamente para cualquiera de los
vocabularios. El único problema real que se presenta es la idea de locomoción. Ninguno de los vocabularios
parece incluir un término apropiado que abarque los movimientos de un mecanismo, como es un robot. Se puede
argumentar, no obstante, que los problemas de locomoción de los robots son realmente los problemas de
locomoción humana (esto es, el de proyectar robots que tengan tanta flexibilidad de movimiento como los seres
humanos), y esta idea se encuentra expresada claramente en la Clasificación Decimal de Dewey (CDD) y en la
Library of Congress Subject Headings (LCSH). El tesauro INSPEC parece carecer de un término apropiado que
contenga la idea de locomoción.
Se debe observar que las ideas transmitidas por el análisis conceptual en la figura 5 son abarcadas
colectivamente por los grupos de términos listados en los tres vocabularios. Por ejemplo, los cinco números de
clasificación de CDD, tomados en conjunto, abarcan el contenido temático de ese artículo clara y completamente,
si bien no hay una relación unívoca entre los elementos individuales del análisis conceptual y los términos de la
CDD. Esta clasificación carece del término específico "robots industriales". No obstante, la combinación de
629.892 y 670.427 ciertamente transmite la idea de robots en operaciones de fabricación, de la misma forma que
629.892 combinado con 621.86 transmite la idea de robots como dispositivos de manipulación de materiales;
629.892 con 006.3, la idea de inteligencia artificial aplicada a robots; y 629.892 con 612.76, la idea de locomoción
de robots simulando la locomoción humana.
Dejando de lado la idea de locomoción, que no aparece en INSPEC, el análisis conceptual de la figura 5 está
incluido de igual modo, completa y específicamente, en cada vocabulario, cuando se consideran grupos enteros de
términos. En el nivel de un único término, desde luego, existen de hecho diferencias. Si sólo un término pudiese
ser asignado a ese artículo, LCSH e INSPEC serían mejores que la CDD, ya que pueden diferenciar los robots
industriales de los robots en general.
Análisis conceptual Clasificación Decimal de Library of Congress INSPEC Thesaurus

Dewey Subject Headings
Robots industiales 629.892 ROBOTS ROBOTS
Robots(autómatas) INDUSTRIALES INDUSTRIALES
Inteligencia artificial 006.3 Inteligencia INTELIGENCIA INTELIGENCIA
artificial ARTIFICIAL ARTIFICIAL
Operaciones de 670.427 Mecanización y PROCESOS DE PROCESOS DE
fabricación automatización de FABRICACIÓN FABRICACIÓN
operaciones fabriles
Manejo de materiales 621.86 Equipo para MANEJO DE MANEJO DE
manejo de materiales MATERIALES MATERIALES
Locomoción 612.76 Locomoción LOCOMOCIÓN
(fisiología humana) HUMANA
Figura 5
Análisis conceptual traducido en tres vocabularios controlados
Este ejemplo ilustra dos aspectos importantes. Primero, el tipo de vocabulario controlado (esquema de
clasificación, encabezamientos de materia, tesauro) no es el factor más importante que afecta la etapa de
traducción de la indización. Mucho más importantes son el alcance (cobertura) y la especificidad del vocabulario.
En este ejercicio de indización, la CDD y la LCSH son mejores que el INSPEC que carece de un tértnino para
locomoción. El segundo aspecto que ilustra el ejemplo es que, aunque la especificidad es una propiedad muy
importante de un vocabulario controlado, puede ser alcanzada de diferentes formas en diferentes vocabularios. Es
importante considerar, en especial, las propiedades de combinaciones de los términos de indización más que las
propiedades de los términos aislados.
Consideremos, como ejemplo, un artículo que analiza los servicios de salud mental. El vocabulario A contiene
el descriptor específico SERVICIOS DE SALUD MENTAL, mientras el vocabulario B posee el término
SERVICIOS DE SALUD, pero no el término más específico. Sin embargo, B también incluye el término SALUD
MENTAL, de modo que la idea de "servicios de salud mental" está específicamente incluida por la indización bajo
SERVICIOS DE SALUD y SALUD MENTAL. Con respecto a este tema, entonces, el vocabulario B es tan
específico como A. Los vocabularios C y D son menos específicos: C contiene el término SALUD MENTAL,
pero no posee otro término para servicios de salud, mientras D contiene SERVICIOS DE SALUD, pero carece de
un término para salud mental, de modo que ninguno de los dos presenta la posibilidad de expresar específicamente
la idea de "servicios de salud mental". En el momento de realizar una búsqueda en los sistemas representados por
los diferentes vocabularios, sería posible obtener resultados efectivos en A y B, pero sería imposible limitar la
búsqueda en C y D - o sería recuperado todo sobre salud mental, o todo sobre servicios de salud.
PRÁCTICA DE LA INDIZACIÓN
Un indicador raramente se da el lujo de poder leer un documento atentamente del principio al fin. La
exigencia de que índice una cierta cantidad de ítems por día habrá de imponerle que acepte por lo general una
lectura que no sea completa. Usualmente, se recomienda una combinación de lectura y de "hojeo" del texto. Las
partes que serán leídas atentamente son las que presentan mayor probabilidad de decir lo máximo acerca del
contenido en el menor tiempo: el título, el resumen, el resumen del autor [summary] y las conclusiones. Los
títulos de las secciones y de los epígrafes de las ilustraciones o tablas también merecen mayor atención. Conviene
hojear el resto del texto, para asegurarse que las partes más condensadas presentan una imagen exacta de lo que
trata el ítem. No obstante, el indizador debe, habitualmente, tener en cuenta el documento entero (partes leídas,
partes hojeadas) y los términos asignados deberían reflejar el todo. La excepción sería el caso en que solamente
parte del documento (por ejemplo, un extenso ítem con múltiples temas) fuese de interés para el grupo de usuarios
a ser atendidos.
Jones (1976), citando a Anderson (1971), señala que ciertas partes de un documento son particularmente útiles
para un indizador: "Parágrafos de apertura (de capítulos o secciones) y frases de apertura y cierre de parágrafos
parecen ser especialmente ricos en palabras indizables". Esto concuerda con las conclusiones de Baxendale
(1958) en su trabajo sobre el desarrollo de procedimientos para la indización automática de documentos.
La norma internacional sobre indización de materias (ISO 5963-1985 [E]) ofrece orientación adicional para el
examen de un documento:
Frecuentemente es impracticable hacer una lectura completa, ni siempre es necesario, pero el indizador
debe asegurarse que ninguna información útil le pasó desapercibida. Las partes importantes del texto
deben ser examinadas cuidadosamente, prestándole especial atención a las siguientes:
a) el título;
b) el resumen, si proporciona;
c) el sumario;
d) la introducción, las frases y parágrafos de comienzo de capítulos, y las conclusiones;
e) ilustraciones, gráficos, tablas y sus correspondientes leyendas;
f) palabras o grupos de palabras que aparezcan subrayadas o impresas en tipos diferentes.
Todos estos elementos deben ser examinados y evaluados por el indizador durante el análisis del
documento. No es recomendable hacer la indización a partir exclusivamente del título, y, en caso que haya un
resumen, el mismo no debe ser visto como un sustituto satisfactorio del examen del texto. Los títulos pueden ser
engañosos; tanto los títulos como los resúmenes pueden ser inadecuados; en muchos casos ninguno es una fuente
contable del tipo de información que el indizador necesita. (P. 2)*
En su amplio estudio sobre como actúan realmente los indizadores, Oliver et al. (1966), descubrieron que la
mayoría sigue el método de leer/hojear:
El grupo más grande de indizadores (cerca del 85 % del total) afirmó que examinan rutinariamente el documento
entero. Sin embargo, esos indizadores acentuaron que ciertas partes del documento eran examinadas más atentamente
que otras. Esas partes incluían el resumen, la introducción, el resumen del autor [summary], las conclusiones, la
metodología, los resultados y tablas y gráficos. Si una o más de esas secciones "condensadas" fuese considerada
adecuada por el indizador, el podría examinar superficialmente o simplemente "hojear" otras partes del documento.
Los principales motivos presentados para examinar el cuerpo del documento fueron para ver si pasaban por alto alguna
cosa, ofrecer mayor profundidad de indización, y aclarar cualquier duda o cuestión. (p.4-14)
Todo eso se apoya en la suposición de que es posible leer el item a ser indizado. Como señala la norma
internacional (ISO 5963-1985[E]), se aplicarán procedimientos diferentes a otros tipos de ítems:
Documentos no impresos, como los medios audiovisuales, visuales y sonoros, inclusive objetos tridimensionales,
exigen procedimientos diferentes. No siempre es posible, en la práctica, examinar un registro en su integridad (por
ejemplo, proyectando un filme). La indización, entonces, es comúnmente realizada a partir de un título y/o de una
sinopsis, aunque al indizador se le debe permitir mirar u oir la obra, si la descripción escrita es inadecuada o parece
inexacta. (p. 2)
El motivo para examinar el documento es, naturalmente, para decidir qué incluir en la indización (en los
términos de Preschel [19711, esto es la identificación de la "materia indizable"). Como lo sugerido en el capítulo
2, el indizador, para hacer esto en forma eficiente, debe conocer muy bien los intereses de la comunidad a la que
sirve el índice. Dentro de una institución específica, los indizadores pueden ser instruidos para buscar en los
documentos ciertos elementos predefinidos; si esto ocurre, serán incluidos en la indización. De acuerdo al tipo de
institución, esos elementos importantes incluyen: materiales de fabricación, temperaturas implicadas,
agrupamientos por edades involucrados, nivel educacional, etc. En ciertos casos, los elementos más importantes
son preimpresos en formularios de indización, recordando al indizador qué términos deben ser usados, si se
aplicaran a determinado documento. Por ejemplo, la National Library of Medicine emplea "etiquetas" de ese tipo
para indicar agrupamientos por edades, género, tipos de animales
utilizados en experimentos, etc.
Esta etapa de "análisis conceptual" de la indización no debe ser influenciada por las características del
vocabulario a ser utilizado en la etapa de traducción. Esto es, el indizador decide, primero, qué temas necesitan
ser representados; sólo después (quizás momentáneamente) considerará si el vocabulario permite o no representar
estos temas adecuadamente. Dicho de forma un poco diferente, el indizador no debe ignorar un tema porque sabe
o sospecha que no puede ser expresado adecuadamente. Es posible que un examen más meticuloso del
vocabulario venga a mostrar que estaba equivocado. Además, una función importante del indizador es
perfeccionar el vocabulario controlado, comunicando sus deficiencias a los responsables por su mantenimiento.
Es improbable que esto ocurra si el indizador esta estimulado a "pensar" en los términos controlados. En cuanto a
esto, discrepo totalmente con la ISO 5963, que afirma: "Tanto el análisis como la transcripción deben ser
realizadas con el auxilio de herramientas de indización, como tesauros y esquemas de clasificación." La
transcripción, sin duda, no puede realizarse sin esas herramientas, pero el análisis debe ser completamente
independiente de ellas.
Un factor afín a tener en cuenta es que la terminología usada por un autor puede no corresponder exactamente
a los términos del vocabulario controlado. Aún cuando los términos empleados por el autor coincidan con los
términos controlados, la manera como son utilizados puede diferir. Por ejemplo, un autor puede emplear el
término EPIDEMIOLOGÍA en una forma bastante vaga, pero el vocabulario puede definirlo de modo más
preciso, aunque es empleado por el autor, su asignación será errónea. Son las ideas con que trata el autor, y no las
palabras utilizadas, que deben ser indizadas.
Exhaustividad de la indización
Los factores que afectan el desempeño de un sistema de recuperación de información que son directamente
atribuibles a la indización pueden ser categorizados como sigue:
1. Política de indización.
2. Exactitud de la indización
Análisis conceptual
Traducción
Las decisiones en cuanto a políticas son tomadas por los administradores del servicio de información, estando por
esto, fuera del control del indizador individual; los factores relativos a precisión están bajo el control del indizador
individual.
La principal decisión política es respecto a la exhaustividad de la indización, la cual corresponde,
aproximadamente, al número de términos asignados en promedio. El efecto de la exhaustividad fue anteriormente
ejemplificado en la figura 3. La indización exhaustiva implica el empleo de términos suficientes para abarcar el
contenido temático del documento de modo bastante completo. La indización selectiva, por otro lado, implica el
empleo de un número mucho menor de términos, para abarcar solamente el contenido temático principal del
documento. Cuantos más términos fueran utilizados para indizar un documento más accesible se tornará y,
probablemente, más será recuperado. Un centro de información procurará indizar exhaustivamente si sus usuarios
solicitaran con frecuencia la realización de búsquedas completas. Un usuario que precise encontrar todos los
ítems que, de alguna forma, traten de la OLP tendrá la expectativa de recuperar el item mostrado en la figura 3,
pero eso solamente será posible si la indización ha sido moderadamente exhaustiva.
Las decisiones políticas sobre exhaustividad no deben tomar la forma de límites absolutos sobre el número de
términos a ser asignados. Más bien, la política podría sugerir una franja de términos; por ejemplo, "la mayoría de
los ítems será indizada con 8 a 15 términos". En un gran centro de información, que trate con muchos tipos
diferentes de documentos, la política podrá variar según el tipo de documento. Por ejemplo, el centro de
información de una gran empresa podría establecer la siguiente política:
Informes técnicos de la propia empresa 15-25 términos

Otros informes técnicos 10-15 términos
Patentes 15-20 términos
Artículos de revistas 5-10 términos
y así sucesivamente. Alternativamente, la política estaría basada sobre el contenido temático, los temas de mayor
interés para la empresa serían indizados con una cantidad mayor de términos.
Si bien una base de datos indizada exhaustivamente acostumbra posibilitar búsquedas exhaustivas (alto acierto)*,
es probable que la indización exhaustiva sea más cara que la indización selectiva. Además, la indización
exhaustiva redundará en menor precisión en la búsquedas. Esto es, será recuperado un número mayor de items
que el usuario considerará no pertinentes a sus necesidades de información. Esto puede ocurrir por dos razones:
1. Las "falsas asociaciones" aumentarán con el número de términos asignados. Por ejemplo, el ftem de la figura 3
sería recuperado en una búsqueda sobre encuestas telefónicas en Egipto, pero nada tiene que ver con ese tema.
2. Cuanto más términos fueran usados para indizar un ítem, más será recuperado en.respuesta a temas de búsqueda,
que en él, son tratados solamente de una forma muy secundaria. Es probable que el item de la ilustración 3 sea
recuperado en una búsqueda de artículos que trate de líderes políticos de los estados árabes, pero la persona que
solicita esa búsqueda puede decidir que el mismo contribuye tan poco para ese tema que difícilmente sería
considerado útil.
La idea de "exhaustividad" también se aplica a un sistema de recuperación que funciona sobre la base de
búsquedas hechas en textos (ver capítulo 13). El título del ítem de la figura 3 no es una representación muy
exhaustiva de su contenido temático. La exhaustividad aumenta con el número de palabras en la representación.
El término profundidad es frecuentemente empleado para referirse a la cantidad de términos asignados a un
documento. Esto es, profundidad se emplea en lugar de exhaustividad. Ambos términos son imprecisos y pueden
ser engañosos. Para comprender mejor el efecto del aumento del número de términos usados en la indización de
un documento, imaginémoslo como si tuviera dos dimensiones, como muestra la figura 6. Digamos que un
indizador es capaz de identificar diez temas afines que son estudiados en el ítem. Se considera esto como el
ámbito de cobertura del documento. Si el indizador intenta incluir todos esos temas, la indización será
considerada como exhaustiva (esto es, ella es una representación exhaustiva del contenido temático). Cuanto más
temas fueran incluidos más exhaustiva será la indización. Por otro lado, cuanto menos temas fueran incluidos más
selectiva será la indización. Evidentemente, la indización exhaustiva exigirá el empleo de más términos.
La segunda dimensión del documento, desde el punto de vista de la indización, es denominada especificidad
en la figura 6. Esto es, algunos de los temas identificados serían indizados en más de un nivel de especificidad.
Supongamos que el primer tema sea "arquitectura de las catedrales". Esto podría ser indizado bajo el término
ARQUITECTURA RELIGIOSA, el cual no es completamente específico. A fin de aumentar la especificidad, el
indizador añadiría un segundo término, CATEDRALES. El empleo conjunto de los dos términos representa
precisamente el tema estudiado. Por otro lado, la inclusión de ARQUITECTURA DOMÉSTICA aumentaría la
exhaustividad y no la especificidad porque se estaría introduciendo un nuevo concepto en la indización.
En otras palabras, la inclusión de más términos de indización aumentaría a exhaustividad de una
representación o aumentaría su especificidad. Por consiguiente, mientras sea verdadero decir que la
"exhaustividad" corresponde aproximadamente al número de términos asignados, no existe una relación unívoca
exacta entre exhaustividad y el número de términos. En este libro, exhaustividad se refiere al ámbito de cobertura
de la indización como está ejemplificado en la figura 6. Profundidad es un término menos satisfactorio porque
denota lo opuesto de ámbito y se aplica más apropiadamente a la dimensión de especificidad mostrada en la figura
6.
El número de términos asignados a un documento constituye realmente una cuestión de costo-eficacia. Dicho
generalmente, cuanto más exhaustiva sea la indización mayor será el costo, y es poco razonable indizar con un
nivel de exhaustividad mayor que el justificado por las necesidades de los usuarios del servicio. (En realidad,
naturalmente, esto es una gran simplificación. En relación con un documento extenso, el indizador necesita más
tiempo para abarcar exhaustivamente su contenido temático. En otros casos, puede ser más rápido utilizar muchos
términos en vez de procurar seleccionar algunos a partir de un grupo en que los términos estén íntimamente
relacionados o los mismos tengan significados coincidentes. En general, no obstante, cuanto más términos fueran
usados más costosa sería su inclusión en la base de datos y su procesamiento subsecuente. Además, el incremento
del número de términos elevará sustancialmente los costos de los índices en fichas o impresos). En el caso que
fueran solicitados muchos pedidos de búsquedas que realmente cubran el asunto de modo completo, será preciso
un alto nivel de exhaustividad. Si esas búsquedas son la excepción a la regla, un nivel más bajo de exhaustividad
será suficiente.
La figura 7 demuestra la ley de los rendimientos decrecientes aplicada a la indización. En el ejemplo
hipotético de ese servicio de información, la asignación en promedio de x términos satisfará a cerca del 80 % de
las necesidades de los usuarios. Para elevar ese porcentual al 90-95 % sería preciso exigir una exhaustividad
mucho mayor en la indización. La posición del punto X en esa curva, y que x representa en número de términos,
dependerá muchísimo de cuestiones que serán específicas del sistema. Los administradotes de un servicio de
información preparan directrices sobre exhaustividad de la indización que resultan del conocimiento que tienen de
las necesidades de los usuarios. Estas tienden a estar basadas en la intuición, aunque sería Posible realizar
experimentos controlados en que se comparen muestras de necesidades de información con una colección de
documentos indizados con diferentes cantidades de términos.
Evidentemente, la idea de un nivel óptimo de exhaustividad aplicable a todos los items de una base de datos es
un tanto engañosa, ya que se aplicarían valores ideales extremadamente diferentes a diferentes ítems, dependiendo
de los pedidos efectivamente formulados por los usuarios del sistema (Maron, 1979). La exhaustividad óptima es
enteramente dependiente de los pedidos.
ESPECIFICIDAD
1.
EXHAUSTIVIDAD
2.
3.
4.
5.
6.
7.
8.
9.
10.
Figura 6
Las dos dimensiones de la indización de un documento.
100
Porcentaje de
pedidos que
Pueden ser
satisfechos
X
0
Número de términos asignados
Figura 7
Rendimientos decrecientes en la indización.
El número de términos asignados a un documento es un 'factor crítico para definir si un determinado ftem será
o no recuperado. Otros factores relacionados, sin embargo, también pueden entrar en juego. Obviamente, es de
esperar que el número de ítems recuperados decline a medida que más términos son combinados en una relación
de tipo y [and], en una estrategia de búsqueda. Evidentemente, el alcance con que los términos pueden ser
combinados con éxito en una estrategia de búsqueda depende en gran medida del numero de términos usados en la
indicación. Tomando un ejemplo trivial, la combinación de tres términos (A *B *C) puede recuperar una gran
cantidad de ítems cuando se emplea en la indicación una media de 20 términos por ítem, pero es improbable que
recupere muchos de una base de datos en la cual son asignados solamente tres términos en promedio a cada item.
Cuanto más selectiva es la indización más necesidad habrá de combinar términos en una relación de tipo o [or], a
fin de mejorar el acierto. Las interacciones entre exhaustividad de indización y las características de las
estrategias de búsqueda fueron estudiadas por Sparck-Jones (1973).
En una cantidad de servicios de información la indización cumple dos finalidades un tanto diferentes: (1)
permitir el acceso a un ítem en un índice impreso, y (2) permitir el acceso a ese mismo ítem en una base de datos
legible por computadora. En esa situación, se le exige al indizador que indice de acuerdo con cierto nivel de
exhaustividad preestablecido para la segunda de las finalidades, y que seleccione un subconjunto de términos de
indización (tal vez entre dos y cuatro) así asignados, los cuales servirán de punto de acceso en el índice impreso.
Los términos en el subconjunto serán aquellos que el indizador considere como los que mejor representan los
aspectos más importantes del ítem Esto puede ser considerado como una forma rudimentaria de indización
"ponderada": un término puede tener uno de dos pesos "principal" (contenido temático fundamental, para el índice
impreso) o "secundario" (todos los otros términos). En el capítulo 11 examinaremos más detenidamente la
indización ponderada.
Principio de especificidad
El principio que, aisladamente, es el más importante de la indización de materias, y que se remonta a Cutter
(1876), es aquel según el cual un tema debe ser indizado bajo el término más específico que lo abarque
completamente. De esta manera, un artículo que trate del cultivo de naranjas será indizado bajo NARANJAS y no
bajo FRUTAS CÍTRICAS o FRUTAS.
En general, es mejor utilizar varios términos específicos, 'que un término que sea más genérico. Si un artículo
describe el cultivo de limones, limas y pomelos, será mejor indizado bajo los tres términos específicos que bajo el
término más genérico FRUTAS CÍTRICAS. El término FRUTAS CÍTRICAS será usado solamente para artículos
que traten de las frutas cítricas en general, y para aquellos que traten prácticamente de todas las frutas cítricas.
Esta directriz puede ser extendida a la situación en la cu al se trata de varias frutas cítricas, pero no con mucho
detalle (a juicio del indizador) que justifiquen el empleo de los términos específicos. En algunos casos, también,
el público atendido por el indizador puede estar interesado sólo en determinadas frutas. En esta situación sería
válido indizar únicamente estas y no incluir términos correspondientes a otras.
Algunos estudiantes de indización cometen la equivocación de indizar de modo redundante. Teniendo
indizado un artículo sobre naranjas bajo el término NARANJAS, sienten la necesidad de asignarle también el
término FRUTAS CÍTRICAS y aun FRUTAS. Esto es completamente innecesario. En realidad, se trata de una
práctica de indización deficiente. Si los términos genéricos fueran asignados cada vez que fuera utilizado un
término especffico, resultará difícil diferenciar artículos genéricos de artículos específicos. Por ejemplo, el
usuario que consulta un índice bajo el término FRUTAS espera encontrar items sobre frutas en general, y no ítems
sobre frutas específicas.
En los sistemas manuales de recuperación que precedieron a los sistemas computadorizados, de hecho era
preciso desdoblar las entradas de los términos específicos para los genéricos respectivos; por ejemplo, el empleo
del término NARANJAS al indizar un item originaba que también le fueran asignados los términos FRUTAS
CÍTRICAS, FRUTAS y tal vez hasta PRODUCTOS AGRÍCOLAS. La razón de eso era permitir las búsquedas
genéricas. Si no se hiciese así, sería prácticamente imposible realizar una búsqueda completa sobre, digamos,
todas las frutas. Sin embargo, si un sistema computadorizado es diseñado de modo apropiado, es innecesario ese
desdoblamiento, al menos cuando se utiliza un vocabulario controlado. Por ejemplo, debería ser posible solicitar
al computador la búsqueda sobre el término FRUTAS y todo lo que estuviera debajo en la estructura jerárquica
(todos los términos específicos [TEs] en el caso de un tesauro).
En general, entonces, no se debe contar con que los términos FRUTAS CÍTRICAS y NARANJAS sean
aplicados a un mismo ítem. La única situación que justificaría esa combinación sería aquella donde hubiese un
artículo que tratase de frutas cítricas en general, pero que incluyese extensas consideraciones sobre naranjas, o uno
que tratase de frutas cítricas y que se valiese de las naranjas como ejemplo (por ejemplo, la irrigación de frutas
cítricas con ejemplos tomados de la irrigación de naranjales).
El indizador debe tener presente que es posible obtener especificidad mediante la combinación de términos. Si
no hubiera ningún término que sólo pueda representar el tema, se busca una combinación apropiada de términos
en el vocabulario controlado. He aquí algunos ejemplos hipotéticos:
Literatura Medieval Francesa

indizado bajo LITERATURA MEDIEVAL y
LITERATURA FRANCESA
Bibliotecas Médicas
indizado bajo BIBLIOTECAS ESPECIALIZADAS y
CIENCIAS MÉDICAS
Literatura Canadiense
indizado bajo LITERATURA y
CANADA
Aceite de Maní
indizado bajo ACEITES VEGETALES y
MANÍ
Se observa que el indizador debe procurar la combinación más apropiada para cada caso. Teóricamente,
Literatura Medieval Francesa sería expresada por LITERATURA MEDIEVAL y FRANCIA, pero la combinación
de LITERATURA MEDIEVAL y LITERATURA FRANCESA expresa la idea más exactamente. Del mismo
modo, se combinó CIENCIAS MÉDICAS con BIBLIOTECAS ESPECIALIZADAS y no con BIBLIOTECAS
para expresar la idea de bibliotecas médicas, pues estas son evidentemente especializadas, y se combinó MANÍ
con ACEITES VEGETAILES y no con ACEITES, ya que aceite de maní es un aceite vegetal.
El vocabulario controlado a veces no incluye un término en el nivel de especificidad exigido por un
determinado documento. En ese caso el indizador usará el término más específico existente (por ejemplo,
FRLTTAS CÍTRICAS, antes que FRUTAS, para un artículo sobre naranjas). El puede también sugerir, al equipo
responsable por el mantenimiento del tesauro, la necesidad de términos más específicos en esa categoría.
Otras directrices
El proceso de indización por materias parece ser no propenso a reglas rigurosas. Más allá del principio de
especificidad, no fueron desarrolladas reglas verdaderas sobre la asignación de términos, a pesar de que existen
muchas acerca de qué hacer con los términos de indización después de asignados (por ejemplo, como establecer la
secuencia en que son listados, para formar encabezamientos en un índice impreso). Fueron formuladas muchas
"teorías" sobre indización, algunas de las cuales fueron resecadas por Borko (1977), pero tienden a no ser teorías
de verdad, y ofrecen poca ayuda práctica para el indizador.
Fugmann (1979, 1985) ha presentado varios axiomas sobre "indización Y Provisión de información", pero no
todos tienen una relación directa con la indización como tal. El único principio de indización verdadero
formulado, denominado "indización obligatoria", afirma que el indizador debe utilizar los términos más
apropiados con que pueda contar para describir el contenido temático tratado en un documento. Ya que esto
significa, comúnmente, los términos más específicos, es esencialmente una reiteración del principio de
especificidad. La mayor parte de los axiomas de Fugmann son realmente factores que influyen en el desempeño
de sistemas de recuperación de información antes que elementos de una teoría, aunque varios de los términos
tengan ingerencia en la indización. Por ejemplo, el axioma de la definibilidad tiene relación con la capacidad de
definir clara e inequívocamente una necesidad de información. Esto puede, evidentemente, ser extendido a la
capacidad definir el contenido temático de documentos de modo claro e inequívoco. El axioma de la
previsibilidad, de Fugmann, dice que el éxito de una búsqueda en un sistema de recuperación depende en gran
medida de la previsibilidad con que es descripto el contenido temático, el que apunta a la importancia de la
coherencia en la indización. El axioma de la fidelidad dice que otro factor que influye sobre el desempeña es la
capacidad de definir con rigor y exactitud el contenido temático (de las necesidades de información y, por
extensión, de los documentos), el cual tiene que ver más con el vocabulario controlado utilizado para indizarlo que
con la propia indización.
No conseguí, en efecto, encontrar alguna teoría verdadera aplicable al proceso de indización, a pesar de que
hay algunas (ver, por ejemplo, Jonker [19641) que refieren a las características de los términos de indización.
Además, creo que es posible identificar solamente dos reglas fundamentales de la indización, una referida a la
etapa del análisis conceptual y la otra a la etapa de traducción, a saber:
1. Incluya todos los temas de conocido interés para los usuarios del servicio de información, que sean
tratados sustantivamente en el documento.
2. Indice cada uno de ellos tan específicamente como lo permita el vocabulario del sistema y lo
justifiquen las necesidades o el interés de los usuarios.
Estas reglas están, naturalmente, sujetas a interpretación. Por ejemplo, ¿qué significa en realidad
"sustantivamente"?. Una pauta posible sería que el tema x debe ser indizado si se percibe que la mayoria de los
usuarios que buscan información sobre x encuentran ese tema de interés. Está claro que "sustantivamente" no es
una propiedad que pueda ser expresada o medida con algún método preciso. En todo caso, si un tema particular
merece ser indizado, es algo que dependerá ampliamente de tres factores: (1) la cantidad de información dada
sobre el tema, (2) el grado de interés en el tema, y (3) la cantidad de información ya existente sobre el tema: una
breve y aislada mención de un compuesto merece ser indizada si se sabe que ese compuesto es bastante reciente;
años después sería necesario un volumen mucho mayor de
información para justificar su inclusión.
La expresión "necesidades o intereses de los usuarios", en la segunda regla, implica que el principio de
especificidad puede y debe ser modificado cuando se sabe que los usuarios de un sistema o fuente de información,
en ciertas circunstancias, serían mejor servidos por medio de la indización de un determinado tema en un nivel
más genérico. Por ejemplo, en una base de datos de medicina, los artículos de medicina veterinaria aplicada a
perros serían indizados bajo los nombres de las razas de los perros involucrados. Por otro lado, artículos que
tratasen de la utilización de perros en experiencias de laboratorio serían simplemente indizados bajo PERROS,
aún cuando una raza
específica fuese mencionada.
Un colorario de la primera regla mencionada es que los temas no examinados en el documento no serán
considerados por el indizador. Aunque esto puede parecer evidente y banal, no es necesariamente así. Algunos
indizadores, principalmente aquellos que se consideran "especialistas" en un tema, se sienten inclinados a ver en
un documento cosas que nunca estuvieron en las intenciones del autor (por ejemplo, aplicaciones de un dispositivo
más allá de aquellas sostenidas en el documento). Entre tanto una de las funciones importantes de ciertos
especialistas en información (por ejemplo, aquellos que actúan en la industria) será llamar la atención de los
usuarios del servicio de información para aplicaciones potenciales, esto de hecho, no constituye la función del
indizador como tal. Es mucho mejor que él se atenga al texto y a las afirmaciones del autor. El ERIC processing
manual (1980) da algunos consejos sobre esto:
Indice el documento que tenga en sus manos, no el documento que al autor le gustaría tener escrito o
pretende escribir en el futuro. No confunda especulaciones o referencias a sugerencias y posibilidades con
el verdadero contenido. (p. vi¡-13)
"Resultados no afirmados por el auto?' no deben, desde luego, ser confundidos con resultados negativos. Estos
comúnmente merecen ser indizados. Por ejemplo, si un estudio muestra que un material no es apropiado para ser
utilizado en determinada aplicación, la aplicación mencionada debería ser definitivamente incluida en la
indización, si bien son aceptados otros criterios (por ejemplo, el volumen de información dado).
Indización pos-coordinada
El contenido temático tratado en un documento y representado por los términos de indización que le son
asignados, es de un carácter multidimensional. Consideremos, por ejemplo, un artículo que trate de la migración
de mano de obra de Mozambique a las minas de Sudáfrica indizado bajo los siguientes términos:
MOZAMBIQUE
SUDÁFRICA
TRABAJADORES MIGRANTES
MINEROS
RELACIONES ECONÓMICAS
Si bien los términos son aquí presentados en forma de lista, en realidad representan una red de relaciones, como se
ve en el diagrama de la página siguiente. Uno debería ser capaz de recuperar este documento en una búsqueda que
involucro cualquiera de los términos tomados aisladamente o cualquier combinación entre ellos: dos, tres, cuatro,
o los cinco. Un sistema de recuperación de información que posibilita que una búsqueda combine los términos de
cualquier manera es frecuentemente denominado pos-coordinado (otros términos empleados han sido pos-
combinación o manipulativo).
MOZAMBIQUE
MINEROS
TRABAJADORES
MIGRANTES
RELACIONES
ECONÓMICAS
SUDÁFRICA
Los sistemas pos-coordinados surgieron en la década de 1940, cuando fueron puestos en práctica por medio de
la utilización de varios tipos de fichas. Un sistema computadorizado moderno, funcionando en línea [online],
puede ser considerado como un descendiente directo de esos sistemas manuales. Puede ser imaginado
conceptualmente como una matriz semejante a la mostrada en la figura 8.
Los archivos de un sistema en línea comprenden dos elementos principales:
1. Un conjunto completo de representaciones de documentos: la referencia bibliográfica acompañada

normalmente de términos de indización o un resumen, o ambos.
2. Una lista de términos que muestra cuáles documentos fueron indizados bajos ellos (a veces
denominado archivo invertido o "postings file "). Los documentos son identificados por número de
registro como se ve en la figura 8.
Se puede demostrar lo que pasa durante una búsqueda en línea consultando la matriz de la figura 8.
Supongamos que la persona que hace la búsqueda entra el término MOZAMBIQUE en una terminal y que éste
es representado por P en el diagrama. El sistema responde indicando que siete items fueron indizados bajo el
término. La persona entra TRABAJADORES MIGRANTES (L en el diagrama) y recibe la información de que
cuatro items aparecen bajo este término. Si ella pide ahora que se haga la combinación de L con P, el sistema
comparará los números de documentos de las dos listas e indicará que tres ítems satisfacen el requerimiento.
Atendiendo la solicitud del interesado, el computador localiza esos registros por sus números de identificación
(4, 8, 10) y los muestra en la pantalla del monitor o los imprime.
Este procedimiento permanece igual no importa cuantos términos se encuentren involucrados y cuáles sean
las relaciones lógicas especificadas por quien hace la búsqueda. Si fuera pedido F o G, el sistema indicará que
cinco ítems satisfacen el requerimiento. Quien hace la búsqueda solicita entonces que esta lista de cinco ítems
sea combinada con la lista bajo N - esto es, (F o G) y N - resultando en la recuperación de tres ítem.
De los sistemas pos-coordinados es posible decir que:
1. Los términos pueden ser combinados entre sí de cualquier forma en el momento en que, se hace la
búsqueda.
2. Se preserva la multidimensionalidad de las relaciones entre los términos.
3. Todo término asignado a un documento tiene igual peso - ninguno es más importante que otro
(aunque la indican ponderada, tal como lo tratado en el capítulo posterior, pueda ser utilizada).
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
A X X
B X X X X X
C X X X
D X X
E X X X X X X X
F X
G X X X X
H X X X
I X
J X X X X X X
K X X X X X X X
L X X X X
M X X X X
N X X X X X X X
O X X X X X
P X X X X X X X
Figura 8
Sistema de recuperación de información representado como una matriz.
Estas características no se aplican a índices pre-coordinados, los cuales serán tratados en el próximo
capítulo.
Instrumentos auxiliares de la indización
El indizador necesita tener alguna forma de registro de los resultados de la operación de indización. Existen
cuatro posibilidades:
1. anotar en el propio documento;

2. completar algún tipo de formulario impreso en papel;
3. grabar en una cinta de audio; o
4. completar un formulario que es mostrado en la pantalla del monitor de video en línea.
En algunas instituciones el indizador simplemente marca el documento que tiene en sus manos, y un
dactilógrafo transcribe lo que fue marcado por el indizador. Este método, comúnmente, es apropiado sólo a
situaciones en las cuales se emplea una metodología de indización relativamente simple - por ejemplo, el
enriquecimiento de títulos asociados con la adición de un número relativamente pequeño de términos o códigos de
indización.
Antes que los sistemas en línea se tornasen comunes, era usual para un indizador dar entrada a los términos en
un formulario impreso. La figura 9, por ejemplo, presenta la última versión de un formulario utilizado por la
National Library of Medicine. Obsérvese el empleo de "etiquetas" [chektags]. Estos son términos potencialmente
aplicables a muchos documentos de la base de datos. Su pre-impresión en el formulario es eficiente y económica,
pues el indizador sólo necesita tildar aquellas que son aplicables. Esto no sólo ahorra tiempo al indizador, lo lleva
a recordar que esos términos deben ser asignados cuando corresponda a un determinado documento. Las etiquetas
son asignadas de modo más coherente que otros términos empleados en el MEDLARS (Lancaster, 1968; Funk y
Reid, 1983).
En ambientes de indización altamente especializada, tal vez sea posible pre-imprimir el vocabulario controlado
completo en el formulario de indización, permitiendo así que todos los términos se tornen esencialmente etiquetas.
El pionero de ese método fue probablemente Mooers. La figura 10 (según Brenner y Mooers [19581) muestra un
formulario típico de indización de Mooers. Obsérvese como los descriptores son agrupados sistemáticarnente. Al
analizar el documento, el indizador considera básicamente cada descriptor de la tabla como potencialmente
aplicable. En efecto, el indizador se formula a sí mismo las preguntas propuestas por el propio formulario de
indización. Si, por ejemplo, la respuesta a "¿existen cargas aerodinámicas específicas?" es "si" (esto es, el
documento en examen trata de cargas específicas), el indizador tendrá eso en cuenta asignando el descriptor, o
descriptores, más apropiados para carga aerodinámico. La lista de descriptores, presentada de esa forma,
simplifica el proceso de indización porque ahorra al indizador parte de su esfuerzo intelectual. El uso potencial de
un documento de interés para la institución está representado por la lista de preguntas "orientadoras"
C Pagination Lenguaje Anonimous Refs Subject Name
Author Data
Title (1)
Title (2)
A HIST ART A PREGN J CATS V HUMAN AUTHOR

B HIST BIOG B INF NEW K CATTLE W MALE
C BIOG OBIT C INF L CHICK EMB X FEMALE
G MONOGR D CHILD PRE M DOGS Y IN VITRO
H ENG ABST E CHILD O GUINEA PIGS Z CASE REPT
F ADOLESC P HAMSTERS AUTHOR
G ADULT Q MICE
H MUD AGE S RABBITS
I AGED T RATS
U ANIMAL AUTHOR
1
2
3
4
5
6
7
8
9
10
11
12
INDEXED CITATION FORM
Figura 9
Formulario de indización utilizado por la National Library of Medicine en1989.
que fue cuidadosamente compilada por personal científico experimentado.

En el pasado, la U.S. Patent and'úrademark Office desarrolló pequeños sistemas de recuperación
limitados a una única clase o a un número restricto de clases en un área de patentes. Fueron creados vocabularios
especializados para esas áreas, los cuales son suficientemente pequeños para ser impresos en algunas hojas.
También se obtuvo éxito en algunas instituciones donde el indizador pasó a dictar los términos en un grabador
de cinta para ser posteriormente transcriptos por dactilógrafos. Este método presenta algunos problemas., Pueden
ocurrir muchos errores de dactilografía cuando se utiliza un extenso vocabulario técnico, extraño al dactilógrafo,
obligando a un trabajo de revisión muy cuidadoso. Algunos indizadores no trabajan bien con ese método porque
tienen dificultades en recordar cuáles fueron los términos que ya asignaron a un ítem.
Cada vez más, no obstante, los productores de bases de datos están cambiando a procedimientos de indización
en línea. En esta modalidad de operación se presentan en el monitor de video varias pantallas con formato y el
indizador ingresa los datos en los campos así presentados. Esta modalidad de operación ofrece ventajas
significativas en relación a sus predecesoras: el indizador puede recibir varios tipos de mensajes, algunos de sus
equívocos pueden ser reconocidos por programas de detección de errores y el indizador informado
inmediatamente, además de evitar la etapa rutinaria intermedia de convertir el trabajo del indizador en un registro
legible por computador. Por otra parte, existe la posibilidad para el indizador de pasar de la modalidad de entrada
de datos a la modalidad de recuperación. De esta manera, puede utilizar casos precedentes para su orientación en
ciertas decisiones concernientes a la indización. Esto es, el indizador puede acceder a la base de datos para
informarse cómo un determinado término fue empleado anteriormente o cómo un documento más antiguo, afín a
uno que está siendo examinado, fue indizado.
Evidentemente, el vocabulario controlado utilizado por un servicio de información será un instrumento de
suma importancia para el indizador. Debe ser organizado y presentado de tal forma que proporcione al indizador
una asistencia positiva en la selección de los términos más apropiados que serán empleados en una determinada
situación. Aunque estrechamente relacionados al tema de la indización, la construcción y las propiedades de los
vocabularios controlados son temas que escapan a la finalidad de este libro. Ellos han sido tratados en detalle en
otras obras (Lancaster, 1986; Soergel, 1974).
Un tesauro publicado incorpora, comúnmente, un vocabulario de entradas, limitado a remisiones del tipo
véase, úsese, o véase bajo. Un centro de información grande puede también emitir un vocabulario de entradas
separado, para ser utilizado internamente por indizadores, especialistas en búsquedas y lexicógrafos. Un
vocabulario de ese tipo puede presentarse en varios formatos: fichas, hojas sueltas, en forma legible por
computador para emisión de salidas impresas o presentación en terminal de video en línea, o en microfilme.
Las obras de referencia publicadas pueden ser de gran valor para el indizador, principalmente en la definición
del significado de términos poco comunes. Particularmente importantes son los diccionarios y enciclopedias
especializadas y generales, como también los glosarios de todos los tipos. Bakewell (1987) elaboró una lista de
herramientas de referencia de uso potencial para el indizador. Un trabajo anterior sobre instrumentos auxiliares de
la indización en general, de Korotkin et al. (1964), está muy desactualizado. En algunas instituciones el trabajo
del indizador cuenta con el auxilio de acceso en línea a bancos de datos terminológicos (Terminological Data
Banks, 1980).

Indización y resúmenes: teoría y práctica

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Indización y resúmenes: teoría y práctica

Cargado por

Copyright:

Formatos disponibles

Lancaster, Frederick Wilfrid. Indización y resúmenes : teoría y práctica – Buenos Aires : EB, 1996.

El propósito principal de la elaboración de índices y resúmenes es construir representaciones de documentos

-------- ------------ ---------------------------

----- -- ------------ -+----- -------------------

+--------+-----------------+ ---------- ----- --

----++ ------ -------------------------------- -

Extensión del registro

Título Indización (selectiva)

Etapas en la indización de temas

La indización de temas abarca dos etapas principales:

en ese ítem por razones distintas.

Relatorio Técnico de la NASA Describiendo una Nueva Misión Espacial Tripulada

NASA Fábrica de caucho Empresa Metalúrgica

En otras situaciones no siempre es posible ser tan preciso.

Un vocabulario controlado es básicamente una lista de términos autorizados. En general, el indizador

Se identifican tres tipos principales de vocabularios controlados: esquemas de clasificación bibliográfica

Indización como clasificación

En el campo del almacenamiento y recuperación de la información, la clasificación de documentos se refiere a

Especiricidad del vocabulario

Análisis conceptual Clasificación Decimal de Library of Congress INSPEC Thesaurus

Informes técnicos de la propia empresa 15-25 términos

Número de términos asignados

Literatura Medieval Francesa

1. Un conjunto completo de representaciones de documentos: la referencia bibliográfica acompañada

Instrumentos auxiliares de la indización

1. anotar en el propio documento;

C Pagination Lenguaje Anonimous Refs Subject Name

A HIST ART A PREGN J CATS V HUMAN AUTHOR

que fue cuidadosamente compilada por personal científico experimentado.

También podría gustarte