Está en la página 1de 12

TEMA 26 Análisis documental

1. Introducción
2. El análisis documental
3. El análisis documental de contenido
4. El resumen documental
5. La indización

1. Introducción

Para que las unidades de información, bibliotecas y centros de documentación puedan cumplir la
misión de ofrecer información pertinente a sus usuarios, son imprescindibles unas tareas que les
permitan cumplir con este cometido. El conjunto de estas tareas se denomina proceso
documental. Algunas de ellas ya se han visto en otros capítulos, como la selección de los
documentos y la oferta de una serie de servicios bibliotecarios que ayuden a la utilización de
recursos de información. Sin embargo, entre la selección de la colección y la difusión mediante los
servicios bibliotecarios hay una fase intermedia que hace posible a esta última. Esta fase
intermedia se denomina tratamiento documental y se compone de distintas operaciones algunas
de las cuales como la catalogación y la clasificación ya se han visto en otros capítulos. De esta
forma, las operaciones de análisis documental que vamos a conocer ahora complementan a las ya
conocidas y sólo las mencionaremos cuando haya que aportar una visión general de ese
tratamiento. A continuación, nos centraremos en el análisis documental del contenido desarrollado
a través de las operaciones de indización y elaboración de resúmenes documentales.

2. El análisis documental

2.1. Concepto de análisis documental

El desarrollo del concepto de análisis documental tiene su origen en los inicios de la


Documentación. En la obra de Paul Otlet, fundador de la Documentación, se analizaban las
técnicas necesarias para esta ciencia y aludía a la descripción y análisis de los documentos
especializados como los artículos de revistas o ponencias de congresos. Además, este autor ya
apuntaba a que este análisis de los documentos debía recibir un tratamiento técnico profundo que
permitiera conocer su contenido que fuera más allá de la descripción formal de los documentos.
Por tanto, desde los inicios de la Documentación ya se le otorgaba un papel importante a lo que
después se ha dado en denominar análisis documental de contenido, para distinguirlo del análisis
documental de forma que era aplicado a los libros desde la Antigüedad.

El objetivo esencial que tiene que cumplir el análisis documental consiste en lograr que la masa de
documentos que aparece continuamente reciba un tratamiento específico que represente a los
documentos, de forma que se simplifique la consulta de la información original. Este tratamiento
facilita la búsqueda y recuperación de información bibliográfica de los documentos y como
resultado de su aplicación se pueden elaborar una serie de productos documentales tales como los
catálogos de bibliotecas, las biblio grafías, los índices y las bases de datos bibliográficas.

El mayor reto a que se enfrenta el análisis documental en la actualidad es la adaptación a la nueva


realidad informacional debido a que la proliferación de documentos digitales en Internet, junto con
los documentos tradicionales, hacen cada vez más difícil que éste cumpla con su objetivo. Por
tanto, es necesario que se produzca un cambio en las técnicas utilizadas. Una de las soluciones
planteadas con este fin pasa por la automatización del análisis documental mediante la generación
de índices y resúmenes con la ayuda de herramientas informáticas.

1
2.2. Orígenes históricos del análisis de contenido

Aunque Paul Otlet aportó el origen de un nuevo concepto, la práctica del análisis de contenido se
había realizado durante muchos siglos antes. De hecho, la necesidad de contar con técnicas de
análisis y recuperación de la información es tan antigua como los propios documentos y estas
técnicas siempre han intentado adaptarse a las características de los mismos. Mencionaremos a
continuación algunos ejemplos significativos relacionados con esta práctica antigua del análisis de
contenido.

En la biblioteca-archivo de Ebla, en Siria, se hallaron más de 25.000 tablillas del tercer milenio
antes de Cristo. La organización de esta enorme colección de documentos requería la aplicación
de tareas documentales. De esta forma, existía otro tipo de tablillas que hacían el papel de
catálogos donde se recopilaban cientos de títulos como la tablilla encontrada en Nínive,
Mesopotamia, que contenía 1.411 títulos de obras diferentes. Otro ejemplo lo encontramos en la
milenaria civilización egipcia en cuyas bibliotecas-archivo conocidas como las Casas de la Vida se
utilizaban cartelas o etiquetas para escribir el título en color rojo que se colgaban de los rollos de
papiros para conocer el contenido de esos documentos sin necesidad de desenrollarlos.
Posteriormente, los romanos llamaron a estas cartelas "titulus" o "index", de donde procede el
origen etimológico de la palabra índice.

En estos antecedentes vemos que una de las técnicas del análisis documental que hoy conocemos
por indización, es decir la elaboración de índices, ha sido utilizada desde los tiempos más remotos
con objeto de facilitar la recuperación de la información.

2.3. Niveles del análisis documental

El análisis documental forma parte de una serie de etapas conocidas por cadena documental o
proceso documental. El proceso documental incluye las fases de recogida, tratamiento y difusión
de los documentos dentro de una unidad de información, una biblioteca o un centro de
documentación. El concepto general de análisis documental englobaría todas aquellas operaciones
y técnicas necesarias que forman parte de la fase de tratamiento dentro de la cadena documental.
Los autores que han estudiado el concepto de análisis documental no coinciden totalmente a la
hora de indicar las operaciones que incorporaría. Para aclarar algo este panorama vamos a
enunciar todas las operaciones posibles dentro del análisis documental:

⁃ Descripción bibliográfica: la operación encargada de escoger todos aquellos elementos


aparentes y convencionales que posibiliten la identificación precisa y formal de cada
documento en una colección determinada.
⁃ Catalogación.
⁃ Clasificación.
⁃ Indización: ordenación sistemática de entradas diseñadas para que los usuarios puedan
localizar la información contenida en un documento.
⁃ Resumen o condensación.
⁃ Traducción.

Estas operaciones no se encuentran en el mismo nivel de análisis y, por tanto, el primer paso sería
distinguir entre dos niveles diferentes: el análisis de forma y el análisis de contenido. De acuerdo
con Jesús Gómez, en el siguiente cuadro se aprecian con más claridad las diferentes operaciones
relacionadas con los resultados y los productos documentales que generan:

2
Nivel de análisis Tipos de operaciones Resultados Aplicaciones
Análisis documental Descripción bibliográfica Referencias bibliográficas Bibliografías
de forma Catalogación Asientos catalográficos Catálogos
Clasificación Notaciones
Encabezamientos de materias Catálogos
Análisis documental
Indización Términos Lenguajes documentales
de contenido
Descriptores índices
Condensación Resumen

2.4. Funciones del análisis documental

Según Pinto Molina, podemos decir que las funciones del Análisis Documental son:

1. Identificativa. Como técnica auxiliar para el desarrollo de la investigación científica


pretende identificar y localizar cualquier documento, así como contribuir al conocimiento de
su contenido.

2. Transformativa. Queda patente su capacidad de transformación y reelaboración de los


documentos originales en otros secundarios.

3. Recuperativa. Favorece la recuperación de información.

4. Intermediaria. El análisis documental no es un fin en sí mismo sino un medio cuyo


resultado final se encamina la utilización directa de los usuarios.

5. Difusora. La difusión de la información contenida en los documentos es el fin del análisis


documental.

3. El análisis documental de contenido

Tanto la operación de indizar como la de resumir tienen elementos en común y con frecuencia
forman parte de un mismo tratamiento: el análisis documental de contenido, dentro del proceso
documental. Por tanto, es conveniente que veamos los aspectos comunes que comparten estas
dos operaciones.

La indización y el resumen son tareas de mayor complejidad que las pertenecientes al análisis
documental de forma, y esto se manifiesta en que el grado de normalización es inferior al del
análisis documental de forma. Mientras que, por ejemplo, en la descripción bibliográfica podemos
utilizar una herramienta normalizadora tan importante como las ISBD, que están adaptadas a la
enorme casuística de la descripción formal de documentos en sus diversos soportes; en el caso del
resumen contamos con pautas que el documentalista que los elabora puede consultar, pero en las
que no podrá encontrar una solución a un caso concreto.

3.1. Los centros de documentación dedicados a tareas de indización y resumen

Una de las diferencias entre el análisis documental de forma y el de contenido se encuentra en que
este último necesita mayores recursos humanos y económicos para su realización y, por lo tanto, la
mayoría de las bibliotecas nunca podrían asumir este tipo de tareas. Para solucionar este
inconveniente existen otras instituciones que se encargan de indizar y elaborar resúmenes de
todos los campos de la ciencia para ofrecerlo a las bibliotecas y a sus usuarios, son los llamados
centros de documentación. Así, pues, estas instituciones de carácter oficial o privado producen y
difunden servicios actualizados de indización y resúmenes de documentos. Estos centros de
documentación analizan aquellos documentos que no reciben tratamiento en las bibliotecas como

3
los artículos de revistas científicas, informes, ponencias de congresos y el resto de documentos
que forman parte de la literatura gris. Los principales objetivos de estos centros son, según
Pinto Molina:

⁃ La actualización de conocimientos, proporcionando al usuario información rápida sobre las


materias de interés.

⁃ El almacenamiento, porque ayuda a la búsqueda retrospectiva de información y en


ocasiones permiten la consulta del texto completo.

⁃ Economía de tiempo de lectura, porque los resúmenes documentales pueden ahorrar


tiempo en la consulta de documentos al abreviar su contenido esencial.

⁃ Facilidad en la selección de documentos, porque permiten juzgar el interés de los


documentos a través de sus descriptores y resúmenes.

⁃ Internacionalización, porque estos servicios utilizan un idioma de uso internacional que


facilita la comunicación de la comunidad científica.

Actualmente cada una de las disciplinas científicas cuenta con uno o varios centros de
documentación con servicios de indización y resumen que facilitan la labor de transmisión de los
nuevos conocimientos de la ciencia. Su número ha crecido a lo largo de la segunda mitad del siglo
XX como consecuencia de la "explosión de la información" y hoy día hay una gran variedad de
servicios de indización y resumen. Podemos establecer una tipología básica:

⁃ Según la dependencia institucional pueden ser públicos (por ejemplo, de un centro de


documentación parlamentario) o privados (de una empresa como ISI, Institute of Scientific
Information).

⁃ Según su orientación pueden estar dedicados a grandes disciplinas (psicología,


matemáticas, etc.) u orientados a proyectos especiales.

⁃ Según su ámbito de actuación pueden estar destinados a profesionales, a la industria, al


comercio o a instituciones oficiales.

El futuro cercano y la realidad en algunos casos de los centros de documentación con servicios de
indización y resumen se dirigen hacia:

⁃ La mejora de los sistemas de recuperación de información mediante el uso del lenguaje


natural y la ordenación de los resultados según su relevancia.

⁃ Creación de ONG y redes de colaboración entre instituciones para ofrecer portales


documentales, por ejemplo, los casos de Dialnet en España o de Redalyc en Ibero-
américa.

⁃ Apoyo a la iniciativa de Acceso abierto de las publicaciones mediante su conexión con


revistas de acceso abierto y repositorios temáticos o institucionales

⁃ La oferta de servicios con valor añadido: alertas personalizadas, noticias relacionadas con
temas seleccionados, etc.

Vamos a citar a título de ejemplo algunos de las instituciones que ofrecen estos servicios de
indización y resumen:

4
⁃ De ámbito estatal:

o IEDCYT, Instituto de Estudios Documentales sobre Ciencia y Tecnología (antesCINDOC),


que hasta 2013 formaba parte del CSIC (Centro Superior de Investigaciones Científicas),
en Madrid. En la actualidad sus servicios forman parte del Centro de Ciencias Humanas y
sociales, CCHS donde se elaboran las bases dedatos ISOC e ICYT.

o Instituto de Estudios Documentales e Históricos sobre la Ciencia, con sede en Valencia se


encarga de elaborar el IME.

o INIST (Institut de l'Information Scientifique et Technique), forma parte del CNRS y tiene su
sede en París. Este centro elabora las bases de datos multidisciplinares Pascal y Francis.

o FIZ, es el servicio alemán de Información en Ciencia y Tecnología.

o British Library, en Londres, crea varios productos de indización y resumen.

o NLM (National Library of Medicine), con sede en Washington DF, produce la base de datos
PubMed.

⁃ De ámbito privado:

o BIOSIS (Biosciences Services of Biological Abstracts).

o CAB International (Commonwealth Agricultural Bureau Internationa).

o CAS (Chemical Abstracts Service).

o Elsevier.

o INSPEC. Es una institución patrocinada por la IEE (Institution of Electrical Engineer)


británica y el IEEE (Institute of Electric and Electronic Engineers) estadounidense.

o ISI Institute for Scientific Information, fundado por Eugene Garfield y actualmente de
Clarivate Analytics, y desde 1992 a 2016 de Thomson Reuters ISI.

⁃ ONG (Organizaciones no gubernamentales):

o CLACSO (Consejo Latinoamericano de Ciencias Sociales). Creado en 1967, reúne 623


centros de investigación y ofrece un Repositorio digital.

o Redalvc (Red de Revistas Científicas de América Latina, el Caribe, España y Portugal). Es


un portal colaborativo de revistas en acceso abierto.

o Dialnet. Creado en 2002 en la Universidad de La Rioja para ofrecer un portal de difusión de


la producción científica hispana.

3.2. Los analistas de contenido: indizadores y resumidores

Dentro de los profesionales de la información existe un grupo encargado de realizar las


operaciones necesarias dentro del análisis documental de contenido para la creación de productos
documentales: son los indizadores y los resumidores; también se les pueden denominar analistas o
documentalistas. La NFAIS (Federación Nacional de Servicios de Resúmenes e Información)

5
se creó en 1957 en EE UU y fue la primera asociación de su categoría especializada en atender
las necesidades de estos profesionales y promover la selección, análisis y difusión de la
información existente en distintos campos del conocimiento: ciencia y tecnología, ciencias sociales
y humanidades. En la actualidad, algunos de las principales asociaciones de indizadores y
resumidores son: la ASI (American Society ofindixeres) y la Indexing and Abstracting Society of
Canadá.

Dentro de las aptitudes y cualidades con que deben contar estos documentalistas destacan:

⁃ Formación cultural.
⁃ Conocimiento específico del área temática de los documentos.
⁃ Conocimiento de técnicas de lectura y comprensión.
⁃ Conocimiento de procedimientos y técnicas para indizar y resumir.
⁃ Dominio del lenguaje.
⁃ Conocimiento de idiomas.
⁃ Espíritu analítico.
⁃ Capacidad de síntesis.
⁃ Claridad expositiva.

4. El resumen documental

4.1. Concepto y características del resumen documental

De acuerdo con la norma UNE 50-103-90, un resumen es una representación abreviada y precisa
del contenido de un documento, sin interpretación ni crítica y sin mención expresa del autor del
resumen. En otros idiomas los términos utilizados para la operación de resumir y para el producto
son, en francés, résumer/résumé, y en inglés, abstracting/abstract.

Existen otros productos que no son resúmenes porque no se ajustan a la definición de la norma
UNE, bien porque contienen valoraciones personales bien porque no reflejan todo el contenido del
documento original. Estos otros productos son: anotación, compendio, epítome, extracto, nota
informativa, reseña, sinopsis y sumario.

Un resumen permite a los usuarios identificar, rápida y exactamente, el contenido de un


documento, determinar su pertinencia para sus intereses y decidir así si tienen que leer el trabajo
en su totalidad. El resumen puede considerarse como una versión reducida del documento. El
resumen ha de orientarse a definir claramente lo que se trata en el documento, y con este fin el
resumen se compone de los siguientes elementos:

⁃ Los objetivos principales, así como el alcance de la investigación.


⁃ La descripción de los métodos empleados.
⁃ La exposición de los resultados obtenidos
⁃ Las conclusiones a las que se ha llegado.

Un resumen documental posee entidad independiente del documento original y contiene unas
características propias que suelen darse en mayor o menor medida en los diversos tipos de
resúmenes. Según Moreiro estas características son:

⁃ Entropía: es el principio de economía del lenguaje, de manera que en un resumen debe


expresarse la mayor cantidad de información utilizando el menor número de palabras.

⁃ Redundancia: hay que evitarla para que no se repitan afirmaciones de un mismo hecho.

6
⁃ Pertinencia: esta característica pretende que el contenido del resumen se adapte a los
fines a los que está destinado.

⁃ Coherencia: es el grado de relevancia entre las partes del resumen. Se consigue mediante
la conexión de las proposiciones del texto manteniendo el orden del documento original.
Además, hay que mantener una coherencia lingüística siguiendo las normas gramaticales,
ortográficas y sintácticas.

⁃ Objetividad: garantizará la calidad del resumen.

⁃ Actualidad: debe reducirse al mínimo el tiempo transcurrido entre la publicación del


documento original y la preparación del resumen.

4.2. Evolución histórica del resumen

Como comentamos más arriba, los orígenes del resumen se encuentran en la Antigüedad. Cada
paquete de las tablas de barro mesopotámicas llevaba una etiqueta expresan. do de forma
resumida su contenido. Los egipcios llegaron a resumir el contenido de sus colecciones de papiros
y los griegos también abreviaban los volúmenes de gran tamaño para facilitar su manejo. El primer
repertorio donde aparecen anotaciones sobre los libros es en el Libro de los Epítomes, de
Hernando Colón, ideado para tener conocimiento sobre el contenido de los libros de su enorme
biblioteca privada.

Una etapa decisiva fue la aparición en París, en 1665, del Journal des Scavants, la primera revista
científica que incluía una sección con resúmenes con el fin de difundir las novedades bibliográficas
en la comunidad científica. La idea fue adoptada rápidamente en Inglaterra y Alemania con la
publicación del Philosophical Transaction, de la Royal Society y el Acta Eruditorum,
respectivamente. En el siglo XVIII aparecen las revistas de resúmenes independientes de las
revistas científicas, de manera que se convierten en una nueva clase de documento, los
documentos secundarios. La primera publicación de este tipo fue Pharmaceutisches Zentralblatt,
de la Academia de Berlín. En España se contó durante algunos años con el Diario de los Literatos
(1737-1742), con resúmenes de temas científicos y filosóficos. El gran desarrollo de las revistas de
resúmenes ocurrió durante el siglo XX, hasta el punto de que en la actualidad cada disciplina
científica cuenta con un repertorio de este tipo. Por ejemplo, dos de los repertorios más antiguos y
que siguen publicándose actualmente son Physics Abstract (1898) y Chemical Abstract (1907).

La etapa más reciente de los repertorios se caracteriza por su transformación en bases de datos
documentales. Esta etapa se inició en los años 60 y 70 del siglo XX, cuando las
telecomunicaciones permitieron la consulta en línea de bases de datos con resúmenes
documentales. Posteriormente, la expansión de la WWW desde los años 90 ha facilitado la
consulta en línea y algunos de estos antiguos repertorios de resúmenes son hoy accesibles de
forma gratuita o mediante suscripción a todo el mundo con la ventaja de que su actualización es
semanal o incluso diaria.

La última etapa dentro de la evolución de los resúmenes está caracterizada por la creación de
sistemas que pueden generar automáticamente estos productos documentales.

4.3. La elaboración del resumen

Crear un resumen es una operación eminentemente intelectual que se desarrolla en diversas


fases:

7
⁃ Selección del documento que se va a analizar. Esta fase dependerá de los criterios
utilizados dentro del sistema de información encargado del resumen.

⁃ Análisis formal del documento. Para la elaboración de la referencia bibliográfica se


puede seguir la norma UNE 50-104-94, Referencias bibliográficas: contenido, forma y
estructura.

⁃ Análisis del contenido. Esta fase consiste en la búsqueda del tema o temas principales y
dentro de ella se pueden utilizar diferentes métodos para realizar el análisis mental. Uno de
los más utilizados se conoce por lectura de situación, y consiste en ir planteando al texto
una serie de preguntas conforme se va leyendo. Las preguntas están relacionadas con el
autor, el contexto, el tipo de documento que se analiza, las hipótesis planteadas, el método
de investigación utilizado, resultados obtenidos y conclusiones. Para facilitar la fase de
lectura los resumidores suelen prestar mayor atención a ciertas zonas del texto, como el
título y subtítulos del documento junto con los índices de materias, si existen, el resumen
del autor, la introducción y las primeras frases de los capítulos o secciones, cualquier frase
destacada en el texto (mediante comillas, subrayados, etc.) y, por último, las conclusiones.

⁃ Síntesis. Para comenzar con esta fase nos puede resultar de gran ayuda la elaboración de
un esquema general del texto donde quedan ordenadas las ideas más representativas del
mensaje. A partir de este esquema construiremos el resumen diferenciando las ideas
principales de las secundarias y reduciendo las expresiones complejas en otras más
simples, pero sin que pierdan su significado. Además, debemos mantener la coherencia
dentro del resumen y seguir el estilo y el tipo de resumen utilizado por las
recomendaciones del centro de documentación.

4.4. Tipología

Los criterios para establecer las distintas categorías de resúmenes, estarán de acuerdo con los
factores que se tengan en cuenta: extensión, densidad informativa, proceso de realización, autor
del resumen, presentación y medio de difusión.

El criterio más extendido para establecer una tipología de resúmenes es el referido al contenido.
De esta manera, siguiendo un orden de menor a mayor contenido informativo o, lo que es lo
mismo, de mayor a menor condensación del contenido, pueden existir los siguientes tipos de
resúmenes:

⁃ Resumen indicativo: también llamado descriptivo porque su finalidad es la de describir


brevemente el contenido del documento. Su longitud oscila entre las 50 y 200 palabras y
los elementos que se suelen incluir son: el tipo de documento, los temas principales y el
tratamiento dado a esos temas. Su función no es tanto la de sustituir al documento como la
de alertar sobre los nuevos documentos que puedan ser de interés.

⁃ Resumen informativo: describe los aspectos significativos y relevantes del documento


mediante una relación lógica y lineal de los temas tratados. Además, aporta información
cuantitativa o cualitativa. Su longitud oscila entre las 100 y 300 palabras. Este tipo de
resumen tiene por objeto que pueda ser un sustituto o anticipo del documento original.

⁃ Resumen analítico: describe con mayor detalle los temas tratados y los aspectos
relacionados. De acuerdo con las pautas más utilizadas, su extensión no debería
sobrepasar las 500 palabras. Su elaboración es muy costosa porque requiere más tiempo
que el resto y, por esa razón, no suele aparecer en los grandes centros de documentación.

8
María Pinto incluye dentro de esta tipología dos resúmenes adicionales: resumen
informativo/indicativo y el resumen crítico. El primero estaría situado entre el informativo y el
analítico. Estos resúmenes contienen un tratamiento informativo para los temas principales y un
tratamiento indicativo para los aspectos secundarios. En cambio, el resumen crítico no estaría
aceptado por la mayor parte de los autores porque supone una contradicción con el principio de
objetividad que debería contemplar el resumen documental.

4.5. Normalización

La normalización documental tiene como objetivo garantizar un tratamiento de los documentos con
unos mínimos de calidad y facilitar el intercambio de la información dentro del proceso documental
entre unidades de información diferentes. Los grandes logros obtenidos en normalización dentro de
las fases del proceso documental encuentran dificultades cuando se trata de aplicarlos al resumen.
Las dificultades para normalizar el proceso general de resumir se encuentran en los siguientes
aspectos:

⁃ Los documentos objeto de resumen son heterogéneos en contenido y estructura.

⁃ Existen problemas lingüísticos por la naturaleza del lenguaje en que están escritos los
documentos.

⁃ Se dan problemas conceptuales como el grado de profundidad del análisis, la objetividad,


etc.

Dentro del campo de la normalización hay varios niveles de obligación: desde los consejos,
instrucciones... hasta normas como las siguientes:

⁃ ISO 214-1976. Documentation analyse pour les publications et la documentation


⁃ UNE 50-103-90. Documentación. Preparación de resúmenes
⁃ ANSI Z39.14-1979. American National Standard for writing abastracts

4.6. Automatización del resumen: tendencias

Entendemos por automatización el proceso general de resumir la capacidad de aceptar un texto


íntegro como entrada y ofrecer como salida un subconjunto de información que incluya los
elementos más relevantes del documento.

Los factores que han impulsado las investigaciones en este campo han sido:

⁃ El aumento de documentos digitales presentes en Internet.

⁃ Documentos con texto completo muy extensos presentes en los actuales sistemas de
recuperación de información.

⁃ Avances en el Procesamiento del Lenguaje Natural (PLN) que han provocado un nuevo
interés por los resúmenes automáticos.

5. La indización

5.1. Concepto

Del mismo modo que el resumen forma parte del análisis de contenido de los documentos, la
indización comparte el mismo objetivo del resumen. En ambas operaciones se trata de representar

9
el contenido informativo con la finalidad de facilitar la recuperación de la información. La operación
de resumir se realiza mediante un análisis y una síntesis previos a la elaboración definitiva del
resumen. Sin embargo, en la indización se produce exclusivamente un análisis de los conceptos y
su transformación en términos para que representen a esos conceptos. Por tanto, la diferencia
esencial entre la operación de resumir y de indizar se encuentra precisamente en el uso de los
términos obtenidos en la indización. Esos términos no forman parte del lenguaje natural empleado
en los resúmenes, sino que son los componentes fundamentales de los llamados lenguajes
documentales que están estudiados con amplitud en este mismo tema 24.

Según definición de la UNESCO, indizar significa: "Describir y caracterizar un documento con la


ayuda de representaciones de los conceptos contenidos en dicho documento, para permitir una
búsqueda eficaz de las informaciones contenidas en un fondo documental”.

Esta definición es del año 1975, y durante algunos años más se consideraba que la indización sólo
se aplicaba a los conceptos presentes en los documentos. Es decir, los estudios de esa época
relacionados con las técnicas y con los fundamentos teóricos de la indización estaban enfocados
principalmente a la selección de los conceptos de los documentos analizados y su transformación
en términos de indización. Sin embargo, las investigaciones de autores como Cooper y Salton
provocaron que se considerara que los términos utilizados por los usuarios en las búsquedas
documentales también fueran objeto de la indización. De este modo, se completó el esquema
donde participa la indización al considerar las preguntas de los usuarios como elementos a tener
en cuenta al igual que los conceptos de los documentos.

Según este esquema, durante el proceso de tratamiento de los documentos se produce una
primera operación de indización. En esta fase, los documentalistas reciben los documentos y
proceden a analizar los conceptos de acuerdo con las recomendaciones de su centro de
documentación y con los lenguajes documentales empleados. El resultado de este análisis va a ser
la selección de términos de indización, por ejemplo, los descriptores de un tesauro, que se
incorporan al sistema de recuperación de información dentro de los registros bibliográficos y dentro
de los índices de sistema. De esta forma, los descriptores aparecen en los campos
correspondientes dentro de los registros y también en los índices del tesauro, es decir, el sistema
actualiza su base de datos y almacena la información.

Por otra parte, cuando el usuario plantea una pregunta al bibliotecario referencistas, también se
produce una segunda operación de indización. En esta ocasión, la indización se realiza sobre los
conceptos de la pregunta. El bibliotecario necesita analizar los conceptos antes de convertirlos a
términos de indización, por ejemplo, mediante la consulta de un tesauro. La última etapa será la
interrogación al sistema de recuperación de información que dará una respuesta de acuerdo con
los términos de indización empleados.

5.2. Métodos de indización

Para realizar la indización de los documentos se pueden utilizar varios sistemas que coinciden con
los que reproducimos aquí:

⁃ Indización por unitérminos. Su autor, Mortimer Taube, expuso este método por primera
vez en el año 1955. Este autor concebía los unitérminos como los vocablos más pequeños
y simples seleccionados del documento, útiles para su identificación.

Para el registro físico de este sistema unitérmino, Taube diseñó una ficha, de tamaño
normalizado, con una cabecera reservada al unitérmino correspondiente y el resto dividido
en 10 columnas, del 0 al 9, destinadas a situar los números de registros de los documentos
que contienen el unitérmino. Cuando se hacía una búsqueda, por ejemplo, sobre "bosque

10
de coníferas se seleccionaban las fichas que contenían los unitérminos "bosque" y
"coníferas" y se comprobaban qué números de registro coincidían en ambas fichas.

Para Van Dijk, este método suponía un importante progreso para la indización porque la
lista de los términos del vocabulario documental puede ser reducida gracias al poder
combinatorio de las palabras. Sin embargo, sus inconvenientes derivan del hecho de que
las palabras aisladas pueden carecer de significación propia en muchos casos y las
relaciones entre esos términos pueden dar lugar a falsas combinaciones durante la
búsqueda documental.

⁃ Indización por descriptores. Los descriptores son términos que representan o describen,
de ahí su denominación, un concepto con más exactitud que el unitérmino, porque puede
estar compuesto por expresiones complejas y, por tanto, más específicas. Siguiendo con el
ejemplo anterior, el descriptor sería "bosque de coníferas" De esta manera, se reduce el
problema que presentan los unitérminos a la hora de combinar los conceptos. Los
descriptores fueron la aportación que hizo Mooers a los esfuerzos por mejorar las técnicas
de recuperación de la información a principios de los años cincuenta. Este autor aplicó
estos elementos en su sistema Zator, que era capaz de coordinar los descriptores de los
documentos.

Desde entonces, los descriptores empezaron a aplicarse de forma independiente en listas


de términos, también llamadas palabras clave, pero encontraron su desarrollo cuando se
emplearon en la construcción de los tesauros, como veremos más adelante. En los
tesauros, por ejemplo, el descriptor "bosque de coníferas" mantendría diversos tipos de
relaciones con otros descriptores de interés como "bosque mediterráneo", "pinos", etc.

⁃ Indización por materias. Los encabezamientos de materia comienzan en 1876 con las
Rules for a dictionary catalog de Charles A. Cutter. Este lenguaje documental es un
lenguaje precoordinado, de estructura combinatoria y con control de vocabulario, todo ello
regido por el principio de la especificidad, lo cual indica que el término escogido debe
describir una materia concreta y sólo una. La función de este lenguaje es la de servir de
ayuda en la recuperación de la información cuando un usuario necesita buscar
documentos de un tema concreto.

Los principios que estableció Cutter fueron dos: el principio de especificidad y el de entrada
directa. El principio de especificidad se refiere a la importancia de utilizar los conceptos
bajo su nombre más específico y no englobarlo en uno más general. Otro principio es el de
entrada directa y hace referencia a la conveniencia de usar los encabezamientos
compuestos por más de una palabra en la forma en que se presentan en el lenguaje
natural, evitando la inversión de los términos que lo componen. Por ejemplo, debe
utilizarse el encabezamiento "bosque mediterráneo" en lugar de "mediterráneo-bosques".

5.3. Indización automática

El objetivo de la indización automática consiste en aplicar métodos informáticos para que la


indización sea una operación más eficiente. Gil Leiva distingue diferentes realizaciones que tienen
que ver con la indización automática. Según este autor, existen los siguientes casos, en grado de
menor a mayor automatización:

1. Indización asistida por ordenador, realizada por programas informáticos que ayudan al
indizador humano en e la operación intelectual de indización.

2. Indización semiautomática, realizada por programas que analizan los documentos y


proponen términos que finalmente pasan por el indizador humano

11
3. Indización automática, realizada por programas que analizan y asignan términos sin pasar
por el control de un indizador humano.

Para llegar a desarrollar programas informáticos que fueran capaces de realizar una indización
automática, ha sido necesaria una larga evolución en busca de métodos de indización que fueran
viables. Los métodos utilizados han sido de diferentes campos como la estadística, la lingüística,
informática, etc. La confluencia de estos métodos es la única forma de lograr una indización
automática de calidad.

Los métodos estadísticos utilizados para lograr la indización automática proceden de los estudios
desarrollados en torno a las técnicas avanzadas de recuperación de información que han
evolucionado especialmente desde los años 70. Dentro de estas técnicas algunos conceptos
esenciales se refieren a los diferentes pesos, es decir, carga de significado que contienen las
palabras dentro de un mismo texto. Se demostró, por ejemplo, que la frecuencia de las palabras en
el texto determina ese peso y que según la "ley del mínimo esfuerzo" descubierta por el lingüista
Zipf existe una relación inversamente proporcional entre la presencia de las palabras en un texto y
su importancia dentro del mensaje de ese texto. De esta manera, si es posible calcular el peso de
las palabras en un texto, en teoría, podría ser relativamente fácil realizar una extracción de esas
palabras y convertirlas en términos de indización.

Aunque existían programas experimentales desde los años 70, como el SMART de Salton, no ha
sido hasta la expansión de Internet cuando se ha visto la necesidad de crear sistemas de
indización automática. Fruto de estos esfuerzos ha sido Altavista, el primer gran motor de
búsqueda de la web o Lycos. Este último motor de búsqueda realiza la indización del texto
completo de una página web, dándole mayor importancia a los términos que se encuentren dentro
de ciertas etiquetas HTML como la etiqueta de Title (título) y Head (cabecera), además de los
primeros veinte términos. Sin embargo, en muchas ocasiones el sistema de indización automática
interpreta de forma insatisfactoria los temas que tratan las páginas web. Para evitar este problema
surgió una iniciativa internacional que sugería que fuera el autor de una página web quien facilitara
la labor de indización automática mediante la indicación de términos con la información más
destacada acerca del contenido. Estos términos se incorporan dentro de la codificación de la
página web en unas etiquetas creadas para este fin, las etiquetas meta. Estas etiquetas contienen
los datos principales de esa página web, de forma que se obtienen los conocidos como metadatos.
Los metadatos hacen una función similar a la de catalogación de una página web al identificar las
características principales de ese documento. En la actualidad la creación de metadatos está
definida en un esquema reconocido internacionalmente llamado Iniciativa Dublin Core. Este
esquema propuso que las páginas web pueden contener hasta 15 metadatos diferentes de los
cuales destacamos el elemento "description" que contiene un resumen del recurso en línea.

Dentro del desarrollo de los motores de búsqueda tenemos que mencionar a Google, porque
aportó una nueva técnica de indización al tener en cuenta no sólo el contenido de las páginas web
sino también la cantidad de páginas que enlazan con cierta página, de modo que calcula la
importancia o la popularidad de las páginas web de forma equivalente al análisis que realiza el ISI
(Institute for Scientific Information) en sus índices de citas de documentos científicos.

Una vez expuesta la situación actual de la indización automática, podemos diferenciar entre
diversos métodos de acuerdo con la American Society of Indixer:

⁃ Programas específicos de indización. Se utilizan para generar listas de entradas que


aparecen en al final de los libros como "índice de materias" como, por ejemplo, CINDEX o
SKY Index. Dentro de este grupo destacan las aplicaciones diseñadas especialmente para
indizar páginas web, como es el caso de HTML Indixer.
⁃ Indización incorporada. Es el método utilizado para insertar metadatos en los recursos en
línea con objeto de mejorar las respuestas de los motores de búsqueda.

12

También podría gustarte