Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Introducción
2. El análisis documental
3. El análisis documental de contenido
4. El resumen documental
5. La indización
1. Introducción
Para que las unidades de información, bibliotecas y centros de documentación puedan cumplir la
misión de ofrecer información pertinente a sus usuarios, son imprescindibles unas tareas que les
permitan cumplir con este cometido. El conjunto de estas tareas se denomina proceso
documental. Algunas de ellas ya se han visto en otros capítulos, como la selección de los
documentos y la oferta de una serie de servicios bibliotecarios que ayuden a la utilización de
recursos de información. Sin embargo, entre la selección de la colección y la difusión mediante los
servicios bibliotecarios hay una fase intermedia que hace posible a esta última. Esta fase
intermedia se denomina tratamiento documental y se compone de distintas operaciones algunas
de las cuales como la catalogación y la clasificación ya se han visto en otros capítulos. De esta
forma, las operaciones de análisis documental que vamos a conocer ahora complementan a las ya
conocidas y sólo las mencionaremos cuando haya que aportar una visión general de ese
tratamiento. A continuación, nos centraremos en el análisis documental del contenido desarrollado
a través de las operaciones de indización y elaboración de resúmenes documentales.
2. El análisis documental
El objetivo esencial que tiene que cumplir el análisis documental consiste en lograr que la masa de
documentos que aparece continuamente reciba un tratamiento específico que represente a los
documentos, de forma que se simplifique la consulta de la información original. Este tratamiento
facilita la búsqueda y recuperación de información bibliográfica de los documentos y como
resultado de su aplicación se pueden elaborar una serie de productos documentales tales como los
catálogos de bibliotecas, las biblio grafías, los índices y las bases de datos bibliográficas.
1
2.2. Orígenes históricos del análisis de contenido
Aunque Paul Otlet aportó el origen de un nuevo concepto, la práctica del análisis de contenido se
había realizado durante muchos siglos antes. De hecho, la necesidad de contar con técnicas de
análisis y recuperación de la información es tan antigua como los propios documentos y estas
técnicas siempre han intentado adaptarse a las características de los mismos. Mencionaremos a
continuación algunos ejemplos significativos relacionados con esta práctica antigua del análisis de
contenido.
En la biblioteca-archivo de Ebla, en Siria, se hallaron más de 25.000 tablillas del tercer milenio
antes de Cristo. La organización de esta enorme colección de documentos requería la aplicación
de tareas documentales. De esta forma, existía otro tipo de tablillas que hacían el papel de
catálogos donde se recopilaban cientos de títulos como la tablilla encontrada en Nínive,
Mesopotamia, que contenía 1.411 títulos de obras diferentes. Otro ejemplo lo encontramos en la
milenaria civilización egipcia en cuyas bibliotecas-archivo conocidas como las Casas de la Vida se
utilizaban cartelas o etiquetas para escribir el título en color rojo que se colgaban de los rollos de
papiros para conocer el contenido de esos documentos sin necesidad de desenrollarlos.
Posteriormente, los romanos llamaron a estas cartelas "titulus" o "index", de donde procede el
origen etimológico de la palabra índice.
En estos antecedentes vemos que una de las técnicas del análisis documental que hoy conocemos
por indización, es decir la elaboración de índices, ha sido utilizada desde los tiempos más remotos
con objeto de facilitar la recuperación de la información.
El análisis documental forma parte de una serie de etapas conocidas por cadena documental o
proceso documental. El proceso documental incluye las fases de recogida, tratamiento y difusión
de los documentos dentro de una unidad de información, una biblioteca o un centro de
documentación. El concepto general de análisis documental englobaría todas aquellas operaciones
y técnicas necesarias que forman parte de la fase de tratamiento dentro de la cadena documental.
Los autores que han estudiado el concepto de análisis documental no coinciden totalmente a la
hora de indicar las operaciones que incorporaría. Para aclarar algo este panorama vamos a
enunciar todas las operaciones posibles dentro del análisis documental:
Estas operaciones no se encuentran en el mismo nivel de análisis y, por tanto, el primer paso sería
distinguir entre dos niveles diferentes: el análisis de forma y el análisis de contenido. De acuerdo
con Jesús Gómez, en el siguiente cuadro se aprecian con más claridad las diferentes operaciones
relacionadas con los resultados y los productos documentales que generan:
2
Nivel de análisis Tipos de operaciones Resultados Aplicaciones
Análisis documental Descripción bibliográfica Referencias bibliográficas Bibliografías
de forma Catalogación Asientos catalográficos Catálogos
Clasificación Notaciones
Encabezamientos de materias Catálogos
Análisis documental
Indización Términos Lenguajes documentales
de contenido
Descriptores índices
Condensación Resumen
Según Pinto Molina, podemos decir que las funciones del Análisis Documental son:
Tanto la operación de indizar como la de resumir tienen elementos en común y con frecuencia
forman parte de un mismo tratamiento: el análisis documental de contenido, dentro del proceso
documental. Por tanto, es conveniente que veamos los aspectos comunes que comparten estas
dos operaciones.
La indización y el resumen son tareas de mayor complejidad que las pertenecientes al análisis
documental de forma, y esto se manifiesta en que el grado de normalización es inferior al del
análisis documental de forma. Mientras que, por ejemplo, en la descripción bibliográfica podemos
utilizar una herramienta normalizadora tan importante como las ISBD, que están adaptadas a la
enorme casuística de la descripción formal de documentos en sus diversos soportes; en el caso del
resumen contamos con pautas que el documentalista que los elabora puede consultar, pero en las
que no podrá encontrar una solución a un caso concreto.
Una de las diferencias entre el análisis documental de forma y el de contenido se encuentra en que
este último necesita mayores recursos humanos y económicos para su realización y, por lo tanto, la
mayoría de las bibliotecas nunca podrían asumir este tipo de tareas. Para solucionar este
inconveniente existen otras instituciones que se encargan de indizar y elaborar resúmenes de
todos los campos de la ciencia para ofrecerlo a las bibliotecas y a sus usuarios, son los llamados
centros de documentación. Así, pues, estas instituciones de carácter oficial o privado producen y
difunden servicios actualizados de indización y resúmenes de documentos. Estos centros de
documentación analizan aquellos documentos que no reciben tratamiento en las bibliotecas como
3
los artículos de revistas científicas, informes, ponencias de congresos y el resto de documentos
que forman parte de la literatura gris. Los principales objetivos de estos centros son, según
Pinto Molina:
Actualmente cada una de las disciplinas científicas cuenta con uno o varios centros de
documentación con servicios de indización y resumen que facilitan la labor de transmisión de los
nuevos conocimientos de la ciencia. Su número ha crecido a lo largo de la segunda mitad del siglo
XX como consecuencia de la "explosión de la información" y hoy día hay una gran variedad de
servicios de indización y resumen. Podemos establecer una tipología básica:
El futuro cercano y la realidad en algunos casos de los centros de documentación con servicios de
indización y resumen se dirigen hacia:
⁃ La oferta de servicios con valor añadido: alertas personalizadas, noticias relacionadas con
temas seleccionados, etc.
Vamos a citar a título de ejemplo algunos de las instituciones que ofrecen estos servicios de
indización y resumen:
4
⁃ De ámbito estatal:
o INIST (Institut de l'Information Scientifique et Technique), forma parte del CNRS y tiene su
sede en París. Este centro elabora las bases de datos multidisciplinares Pascal y Francis.
o NLM (National Library of Medicine), con sede en Washington DF, produce la base de datos
PubMed.
⁃ De ámbito privado:
o Elsevier.
o ISI Institute for Scientific Information, fundado por Eugene Garfield y actualmente de
Clarivate Analytics, y desde 1992 a 2016 de Thomson Reuters ISI.
5
se creó en 1957 en EE UU y fue la primera asociación de su categoría especializada en atender
las necesidades de estos profesionales y promover la selección, análisis y difusión de la
información existente en distintos campos del conocimiento: ciencia y tecnología, ciencias sociales
y humanidades. En la actualidad, algunos de las principales asociaciones de indizadores y
resumidores son: la ASI (American Society ofindixeres) y la Indexing and Abstracting Society of
Canadá.
Dentro de las aptitudes y cualidades con que deben contar estos documentalistas destacan:
⁃ Formación cultural.
⁃ Conocimiento específico del área temática de los documentos.
⁃ Conocimiento de técnicas de lectura y comprensión.
⁃ Conocimiento de procedimientos y técnicas para indizar y resumir.
⁃ Dominio del lenguaje.
⁃ Conocimiento de idiomas.
⁃ Espíritu analítico.
⁃ Capacidad de síntesis.
⁃ Claridad expositiva.
4. El resumen documental
De acuerdo con la norma UNE 50-103-90, un resumen es una representación abreviada y precisa
del contenido de un documento, sin interpretación ni crítica y sin mención expresa del autor del
resumen. En otros idiomas los términos utilizados para la operación de resumir y para el producto
son, en francés, résumer/résumé, y en inglés, abstracting/abstract.
Existen otros productos que no son resúmenes porque no se ajustan a la definición de la norma
UNE, bien porque contienen valoraciones personales bien porque no reflejan todo el contenido del
documento original. Estos otros productos son: anotación, compendio, epítome, extracto, nota
informativa, reseña, sinopsis y sumario.
Un resumen documental posee entidad independiente del documento original y contiene unas
características propias que suelen darse en mayor o menor medida en los diversos tipos de
resúmenes. Según Moreiro estas características son:
⁃ Redundancia: hay que evitarla para que no se repitan afirmaciones de un mismo hecho.
6
⁃ Pertinencia: esta característica pretende que el contenido del resumen se adapte a los
fines a los que está destinado.
⁃ Coherencia: es el grado de relevancia entre las partes del resumen. Se consigue mediante
la conexión de las proposiciones del texto manteniendo el orden del documento original.
Además, hay que mantener una coherencia lingüística siguiendo las normas gramaticales,
ortográficas y sintácticas.
Como comentamos más arriba, los orígenes del resumen se encuentran en la Antigüedad. Cada
paquete de las tablas de barro mesopotámicas llevaba una etiqueta expresan. do de forma
resumida su contenido. Los egipcios llegaron a resumir el contenido de sus colecciones de papiros
y los griegos también abreviaban los volúmenes de gran tamaño para facilitar su manejo. El primer
repertorio donde aparecen anotaciones sobre los libros es en el Libro de los Epítomes, de
Hernando Colón, ideado para tener conocimiento sobre el contenido de los libros de su enorme
biblioteca privada.
Una etapa decisiva fue la aparición en París, en 1665, del Journal des Scavants, la primera revista
científica que incluía una sección con resúmenes con el fin de difundir las novedades bibliográficas
en la comunidad científica. La idea fue adoptada rápidamente en Inglaterra y Alemania con la
publicación del Philosophical Transaction, de la Royal Society y el Acta Eruditorum,
respectivamente. En el siglo XVIII aparecen las revistas de resúmenes independientes de las
revistas científicas, de manera que se convierten en una nueva clase de documento, los
documentos secundarios. La primera publicación de este tipo fue Pharmaceutisches Zentralblatt,
de la Academia de Berlín. En España se contó durante algunos años con el Diario de los Literatos
(1737-1742), con resúmenes de temas científicos y filosóficos. El gran desarrollo de las revistas de
resúmenes ocurrió durante el siglo XX, hasta el punto de que en la actualidad cada disciplina
científica cuenta con un repertorio de este tipo. Por ejemplo, dos de los repertorios más antiguos y
que siguen publicándose actualmente son Physics Abstract (1898) y Chemical Abstract (1907).
La etapa más reciente de los repertorios se caracteriza por su transformación en bases de datos
documentales. Esta etapa se inició en los años 60 y 70 del siglo XX, cuando las
telecomunicaciones permitieron la consulta en línea de bases de datos con resúmenes
documentales. Posteriormente, la expansión de la WWW desde los años 90 ha facilitado la
consulta en línea y algunos de estos antiguos repertorios de resúmenes son hoy accesibles de
forma gratuita o mediante suscripción a todo el mundo con la ventaja de que su actualización es
semanal o incluso diaria.
La última etapa dentro de la evolución de los resúmenes está caracterizada por la creación de
sistemas que pueden generar automáticamente estos productos documentales.
7
⁃ Selección del documento que se va a analizar. Esta fase dependerá de los criterios
utilizados dentro del sistema de información encargado del resumen.
⁃ Análisis del contenido. Esta fase consiste en la búsqueda del tema o temas principales y
dentro de ella se pueden utilizar diferentes métodos para realizar el análisis mental. Uno de
los más utilizados se conoce por lectura de situación, y consiste en ir planteando al texto
una serie de preguntas conforme se va leyendo. Las preguntas están relacionadas con el
autor, el contexto, el tipo de documento que se analiza, las hipótesis planteadas, el método
de investigación utilizado, resultados obtenidos y conclusiones. Para facilitar la fase de
lectura los resumidores suelen prestar mayor atención a ciertas zonas del texto, como el
título y subtítulos del documento junto con los índices de materias, si existen, el resumen
del autor, la introducción y las primeras frases de los capítulos o secciones, cualquier frase
destacada en el texto (mediante comillas, subrayados, etc.) y, por último, las conclusiones.
⁃ Síntesis. Para comenzar con esta fase nos puede resultar de gran ayuda la elaboración de
un esquema general del texto donde quedan ordenadas las ideas más representativas del
mensaje. A partir de este esquema construiremos el resumen diferenciando las ideas
principales de las secundarias y reduciendo las expresiones complejas en otras más
simples, pero sin que pierdan su significado. Además, debemos mantener la coherencia
dentro del resumen y seguir el estilo y el tipo de resumen utilizado por las
recomendaciones del centro de documentación.
4.4. Tipología
Los criterios para establecer las distintas categorías de resúmenes, estarán de acuerdo con los
factores que se tengan en cuenta: extensión, densidad informativa, proceso de realización, autor
del resumen, presentación y medio de difusión.
El criterio más extendido para establecer una tipología de resúmenes es el referido al contenido.
De esta manera, siguiendo un orden de menor a mayor contenido informativo o, lo que es lo
mismo, de mayor a menor condensación del contenido, pueden existir los siguientes tipos de
resúmenes:
⁃ Resumen analítico: describe con mayor detalle los temas tratados y los aspectos
relacionados. De acuerdo con las pautas más utilizadas, su extensión no debería
sobrepasar las 500 palabras. Su elaboración es muy costosa porque requiere más tiempo
que el resto y, por esa razón, no suele aparecer en los grandes centros de documentación.
8
María Pinto incluye dentro de esta tipología dos resúmenes adicionales: resumen
informativo/indicativo y el resumen crítico. El primero estaría situado entre el informativo y el
analítico. Estos resúmenes contienen un tratamiento informativo para los temas principales y un
tratamiento indicativo para los aspectos secundarios. En cambio, el resumen crítico no estaría
aceptado por la mayor parte de los autores porque supone una contradicción con el principio de
objetividad que debería contemplar el resumen documental.
4.5. Normalización
La normalización documental tiene como objetivo garantizar un tratamiento de los documentos con
unos mínimos de calidad y facilitar el intercambio de la información dentro del proceso documental
entre unidades de información diferentes. Los grandes logros obtenidos en normalización dentro de
las fases del proceso documental encuentran dificultades cuando se trata de aplicarlos al resumen.
Las dificultades para normalizar el proceso general de resumir se encuentran en los siguientes
aspectos:
⁃ Existen problemas lingüísticos por la naturaleza del lenguaje en que están escritos los
documentos.
Dentro del campo de la normalización hay varios niveles de obligación: desde los consejos,
instrucciones... hasta normas como las siguientes:
Los factores que han impulsado las investigaciones en este campo han sido:
⁃ Documentos con texto completo muy extensos presentes en los actuales sistemas de
recuperación de información.
⁃ Avances en el Procesamiento del Lenguaje Natural (PLN) que han provocado un nuevo
interés por los resúmenes automáticos.
5. La indización
5.1. Concepto
Del mismo modo que el resumen forma parte del análisis de contenido de los documentos, la
indización comparte el mismo objetivo del resumen. En ambas operaciones se trata de representar
9
el contenido informativo con la finalidad de facilitar la recuperación de la información. La operación
de resumir se realiza mediante un análisis y una síntesis previos a la elaboración definitiva del
resumen. Sin embargo, en la indización se produce exclusivamente un análisis de los conceptos y
su transformación en términos para que representen a esos conceptos. Por tanto, la diferencia
esencial entre la operación de resumir y de indizar se encuentra precisamente en el uso de los
términos obtenidos en la indización. Esos términos no forman parte del lenguaje natural empleado
en los resúmenes, sino que son los componentes fundamentales de los llamados lenguajes
documentales que están estudiados con amplitud en este mismo tema 24.
Esta definición es del año 1975, y durante algunos años más se consideraba que la indización sólo
se aplicaba a los conceptos presentes en los documentos. Es decir, los estudios de esa época
relacionados con las técnicas y con los fundamentos teóricos de la indización estaban enfocados
principalmente a la selección de los conceptos de los documentos analizados y su transformación
en términos de indización. Sin embargo, las investigaciones de autores como Cooper y Salton
provocaron que se considerara que los términos utilizados por los usuarios en las búsquedas
documentales también fueran objeto de la indización. De este modo, se completó el esquema
donde participa la indización al considerar las preguntas de los usuarios como elementos a tener
en cuenta al igual que los conceptos de los documentos.
Según este esquema, durante el proceso de tratamiento de los documentos se produce una
primera operación de indización. En esta fase, los documentalistas reciben los documentos y
proceden a analizar los conceptos de acuerdo con las recomendaciones de su centro de
documentación y con los lenguajes documentales empleados. El resultado de este análisis va a ser
la selección de términos de indización, por ejemplo, los descriptores de un tesauro, que se
incorporan al sistema de recuperación de información dentro de los registros bibliográficos y dentro
de los índices de sistema. De esta forma, los descriptores aparecen en los campos
correspondientes dentro de los registros y también en los índices del tesauro, es decir, el sistema
actualiza su base de datos y almacena la información.
Por otra parte, cuando el usuario plantea una pregunta al bibliotecario referencistas, también se
produce una segunda operación de indización. En esta ocasión, la indización se realiza sobre los
conceptos de la pregunta. El bibliotecario necesita analizar los conceptos antes de convertirlos a
términos de indización, por ejemplo, mediante la consulta de un tesauro. La última etapa será la
interrogación al sistema de recuperación de información que dará una respuesta de acuerdo con
los términos de indización empleados.
Para realizar la indización de los documentos se pueden utilizar varios sistemas que coinciden con
los que reproducimos aquí:
⁃ Indización por unitérminos. Su autor, Mortimer Taube, expuso este método por primera
vez en el año 1955. Este autor concebía los unitérminos como los vocablos más pequeños
y simples seleccionados del documento, útiles para su identificación.
Para el registro físico de este sistema unitérmino, Taube diseñó una ficha, de tamaño
normalizado, con una cabecera reservada al unitérmino correspondiente y el resto dividido
en 10 columnas, del 0 al 9, destinadas a situar los números de registros de los documentos
que contienen el unitérmino. Cuando se hacía una búsqueda, por ejemplo, sobre "bosque
10
de coníferas se seleccionaban las fichas que contenían los unitérminos "bosque" y
"coníferas" y se comprobaban qué números de registro coincidían en ambas fichas.
Para Van Dijk, este método suponía un importante progreso para la indización porque la
lista de los términos del vocabulario documental puede ser reducida gracias al poder
combinatorio de las palabras. Sin embargo, sus inconvenientes derivan del hecho de que
las palabras aisladas pueden carecer de significación propia en muchos casos y las
relaciones entre esos términos pueden dar lugar a falsas combinaciones durante la
búsqueda documental.
⁃ Indización por descriptores. Los descriptores son términos que representan o describen,
de ahí su denominación, un concepto con más exactitud que el unitérmino, porque puede
estar compuesto por expresiones complejas y, por tanto, más específicas. Siguiendo con el
ejemplo anterior, el descriptor sería "bosque de coníferas" De esta manera, se reduce el
problema que presentan los unitérminos a la hora de combinar los conceptos. Los
descriptores fueron la aportación que hizo Mooers a los esfuerzos por mejorar las técnicas
de recuperación de la información a principios de los años cincuenta. Este autor aplicó
estos elementos en su sistema Zator, que era capaz de coordinar los descriptores de los
documentos.
⁃ Indización por materias. Los encabezamientos de materia comienzan en 1876 con las
Rules for a dictionary catalog de Charles A. Cutter. Este lenguaje documental es un
lenguaje precoordinado, de estructura combinatoria y con control de vocabulario, todo ello
regido por el principio de la especificidad, lo cual indica que el término escogido debe
describir una materia concreta y sólo una. La función de este lenguaje es la de servir de
ayuda en la recuperación de la información cuando un usuario necesita buscar
documentos de un tema concreto.
Los principios que estableció Cutter fueron dos: el principio de especificidad y el de entrada
directa. El principio de especificidad se refiere a la importancia de utilizar los conceptos
bajo su nombre más específico y no englobarlo en uno más general. Otro principio es el de
entrada directa y hace referencia a la conveniencia de usar los encabezamientos
compuestos por más de una palabra en la forma en que se presentan en el lenguaje
natural, evitando la inversión de los términos que lo componen. Por ejemplo, debe
utilizarse el encabezamiento "bosque mediterráneo" en lugar de "mediterráneo-bosques".
1. Indización asistida por ordenador, realizada por programas informáticos que ayudan al
indizador humano en e la operación intelectual de indización.
11
3. Indización automática, realizada por programas que analizan y asignan términos sin pasar
por el control de un indizador humano.
Para llegar a desarrollar programas informáticos que fueran capaces de realizar una indización
automática, ha sido necesaria una larga evolución en busca de métodos de indización que fueran
viables. Los métodos utilizados han sido de diferentes campos como la estadística, la lingüística,
informática, etc. La confluencia de estos métodos es la única forma de lograr una indización
automática de calidad.
Los métodos estadísticos utilizados para lograr la indización automática proceden de los estudios
desarrollados en torno a las técnicas avanzadas de recuperación de información que han
evolucionado especialmente desde los años 70. Dentro de estas técnicas algunos conceptos
esenciales se refieren a los diferentes pesos, es decir, carga de significado que contienen las
palabras dentro de un mismo texto. Se demostró, por ejemplo, que la frecuencia de las palabras en
el texto determina ese peso y que según la "ley del mínimo esfuerzo" descubierta por el lingüista
Zipf existe una relación inversamente proporcional entre la presencia de las palabras en un texto y
su importancia dentro del mensaje de ese texto. De esta manera, si es posible calcular el peso de
las palabras en un texto, en teoría, podría ser relativamente fácil realizar una extracción de esas
palabras y convertirlas en términos de indización.
Aunque existían programas experimentales desde los años 70, como el SMART de Salton, no ha
sido hasta la expansión de Internet cuando se ha visto la necesidad de crear sistemas de
indización automática. Fruto de estos esfuerzos ha sido Altavista, el primer gran motor de
búsqueda de la web o Lycos. Este último motor de búsqueda realiza la indización del texto
completo de una página web, dándole mayor importancia a los términos que se encuentren dentro
de ciertas etiquetas HTML como la etiqueta de Title (título) y Head (cabecera), además de los
primeros veinte términos. Sin embargo, en muchas ocasiones el sistema de indización automática
interpreta de forma insatisfactoria los temas que tratan las páginas web. Para evitar este problema
surgió una iniciativa internacional que sugería que fuera el autor de una página web quien facilitara
la labor de indización automática mediante la indicación de términos con la información más
destacada acerca del contenido. Estos términos se incorporan dentro de la codificación de la
página web en unas etiquetas creadas para este fin, las etiquetas meta. Estas etiquetas contienen
los datos principales de esa página web, de forma que se obtienen los conocidos como metadatos.
Los metadatos hacen una función similar a la de catalogación de una página web al identificar las
características principales de ese documento. En la actualidad la creación de metadatos está
definida en un esquema reconocido internacionalmente llamado Iniciativa Dublin Core. Este
esquema propuso que las páginas web pueden contener hasta 15 metadatos diferentes de los
cuales destacamos el elemento "description" que contiene un resumen del recurso en línea.
Dentro del desarrollo de los motores de búsqueda tenemos que mencionar a Google, porque
aportó una nueva técnica de indización al tener en cuenta no sólo el contenido de las páginas web
sino también la cantidad de páginas que enlazan con cierta página, de modo que calcula la
importancia o la popularidad de las páginas web de forma equivalente al análisis que realiza el ISI
(Institute for Scientific Information) en sus índices de citas de documentos científicos.
Una vez expuesta la situación actual de la indización automática, podemos diferenciar entre
diversos métodos de acuerdo con la American Society of Indixer:
12