Tesaurizacion 1

DGSIRD – 2005
Prácticas – 2ª parte: Ejercitaciones

TDC de Don Quijote de la Mancha (Tesaurización)
=====================================
0 Propósito
1 El corpus documental
2 Los niveles del TDC
A) Organización de núcleos
B) Explotación de núcleos
B1) Representaciones de los núcleos organizados
B2) Interrogación del corpus QUIJ completo.
Archivo de resultados (de esa interrogación)
3 Las herramientas informáticas

3.1 Datos para el procesamiento con ExtPhr32
3.2 Datos para el procesamiento con MicroConcord
3.2.1 Terminología y Teoría
3.2.1.1 Línea de concordancia y definiente léxico
3.2.1.2 Terminología
3.2.2 Teclas rápidas y funciones
A) Función de las letras
B) Tabla de Funciones y teclas rápidas
3.2.3 Primer paseo por MicroConcord
4 Tratamiento del Corpus (Tesaurización)

A) Los pasos del proceso
B) Tratamiento de un capítulo
C) Tratamiento del corpus completo
C1) Con la herramienta Concordance
C2) Con la herramienta MicroConcord
D) Representación de los resultados
0 Propósito
El propósito de estas prácticas y ejercitaciones para la asignatura DGSIRD_2005 es

simular el diseño y gestión de un sistema de indización, partiendo de un corpus de
textos (Don Quijote). Cada uno de los capítulos de dicho libro, se tomará como un
documento [D1 a D52 (1ª parte) + D1-D74 (2ª parte)]. Cada alumno estudiará un solo
documento, en tratamiento intensivo (TDC), a partir del cual derivará un núcleo de
indización, con el que posteriormente interrogará a todo el sistema (e.d., el conjunto
completo de los capítulos del Quijote).
[…]
1 El Corpus documental
Nuestro corpus documental (QUIJ) está constituido por el texto completo del libro (El
ingenioso hidalgo don Quijote de la Mancha), en versión del proyecto Gutenberg
(Project Gutenberg Etext of Don Quixote, by Cervantes, in Spanish).
El texto del libro se organiza en:
1.1 Texto completo. En dos versiones:
1a) Un directorio con la versión completa en ANSI del texto, llamado TC_ANSI;
El archivo se denomina QUIJANSI.TXT
Eventualmente se trabajará con un archivo en formato *.DOC (de
Microsoft) – QUIJANSI.DOC
1b) Un directorio con la versión completa en ASCII del texto, llamado
TC_ASCII.
El archivo se denomina QUIJASCI.TXT
1.2 Texto segmentado. Organizado en tres componentes (Previos y Capítulos):

1.2.1 Previos: segmento textual que precede al primer capítulo. Organizado en dos
directorios:
1.2.1.1 Primera parte de la obra
1.2.1.1.a) un directorio con la versión de los previos en ANSI.
α) Versión continua. Cuyo archivo se llama 1QUI_P
β) Versión segmentada
Los previos a la Primera Parte de la obra (título + partes + capítulos), en la

versión del Proyecto Gutenberg se analizan en 16 segmentos:
- 1 Título
- 2 Tasa
- 3 Testimonio de las erratas
- 4 El Rey
- 5 Al Duque de Béjar
- 6 PRÓLOGO
- 7 Al Libro de Don Quijote de la Mancha
- 8 Amadís de Gaula a Don Quijote de la Mancha (soneto)
- 9 Don Belianís de Grecia a D.Q. de la M. (soneto)
- 10 La Señora Oriana a Dulcinea del Toboso (soneto)
- 11 Gandalín escudero de Amadís de Gaula, a Sancho Panza, escudero
de D.Q. (soneto)
- 12 Del donoso, poeta entreverado, a Sancho Panza y Rocinante
- 13 Orlando Furioso a D.Q. de la M. (soneto)
- 14 El caballero del Febo a D. Q. de la M. (soneto)
- 15 De Solisdán a D. Q. de la M. (soneto)
- 16 Diálogo entre Babieca y Rocinante (soneto).
Con propósitos analíticos, nosotros reorganizamos esos 16 segmentos de la

Primera Parte en 12 ítems:
1) Anteprólogo: contiene los cinco ítems que preceden al prólogo.

Archivo 1QUI_P01
2) Prólogo. Archivo 1QUI_P02
3) Al Libro de Don Quijote de la Mancha 1QUI_P03
4) Amadís de Gaula a Don Quijote de la Mancha (soneto) 1QUI_P04
5) Don Belianís de Grecia a D.Q. de la M. (soneto) 1QUI_P05
6) La Señora Oriana a Dulcinea del Toboso (soneto) 1QUI_P06
7) Gandalín escudero de Amadís de Gaula, a Sancho Panza, escudero de
D.Q. (soneto) 1QUI_P07
8) Del donoso, poeta entreverado, a Sancho Panza y Rocinante
1QUI_P08
9) Orlando Furioso a D.Q. de la M. (soneto) 1QUI_P09
10) El caballero del Febo a D. Q. de la M. (soneto) 1QUI_P10
11) De Solisdán a D. Q. de la M. (soneto) 1QUI_P11
12) Diálogo entre Babieca y Rocinante (soneto) 1QUI_P12
1.2.1.1.b) Un directorio con la versión de los previos en ASCII.

NOTA.- Organizamos este directorio del mismo modo que el de la
versión ANSI:
β) Versión segmentada (…).
1.2.1.1.c) Un directorio con la versión de los previos en *.DOC.

NOTA.- Organizamos este directorio del mismo modo que el de la
versión ANSI:
β) Versión segmentada (…).
1.2.1.2 Segunda parte de la obra

1.2.1.1.a) un directorio con la versión de los previos en ANSI.
β) Versión segmentada
Los previos a la Segunda Parte de la obra (título + partes + capítulos), en la

versión del Proyecto Gutenberg se analizan en 8 segmentos:
1) Tasa
2) Fe de erratas
3) Aprobación (de Gutierre de Cetina)
4) Aprobación (de Josef de Valdivielso)
5) Aprobación (de Márquez Torres)
6) Privilegio
7) PRÓLOGO al lector
8) Dedicatoria – Al Conde de Lemos
Con propósitos analíticos, nosotros reorganizamos esos 8 segmentos de la

Segunda Parte en 3 ítems:
1) Anteprólogo: contiene los seis primeros ítems, que preceden al Prólogo.

Archivo 2QUI_P01
2) Prólogo al lector. Archivo 2QUI_P02
3) Dedicatoria. Archivo 2QUI_P03
1.2.2 Capítulos: segmentación en capítulos:
1.2.2.1 Primera Parte de la obra:
Un directorio con la versión completa de la Primera Parte de la Obra segmentada en 52
capítulos (sin los previos).
1.2.2.1.a) un directorio con la versión de los 52 capítulos en ANSI.

Archivos… 1QUI_C01.TXT ……. 1QUI_C52.TXT
1.2.2.1.b) un directorio con la versión de los 52 capítulos en ASCII

1.2.2.1.c) un directorio con la versión de los 52 capítulos en *.DOC

Archivos… 1QUI_C01.DOC ……. 1QUI_C52.DOC
1.2.2.2 Segunda Parte de la obra

Un directorio con la versión completa de la Segunda Parte de la Obra segmentada en 74
capítulos (sin los previos). Asimismo en tres formatos:
1.2.2.2.a) un directorio con la versión de los 74 capítulos en ANSI.

1.2.2.2.b) un directorio con la versión de los 74 capítulos en ASCII

1.2.2.2.c) un directorio con la versión de los 74 capítulos en *.DOC

Archivos… 2QUI_C01.doc ……. 2QUI_C74.doc
1.2.3 Fuente: apéndice en Inglés, de filiación al Proyecto Gutenberg.

Este texto se almacena en tres carpetas con sendas versiones en ANSI, ASCII y *.DOC.
Archivos: QUIJ_F.TXT y QUIJ_F.doc
2 Los niveles del TDC

En síntesis, se reduce a la organización de núcleos de indización y, partiendo de
ellos, su explotación,
A) Organización de núcleos.
Terminología de emergencia:
►Núcleo de indización = sistema de términos de indización derivados (à
Proceso de derivación) de un texto (documento) concreto. A ese núcleo se le
aplica una Organización.
►Proceso de derivación = Parte del TDC consistente en el proceso de

extracción de un conjunto finito de términos a partir del plano de expresión del
documento (por procedimientos semiautomáticos), y a cuyo producto
denominamos núcleo de indización.
►Corpus documental = Conjunto finito de unidades textuales destinado a y
organizado para el tratamiento documental del contenido (TDC).
►Organización de un núcleo = Parte del TDC consistente en conferir relaciones

de orden y, eventualmente, relaciones de referencia, a los elementos de un
núcleo de indización. El producto resultante es ya una herramienta de indización
(= lenguaje documental, para el TDC).
►Relaciones de orden = (Sub)estructura que se confiere a un núcleo de

indización, consistente en datarle de relaciones que pueden fluctuar dentro de
una amplia gama: desde lo más simple (por ej., una mera alfabetización) hasta lo
más complejo (red semántica; thesaurus). Al producto lo llamaremos trama.
►Relaciones de referencia = (Sub)estructura que se confiere a una trama de

relaciones de orden, consistente en llamadas hacia un conjunto finito (externo a
sus relatos); por ej. a los ítems de una lista de documentos, etc.
B) Explotación de núcleos:
Centrada en dos fases básicas:
B1) Representaciones de los núcleos organizados

B2) Interrogación del corpus QUIJ completo.
Archivo de resultados (de esa interrogación)
3 Las herramientas informáticas

3.2 Datos para el procesamiento con MicroConcord
ààà
3.2 Datos para el procesamiento con MicroConcord:
3.2.1 Terminología
3.2.2 Teclas rápidas y funciones
3.2.3 Primer paseo por MicroConcord
3.2.1 Terminología y Teoría

[1] En nuestras PRÁCTICAS de DGSIRD_2005, hemos visto cómo el definiente de

una definición léxica se analiza en un determinado número de términos
categoremáticos (que destacamos en negrita) sobre los que recae de un modo especial el
peso semántico de la definición. Entre cada uno de ellos y cada uno de los restantes,
veíamos, rige una relación semántica relevante para el sentido de la definición.
Asimismo, decíamos, hay una relación entre el definiendo (definiendum) y cada uno de
esos términos categoremáticos de su definiente.
En lo que hace al tipo de relación semántica en la definición, veíamos que las hay tanto
jerárquicas (ontológicas y lógicas) como asociativas. Intuitivamente, percibimos esas
relaciones en la siguiente figura:
DGSIRD-2005
Departamento de las casas, generalmente con el

# desván =df@ techo en pendiente por estar situado
inmediatamente debajo del tejado, en el que se
suelen tener las cosas en desuso.
categoremas
MICROSEMÁNTICA DEFINICIONAL
sincategoremas
[2] Pues bien, cuando consideramos una línea de concordancia y, con mayor precisión,
dentro de ella el horizonte izquierdo y derecho de la palabra-de-búsqueda, observamos
que hay una notable analogía con el definiente de una definición léxica.
En efecto, las palabras co-locadas, e.d., las palabras que coaparecen varias veces dentro
del horizonte izquierdo y derecho de (toda) una concordancia --a una distancia, por
defecto, de 3,3 (un máximo de 3ª palabra por la izquierda y 3ª palabra por la derecha)--
guardan una relación semántica con la palabra-de-búsqueda.
Por lo común, esa relación es meramente asociativa.
[3] Esa analogía entre la definición y la concordancia encuentra su fundamento en un
hecho semántico: El acceso al significado de un término, hemos repetido, puede ser : 1)
etimológico, 2) léxico (o semántico), y 3) usual o contextual (o pragmático). Pues bien,
la definición (más precisamente) el definiente representa el segundo tipo de acceso
(semántico) , y la concordancia representa el tercero (pragmático)
[4] Con todo, esa analogía estaría más ajustada si, en el diseño del concordador, la
selección de una línea de concordancia no estuviera construida desde lo que llamaremos
el principio aleatorio sino desde el principio oracional, que proponemos. El principio
aleatorio decide que: a) la palabra-de-búsqueda está en el centro de la línea, y b) los
límites del texto de la línea de concordancia están definidos por el número máximo de
caracteres en ésta; o, si se prefiere, b-bis) que los límites para el número de palabras del
horizonte por la izquierda y del horizonte por la derecha se fijen uniformemente para
todas las líneas. A diferencia de esto, el principio oracional establece que: a’) la
palabra-de-búsqueda está en el interior de una oración gramatical, y b’) los límites del
texto de la línea son los límites de dicha oración gramatical.
El principio oracional lo apliqué años atrás como macro del procesador de texto
WordPerfect 5.1, “KWIF-CLA.WPM” (dentro del software TRATADOC vers.
0.1), en mi comunicación “Elaboración de documentos ‘asistida’ por ordenador:
avance de un microsistema para la organización del conocimiento”, recogida en
Fco. Javier García Marco (Ed.): Organización del Conocimiento en Sistemas de
Información y Documentación. Actas del I Encuentro de ISKO-España. Madrid,
4 y 5 de Nov. De 1993. Zaragoza, 1995, 229-245; p. 240.:
“A3) Palabras-clave en su Frase (KWIF-CLA.WPM): 1) Hace una lista

tomando como entradas cada una de las palabras del documento de la
pantalla, con el siguiente formato: a) encabezado en versales y grande de
la palabra; b) signo <; c) frase en que ocurre la palabra, con delimitador
de punto a izquierda y derecha; d) resalte en sombreado la p-c (palabra
clave). 2) Permite clasificar alfabéticamente las entradas, así como 3)
archivar el documento en el disco, previa eliminación del texto del
documento original. Trae3 como opciones: KWAF (palabra clave y
frase), KWOF (palabra clave fuera de frase) y KWIF (palabra clave en
la frase). En los tres casos, admite las alternativas de: mera lista (KWXF-
CLA), índice que localiza las palabras en el texto del documento de
origen <página, línea y posición> (KWXF-IND). Asimismo, ofrece la
posibilidad de listarlo todo o de elegir palabras para la lista. […].” (p.
240).
[5] Uno de los argumentos en pro de principio oracional vs. pincipio aleatorio consiste
en ponernos en uno de estos dos supuestos: 1º) un conjunto de líneas de concordancia
en las que la palabra-de-búsqueda es la primera palabra de una oración; 2º) un conjunto
de líneas de concordancia en las que la palabra-de-búsqueda es la última palabra de una
oración. En el primer supuesto, ninguna de las palabras co-locadas en el horizonte por la
izquierda tiene por qué mantener una relación semántica relevante con la palabra de
búsqueda. Lo mismo ocurre en el segundo supuesto, con las palabras co-locadas en el
horizonte por la derecha…
Mantener otra actitud sería análogo a sostener que rige relación semántica relevante
entre dos términos pertenecientes a dos definientes distintos de una misma forma de
palabra; e.d., pertenecientes a dos acepciones definicionales distintas de un mismo
definiendo (definiendum).
[…]
Como terminología mínima, debemos acordar inequívocamente el uso de los términos:
concordancia, palabra-de-búsqueda, horizonte, co-locación
A) Concordancia
Una concordancia de una palabra es una lista o índice de todas las apariciones de esa
palabra en un texto dado o grupo de textos (un ‘Corpus’) junto con algún contexto antes
y/o después de esa palabra.
B) Palabra-de-búsqueda
La forma más común de concordancia se conoce como concordancia KWIC
[KWIC concordance] -Palabra Clave en Contexto [Key Word In Context]-. Esto es lo
que MicroConcord nos proporciona, aunque la Palabra Clave se refiere como la
Palabra de Búsqueda [Search Word].
Hemos de empezar distinguiendo dos tipos de palabras, atendiendo a su función:
• Palabra-de-Búsqueda [Search Word], y

• Palabra-de-Contexto [Context Word]: aquella cerca de la cual aparece la
palabra de búsqueda.
La proximidad de la palabra-de-contexto respecto de la palabra-de-búsqueda ha de

fijarse atendiendo al contexto precedente y posterior de ésta.
C) Horizonte
Se llama horizonte [horizon] a la distancia en palabras, tanto a la izquierda como a la
derecha de la palabra-de-búsqueda, dentro de cuyo alcance se encuentra(n) la(s)
palabra(s) de contexto. El horizonte se puede fijar; por ej., en 3/3: tres palabras a la
izquierda y otras tantas a la derecha de la palabra-de-búsqueda.
D) Co-locación (= palabra “co-locada”)
Como se nos indica en la Ayuda en Pantalla, colocación [collocation] aquí significa

colocación: posición conjunta. Así, por ej., en las expresiones “abrigo de señora” y
“señora de abrigo”, las palabras ‘abrigo’ y ‘señora’ están co-locadas; aunque su orden
sea distinto.
Obviamente, hay contextos en los que puede interesarnos distinguir un abrigo de señora
de una señora de abrigo; y de cualesquiera otras combinaciones de co- locación de esas
palabras. Las colocaciones son agrupaciones de palabras en las que éstas se ordenan de
distintos modos.
Pues bien, con MicroConcord podemos traer a pantalla las co-locaciones de las
palabras.
Teniendo una concordancia en la pantalla, con una línea de concordancias resaltada,

correspondiente a la palabra de búsqueda cristiano,
si pulsamos la tecla C (mayúscula o minúscula) -que abrevia Collocation-, aparecerá en

la pantalla una nueva ventana:
Lo mismo ocurrirá si pulsamos la tecla de función F11:

Obsérvese que en la ventanilla de búsqueda ha desaparecido la palabra-de-búsqueda,
sustituida por:
Se nos informa ahí que podemos conmutar de la ordenación por Frecuencia a la

ordenación Alfabética (con las teclas à y ß ):
Con el cursor de flecha hacia la derecha (→) pasamos a la ordenación Alfabética:

Con los cursores de flecha hacia arriba y hacia abajo, nos movemos por el listado:
Por otra parte, combinando la tecla Ctrl con las teclas de flecha hacia la derecha,
podemos hacer aparecer hasta tres ventanillas como ésa:
Una vez mostradas las 2 o 3 ventanas, con la combinación de Ctr, más las flechas hacia
la izquierda o hacia la derecha, vamos seleccionando la ventanilla de co-locaciones que
nos interese:
Una vez seleccionada una ventanilla (con sólo las teclas de flecha hacia la derecha o
hacia la izquierda), podemos ordenar el listado alfabéticamente o por frecuencias:
Pulsando Esc., desaparecen todas las ventanillas de co-locados que estén activas:

Tesaurizacion 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tesaurizacion 1

Cargado por

Copyright:

Formatos disponibles

DGSIRD – 2005

Prácticas – 2ª parte: Ejercitaciones

3 Las herramientas informáticas

4 Tratamiento del Corpus (Tesaurización)

D) Representación de los resultados

El propósito de estas prácticas y ejercitaciones para la asignatura DGSIRD_2005 es

1.2 Texto segmentado. Organizado en tres componentes (Previos y Capítulos):

Los previos a la Primera Parte de la obra (título + partes + capítulos), en la

Con propósitos analíticos, nosotros reorganizamos esos 16 segmentos de la

1) Anteprólogo: contiene los cinco ítems que preceden al prólogo.

1.2.1.1.b) Un directorio con la versión de los previos en ASCII.

1.2.1.1.c) Un directorio con la versión de los previos en *.DOC.

1.2.1.2 Segunda parte de la obra

Los previos a la Segunda Parte de la obra (título + partes + capítulos), en la

Con propósitos analíticos, nosotros reorganizamos esos 8 segmentos de la

1) Anteprólogo: contiene los seis primeros ítems, que preceden al Prólogo.

1.2.2.1.a) un directorio con la versión de los 52 capítulos en ANSI.

1.2.2.1.b) un directorio con la versión de los 52 capítulos en ASCII

1.2.2.1.c) un directorio con la versión de los 52 capítulos en *.DOC

1.2.2.2 Segunda Parte de la obra

1.2.2.2.a) un directorio con la versión de los 74 capítulos en ANSI.

1.2.2.2.b) un directorio con la versión de los 74 capítulos en ASCII

1.2.2.2.c) un directorio con la versión de los 74 capítulos en *.DOC

1.2.3 Fuente: apéndice en Inglés, de filiación al Proyecto Gutenberg.

2 Los niveles del TDC

►Proceso de derivación = Parte del TDC consistente en el proceso de

►Organización de un núcleo = Parte del TDC consistente en conferir relaciones

►Relaciones de orden = (Sub)estructura que se confiere a un núcleo de

►Relaciones de referencia = (Sub)estructura que se confiere a una trama de

Centrada en dos fases básicas:

B1) Representaciones de los núcleos organizados

3 Las herramientas informáticas

3.1 Datos para el procesamiento con ExtPhr32

3.1 Datos para el procesamiento con ExtPhr32

3.2 Datos para el procesamiento con MicroConcord:

3.2.1 Terminología y Teoría

3.2.1.1 Línea de concordancia y definiente léxico

[1] En nuestras PRÁCTICAS de DGSIRD_2005, hemos visto cómo el definiente de

Departamento de las casas, generalmente con el

“A3) Palabras-clave en su Frase (KWIF-CLA.WPM): 1) Hace una lista

Como terminología mínima, debemos acordar inequívocamente el uso de los términos:

concordancia, palabra-de-búsqueda, horizonte, co-locación

Hemos de empezar distinguiendo dos tipos de palabras, atendiendo a su función:

• Palabra-de-Búsqueda [Search Word], y

La proximidad de la palabra-de-contexto respecto de la palabra-de-búsqueda ha de

D) Co-locación (= palabra “co-locada”)

Como se nos indica en la Ayuda en Pantalla, colocación [collocation] aquí significa

Teniendo una concordancia en la pantalla, con una línea de concordancias resaltada,

si pulsamos la tecla C (mayúscula o minúscula) -que abrevia Collocation-, aparecerá en

Lo mismo ocurrirá si pulsamos la tecla de función F11:

Se nos informa ahí que podemos conmutar de la ordenación por Frecuencia a la

Con el cursor de flecha hacia la derecha (→) pasamos a la ordenación Alfabética:

También podría gustarte