Está en la página 1de 12

DISEO DE UN CORPUS Y UNA BASE DE DATOS

PARA EL ANLISIS LINGSTICO DE LOS TRMINOS


DE UNA TCNICA ESPECFICA

Claudio Molina Salinas


UNAM-IIFL

1. Introduccin

En las ltimas dcadas, las dinmicas del trabajo lingstico han cambiado sustancialmente a
causa de los avances de las tecnologas informticas y su aporte para la disciplina y, desde
luego, por los cambios metodolgicos en el proceder de las investigaciones lingsticas.
Particularmente, en el terreno de la terminologa, la documentacin y las herramientas
informticas intervienen en casi todas las diferentes fases del proceso de trabajo de un
investigador. De tal suerte que, en el presente trabajo, me quisiera centrar en algunas reflexiones
valiosas para el trabajo terminogrfico: primero, la relevancia de un corpus para una descripcin
lingsticamente realista y, para este caso, mucho ms representativa de los trminos de un rea
tcnica especfica; segundo, los beneficios de incorporar a un trabajo de descripcin lingstica
herramientas informticas o terminticas que apoyen la rpida y eficaz creacin de corpus
anotados y bases de datos, y, por ltimo, la importancia de corroborar y completar un banco de
datos, partiendo de la interaccin y consulta con los especialistas del rea del conocimiento
estudiado.

2. Los corpus lingsticos

Un corpus lingstico es una coleccin de elementos lingsticos seleccionados y ordenados de


acuerdo con criterios lingsticos explcitos con la finalidad de ser usado como muestra de la
lengua (J. Prez Guerra 1998: 43), en una investigacin.
Sin embargo, es muy frecuente que se confunda un corpus textual con un acervo y en
realidad existe una clara diferencia. Revisemos algunas definiciones: un acervo es el conjunto
de bienes morales o culturales acumulados por tradicin o herencia (DRAE, 2001), es decir, un
acervo de textos es la acumulacin o el conjunto de documentos textuales que no son
recopilados explcitamente para su estudio, mientras que en palabras del Dr. Gerardo Sierra
Martnez (2008: 451), un corpus lingstico consiste en la recopilacin de un conjunto de
textos de materiales escritos y/o hablados, agrupados bajo un conjunto de criterios mnimos,
para realizar ciertos anlisis lingsticos.
As que, considerando las definiciones anteriores, para esta investigacin diremos que
nuestro corpus es una recopilacin de textos materiales, recopilados explcitamente bajo ciertos
criterios lingsticos y con un fin especfico: la extraccin de la terminologa de una tcnica.

1
3. Un corpus con fines terminolgicos: el Corpus de Documentos
de Buceo Recreativo

El Corpus de Documentos de Buceo Recreativo (CDBR) nace dentro de un proyecto de


investigacin con fines especficos, el ms importante para este apartado: integrar un corpus en
espaol de textos caractersticos del rea de especialidad del buceo recreativo. Para este objetivo
fue indispensable integrar una coleccin de documentos representativos y equilibrados de dicha
tcnica y despus ajustarnos a una serie de lineamientos para tener un corpus debidamente
anotado.

3.1. La coleccin de documentos

Este corpus est conformado por manuales de la especialidad mexicanos y espaoles


respaldados por sus respectivas federaciones y producidos originalmente por especialistas para
ambos casos; un manual escrito en espaol de un club mexicano de buzos y, tambin, por las
adaptaciones al espaol de manuales de dos asociaciones estadounidenses y de la Confederacin
Mundial de Actividades Subacuticas (CMAS), organizacin francesa con representacin en
gran parte del mundo.
El Corpus de Documentos del Buceo Recreativo (CDBR) es una muestra sincrnica,
tcnicamente vigente y contempornea a nuestro tiempo de manuales para la formacin de
buzos recreativos de aguas abiertas que no exceden los siete aos de antigedad. Estos textos
representan y estn estructurados como una gua para instructores y estudiantes que acompaan
la enseanza y aprendizaje del contenido tcnico y desarrollo de habilidades prcticas y tericas
de la especialidad.
Los documentos que componen el corpus son manuales completos de produccin
originalmente textual, escritos en espaol y digitalizados que suman en total 322.613 vocablos
de lengua comn y especializada. Los manuales estn distribuidos de la manera siguiente: de la
Confederacin Mundial de Actividades Subacuticas (CMAS) he tomado los tres manuales
bsicos de Buceo Recreativo (una, dos y tres estrellas); de la Federacin Espaola de
Actividades Subacuticas (FEDAS), los dos primeros cursos de Buceo Recreativo (una y dos
estrellas); de la Federacin Mexicana de Actividades Subacuticas (FMAS), los tres manuales
de Buceo Recreativo (una, dos y tres estrellas); de PADI, los cuatro manuales de Buceo
Recreativo (Open water diver, Advanced open water diver, Rescue diver y Master diver)
equivalentes a los niveles de una, dos y tres estrellas de la CMAS, y por ltimo, el manual de
una estrella de Benthos divers, el manual de una estrella de la SSI y el glosario mnimo de
trminos de Tenerifes divers. En total, 15 documentos textuales.
Para un corpus lingstico la representatividad de los documentos y el balance de ellos es
fundamental. Considerando esto, la presencia de los textos que integran el corpus se justifica por
dos razones: primero, el acceso y disponibilidad de ellos, y segundo, la naturaleza tcnica y
diatpica de estos. Si bien los 15 documentos que forman el corpus fueron textos digitalizados
que pudimos conseguir entre los especialistas que muy amablemente tuvieron a bien
facilitarnos, la inclusin o no de ellos en el corpus se justifica por razones de representatividad
y no slo por disponibilidad de ellos.
Los instructores de buceo con los que trabajamos nos facilitaron ms de 50 manuales,
videos, apuntes y presentaciones de diferentes asociaciones y niveles de especializacin. Slo
incluimos los 15 antes descritos por ser especficamente del buceo recreativo en sus diferentes
niveles. Los manuales descartados son de especialidades del buceo tcnico (espeleobuceo,

2
fotografa y video submarino, buceo con mezclas de aire, buceo de profundidad, en pecios,
rebrethers y otros) y manuales producidos originalmente en ingls.
A la par de la seleccin antes descrita, la justificacin de los manuales dentro del corpus
atendiendo a la representatividad se justifica por la organizacin mundial de las asociaciones de
buceo y la produccin o inclusin de conocimiento tcnico al respecto. Esto es, la CMAS es el
organismo rector del buceo a lo largo del mundo, es por eso que inclu sus tres manuales en el
corpus. La importancia que tiene la confederacin para la normalizacin del buceo recreativo
radica en que ella y sus especialistas son los que revisan y fijan los criterios de seguridad y
procedimientos para la especialidad.
Al considerar los manuales de las federaciones espaola y mexicana pretendo recuperar los
trminos empleados y estandarizados por stas en ambos pases. Esto me permitir ms adelante
observar diferencias dialectales para los trminos de la especialidad. Para este trabajo, es muy
importante considerar las versiones espaolas, ya que los mismos instructores de buceo apuntan
hacia que estos manuales estn muy bien logrados e, incluso, los prefieren.
No podamos ignorar los manuales de la FMAS, ya que al ser stos escritos por instructores
de buceo mexicanos, son, tericamente, muestras representativas de dialecto tcnico mexicano
de la especialidad. Por otra parte, agregu los manuales de PADI y SSI porque en Mxico, junto
con la CMAS, son las asociaciones que mayormente certifican a buzos recreativos y la
instruccin y el valor didctico de sus manuales son ampliamente reconocidos; incluso, a nivel
global la agencia PADI es la ms popular y la que ms buzos certifica.
Por ltimo, buscando un balance de contenido en el corpus para cada uno de los organismos
instructores del buceo recreativo que consideramos (PADI y SSI, CMAS, FEDAS y FMAS),
incluimos en el corpus los manuales que remiten, cuando menos, a los siguientes dominios
dentro de la especialidad: (1) equipo de buceo, (2) principios fsicos aplicados al buceo, (3)
anatoma y fisiologa bsica, (4) accidentes en el buceo, (5) buceo en aguas abiertas, (6) buceo
de altitud, (7) buceo nocturno, (8) buceo en aguas de poca visibilidad, (9) buceo en aguas fras,
(10) buceo multinivel, (11) navegacin, (12) navegacin subacutica, (13) bsqueda y
recuperacin subacutica, (14) rescate y salvamento y (15) manejo de accidentes.

3.2. La anotacin del corpus

Joaquim Llisterri y Joan Torruella (1999), en Diseo de corpus textuales y orales, presentan un
listado de criterios o rasgos que sirven para tener una tipologa de los corpus, y aunque no me
interesa en este apartado, y mucho menos en el trabajo en general discutir los diferentes rasgos
presentados por los autores, s me resulta de inters retomar un par de ideas que ah se
presentan.
En el apartado 3.1.4., que se titula Segn la codificacin y la anotacin, los autores
mencionan que se podran diferenciar los corpus atendiendo a si se usaron o no etiquetas
descriptivas y analticas. Ms especficamente la diferencia que puede existir entre algunos
corpus es que, por un lado, hay corpus simples y, por el otro, corpus anotados. La diferencia
entre uno y otro radica en que un corpus simple es un texto sin anotaciones que no est
codificado, mientras que un corpus codificado o anotado es un documento o una serie de
documentos a los que se les han aadido etiquetas declarativas de algunos elementos; ya sean
estructurales o de aspectos lingsticos (J. Llisterri 1999: 57-58).
En este punto de la investigacin, pudimos habernos detenido y continuar con el trabajo
lingstico e ignorar el trabajo de etiquetar nuestro corpus. Sin embargo, al valorar los
beneficios de tener un corpus anotado, en oposicin a dejar el corpus como un simple repertorio
de datos, consideramos que ya habamos hecho gran parte del trabajo con el corpus y que
podramos redondearlo, etiquetndolo; ya que un corpus debidamente anotado nos permitira

3
observar frecuencias de los trminos, recuperar contextos en los que se encuentran, observar
ocurrencias y ver las caractersticas morfolgicas o dialectales de los trminos. Por el contrario,
dejar el corpus sin su debida anotacin sera equiparable a tener un simple repertorio de
trminos indiferenciados de los vocablos de la lengua comn.
Entonces, nos enfrentamos al siguiente problema: habiendo tantas posibilidades de
anotacin, diferentes procesadores de textos y un mundo de formatos de almacenamiento,
cmo debamos presentar nuestro corpus?
Entonces nos result natural pensar que era indispensable sujetarnos a una serie de normas
o criterios que permitieran a diferentes usuarios acceder y utilizar dicha informacin. El asunto
es ms claro an si consideramos lo que afirma Gerardo Arrarte (1999: 20): un recurso
lingstico determinado [banco de datos, corpus, materiales en soporte informtico o
diccionarios] puede ser adecuadamente compartido y reutilizado cuando su diseo se ajuste a
unas reglas de uso comn.
Entonces, los estndares que es necesario considerar para la anotacin estn resumidos por
Gooeffrey Leech (R. Garside 1997: 6-7) en el primer captulo de Corpus Annotation: Linguistic
Information from Computer Text Corpora y yo los parafraseo de la manera siguiente:

 Debe ser posible y fcil quitar las anotaciones de un corpus, es decir, el corpus debe ser
recuperable.
 Debe ser posible remover las anotaciones y almacenarlas o guardarlas de manera
independiente.
 Los usuarios deben tener acceso a la documentacin, al esquema, a la informacin de
quin y cmo fue la anotacin y a la calidad de stos.
 La anotacin debe fundamentarse en principios definidos y, si es posible, consensuados.
 Nunca se deber considerar una anotacin como del todo estndar, ya que la finalidad
especfica de cada corpus puede propiciar diferentes tipos de anotacin.

Para el CDBR hemos optado por formar nuestros documentos en XML con miras a
presentarlos en formato http, es decir, como una pgina web. Adems de que esta extensin nos
facilita cumplir con los estndares antes sealados.
Amn de lo anterior, fue para nosotros importante considerar el Standard Generalized
Markup Language (SGML), que tiene como principal finalidad la de ser un lenguaje que sirve
para la representacin con carcter general de cualquier tipo de textos en formato digital y su
uso est ampliamente extendido en el sector de la edicin de documentos electrnicos (G.
Arrarte 1999: 21).

Hoy en da la SGML cumple de forma satisfactoria el objetivo con que fue diseado, es decir, que
los documentos codificados mediante este lenguaje puedan ser procesados independientemente de
los distintos programas, sistemas o dispositivos que se utilicen, de la lengua en que est escrito el
documento, de los juegos de caracteres especficos empleados por distintos sistemas y de la forma de
disponer el flujo de los datos o la organizacin fsica de los archivos (G. Arrarte 1999: 22).

Ajustndonos a esta norma fue como construimos las anotaciones del corpus. Cada
anotacin de un elemento del corpus est delimitada por dos marcas textuales o etiquetas.

Estas etiquetas describen la naturaleza y caractersticas del elemento en cuestin, por lo que reciben
el nombre de marcas descriptivas. [...] Adems, las marcas descriptivas pueden contener otros datos
o atributos que aportan informacin sobre cualidades especficas del elemento descrito (G. Arrarte
1999: 24).

4
En nuestro corpus las etiquetas que nos permiten anotar los distintos atributos y valores que
asignamos a cada trmino tienen la siguiente forma:

<termino categ="sustantivo" gen="femenino" num="singular" formacion="prestamo_del_ingles"


forma="simple" elementos="1" estructura="n" tipo="estricto"
campo="otros_conceptos_implicados_en_el_buceo"> heloclina </termino>

El primer elemento y el ltimo de la cadena determinan que heloclina es un trmino y abren


y cierran la etiqueta. Seguido del primer elemento tenemos atributos invariables como categ,
gen, num y otros que a su vez son especificados con un valor, en estos casos variable y
dependiente de la naturaleza del trmino, es decir: sustantivo, femenino y singular,
respectivamente. La suma de todos los atributos considerados dentro de cada una de las
etiquetas es la siguiente: (1) Categora gramatical del trmino.

 Gnero.
 Nmero.
 Tipo de formacin o procedencia del trmino.
 Forma del trmino (simple o expandida).
 Nmero de elementos que lo componen.
 Tipo de trmino (estricto o lato).
 Campo o dominio dentro de la tcnica.

Debemos considerar que stas no son las nicas anotaciones que se hacen a los corpus.
Existen otros dos tipos de marcas en SGML:

las declaraciones que definen el uso de las resultantes marcas y controlan su interpretacin, que se
usan fundamentalmente en las Declaraciones de Tipos de Documentos (DTD) y, finalmente, las
instrucciones de procesamiento que a diferencia de las restantes marcas se codifican en funcin de
un sistema informtico concreto y constituyen, por lo tanto, un ltimo recurso cuando el uso de
codificacin genrica no resulta adecuado para nuestros fines (G. Arrarte 1999: 31-32).

En resumen, la declaracin de tipo de documento u hoja de esquema define la estructura


permitida para cualquier documento y los elementos vlidos para cada uno de ellos. Mientras
que las instrucciones de procesamiento u hoja de estilo indican de qu manera deseo visualizar
los documentos.
Para el caso de nuestro corpus tenemos un encabezado en el que destacamos la siguiente
informacin: nombre del corpus, la variante dialectal, el referente, el ttulo del manual y un
vnculo web. El encabezado tiene esta forma:

<encabezado>
<corpus>CDBR</corpus>
<variantedialectal>adaptacin del francs</variantedialectal>
<referente>CMAS</referente>
<titulo>Manual una estrella</titulo>
<fechaPublicacion>2002</fechaPublicacion>
<enlace>http://www.cmas2000.org/</enlace>
</encabezado>

5
Tambin tenemos el documento con su etiquetado lingstico que anteriormente
describimos una hoja de estilo y una hoja de esquema que dictan la forma de visualizar los
documentos y los elementos vlidos para cada una de las partes de los textos, respectivamente.

4. La extraccin de los trminos del CDBR

Para el caso particular de esta investigacin, hemos recurrido a la extraccin automatizada de


los trminos de nuestro corpus usando el extractor de trminos de Luis Alberto Barrn Cedeo,
herramienta que en su momento estuvo disponible para esta investigacin.
Este extractor de trminos fue el proyecto de tesis de maestra en Ciencia e Ingeniera de la
Computacin de Alberto Barrn, dirigido por el Dr. Gerardo Sierra Martnez, investigador del
Instituto de Ingeniera (II) y jefe del Grupo de Ingeniera Lingstica (GIL) de la UNAM, en la
Universidad Nacional Autnoma de Mxico (UNAM).
El software de extraccin desarrollado por el ingeniero mexicano es un hbrido basado en
reglas de formacin de trminos y de frecuencia estadstica. La manera en que l justifica haber
desarrollado un sistema hbrido de sta naturaleza es la siguiente:

El hecho de que existan pocos sistemas basados exclusivamente en lingstica o estadstica obedece
a que, en general, la combinacin de ambas tcnicas genera mejores resultados [] Estos sistemas
se valen de la aplicacin en conjunto de los dos enfoques para refinar la salida. [Ya que stos] logran
localizar trminos que por un solo mtodo no se hubieran detectado y, sobre todo, descartan
candidatos a trminos que en realidad no lo son, lo que disminuye el ruido de manera significativa
(L. A. Barrn Cedeo 2007: 28).

Como cualquier mtodo de extraccin, el extractor de Barrn y su arquitectura implican


algunos problemas. Quizs el de mayor significado es que es necesario conocer de antemano la
estructura de los trminos formados por ms de una palabra. Entonces, al ser el buceo recreativo
una tcnica no descrita an y mucho menos analizada la estructura de sus trminos, tendramos
que suponer las estructuras que forman los trminos de esta tcnica.
La manera en que resolvimos la cuestin fue suponer que las estructuras ms frecuentes de
otros vocabularios especializados podran servir como patrn para la extraccin de los trminos
de sta especialidad. De esta manera, despus de revisar las estructuras de cinco terminologas
analizadas, de la cinematografa mexicana, tratado de libre comercio, redes de computacin,
telefona celular y control de satlites, la Dra. Ana Mara Cardero (2004: 150-153) describe
ocho estructuras de expansin nominal relevantes por su presencia y frecuencia dentro de stas.
Por otra parte, tambin distingue dos formas de expansin de ncleos verbales que se comportan
con cierta regularidad dentro de las cinco terminologas.
Amn de considerar las estructuras de los trminos expandidos, verbales y nominales,
presentados en el trabajo de Ana Mara Cardero, revisamos el apndice 4 que presenta Luis
Alberto Barrn Cedeo (2007: 111-115) en su tesis de maestra Lista completa de los
verdaderos trminos extrados y en l identificamos formas coincidentes con la propuesta de
Ana Mara Cardero.
Revisemos, pues, el cuadro 1 en el que muestro de forma esquematizada las reglas,
producto de las coincidencias de las seis terminologas, con las que alimentamos el programa de
extraccin terminolgica:

6
Cuadro 1. Estructuras de los trminos con las que se aliment el extractor
Formas nominales expandidas N + adj.
N + prep. + N
N + prep. + N + adj.
N + adj. + prep. + N
N + adj. + adj.
N + adj. + prep. + art + N
N + adj. + prep. + N + adj.
N + prep. + N + prep. + N
Formas verbales expandidas V+N
V + prep. + N

Luego de tener una idea de las estructuras que podran tener nuestros trminos, hicimos la
extraccin y, de esta manera, conseguimos las primeras listas de candidatos a trminos.

5. Los bancos de datos y las fichas terminolgicas

Segn las autoridades acadmicas, un banco de datos es un acopio de datos referidos a una
determinada materia, que puede ser utilizado por diversos usuarios (DREA: 2001). Partiendo
de esta definicin y aplicndola a los estudios de terminologa, podramos decir que un banco de
datos terminolgicos es un acopio de informaciones de un rea del conocimiento o tema
especializado que son tiles para el trabajo terminolgico.
Igual que para los corpus, dentro de los bancos, bases de datos o ficheros terminolgicos
podran distinguirse dos tipos, obedeciendo al tipo de soporte que los respalda. En general, los
bancos terminolgicos pueden tener la clsica forma de fichas de cartn de 5 x 7 pulgadas, es
decir, bancos de soporte fsico o, por otra parte, bancos electrnicos o digitales.
La cualidad ms importante que veo en un banco de datos electrnico es que para los
anlisis lingsticos este tipo de soporte permite recuperar y cruzar la informacin lingstica.
Un banco de datos electrnico es, entonces, una herramienta imprescindible para un
terminlogo. Teresa Cabr (1999: 254) ampla esta reflexin de la siguiente forma:

La posibilidad de almacenar grandes cantidades de trminos con sus respectivas informaciones, de


mantener la informacin actualizada de forma ms sencilla y con menor coste que a travs de las
publicaciones tradicionales y la posibilidad de difundir la informacin a gran escala utilizando
sistemas ms actuales, han convertido a los bancos terminolgicos en herramientas imprescindibles
para los profesionales del lenguaje en general y para los especialistas de las reas en particular.

En un principio, la creacin de grandes bancos de datos estaba limitada a los grandes


institutos lingsticos que posean grandes computadoras o, simplemente, que podan tener
computadoras y crear estas bases de datos en ellas. En las ltimas dcadas el panorama ha
cambiado sustancialmente, como ya hemos discutido en apartados anteriores, gracias a la
proliferacin y desarrollo de las tecnologas informticas. Digamos entonces que, de la
creacin de grandes bancos de trminos centralizados y solo implementados en grandes
ordenadores, se pasa a la proliferacin de bancos pequeos, muy especializados en cuanto a su
temtica y a menudo ubicados en ordenadores personales (Teresa Cabr 1999: 255).
Atendiendo, pues, a la clasificacin de los bancos de datos propuesta por Teresa Cabr
(1999: 256-257), diremos que nuestro banco de trminos es un minibanco basado en trminos
que tiene por objeto ser informativo y aportar un contexto de uso para cada trmino en una sola
lengua, el espaol. Y para efectos de la orientacin de ste trabajo y por ello convenir a nuestros

7
intereses hemos procurado construir una base electrnica de datos terminolgicos formada bajo
un patrn de Office Excel versin 2007 al que se le pueden agregar las opciones de filtrado y
ordenamiento ortogrfico, ascendente o descendente, que nos permitirn realizar bsquedas tan
especficas como se quiera, de la misma manera que se hara en cualquier banco de datos.

5.1. Las fichas terminolgicas

Una ficha terminolgica es un documento con una forma de fcil acceso e identificacin, con
informacin que permite identificar un trmino asociado a un contenido conceptual suficiente,
en una determinada especialidad, y debidamente avalado por una fuente fidedigna (R. Dubuc
1999: 105). Existen diferentes modelos de fichas descritos: fichas de vaciado, terminolgicas,
de correspondencia o de consulta. Teresa Cabr, luego de clasificarlas as, explica las funciones
especficas de cada una: las fichas de vaciado, permiten ordenar los trminos identificados como
tales en las fuentes, las fichas terminolgicas son materiales estructurados con las informaciones
relevantes de cada trmino, las fichas de correspondencia se usan para relacionar la misma
denominacin en distintas lenguas, es decir, son tiles para trabajos bilinges y plurilinges, y
por ltimo, las fichas de consulta sirven para resolver dudas especficas de los usuarios de las
terminologas (T. Cabr 1993: 281-286).

5.2. Tipologa de nuestras fichas terminolgicas

Como hemos visto en el apartado anterior, usualmente las bases de datos terminolgicas pueden

contener una informacin que va desde la definicin del trmino a una informacin mucho ms
extensa. [] Dentro de esos atributos, encontramos las informaciones que podemos catalogar de
lingsticas (o gramaticales) que en la mayor parte de las bases terminolgicas, tales campos se
limitan a dar categora gramatical y, algunas veces, gnero (J. Vega 1994: 2-3).

Considerando lo anterior, en nuestra base de datos hemos intentado configurar un tipo de


ficha que adems de incorporar informaciones terminogrficas, tambin recoja informacin
morfolgica, dialectal y valores estadsticos que para esta investigacin resultan relevantes.
La informacin que decidimos incluir en cada una de nuestras fichas para dar forma a
nuestro banco de batos es la siguiente y en ese orden: (1) numeracin, (2) entrada, (3) fuente, (4)
valor NC-value, (5) categora gramatical del trmino, (6) gnero, (7) nmero, (8) proceso de
formacin o incorporacin del trmino, (9) tipo de forma: simple o expandida, (10) nmero de
elementos lxicos que componen al trmino, (11) estructura del trmino, (12) campo de
aplicacin dentro de la especialidad, (13) claves de acceso a la ficha: sinnimos o trminos
afines, (14) ejemplo de un contexto en el que se puede encontrar variante y (15) observaciones.
Al final, partiendo del CDBR, la recuperacin de los trminos con el extractor de Alberto
Barrn Cedeo, el modelo de fichas terminolgicas con 15 campos de vaciado antes descritos y
Excel, software de Office 2007 desarrollado por Microsoft, hemos conformado un banco de
datos con opciones de filtrado, basado en criterios lingsticos y terminogrficos y de
ordenamiento alfabtico automtico.

8
6. La identificacin de los trminos verdaderos

En esta ltima parte del trabajo, me enfocar a describir el estado de la cuestin luego de la
extraccin y vaciado de los datos, el proceder cualitativo frente a los candidatos a trminos, la
interaccin y corroboracin de los datos con los especialistas y, por ltimo, la cuantificacin de
los datos.

6.1. Estado de la cuestin y revisin manual de los candidatos

Como ya expliqu en la primera parte de este captulo, los 15 manuales que componen el corpus
fueron agrupados en cuatro grupos ms o menos balanceados que podran reflejar diferencias
dialectales por la procedencia de cada uno de ellos y que representan a los mismos niveles de
especializacin del buceo recreativo.
Luego de someter los documentos al proceso de extraccin, obtuvimos una lista de 20,294
candidatos a trminos.
Por razones lgicas, no existe terminologa tan extensa que cuente con tal nmero de
trminos que refieran a entes o conceptos distintos, incluso considerando sinnimos, seran
demasiados. Ningn campo del conocimiento es tan extenso como para tener tantos elementos
para referir, amn de que la memoria de los especialistas de dichas tcnicas necesitara ser
excepcionalmente poderosa para poder recordar cada uno de ellos.
Entonces, qu fue lo que ocurri? El programa de reconocimiento de trminos arroj
tantos candidatos puesto que lo alimentamos con 10 posibles formas sintagmticas nominales y
verbales. Entonces el programa consider como candidatos tanto a maniobra de Valsalva
como a barco de acero, que tienen la misma forma estructural (N + prep. + N) en la que una
hace referencia a un procedimiento del buceo y el otro es un nombre con un modificador
indirecto. Otra razn que propici esta lista tan extensa de trminos es la ortografa o diferencias
grficas; tenemos, por ejemplo, casos como ley de Boyle Mariotte y ley de Boyle-Mariotte.
Tambin tenemos en esta lista inicial casos de signos tipogrficos (, , , etc.), espacios
dobles, numeraciones e incisos que estadsticamente aparecen a lo largo de los documentos con
frecuencia, pero que no son trminos reales. Estos aparecen no por error del extractor, sino por
la naturaleza estructural de los manuales o por problemas en la transferencia de los textos
originales desde el formato .pdf a .txt. Tambin, hay encabezados como captulo,
cuestionario o respuestas que aparecen frecuentemente a lo largo de los textos y que son
considerados como trminos por el extractor.
Para eliminar de la lista de trminos todas estas ocurrencias, hicimos un primer filtrado. El
procedimiento que seguimos fue el siguiente: primero, pegamos en una hoja de Excel los 20.294
candidatos a trminos en una columna, la clave de referencia bibliogrfica, en una segunda
columna, y, en una tercera, el valor de NC-value de cada uno de ellos. Ordenamos los trminos
de mayor a menor, segn los valores numricos de NC-value, y eliminamos a todos los
candidatos con un valor igual a cero o menor.
Luego, ordenamos alfabticamente los trminos y descartamos todos los candidatos que
comenzaban con artculo, preposicin o con formas como tipo de o caracterstica de.
Adems, quitamos a los adverbios, pronombres y conjunciones por ser tipos de palabras que no
adquieren un significado propio dentro de la terminologa. Asimismo, eliminamos las formas
ilegibles, signos de interrogacin, exclamacin y formas tipogrficas (caldern, guiones, marcas
registradas y otros). En resumen, nuestra lista de candidatos depurada result ser de slo 5.045
formas.

9
6.2. La interaccin y corroboracin de los datos con los especialistas

Previo a la interaccin directa con los especialistas, me dediqu a revisar todos los trminos y
descartar formas agramaticales como traje apretado cremallera rota traje nuevo el dispositivo
de carga, formas lxicas como experiencia desagradable, traductor o desorganizacin
consecuente que, evidentemente, no son trminos de la especialidad y tambin elimin formas
lxicas no ortogrficas como immersin.
Un problema al que me enfrent fue decidir integrar o no en la terminologa unidades de
medicin como metro, pie, bar o ata. Para justificar la decisin de incluirlos, quisiera recordar
las diferencias entre sentido lato y sentido estricto. Los trminos en sentido lato son
designaciones de la lengua comn que especializan su significado o designaciones que son
comunes a varias reas de conocimiento; mientras que en un sentido opuesto, un trmino en
sentido estricto ser una designacin exclusiva de una tcnica (A. M. Cardero 2003: 42-43). De
tal suerte que, como las unidades de medicin designan un valor mtrico con un matiz particular
dentro de la terminologa del buceo recreativo y son recurrentes en varios dominios tcnicos,
optamos por incluirlas. Lo mismo ocurri con formas lxicas como agua, aire o aguja que,
aunque son del dominio de la lengua ordinaria y muy frecuentes en ella, dentro de la tcnica se
especializa su significado.
Teniendo esta revisin realizada, la lista de candidatos se conformaba por 1.754 trminos
posibles. Todos estos trminos los orden dentro de una red conceptual que luego mostrara a
siete especialistas.
La red conceptual que propuse a los especialistas con sus listas de trminos para cada
uno de ellos est dividida en las siguientes reas de dominio dentro de la tcnica: equipo bsico
y de seguridad, equipo adicional, procedimientos en el buceo y de seguridad, leyes, unidades y
principios aplicados al buceo, anatoma, patologas y accidentes asociados al buceo, otros
conceptos implicados en el buceo y unidades de medicin.
Entonces, de manera individual, present a siete especialistas la red conceptual en la que he
organizado a los candidatos a trminos de la especialidad del buceo recreativo. Despus, le ped
a cada uno de ellos que revisaran los trminos que se encontraban en cada una de las listas y que
me dijeran cules de ellos adquieren un significado especfico dentro de la especialidad.
Tratamos de conservar la mayora de los candidatos y cuidamos mucho la procedencia de stos;
increblemente los instructores me indicaron algunas diferencias del tipo: bueno, es que as le
dicen en Espaa o s, es que en ciertos manuales se puede encontrar esta forma, situacin
que nos permiti conservar dentro de la base de datos a un nmero mayor de trminos. Al
mismo tiempo les ped que si conocan o recordaban algn trmino que no estuviera referido,
me lo hicieran saber y me explicaran de qu se trataba, para as decidir juntos si lo incluamos o
no dentro de nuestra lista.
En general, para incluir en mi lista de trminos reales los nuevos candidatos propuestos por
los especialistas asum que ellos deban repetirse cuando menos en ms de la mitad de las
menciones, es decir, por lo menos cuatro de los siete informantes deban afirmar que esa forma
exista. Sorprendentemente, de la revisin con los especialistas obtuvimos un nmero nutrido de
trminos (160 en total) de los cuales no fue necesario descartar ni uno solo y, mucho menos,
recurrir al criterio cerrado de los cuatro informantes de siete.
Con este trabajo hemos depurado la base de datos y agregado a sta una fuente ms: el
punto de vista de los especialistas.
En resumen, los resultados luego de las siete entrevistas con cada uno de los especialistas
afectaron la cantidad de los trminos dentro de la base de datos. El nmero total de fichas para
todos los documentos ms el informe oral de los instructores es de 1.118, es decir, nuestro
banco de datos (Banco de Datos de Buceo Recreativo, BDBR) est formado por 1.118 fichas.

10
Partiendo de nuestro corpus y siguiendo nuestra metodologa para la extraccin de los trminos,
obtuvimos un nmero de 651 trminos reales.
La razn por la que el nmero de fichas que tenemos y los trminos no coinciden es muy
fcil de explicar, ya que la gran mayora de los trminos que aparecen en los diferentes
manuales se repiten, y ocasionan fichas repetidas de distinta procedencia. Para evitar
confusiones, en otra hoja de Excel hemos hecho otra lista de todos los trminos que tenemos
para la especialidad, pero slo considerando la mnima informacin lingstica: (1) categora
gramatical y (2) gnero.

7. Conclusiones

A lo largo de este captulo hemos discutido la importancia de los corpus para los trabajos
lingsticos, hemos visto los diferentes tipos que existen y finalmente tipificado nuestro propio
corpus. Adems, consideramos la relevancia de las tcnicas informticas para el trabajo
terminogrfico, la extraccin de trminos automatizada y la inclusin de un fichero o banco de
datos terminolgicos.
Tambin, hemos tipificado la forma de nuestras fichas y propusimos un tipo de ficha con
informacin lingstica que servir para apoyar nuestra investigacin. Y, por ltimo, hemos
descrito el proceso para descartar los falsos candidatos a trminos, la revisin de los trminos
verdaderos con los especialistas y la inclusin de algunos que no estuvieron considerados.

Bibliografa

ALPIZAR CASTILLO, R. 1997. Cmo hacer un diccionario cientfico tcnico? Buenos Aires:
Memphis.
ARRARTE, G. 1999. Normas y estndares para la codificacin de textos y para la ingeniera
lingstica, en ARRARTE, G., Filologa e informtica: Nuevas tecnologas en los estudios
filolgicos. Barcelona: Milenio-UAB.
ARNTZ, R.; PITCH, H. 1995. Introduccin a la terminologa. Madrid: Biblioteca del libro,
Fundacin Germn Snchez Ruiprez.
BARRN CEDEO, L.A. 2007. Extraccin automtica de trminos en contextos definitorios,
proyecto de tesis de maestra para posgrado en Ciencia e Ingeniera de la Computacin.
Universidad Nacional Autnoma de Mxico, dirigido por Gerardo Sierra Martnez.
CABR, T. 1993. La terminologa. Teora, metodologa y aplicaciones. Barcelona:
Antrtida/Empries.
CABR, T. 1999. La terminologa. Representacin y comunicacin. Barcelona: IULA-Univesitat
Pompeu Fabra.
CABR, T.; ESTOP BAGOT, R.; VIVALDI PALATRESI, J. 2001. Automatic term detection. A
review of current systems, en Recent Advances in Computational Terminology. John
Benjamins Publishing Company, 53-88.
CARDERO GARCA, A. M. 2003. Terminologa y Procesamiento. Mxico: UNAM, FES Acatln.
CARDERO GARCA, A. M. 2004. Lingstica y terminologa. Mxico: UNAM, FES Acatln.
DUBUC, R. 1999. Manual de terminologa. Chile: Unin latina, RIL editores.
GARSIDE, R.; LEECH, G.; MCENERY, A. 1997. Corpus Annotation: Linguistic Information from
Computer Text Corpora. Nueva York: Addison Wesley Longman.

11
LUNA TRAILL, E.;, BAEZ, G.; VIGUERAS , A. 2005. Diccionario bsico de lingstica. Mxico:
UNAM.
PREZ GUERRA, J. 1998. Introduccin a la lingstica de corpus. Un ejercicio con herramientas
informticas aplicadas al anlisis textual. Santiago de Compostela: Trculo Edicins.
REAL ACADEMIA ESPAOLA. 2001. Diccionario de la Lengua Espaola [22a edicin]. Madrid:
Espasa- Calpe.
MARTNEZ, G. 2008. Diseo de corpus textuales para fines lingsticos, en Memorias del IX
Encuentro de Lingstica en el Noroeste, tomo II, 450, 563. Hermosillo: UNISON.
LLISTERRI, J.; TORRUELLA, J. 1999. Diseo de corpus textuales y orales, en Filologa e
informtica: Nuevas tecnologas en los estudios filolgicos. Barcelona: Milenio-UAB.
VEGA, J. 1994. Herramientas lingsticas para la Terminologa, en Actas de IV Simposio de
RITerm: Buenos Aires http://www.riterm.net/actes/4simposio/vega.htm.
WERNER, A. 1974. Diccionario de terminologa lingstica actual. Madrid: Gredos.
WSTER, E. 1998. Introduccin general a la teora de la terminologa y a la lexicografa
terminolgica. Barcelona: IULA-Univesitat Pompeu Fabra.

12