Está en la página 1de 27

guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

Esta es la versión en caché de http://www.lllf.uam.es/~fmarcos/informes/corpus/corpulee.html de Google. Se


trata de una captura de pantalla de la página tal como esta se mostraba el 31 Ago 2008 20:02:52 GMT. Es
posible que la página haya sufrido modificaciones durante este tiempo. Más información

Se han resaltado estos términos de búsqueda: convenciones para oral Estos términos Versión de solo texto
sólo aparecen en enlaces que apuntan a esta página: transcripcion

Corpus de Referencia de la Lengua Española


Contemporánea: Corpus Oral Peninsular
Grupo de investigación:

Director: Francisco Marcos Marín

Recolección de material en cintas de audio y transcripción:

Almudena Ballester Carrillo

Carmen Santamaría García

Elena Pertierra Torreño

Otilia Brandão Cardoso dos Santos

Pedro Luis Díez Orzas

CONTENIDO

DESCRIPCIÓN DEL CORPUS TEXTUAL

II.CRITERIOS DE REGISTRO SONORO, TRANSCRIPCIÓN Y ETIQUETADO DE TEXTOS

Criterios de recogida de textos (registro sonoro)

Criterios de transcripción y etiquetado

Identificación de los ficheros (cabeceras)

Convenciones adoptadas para la codificación (etiquetas)

Convenciones de codificación y puntuación (ortografía)

Algunos de los problemas que presentan los corpus orales.

Ejemplos

III. ARQUITECTURA DE LA BASE DE DATOS TEXTUAL.

1 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

Número de palabras

Porcentajes de representatividad

I. DESCRIPCIÓN DEL CORPUS TEXTUAL

Título: CORPUS ORAL DE REFERENCIA DEL ESPAÑOL CONTEMPORÁNEO

Definición: Base de datos textual (corpus de lengua hablada): transliteración de textos grabados en cintas de
audio del registro oral. 1.100.000 de palabras transliteradas en soporte informático.

Grupo de investigación:

Director: Francisco Marcos Marín

Recolección de material en cintas de audio y transcripción:

Almudena Ballester Carrillo

Carmen Santamaría García

Elena Pertierra Torreño

Otilia Brandão Cardoso dos Santos

Pedro Luis Díez Orzas

La base de datos textuales denominada Corpus Oral de Referencia del Español Contemporáneo
comenzó a elaborarse en enero de 1991, finalizando su realización en febrero de 1992. Ha sido realizada en la
cátedra de Lingüística General de la Universidad Autónoma de Madrid gracias a una subvención de IBM
España. Es accesible por red mediante esta serie de comandos FTP:

>ftp ftp.lllf.uam.es

Name: ftp

Password: (nombre del usuario)

% get README (y seguir las instrucciones del fichero README)

II.CRITERIOS DE REGISTRO SONORO, TRANSCRIPCIÓN Y ETIQUETADO DE TEXTOS

Criterios de recogida de textos (registro sonoro).

El corpus oral ha de recoger textos de todo tipo, desde conversaciones hasta presentaciones de índole más
académica (no leídas), de acuerdo con unos requisitos y dentro de una banda de frecuencias de tipos textuales
previamente determinada. En los aspectos generales, se rige por los criterios que hemos presentado
anteriormente, en esta exposición.

2 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

El equipo recolector de textos orales debe tener en cuenta también seis criterios para definir los textos que se
integrarán en la base de datos:

1) Oralidad

2) Espontaneidad

3) Adecuación

4) Representatividad

5) Autenticidad

6) Estándar

En lo referente a la transcripción, se debe insistir en que se trata de una transcripción ortográfica, por lo que
este criterio es el determinante. Cuando en la expresión oral se hayan suprimido segmentos que deben
representarse ortográficamente (como la d del participio en la terminación -ado, p. ej.) se arbitra un sistema
de representación que permite recuperar la información ortográfica (ver el apartado de etiquetas); pero sin
perder la información relevante desde el punto de vista de la oralidad, para los efectos de cadenas de
segmentos en estadísticas, por ejemplo.

En lo que se refiere al corpus oral, los tipos de texto representativos son los siguientes:

TIPO TEXTUAL

Administrativos

Científicos

Conversacionales o familiares

Educativos

Humanísticos

Instrucciones (megafonía)

Jurídicos

Lúdicos (concursos, etc.)

Políticos

Periodísticos:

Debates

Deportes

Documentales

Entrevistas

3 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

Noticiario

Publicitarios

Religiosos

Técnicos

Criterios de transcripción y etiquetado.

Identificación de los ficheros (cabeceras).

Todas las etiquetas antes mencionadas se insertan en el texto transcrito. Pero cada archivo requiere, aparte,
un encabezamiento con una serie de datos fundamentales para la posterior recuperación de la información en
ellos contenida.

La primera etiqueta es el número de la cinta en dónde se encuentra el texto grabado (tres dígitos).

A ésta le sigue el nombre del fichero. En ella se detalla:

- El autor de la transcripción: una inicial del nombre o apellido dels investigador que ha recogido y transcrito
el texto.

- El tipo de texto transcrito: las tres primeras letras correspondientes al tipo o sección.

- El número de la cinta en que se encuentra el texto.

- La posición que ocupa en la cinta determinada, denominada mediante las letras del alfabeto español.

Y por último:

- Las iniciales «asc», ya que los textos se almacenan en código ASCII.

Así por ejemplo, un fichero llamado <A ENT 012 F.ASC>, indica que ha sido realizada por Almudena (A),
que se trata de la entrevista (ENT) registrada en quinto lugar (F) en la cinta número 012, (en la cual puede
haber, además, otro tipo de textos) y que está grabada en código ASCII.

A esta etiqueta le siguen las que identifican y sitúan al texto y a los hablantes que en él intervienen.

- Fecha: indicada con cifras, separadas por guiones.

- Fuente: se especifica si se toma de los medios de comunicación (radio, televisión), o del entorno familiar,
académico, etc.

- <Localización=X>, donde X está en el lugar de la ciudad en cuestión donde ha sido grabado el texto.

- Términos: son los temas o tópicos tratados. Deben tratar de generalizar y no de ser concretos y servirán para
la elaboración de un tesauro. Son todos ellos sustantivos, aunque pueden llevar adjetivos.

- Hablantes: para cada uno, una etiqueta identificativa.

Además se especifica su edad, sexo y su profesión u ocupación, si se sabe; aunque esto último no es del todo
fundamental.

4 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

Si la edad de los hablantes es sólo aproximada indicaremos «c.» (circa) delante de la edad (varón, c. 45 años)

Finalmente, indicar que todos los ficheros comienzan con la etiqueta <texto> y terminan con la etiqueta
</texto>. Un último ejemplo aclaratorio, para resumir:

Convenciones adoptadas para la codificación (etiquetas).

5 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

Todas estas dificultades señaladas sólo lo son si no se adopta ninguna convención que unifique criterios, que
marque estos posibles problemas para su posterior tratamiento, o su simple constatación.

Basándonos por una parte en las normas de la TEI (Text Encoding Initiative), y en nuestra intuición y
capacidad como lingüistas, hemos resuelto marcar algunas de estas características del lenguaje hablado con
las etiquetas que se citan a continuación. Por el momento, éstas son las etiquetas utilizadas:

1. Etiquetas que conciernen a la pronunciación.

<palabra cortada>...

El hablante no ha pronunciado todas las sílabas de una palabra, bien por confusión, autocorreción, o rapidez
en el habla. Esta etiqueta es muy utilizada, especialmente en la transcripción de conversaciones informales. A
ella hay que adjuntar puntos suspensivos, para que conste como vacilación y no como palabra real una vez
eliminadas las etiquetas.

Reconstrucción de letras: Todas las letras que componen una palabra y que no hemos oído, incluso las sílabas,
podemos reconstruirlas siguiendo los ejemplos a continuación:

Está ahí al la<(d)>o, pa<(r)><(a)> allá, to<(d)><(o)>, etc.

Se reconstruyen siempre que no se oigan en absoluto. En caso contrario, se transcriben ortográficamente.


Cada letra es una etiqueta, no podemos incluir dos aunque el hablante haya omitido una sílaba entera.

<vacilación>

Esta etiqueta sustituye a sonidos ininteligibles que indican vacilación. A veces el hablante no llega a
pronunciar sílabas enteras, sólo una secuencia de sonidos «oscuros», no vocálicos.

Fáticos:

<fático=afirmación> - el hablante emite un sonido que indica que está de acuerdo con su interlocutor.

<fático=duda> - ciertos sonidos que indican duda.

<fático=interrogación> - el hablante muestra sorpresa, desconocimiento, deseo de saber algo, etc.

<fático=negación> ...

En general, se considera que el «catálogo» de los sonidos fáticos no está cerrado; siempre que el transcriptor
considere que se debe ampliar, esto enriquecerá la definición del corpus.

Ruidos:

Se distingue entre los ruidos propios de una comunicación y los ajenos a ella. Así, la etiqueta <ininteligible>
indica que lo que el hablante dice (una o varias palabras) no se puede entender por la propia pronunciación
del hablante. Sin embargo, la etiqueta <ruido> señala un ruido efectivo de cualquier tipo, solapado en la
conversación y que dificulta o imposibilita del todo la comprensión.

Aparte de estos dos, normalmente también se señalan otros «ruidos» definidos con otras etiquetas:

<risas>, <aplausos>, <música>, etc. (Ver «Estructura de los archivos».)

A veces es necesario identificar la fuente de los ruidos. De este modo, si en el transcurso de una

6 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

conversación, por ejemplo, suena un timbre de teléfono o de puerta y ello provoca comentarios, lo
etiquetamos de la forma <ruido=timbre de teléfono>, tomando el primer caso. Hemos preferido hacerlo así
en vez de considerar el sonido del timbre o los ladridos de un perro, poniendo otro caso, una sola etiqueta,
como podrían ser <ladridos> o <timbrazo>; siempre con vistas a una mayor coherencia interna y una mejor
recuperación de estas marcas.

Sin embargo, los sonidos que emiten los hablantes, tales como risas, suspiros, llanto, etcétera, son
considerados etiquetas aparte.

Sonidos de formación expresiva o imitativa.

Nos encontramos con el problema de cómo etiquetar ciertos sonidos que se emplean para llamar la atención
de alguien o bien para recomendar silencio. Ocurren con frecuencia, por ejemplo, en los textos educativos.
En el diccionario podemos encontrar «chsss...» como transcripción de estos sonidos. Hemos decidido utilizar
esta misma transcripción.

Etiqueta <onomatopéyico>: Como se puede adivinar, se utiliza en el lugar del sonido de agrado, desagrado,
alegría, etc. que no es posible representar silábicamente. Algunas veces, sin embargo, estas exclamaciones sí
son silábicas e incluso se pueden encontrar en el diccionario: «paf», «ayayai»...

En estos casos y, en general, siempre que se pueda, se transcribirán ortográficamente.

<onomatopéyico> </onomatopéyico>

Se utilizan para delimitar los sonidos onomatopéyicos que pueden reconstruirse ortográficamente. Por
ejemplo:

<H1> Y los coches <onomatopéyico>piun, piun, piun, piun,


piun</onomatopéyico>

2. Etiquetas concernientes a los hablantes.

En un principio, lo que nos pareció simple tarea de clasificación de intervenciones, ordenándolas y


exponiéndolas con las etiquetas <H1>, <H2>, <H3>, etc. delante, resultó claramente insuficiente. No todas
las intervenciones, por un lado, son de hablantes que participan en un mismo acto comunicativo y, por otro,
no todo aquel que oímos hablar en una grabación tiene categoría de «hablante». Esto podrá parecer algo
absurdo, pero piénsese, por ejemplo, en un noticiario de televisión. El locutor, que supuestamente no lee,
improvisa su discurso en ese momento: transmite «algo» a los telespectadores en directo. Pero conecta con un
corresponsal que, a su vez, tiene «elaborada» una noticia que incluye intervenciones de políticos, deportistas,
etc. que ni han oído al locutor, ni al corresponsal, ni son conscientes de que sus palabras están siendo unidas a
las de un periodista para la redacción de una noticia o una crónica. Esta crónica es retransmitida seguida de
las observaciones de un locutor. Ambas son intervenciones, ambas son esporádicas -por supuesto, la segunda
lo es mucho menos-, ambas pertenecen al registro oral. Pero el político, la actriz, el deportista o el afectado
por una inundación no son «hablantes» para nuestro propósito, en el sentido estricto. Por lo tanto, no son
<H5>, ni <H25> (en un noticiario, pueden «intervenir» muchas personas).

Sin embargo, sin estas valiosísimas aportaciones no existirían estos programas. Así pues, se mantiene su
intervención y como tal se transcribe, pero utilizando las etiquetas distintivas <Ha>, <Hb>, <Hc>, etc. para
cada una de ellas.

En cualquier debate de los medios de comunicación, es relativamente común que se muestren los resultados
de una encuesta realizada previamente. Si además de mostrar los resultados globales, el realizador del
programa decide exhibir también algunas de las respuestas que expuso la gente que fue entrevistada, nos

7 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

encontramos nuevamente con intervenciones espontáneas, muy ocurrentes y representativas, pero a las cuales
sería un grave error presentar con una etiqueta como <H3> o <H4> delante, pues eso significaría que están
en el plató debatiendo con el resto de los invitados. Además, siempre son respuestas a una misma pregunta, la
del encuestador, tampoco participante del debate.

Para ellas hemos propuesto las etiquetas <Encuestador> y <Encuestado 1>, <Encuestado 2>, etc.

En este mismo tipo de programas, importante y nada desdeñable fuente de nuestro corpus, el público puede
tener un papel decisivo. Cuando sus risas, murmullos, o gritos influyen en el resto de las intervenciones, el
dejar de señalarlo sería una omisión importante. El público también está presente como hablante «común» en
las conferencias, las clases, los debates del Parlamento y en general, allí donde se trate de exponer ideas u
opiniones o de divulgar conocimientos de interés «público», valga este adjetivo para notar la obviedad. Si
interviene individualmente uno de los componentes del público, que ha seguido toda la conferencia o el
debate, si está considerado hablante, por supuesto.

En el otro caso, la etiqueta <público> representará al mismo. Seguida a ella, adjuntamos las etiquetas
correspondientes: <murmullos>, <risas>, por ejemplo.

Durante la transcripción de conversaciones en las que no se ha estado presente, es fácil notar que uno no es
capaz de reconocer a quien está hablando en ese momento. Si tras hacer algunos esfuerzos por descubrirlo
hemos seguido sin ser capaces, no nos ha quedado más remedio que recurrir a la etiqueta <no identificado>
para este hablante, sin que por ello la intervención en cuestión haya de ser menospreciada.

<todos>

Esta etiqueta se utiliza cuando en algún momento de la conversación todos los hablantes dicen lo mismo:

<todos> ¡Sí!

<todos> ¡Vamos!

Es especialmente útil cuando contestan al profesor todos los alumnos, por ejemplo, y sería tedioso enumerar
cincuenta o cien hablantes distintos. Esta etiqueta va definida en la cabecera:

<H1=profesor varón, 45 años>

<todos=alumnos. Edad media: 25 años>

Utilizamos <todos> <ininteligible> cuando todos los participantes en la conversación hablan a la vez y por
ello no es posible entender a ninguno de los hablantes.

La etiqueta <público> designará al mismo en programas de televisión, encuentros deportivos, conferencias,


etc. pero preferiremos la etiqueta <todos> para referirnos a alumnos y participantes en una conversación
entre conocidos, familiares, etc.

3. Etiquetas concernientes a las intervenciones.

En ocasiones, en el transcurso de una conversación, los hablantes pueden ponerse tranquilamente a cantar, en
el sentido literal de la palabra. Nos ha parecido que desdeñar estas cantarinas intervenciones no sería muy
apropiado, teniendo en cuenta que con el Corpus oral pretendemos reflejar cómo habla la gente; y la gente,
además de gritar, reírse, murmurar o toser, puede, entre otras cosas, cantar mientras habla. Resignarnos a no
transcribir estas «piezas» nos pareció que dificultaría la comprensión del texto completo si, como suele
ocurrir, se alude a ello posteriormente. Y aunque en ocasiones utilizamos la etiqueta <texto no transcrito>

8 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

para algunos otros casos, éste no parece un buen candidato. Por otro lado, el hablante puede también
«improvisar» esas canciones, lo cual es sin duda una manifestación demasiado interesante como para que se
ignore.

Aunque no hay que olvidar que nuestro Corpus es pobre para reflejar algunos de estos aspectos relativos a la
forma de enunciación y no al contenido -me refiero, naturalmente, a las indicaciones tonales- , para estas
intervenciones hemos propuesto la etiqueta <cantando>, que se adjunta al principio de ellas, y su
correspondiente de cierre, </cantando>.

Simultaneidad.

Señalamos esta característica con las etiquetas <simultáneo> </simultáneo>. Es una etiqueta doble ya que
ha de adjuntarse delante (o a mitad) de la intervención del hablante que es interrumpido y detrás de la
intervención del hablante que interrumpe, o justamente al revés. Cuando las intervenciones de los hablantes
sean ininteligibles por causa de la simultaneidad indicaremos:

<H1> <simultáneo> <ininteligible>

<H2> <ininteligible> </simultáneo>

EJEMPLOS DE SIMULTANEIDAD:

<H2> Pero el lino... ¿de dónde se saca? ¿qué...

<H3> <simultáneo> Era una planta.

<H2> ...era? ¿una planta </simultáneo> que había por allí?

<H3> Sí, sí, sí. <simultáneo> Pa<(r)><(a)> sacar

<H1> Y queda... </simultáneo>

<H3> la fibra.

<H1> No. No había deja<(d)>o. Mi abuelo Eugenio no había

deja<(d)>o la labor. Como tenía hijos todavía y <simultáneo>

estaba...

<H2> Estaba... </simultáneo>

<H1> ...mi tío &Aa.ngel todavía soltero, pues él eso. Y cuando

murió mi abuelo Eugenio pues lo partió... nos lo dio todo y

mira éramos dos... dos que no teníamos padre, Tomás que me

ha<(b)><(é)>is oído...

Otras etiquetas.

Etiqueta <texto leído>: Empleada muy a menudo en los informativos y, en general, en grabaciones
procedentes de los medios de comunicación, sustituye a la información que el locutor o hablante está leyendo
y que se inserta en medio de un discurso oral o una narración.

9 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

<texto leído> </texto leído>:

Es conveniente transcribir ciertos textos leídos imprescindibles para la comprensión del texto que los sigue
(por ejemplo las preguntas en un concurso, los titulares de los periódicos que se comentan en los noticiarios
etc.) En ese caso se utilizará <texto leído> </texto leído> para delimitar dicho texto.

Etiqueta <texto no transcrito>: Por diversos motivos, en algunas ocasiones se puede optar por no transcribir
ciertas partes del texto grabado. La etiqueta propuesta sustituye a estas partes. Se utiliza también en vez de
textos pronunciados en otras lenguas o sus correspondientes traducciones. Esto último es relativamente
frecuente en los noticiarios o reportajes.

Etiqueta <borrado involuntario>: No requiere explicación (¡aunque sí cuidado!).

Etiqueta <interrupción de la grabación>: Puede ocurrir que la cinta se termine pero la grabación continúe
en otra cara, o en otra cinta. Como se han dejado de registrar ciertas palabras en la mitad del acto discursivo,
hay que indicar el porqué de este corte. No hay que indicarlo, sin embargo, cuando definitivamente termina la
grabación. En este caso se indica con la etiqueta </texto>, como en todos los archivos.

Etiqueta <silencio>: Si la pausa entre la intervención de uno o varios hablantes dura más de lo que podría
representarse simplemente con un signo ortográfico como los puntos suspensivos.

<siglas> </siglas>

Al igual que en el caso de las palabras extranjeras, las siglas o acrónimos, que aparecen no pocas veces en
nuestro discurso, han de ser etiquetadas, pues no son en sí una palabra que tenga estructura silábica idéntica a
la española -aunque sus inventores hayan hecho esfuerzos por que éstas sean «pronunciables», cosa que han
conseguido la mayoría de las veces, por razones obvias- y sobre todo, porque muy a menudo son siglas
procedentes de palabras extranjeras, que los hablantes siguen pronunciando a la manera española. En este
último caso, se decidió prescindir además de la etiqueta <extranjero>, dado que el hecho de marcarlas como
una sigla ya pareció suficiente.

La etiqueta propuesta es doble: <siglas> al principio de la palabra en cuestión y </siglas> al final de la


misma.

<sic>:

Cuando hay falta de concordancia utilizamos la etiqueta <sic> para evitar que se interprete como un error de
transcripción. Ejemplo:

«...en los minutos inicial<sic> del partido...»

«...si reúne las<sic> requisitos... »

Se puede adjuntar esta etiqueta a las palabras que han sido mal pronunciadas a propósito o por error
(inflacción), aunque esto último no es necesario, ya que garantizamos que si después de haber utilizado el
corrector ortográfico ciertas palabras están transcritas con una ortografía diferente a la correcta es porque las
hemos escuchado así.

<asentimiento> <denegación>

En situaciones en que el lenguaje corporal sustituya al lenguaje verbal para afirmar o negar podemos utilizar
estas etiquetas.

10 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

Para señalar las palabras extranjeras se utilizan dos etiquetas (en realidad, la misma), adjuntando una al
principio de la palabra o palabras (por ejemplo, cuando hay nombres y apellidos) y otra al final, sin dejar
ningún espacio, por ejemplo:

<extranjero>Michael Jordan</extranjero>, <extranjero>motu


proprio</extranjero>, <extranjero>Cardabelli</extranjero>, etc.

Hay que tener cierto cuidado en no señalar como extranjeras aquellas palabras cuya grafía se haya adaptado
por completo a la española, como es el caso de las palabras árabes, o las que aparezcan en un atlas con una
grafía ya estandarizada y española.

Convenciones de codificación y puntuación (ortografía).

1. ¿Qué se pone con mayúsculas?:

- Todos los nombres propios de personas (incluso apodos, abreviaciones, etc) Ejemplos: Adolfo Suárez, Coco,
Chus, el Litri, Pepe, el Lute, el Nani, El Niño de la Puebla (pero atención: <extranjero>Jon</extranjero>
Manteca, «el Cojo»;

- Todos los nombres de ciudades, países, pueblos, comarcas, barrios, distritos, plazas, calles... Ej.: San
Sebastián de los Reyes, Castilla y León, la Albufera, el embalse del Vellón, el Alto Penedés, la Plaza de
Neptuno, la calle la Bola, calle Mauricio Legendre...

- Las siglas. Con o sin puntos entre cada letra: URSS, E.E.U.U., la OTAN, el SIDA, el IVA, el PSOE.

- Los nombres de instituciones gubernamentales, académicas, culturales y demás: Comunidad de Madrid,


Estado (cuando se refiere al Estado español), Ministerio de Economía, (pero ministro de Economía) Hacienda
Pública, Museo del Prado, Sindicato de Médicos Ginecólogos, Patronato de Huérfanos del Ejército del Aire,
Instituto de la Mujer, Comisiones Obreras, Caja Provincial de Ahorros... Siempre hay que tener en cuenta si
las palabras de que consta el nombre en cuestión tienen un significado especial, como «caja» en el último
ejemplo, o si los propios miembros de un colectivo escriben el nombre total con mayúscula. En caso de duda,
consultar la prensa.

- También se escriben con mayúscula todos los nombres de cines, teatros, hospitales, colegios,
universidades... : Hospital de Las Cruces de Baracaldo, Universidad Autónoma de Madrid, Colegio Mayor
Chaminade, Teatro Español... Pero, atención, no se escribirán con mayúscula los nombres hospital,
universidad, teatro, colegio, etc. cuando no se cite su nombre: «Le ingresaron en el hospital»; «Vamos al
teatro a las cinco», por ejemplo.

- Los nombres de trofeos deportivos: Copa de Europa, Copa de Naciones, Recopa, Trofeo Conde de Godó de
tenis, etc.

2. Uso de las comillas:

- En las citas textuales de otra persona o de uno mismo, con o sin verbo introductorio:

... decía una periodista italiana: «Si es pobre necesariamente tiene que
ser malo»;

... todo fue empezar a hilar, y yo decía: «Si es que es imposible»;

... lo que te permite decirle «no» al jefe y llamarle «cabrón»;

11 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

... y entonces le he preguntado: «Oye, José Luis, que no has comido»;

Dejamos fuera de las comillas las aportaciones personales a las citas textuales. Nos referimos a frases como y
tal y cual; y patatín y patatán, no sé qué no sé cuántos, etc. que se pronuncian con tono de voz imitativo
como si las hubiese pronunciado la persona citada aunque no haya sido el caso:

... y dice: «Si es que no puedo más» no sé qué no sé cuantos «y tengo mucho
trabajo».

- Cuando el hablante quiere resaltar un uso especial de la palabra, o su pronunciación, o se cita la palabra, o
palabras sin que intervengan como tales en la conversación:

... No, no me refiero a la palabra «Cultura» con mayúscula;

... Un amigo decía que esto se llamaba el «recurso a los conocimientos de


tipo B»;

... Si yo digo «Bilbado» porque quiero pronunciar mejor «he cantado», pues
lo estoy haciendo muy mal (...) y no digo nada si recurro a la palabra
«inflacción»;

... estoy diciendo que esa realidad que vemos ahí se llama «mesa»;

... Sadam Hussein critica lo que denomina una «intromisión inaceptable».

... operación «tormenta del desierto»

- Los títulos de libros, canciones y todo tipo de obras artísticas (aunque no se cite el nombre completo de la
obra): «La Internacional», «El Quijote», «Las Meninas». Pero no, por ejemplo, la Novena sinfonía de
Beethoven, aunque sí con mayúscula.

- Los nombres de publicaciones periodísticas de cualquier tipo: «El Mundo», «Hola», «El País», «Tiempo».

- Los motes, apodos o sobrenombres aplicados a personas, lugares o cualquier otra cosa:

<extranjero>Jon</extranjero> Manteca, «el Cojo»;

Cuba, «la isla del azúcar»;

Emilio Butragueño, «el Buitre»;

Policarpo Díaz, «el Potro de Vallecas»;

Iñaki Perosule, alias «Pinocho».

- También irán entre comillas los nombres de establecimientos y marcas comerciales. Ej.: «El Corte Inglés».

3. Palabras que se escriben juntas. Palabras inventadas.

Se transcriben tal como se oyen. Lo mismo rige para las confusiones, las palabras trabadas, las que se cortan
voluntaria o involuntariamente y las autocorreciones. Se transcribe todo lo que se oye, aunque no sea una
palabra documentada. Si el hablante se autocorrige, se transcribe tanto la palabra «mal» dicha como la
corregida.

No adjuntamos ninguna etiqueta a las palabras inventadas. Una palabra como pueda ser «cuadernation»,

12 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

donde se pronuncia una palabra española con terminación a la inglesa, no falsea el tratamiento estadístico del
corpus porque no aparece con tanta frecuencia como la palabra «cuaderno». Por tanto no será necesaria una
etiqueta nueva para este caso. Simplemente transcribimos lo que oímos, con la ortografía que corresponda al
idioma que corresponda.

4. Uso de los puntos suspensivos y la coma.

Utilizamos los puntos suspensivos para señalar las pausas (con frecuencia realizadas con un alargamiento de
vocal al final de palabra), vacilaciones, cortes bruscos, y para separar varias realizaciones repetidas de una
misma palabra.

La convención de marcar así un corte brusco viene condicionada por la adecuación que ha de tener el corpus
a la ortografía española, donde no puede existir una separación mediante coma entre un artículo y un
sustantivo, o entre un auxiliar y su verbo, por ejemplo, aunque de hecho los hablantes introduzcan una
brevísima pausa -más bien, una vacilación- al hablar.

La coma se emplea según las reglas de la ortografía asimismo, y habrá de ser marcada aunque potencialmente
el hablante no se detenga. En cualquier caso, estos signos quedan al criterio del transcriptor, siempre que -hay
que insistir- no se viole ninguna regla de puntuación española como puede ser, por ejemplo, la no separación
entre un sujeto y su verbo por medio de coma, de no ser que se introduzcan, naturalmente, subordinaciones,
locuciones adverbiales, etc.

Las pausas de sentido en el discurso se indican, como es habitual en la ortografía española, mediante comas.
El punto y aparte se reserva para cuando el cambio de tema o tópico en el discurso es claro.

Algunos de los problemas que presentan los corpus orales.

La principal dificultad que presentan los corpus orales es también una de sus características distintivas: la
espontaneidad. Los hablantes no se sujetan a ningún tipo de regla estilística, retórica, ni siquiera gramatical en
ocasiones, por lo que es frecuente encontrar palabras en un orden distinto del «normal»; repeticiones,
muletillas, cortes bruscos dentro del acto comunicativo... y, por supuesto, cortes de palabras, palabras
«inventadas», ininteligibles, o que no se ajustan desde luego a los cánones de, por ejemplo, un diccionario.
Algunos de estos rasgos especiales se citan y estudian a continuación.

Mucho más a menudo de lo que pudiéramos pensar, los hablantes utilizamos palabras extranjeras, y otras que
podríamos llamar «extranjerizantes», reconstruidas sobre una dada. Además, no es extraño oír palabras
españolas con terminaciones fonéticas pretendidamente extranjeras (más bien, cuya fonética está adaptada a
la extranjera), y muchas otras de este estilo.

Mención aparte merecen las palabras que se citan a lo largo de una conversación y que no provienen siquiera
de un idioma extranjero: es el caso de las palabras de argot o jerga que ya están demasiado extendidas como
para considerar que pertenecen a este tipo. Tal es el caso de «guai», por poner tan sólo un ejemplo de los más
generalizados. En este momento, la propia autora ha dudado en escribirlo así, ajustándose totalmente a la
fonética, o por el contrario, darle el aspecto «extranjerizante» que normalmente se puede ver escrito. Se
podría todavía ahondar en el problema haciéndolo más complicado. Por ejemplo, cuando el hablante deforma
la mencionada palabra, algo que ocurre no pocas veces...

Tampoco hay que olvidar en este apartado los sonidos normalmente llamados fáticos, ya que constituyen un
apoyo imprescindible en gran número de situaciones comunicativas. Utilizados para aseverar, negar, dudar,
etc., son en realidad «sonidos» que no pueden, sin embargo, ser clasificados entre los «ruidos», puesto que
efectivamente comunican, lejos de impedirlo. No son, por otro lado, palabras: no tienen estructura silábica ni
significado concreto determinado. Han de ser incluidos en cualquier corpus oral, precisamente porque se dan

13 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

en la comunicación hablada y en ninguna otra.

A menudo sucede que los hablantes distorsionan su propia habla. No ocurre solamente en las imitaciones; en
general no somos conscientes de cuántas veces hemos hablado (y nuestro interlocutor nos ha entendido)
mientras nos reíamos, mientras sollozábamos, o mientras comíamos, por citar algunas situaciones comunes.
Estas comunicaciones resultan distorsionadas por un ruido que nosotros mismos emitimos, y que hace el
mensaje algo más difícil de captar, pero no absolutamente indescifrable.

Los hablantes tampoco esperan turno para hablar. Esta característica se puede observar incluso en los
debates de los medios de comunicación, o en las retransmisiones deportivas. La superposición de
conversaciones supone un par de dificultades para nuestros objetivos:

- la tarea del codificador se ve duplicada por lo evidentemente laboriosa que resulta la comprensión;

- no es precisamente fácil representar en un medio «plano» como es la pantalla de un ordenador una


conversación de tales características.

Había que optar por la eliminación de una de las dos (o más) comunicaciones, considerándola «ruido», o bien,
por la transcripción de las intervenciones simultáneas, indicando con etiquetas esta característica. Existe una
tercera opción, y es transcribir una al lado de la otra tipo columna; pero ésta parece la menos recomendable
por cuestiones de formato, y por la posible confusión que puede provocar.

Hasta ahora, sólo se han señalado los problemas que más se destacan y que cualquiera podría intuir. Existen
otros que no son obvios por estar relacionados con la propia codificación de los textos. Se refieren en
concreto a los detalles de transcripción de los datos en sí.

Consideremos el léxico español: para todos es tarea sencilla tomar un diccionario y buscar el significado de
una palabra determinada. Está claro que ésta ha de pertenecer al vocabulario que se incluye en los
diccionarios; a saber, el que dicta la Real Academia, o en su caso, la persona u organismo que confecciona un
diccionario. No pasamos por alto el hecho de que hay diccionarios realizados para todos los campos de la
ciencia y para todos los tipos de lenguaje; incluyendo aquí los famosos diccionarios de argot, por citar uno
entre los muchos no dictados por la Academia.

Pero algo que jamás encontraríamos en un diccionario, por más extravagante que fuera, sería una palabra
inventada por nosotros mismos. Que se sepa, de momento tampoco hay diccionarios-guía sobre cómo
inventar una nueva palabra. Así pues, ni siquiera una referencia a nuestra palabra inventada sería posible
encontrar. Y no es ninguna aguda observación el recordar que todos los días «funcionamos» con palabras
creadas por nosotros mismos, que, además, entienden nuestros interlocutores.

Para no hacer las cosas complicadas y que alguien pudiera pensar que la anterior aserción es totalmente
gratuita, aclararemos el concepto de palabra inventada, o palabra nueva.

Dejando de un lado que nuestra capacidad creativa, como nativos de español que somos, nos permita la
creación de nuevas palabras conscientemente, un hecho evidente es que los hablantes vacilamos al hablar.
Esto está claro: nadie es capaz de evitar que en un momento dado se le crucen dos palabras, o de encontrarse
con que de repente no es capaz de pronunciar una dada. Se producen así nuevas asociaciones de sílabas, no
oídas hasta entonces, pero en absoluto artificiales, o antinaturales. Tienen la misma estructura que el resto de
las que componen las palabras que se pueden encontrar en un diccionario español, porque efectivamente
están producidas por hablantes de español. Mantienen un significado aleatorio, si se quiere, o ninguno en
absoluto.

Pueden ser tratadas de dos formas:

14 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

- como «ruidos» en la comunicación; y desechadas por lo tanto (no representadas más que con una etiqueta,
pero nunca transcritas);

- como palabras reales, es decir, transcritas tal cual las oímos.

Esta última forma parece la más conveniente, por varias razones. En primer lugar, dejar de transcribirlas entra
en conflicto con el principio de la no interpretación de lo oído. Una vez más hay que recordar que no
podemos afirmar que no comuniquen algo, que sean efectivamente ruidos. En segundo lugar, resulta
interesante el hecho de que estas combinaciones de sonidos respondan precisamente a los habituales de la
lengua española. Al igual que se piensa en la necesaria reutilización de los textos a la hora del formato de los
mismos, y de sus indicaciones contextuales, habría que pensar en lo útil que podría ser esta circunstancia para
un fonólogo, por ejemplo.

El hecho de que no sean palabras del español no plantea problemas, como vemos.

Interesa señalar ahora otro de los escollos importantes con los que se encontraría cualquiera que se propusiese
transcribir un texto oral: el problema mismo de la transcripción estricta de lo oído, o por el contrario, la
peligrosa elección de reconstruir lo que uno supone entender. A simple vista, no parece un asunto demasiado
grave: se opta por la transcripción ortográfica del texto oral, y lo que no queda claro, se etiqueta como
ininteligible. Pero ocurre en multitud de ocasiones que el oyente es perfectamente capaz de entender lo oído
aunque el hablante no haya pronunciado todas sus letras, ni siquiera sus sílabas. Ahora bien, algo que queda
completamente claro es que a la hora de transcribir, no hay que interpretar. Y en estos casos, transcribir una
palabra con todas las sílabas con las que se encuentra en un diccionario -es decir, reconstruirla- no sería otra
cosa que estar interpretando que el hablante ha dicho algo que, en realidad, ni siquiera hemos oído.

Pero nuestro corpus oral no es fonético, sino ortográfico. Así pues, estas cuestiones quedan bastante en el
aire. No son fácilmente representables sin desvirtuar de alguna manera los tres o cuatro principios básicos de
la codificación, que sin duda deben ser mantenidos. O por el contrario, ateniéndonos a ellos en su totalidad,
deberíamos «transformar» en buena medida la representación del corpus oral pretendido.

15 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

16 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

17 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

18 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

19 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

20 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

21 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

22 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

23 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

24 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

III. ARQUITECTURA DE LA BASE DE DATOS TEXTUAL.

Estructura de directorios.

Directorios. Tipología textual.

(Bajo directorio CORPUS)

ADM Administrativos

CIE Científicos

CONV Conversacionales o familiares

EDU Educativos

HUM Humanísticos

INS Instrucciones (megafonía)

JUR Jurídicos

LUD Lúdicos (concursos, etc.)

POL Políticos

Periodísticos:

DEB Debates

DEP Deportes

DOC Documentales

ENT Entrevistas

NOT Noticiario

25 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

PUB Publicitarios

REL Religiosos

TEC Técnicos

Nota: Estos nombres de directorios corresponden al código de tipo de texto que aparece en el nombre de
fichero excepto CONV (conversacional, etiquetado como CON): MS-DOS no permite que un directorio se
llame «CON».

Cómputo aproximado de palabras:

Número de palabras.
Administrativos y políticos................. 61.200 palabras

Científicos................................. 36.600 "

Conversacionales o familiares............... 269.500 "

Educativos.................................. 58.300 "

Humanísticos................................ 61.200 "

Instrucciones (megafonía)................... 6.600 "

Jurídicos................................... 35.200 "

Lúdicos (concursos, etc.)................... 61.200 "

Periodísticos

Debates......................... 93.500 "

Deportes........................ 58.300 "

Documentales.................... 28.600 "

Entrevistas..................... 171.200 "

Noticiario...................... 72.600 "

Publicitarios............................... 30.800 "

Religiosos.................................. 12.100 "

Técnicos.................................... 43.100 "

TOTAL ESTIMADO........................ 1.100.000 palabras

Porcentajes de representatividad.
Administrativos y políticos.................. 5'6 %

Científicos.................................. 3'3 %

Conversacionales o familiares................ 24'5 %

26 de 27 12/09/2008 21:43
guía del corpus oral http://64.233.169.104/search?q=cache:Vdwcr_oS2RQJ:www.lllf.uam.es...

Educativos................................... 5'3 %

Humanísticos................................. 5'6 %

Instrucciones (megafonía).................... 0'6 %

Jurídicos.................................... 3'2 %

Lúdicos (concursos, etc.).................... 5'6 %

Periodísticos:

Debates.......................... 8'5 %

Deportes......................... 5'3 %

Documentales..................... 2'6 %

Entrevistas...................... 15'6 %

Noticias......................... 6'6 %

Publicitarios................................ 2'8 %

Religiosos................................... 1'1 %

Técnicos..................................... 3'9 %

____________________________________________________

100 %

Referencias:
Francisco A. Marcos Marín: Informática y Humanidades, Madrid: Gredos, 1994. (ISBN: 84-249-1665-4)

Anonymous FTP

ftp anónimo a Madrid

ftp anónimo a Buenos Aires

back to corpus page

27 de 27 12/09/2008 21:43