Está en la página 1de 8

-1-

Lee con atencin los principios que subyacen en la compilacin


de estos corpus:


a) Corpus Design: ICE Corpus




To ensure compatability between the individual corpora in ICE, each team is following a common corpus
design, as well as a common scheme for grammatical annotation. Each component corpus contains 500 texts
of approximately 2,000 words each - a total of approximately one million words. Some of the texts are
composite, made up of two or more samples of the same type.
Click here to see the Text Categories in the corpus.
The texts in the corpus date from 1990 or later. The authors and speakers of the texts are aged 18 or over,
were educated through the medium of English, and were either born in the country in whose corpus they are
included, or moved there at an early age and received their education through the medium of English in the
country concerned.
The corpus contains samples of speech and writing by both males and females, and it includes a wide range
of age groups. The proportions, however, are not representative of the proportions in the population as a
whole: women are not equally represented in professions such as politics and law, and so do not produce
equal amounts of discourse in these fields. Similiary, various age groups are not equally represented among
students or academic authors.

ICE Text Categories
Numbers in brackets indicate the number of 2.000000-word texts in each
category.
Spoken
(300)
Dialogues
(180)
Private
(100)
Conversations (90)
Phonecalls (10)
Public
(80)
Class Lessons (20)
Broadcast Discussions (20)
Broadcast Interviews (10)
Parliamentary Debates (10)
Cross-examinations (10)
Business Transactions (10)
Monologues
(120)
Unscripted
(70)
Commentaries (20)
Unscripted Speeches (30)
Demonstrations (10)
Legal Presentations (10)

Scripted
(50)
Broadcast News (20)
Broadcast Talks (20)
Non-broadcast Talks (10)
Written
(200)
Non-printed
(50)
Student
Writing
(20)
Student Essays (10)
Exam Scripts (10)
Letters
(30)
Social Letters (15)
Business Letters (15)


-2-
Printed
(150)
Academic
(40)
Humanities (10)
Social Sciences (10)
Natural Sciences (10)
Technology (10)
Popular
(40)
Humanities (10)
Social Sciences (10)
Natural Sciences (10)
Technology (10)
Reportage
(20)
Press reports (20)
Instructional
(20)
Administrative Writing (10)
Skills/hobbies (10)
Persuasive
(10)
Editorials (10)

Creative
(20)
Novels (20)



-3-
2) Corpus Crea

(http://corpus.rae.es/creanet.html)

CREA - ESCRITO
El Corpus de referencia del espaol actual (CREA) es un banco de datos del espaol contemporneo, es
decir, un conjunto de textos de diversa procedencia, almacenados en soporte informtico, del que es posible
extraer informacin para estudiar las palabras, sus significados y contextos.
Un corpus de referencia es aquel que est diseado para proporcionar informacin exhaustiva acerca de una
lengua en un momento determinado de su historia y, por tanto, ha de ser lo suficientemente extenso para
representar todas las variedades relevantes de la lengua en cuestin. Atendiendo a este criterio, el CREA cuenta
hasta ahora (octubre de 2001) con 130 millones de registros, que est previsto vayan aumentando hasta
conseguir al menos 160 millones, a finales de 2004. Se compone de una amplia variedad de textos escritos y
orales, producidos en todos los pases de habla hispana desde 1975 hasta la actualidad. Los textos escritos,
procedentes tanto de libros como de peridicos y revistas, abarcan ms de cien materias distintas. La lengua
hablada est representada por transcripciones de documentos sonoros, procedentes, en su mayor parte, de la
radio y la televisin.
En la actualidad (octubre de 2001), la parte escrita del CREA cuenta con cerca de 4.000 obras y ms de 122
millones de registros, que irn aumentando hasta conseguir al menos 150 millones, a finales de 2004.
Los textos han sido selecionados de acuerdo con cuatro grandes criterios de clasificacin, independientes entre
s: medio, origen, fecha e hipercampo.

MEDIO:
* Prensa: 49 %
* Libros: 49 %
* Efmeros (material no publicado): 2%
ORIGEN:
* Espaa: 50 %
* Hispanoamrica: 50%
A su vez, el continente americano, se divide en diferentes zonas lingsticas:
Andina: Venezuela, Colombia, Ecuador, Per y Bolivia.
Caribea: Cuba, Pnama, Puerto Rico, Repblica Dominicana, costas de Venezuela y Colombia y sudeste de
Estados Unidos.
Central: Costa Rica y Nicaragua.
Chilena: Chile.
Mexicana: Guatemala, Honduras, El Salvador, Mxico y sudoeste de Estados Unidos
Rioplatense: Argentina, Paraguay y Uruguay.
POCA:
El perodo 1975-1999 ya se ha completado con la siguiente distribucin por lustros:
* 1975-1979
* 1980-1984
* 1985-1989
* 1990-1994
* 1995-1999
Se otorga una mayor representatividad al material ms moderno. Actualmente, se estn procesando textos
pertenecientes al perodo 2000-2004.

HIPERCAMPOS:
Hemos establecido seis hipercampos o reas generales del saber a los que deben asignarse cada uno de los
textos "informativos" del corpus. Cada uno de estos hipercampos se ha estructurado en reas temticas ms


-4-
concretas. La parte de ficcin -textos "imaginativos"- se ha considerado, por razones de orden y clasificacin,
como el hipercampo 7.
* Hipercampo 1. Ciencias y tecnologa
Biologa
Veterinaria
Ecologa
Tecnologa
Fsica
Industrias diversas
Meteorologa
Matemticas
Geologa
Qumica
Informtica
Astronoma
Energa
Electrnica
Ciencias y tecnologa
Zoologa y paleontologa
Estadsticas
Ingenieras
Bioqumica
Botnica
* Hipercampo 2. Ciencias sociales, creencias y pensamiento.
Religin
Lingstica y lenguaje
Historia
Sociologa
Literatura
Astrologa y ciencias ocultas
Erotismo, sexologa
Psicologa
tica
Geografa
Filosofa
Civilizacin, etnologa
Antropologa
Mitologa
Folclore
Educacin
Mujer
Arqueologa
Urbanismo
Testimonios varios
* Hipercampo 3. Poltica, economa, comercio y finanzas.
Poltica
Desarrollo
Empleo, trabajo
Industria
Economa y hacienda
Gobierno
Seguridad social
Iglesia
Negocios
Ejrcito, ciencia militar
Justicia, legislacin
Proteccin civil


-5-
Trfico
Empresa
Comercio
Unin europea
Derecho
Marketing
* Hipercampo 4. Artes.
Medios de comunicacin
Msica
Arquitectura
Pintura
Teatro
Cine y Vdeo
Escultura
Artesana
Danza
Fotografa
Antigedades
Publicidad
Diseo
Arte y cultura en general
Espectculos diversos
* Hipercampo 5. Ocio y vida cotidiana.
Gastronoma, cocina
Aficiones
Tauromaquia
Turismo
Deportes
Vivienda
Asuntos Domsticos
Actualidad
Juegos
Moda
Costumbres
Jardinera
* Hipercampo 6. Salud.
Medicina
Sanidad pblica
Salud
Farmacologa
Nutricin
Medicinas alternativas
Biomedicina
Psiquiatra
* Hipercampo 7. Ficcin.
Novela
Relatos
Teatro

Codificacin:
A todos los materiales procesados tanto en el CREA como en el CORDE se les ha aadido una serie de marcas textuales,
establecidas segn el estndar internacional SGML (Standard General Markup Language), de acuerdo con las
recomendaciones de la TEI (Text Encoding Initiative), que facilitan la recuperacin de la informacin y el intercambio de
textos con otros corpus, y garantizan la independencia de sistemas operativos y programas.


-6-
Corpus CREA ORAL:
El CREA oral est integrado por transcripciones de la lengua hablada; los documentos sonoros, que se obtienen a travs de
convenios con distintas instituciones y tambin mediante la grabacin directa de Internet, se someten a un laborioso
proceso de transcripcin ortogrfica y codificacin.
Actualmente, la parte oral disponible en el CREA est formada por dos grandes grupos de textos:
Textos procedentes de grabaciones de radio o de televisin que han sido transcritos y codificados siguiendo las
pautas definidas en el documento Transcripcin y codificacin de textos orales.
Textos ya transcritos procedentes de otros corpus orales que, tras la revisin del texto y/o del audio, se han
convertido al sistema de transcripcin y codificacin del CREA oral. Hasta ahora se han incorporado los
siguientes corpus:
o ACUAH: Anlisis de la Conversacin de la Universidad de Alcal de Henares.
o ALFAL: Macrocorpus de la norma lingstica culta de las principales ciudades del mundo hispnico,
de la Asociacin de Lingstica y Filologa de Amrica Latina.
o Caracas-77: Estudio sociolingstico de Caracas, 1977.
o Caracas-87: Estudio sociolingstico de Caracas, 1987.
o CEAP: Corpus de Encuestas en Asuncin de Paraguay.
o COVJA: Corpus oral de la variedad juvenil universitaria del espaol hablado en Alicante.
o CSC: Corpus para el estudio del espaol hablado en Santiago de Compostela.
o CSMV: Corpus Sociolingstico de Mrida-Venezuela.
o UAM: Corpus Oral de Referencia del Espaol Contemporneo.
o Material pblico procedente de Internet.

El corpus oral constituye aproximadamente un 10 % del total del CREA. En la actualidad (octubre de 2001), es posible acceder a casi 9
millones de registros procedentes de transcripciones de la lengua hablada, con ms de 1.600 documentos. Los materiales se clasifican de
acuerdo con los siguientes criterios:
MEDIO:
El medio de los textos orales del corpus se determina a partir de la combinacin de valores de dos tipos:
Valores de canal comunicativo: Radio, televisin, grabacin directa, telfono, otros.
Valores de procedencia: Grabacin, texto previamente transcrito, texto previamente transcrito y codificado.
ORIGEN:
Espaa: 50%
Hispanoamrica: 50%
A su vez, el continente americano, se divide en diferentes zonas lingsticas:
Andina: Venezuela, Colombia, Ecuador, Per y Bolivia.
Caribea: Cuba, Pnama, Puerto Rico, Repblica Dominicana, costas de Venezuela y Colombia y sudeste de Estados
Unidos.
Central: Costa Rica y Nicaragua.
Chilena: Chile.
Mexicana: Guatemala, Honduras, El Salvador, Mxico y Sudoeste de Estados Unidos.
Rioplatense: Argentina, Paraguay y Uruguay.


-7-
POCA:
1975-1979
1980-1984
1985-1989
1990-1994
1995-1999
2000-2004, fase actual
GNERO:
La tipologa de textos orales del CREA establece dos gneros con sus correspondientes subgneros: en primer lugar, textos procedentes de
grabaciones de radio y de televisin, que constituyen el ncleo del Corpus oral; un segundo gnero permite clasificar otro tipo de
transcripciones: discursos polticos, conversaciones telefnicas, mensajes en contestadores, dilogos informales, etc. La siguiente tabla da
cuenta de ello:
1.- Radiofnico o televisivo
Noticias
Reportajes
Entrevistas
Debates
Tertulias
Documentales
Retransmisiones deportivas
Magacines
Revistas deportivas
Variedades
Sorteos y concursos
2.- Otras grabaciones
Formalidad = alta, Audiencia = interlocutor, Canal = cara a cara
Formalidad = alta, Audiencia = interlocutor, Canal = otro
Formalidad = alta, Audiencia = oyente pasivo, Canal = cara a cara
Formalidad = alta, Audiencia = oyente pasivo, Canal = otro
Formalidad = baja, Audiencia = interlocutor, Canal = cara a cara
Formalidad = baja, Audiencia = interlocutor, Canal = otro
Formalidad = baja, Audiencia = oyente pasivo, Canal = cara a cara
Formalidad = baja, Audiencia = oyente pasivo, Canal = otro
Otros rasgos
En la cabecera pueden aadirse otros rasgos de clasificacin de los textos, como el grado de formalidad, el carcter libre o dirigido de la
grabacin o la posible existencia de otros medios distintos del principal. Frente a los rasgos presentados en los dos apartados anteriores, los
descritos aqu son optativos.

La transcripcin de los documentos sonoros es de nivel II, de acuerdo con la convencin desarrollada por French (1992) y adoptada por el consorcio NERC (Network of European Reference Corpora), y de nivel S1 (ortographic or transliteration level), en
la escala definida por EAGLES (Expert Advisory Group on Language Engineering Standars: EAGLES Spoken Language Working Group 1995). La transcripcin se enriquece con una serie de informaciones bsicas acerca de los hablantes, los cambios
de turno y los elementos no verbales, codificadas en lenguaje SGML, de acuerdo con las recomendaciones de la TEI (Text Encoding Initiative) y de EAGLES. Los criterios de transcripcin y codificacin estn detalladamente descritos en el documento
Transcripcin y codificacin de textos orales, versin 4.1 (17 de febrero de 1999).
Los textos que actualmente integran la parte oral del CREA y que ya estn disponibles se revisan peridicamente. En la fase 2000-2004, se trabaja simultneamente en la transcripcin ortogrfica de los documentos sonoros y en el alineamiento con la seal
sonora digitalizada. Actualmente (octubre de 2001) se han alineado un total de 100.000 registros de Espaa y Amrica. En este nuevo proceso, la codificacin se realiza en XML (Extensive Markup Language) y los archivos textuales se asocian con su
correlato sonoro. Los textos que actualmente se incorporan a la parte oral del CREA poseen marcas de sincronizacin con el segmento del archivo sonoro al que pertenece la transcripcin, lo cual facilitar, en posteriores aplicaciones, el acceso al audio


-8-
3) Consulta en la red la compilacin de este corpus, de 100 millones de
palabras:


Corpus del espaol (Mark Davies):
http://www.corpusdelespanol.org

También podría gustarte