0 calificaciones0% encontró este documento útil (0 votos)
7 vistas8 páginas
ICE corpus contains 500 texts of approximately 2,000 words each. Authors and speakers of the texts are aged 18 or over, educated through the medium of English. Corpus contains samples of speech and writing by both males and females.
ICE corpus contains 500 texts of approximately 2,000 words each. Authors and speakers of the texts are aged 18 or over, educated through the medium of English. Corpus contains samples of speech and writing by both males and females.
ICE corpus contains 500 texts of approximately 2,000 words each. Authors and speakers of the texts are aged 18 or over, educated through the medium of English. Corpus contains samples of speech and writing by both males and females.
Lee con atencin los principios que subyacen en la compilacin
de estos corpus:
a) Corpus Design: ICE Corpus
To ensure compatability between the individual corpora in ICE, each team is following a common corpus design, as well as a common scheme for grammatical annotation. Each component corpus contains 500 texts of approximately 2,000 words each - a total of approximately one million words. Some of the texts are composite, made up of two or more samples of the same type. Click here to see the Text Categories in the corpus. The texts in the corpus date from 1990 or later. The authors and speakers of the texts are aged 18 or over, were educated through the medium of English, and were either born in the country in whose corpus they are included, or moved there at an early age and received their education through the medium of English in the country concerned. The corpus contains samples of speech and writing by both males and females, and it includes a wide range of age groups. The proportions, however, are not representative of the proportions in the population as a whole: women are not equally represented in professions such as politics and law, and so do not produce equal amounts of discourse in these fields. Similiary, various age groups are not equally represented among students or academic authors.
ICE Text Categories Numbers in brackets indicate the number of 2.000000-word texts in each category. Spoken (300) Dialogues (180) Private (100) Conversations (90) Phonecalls (10) Public (80) Class Lessons (20) Broadcast Discussions (20) Broadcast Interviews (10) Parliamentary Debates (10) Cross-examinations (10) Business Transactions (10) Monologues (120) Unscripted (70) Commentaries (20) Unscripted Speeches (30) Demonstrations (10) Legal Presentations (10)
CREA - ESCRITO El Corpus de referencia del espaol actual (CREA) es un banco de datos del espaol contemporneo, es decir, un conjunto de textos de diversa procedencia, almacenados en soporte informtico, del que es posible extraer informacin para estudiar las palabras, sus significados y contextos. Un corpus de referencia es aquel que est diseado para proporcionar informacin exhaustiva acerca de una lengua en un momento determinado de su historia y, por tanto, ha de ser lo suficientemente extenso para representar todas las variedades relevantes de la lengua en cuestin. Atendiendo a este criterio, el CREA cuenta hasta ahora (octubre de 2001) con 130 millones de registros, que est previsto vayan aumentando hasta conseguir al menos 160 millones, a finales de 2004. Se compone de una amplia variedad de textos escritos y orales, producidos en todos los pases de habla hispana desde 1975 hasta la actualidad. Los textos escritos, procedentes tanto de libros como de peridicos y revistas, abarcan ms de cien materias distintas. La lengua hablada est representada por transcripciones de documentos sonoros, procedentes, en su mayor parte, de la radio y la televisin. En la actualidad (octubre de 2001), la parte escrita del CREA cuenta con cerca de 4.000 obras y ms de 122 millones de registros, que irn aumentando hasta conseguir al menos 150 millones, a finales de 2004. Los textos han sido selecionados de acuerdo con cuatro grandes criterios de clasificacin, independientes entre s: medio, origen, fecha e hipercampo.
MEDIO: * Prensa: 49 % * Libros: 49 % * Efmeros (material no publicado): 2% ORIGEN: * Espaa: 50 % * Hispanoamrica: 50% A su vez, el continente americano, se divide en diferentes zonas lingsticas: Andina: Venezuela, Colombia, Ecuador, Per y Bolivia. Caribea: Cuba, Pnama, Puerto Rico, Repblica Dominicana, costas de Venezuela y Colombia y sudeste de Estados Unidos. Central: Costa Rica y Nicaragua. Chilena: Chile. Mexicana: Guatemala, Honduras, El Salvador, Mxico y sudoeste de Estados Unidos Rioplatense: Argentina, Paraguay y Uruguay. POCA: El perodo 1975-1999 ya se ha completado con la siguiente distribucin por lustros: * 1975-1979 * 1980-1984 * 1985-1989 * 1990-1994 * 1995-1999 Se otorga una mayor representatividad al material ms moderno. Actualmente, se estn procesando textos pertenecientes al perodo 2000-2004.
HIPERCAMPOS: Hemos establecido seis hipercampos o reas generales del saber a los que deben asignarse cada uno de los textos "informativos" del corpus. Cada uno de estos hipercampos se ha estructurado en reas temticas ms
-4- concretas. La parte de ficcin -textos "imaginativos"- se ha considerado, por razones de orden y clasificacin, como el hipercampo 7. * Hipercampo 1. Ciencias y tecnologa Biologa Veterinaria Ecologa Tecnologa Fsica Industrias diversas Meteorologa Matemticas Geologa Qumica Informtica Astronoma Energa Electrnica Ciencias y tecnologa Zoologa y paleontologa Estadsticas Ingenieras Bioqumica Botnica * Hipercampo 2. Ciencias sociales, creencias y pensamiento. Religin Lingstica y lenguaje Historia Sociologa Literatura Astrologa y ciencias ocultas Erotismo, sexologa Psicologa tica Geografa Filosofa Civilizacin, etnologa Antropologa Mitologa Folclore Educacin Mujer Arqueologa Urbanismo Testimonios varios * Hipercampo 3. Poltica, economa, comercio y finanzas. Poltica Desarrollo Empleo, trabajo Industria Economa y hacienda Gobierno Seguridad social Iglesia Negocios Ejrcito, ciencia militar Justicia, legislacin Proteccin civil
-5- Trfico Empresa Comercio Unin europea Derecho Marketing * Hipercampo 4. Artes. Medios de comunicacin Msica Arquitectura Pintura Teatro Cine y Vdeo Escultura Artesana Danza Fotografa Antigedades Publicidad Diseo Arte y cultura en general Espectculos diversos * Hipercampo 5. Ocio y vida cotidiana. Gastronoma, cocina Aficiones Tauromaquia Turismo Deportes Vivienda Asuntos Domsticos Actualidad Juegos Moda Costumbres Jardinera * Hipercampo 6. Salud. Medicina Sanidad pblica Salud Farmacologa Nutricin Medicinas alternativas Biomedicina Psiquiatra * Hipercampo 7. Ficcin. Novela Relatos Teatro
Codificacin: A todos los materiales procesados tanto en el CREA como en el CORDE se les ha aadido una serie de marcas textuales, establecidas segn el estndar internacional SGML (Standard General Markup Language), de acuerdo con las recomendaciones de la TEI (Text Encoding Initiative), que facilitan la recuperacin de la informacin y el intercambio de textos con otros corpus, y garantizan la independencia de sistemas operativos y programas.
-6- Corpus CREA ORAL: El CREA oral est integrado por transcripciones de la lengua hablada; los documentos sonoros, que se obtienen a travs de convenios con distintas instituciones y tambin mediante la grabacin directa de Internet, se someten a un laborioso proceso de transcripcin ortogrfica y codificacin. Actualmente, la parte oral disponible en el CREA est formada por dos grandes grupos de textos: Textos procedentes de grabaciones de radio o de televisin que han sido transcritos y codificados siguiendo las pautas definidas en el documento Transcripcin y codificacin de textos orales. Textos ya transcritos procedentes de otros corpus orales que, tras la revisin del texto y/o del audio, se han convertido al sistema de transcripcin y codificacin del CREA oral. Hasta ahora se han incorporado los siguientes corpus: o ACUAH: Anlisis de la Conversacin de la Universidad de Alcal de Henares. o ALFAL: Macrocorpus de la norma lingstica culta de las principales ciudades del mundo hispnico, de la Asociacin de Lingstica y Filologa de Amrica Latina. o Caracas-77: Estudio sociolingstico de Caracas, 1977. o Caracas-87: Estudio sociolingstico de Caracas, 1987. o CEAP: Corpus de Encuestas en Asuncin de Paraguay. o COVJA: Corpus oral de la variedad juvenil universitaria del espaol hablado en Alicante. o CSC: Corpus para el estudio del espaol hablado en Santiago de Compostela. o CSMV: Corpus Sociolingstico de Mrida-Venezuela. o UAM: Corpus Oral de Referencia del Espaol Contemporneo. o Material pblico procedente de Internet.
El corpus oral constituye aproximadamente un 10 % del total del CREA. En la actualidad (octubre de 2001), es posible acceder a casi 9 millones de registros procedentes de transcripciones de la lengua hablada, con ms de 1.600 documentos. Los materiales se clasifican de acuerdo con los siguientes criterios: MEDIO: El medio de los textos orales del corpus se determina a partir de la combinacin de valores de dos tipos: Valores de canal comunicativo: Radio, televisin, grabacin directa, telfono, otros. Valores de procedencia: Grabacin, texto previamente transcrito, texto previamente transcrito y codificado. ORIGEN: Espaa: 50% Hispanoamrica: 50% A su vez, el continente americano, se divide en diferentes zonas lingsticas: Andina: Venezuela, Colombia, Ecuador, Per y Bolivia. Caribea: Cuba, Pnama, Puerto Rico, Repblica Dominicana, costas de Venezuela y Colombia y sudeste de Estados Unidos. Central: Costa Rica y Nicaragua. Chilena: Chile. Mexicana: Guatemala, Honduras, El Salvador, Mxico y Sudoeste de Estados Unidos. Rioplatense: Argentina, Paraguay y Uruguay.
-7- POCA: 1975-1979 1980-1984 1985-1989 1990-1994 1995-1999 2000-2004, fase actual GNERO: La tipologa de textos orales del CREA establece dos gneros con sus correspondientes subgneros: en primer lugar, textos procedentes de grabaciones de radio y de televisin, que constituyen el ncleo del Corpus oral; un segundo gnero permite clasificar otro tipo de transcripciones: discursos polticos, conversaciones telefnicas, mensajes en contestadores, dilogos informales, etc. La siguiente tabla da cuenta de ello: 1.- Radiofnico o televisivo Noticias Reportajes Entrevistas Debates Tertulias Documentales Retransmisiones deportivas Magacines Revistas deportivas Variedades Sorteos y concursos 2.- Otras grabaciones Formalidad = alta, Audiencia = interlocutor, Canal = cara a cara Formalidad = alta, Audiencia = interlocutor, Canal = otro Formalidad = alta, Audiencia = oyente pasivo, Canal = cara a cara Formalidad = alta, Audiencia = oyente pasivo, Canal = otro Formalidad = baja, Audiencia = interlocutor, Canal = cara a cara Formalidad = baja, Audiencia = interlocutor, Canal = otro Formalidad = baja, Audiencia = oyente pasivo, Canal = cara a cara Formalidad = baja, Audiencia = oyente pasivo, Canal = otro Otros rasgos En la cabecera pueden aadirse otros rasgos de clasificacin de los textos, como el grado de formalidad, el carcter libre o dirigido de la grabacin o la posible existencia de otros medios distintos del principal. Frente a los rasgos presentados en los dos apartados anteriores, los descritos aqu son optativos.
La transcripcin de los documentos sonoros es de nivel II, de acuerdo con la convencin desarrollada por French (1992) y adoptada por el consorcio NERC (Network of European Reference Corpora), y de nivel S1 (ortographic or transliteration level), en la escala definida por EAGLES (Expert Advisory Group on Language Engineering Standars: EAGLES Spoken Language Working Group 1995). La transcripcin se enriquece con una serie de informaciones bsicas acerca de los hablantes, los cambios de turno y los elementos no verbales, codificadas en lenguaje SGML, de acuerdo con las recomendaciones de la TEI (Text Encoding Initiative) y de EAGLES. Los criterios de transcripcin y codificacin estn detalladamente descritos en el documento Transcripcin y codificacin de textos orales, versin 4.1 (17 de febrero de 1999). Los textos que actualmente integran la parte oral del CREA y que ya estn disponibles se revisan peridicamente. En la fase 2000-2004, se trabaja simultneamente en la transcripcin ortogrfica de los documentos sonoros y en el alineamiento con la seal sonora digitalizada. Actualmente (octubre de 2001) se han alineado un total de 100.000 registros de Espaa y Amrica. En este nuevo proceso, la codificacin se realiza en XML (Extensive Markup Language) y los archivos textuales se asocian con su correlato sonoro. Los textos que actualmente se incorporan a la parte oral del CREA poseen marcas de sincronizacin con el segmento del archivo sonoro al que pertenece la transcripcin, lo cual facilitar, en posteriores aplicaciones, el acceso al audio
-8- 3) Consulta en la red la compilacin de este corpus, de 100 millones de palabras:
Corpus del espaol (Mark Davies): http://www.corpusdelespanol.org