Está en la página 1de 9

CORPES XXI

(CORPUS DEL ESPAÑOL DEL SIGLO XXI)


¿Qué es un corpus?
• Definimos corpus como un conjunto formado por miles de textos
(novelas, obras de teatro, guiones de cine, noticias de prensa,
ensayos, transcripciones de noticiarios radiofónicos o televisivos,
transcripciones de conversaciones, discursos, etc.) y cientos de
millones de formas. Son empleados habitualmente para conocer el
significado y características de palabras, expresiones y
construcciones a partir de los usos reales registrados.
CORPES XXI
• Es un corpus general o de referencia.
• Formado por textos escritos y orales procedentes de España (30%),
América (70%), Filipinas y Guinea Ecuatorial con una distribución de 25
millones de formas por cada uno de los años comprendidos entre 2001
y 2012.
• Los textos que lo integran siguen una serie de parámetros y son tratados
con un sistema de codificación.
• Se concibe como un corpus semiabierto, puesto que seguirá
incrementándose en los próximos años.
Parámetros de selección de textos
• Medio: 90% lengua escrita/ 10% lengua oral.
• Geográfico: 70% textos americanos (zonas lingüísticas habituales)/ 30% textos
españoles  Novedad de textos de Filipinas y Guinea Ecuatorial.
• Temático: Ficción y no ficción, distribuidos en diferentes áreas temáticas : ciencias y
tecnología, ciencias sociales, etc.
• Tipología: No solo se clasifican por su temática o soporte sino también por género
textual: novela, cuento, teatro y guiones para los textos de ficción; noticias y
reportajes, opinión para periódicos y revistas; prosa académica y no académica;
entrevistas, conversaciones, etc. para orales; texto escrito para ser leído (noticias de
radio o televisión), etc.
Codificación

• La codificación de los textos, diseñada en función de los parámetros


utilizados en su construcción, permite la selección del subconjunto con que
se quiere trabajar en cada momento: solo textos procedentes de un país, de
un cierto período o tipo, etc.; y, por supuesto, todas sus combinaciones:
documentación de una determinada forma o grupo de formas en noticias
periodísticas referentes a economía y finanzas publicadas en la prensa
mexicana entre 2008 y 2011 es una consulta posible en el CORPES.
¿Como se usa el CORPES XXI?

También podría gustarte