Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 Descripción
1.1 Brown
Brown (Brown University Standard Corpus of Present-Day American En-
glish) es un corpus monolingue anotado con categorı́as léxicas (POS tag-
ging), compilado por W. Nelson Francis y Henry Kucera en la Universidad
de Brown entre 1963 y 1964 a partir de diversos textos publicados en EEUU
a lo largo del año 1961 [1]. Contiene algo más de un millón de palabras, 500
muestras de aproximadamente 2000 palabras cada una, divididas en quince
categorı́as:
• Religión
• Hobbies
• Conocimiento popular
• Literatura
• Humor
• Textos académicos
• Miscelánea
1
1.2 Susanne
Susanne (Surface and Underlying Structural Analyses of Naturalistic English)
es un corpus monolingue anotado con categorı́as léxicas creado en Reino Uni-
do en 1992 a partir de un subconjunto del corpus de Brown. El objetivo
original del proyecto era proporcionar datos estadı́sticos para parsear tex-
tos automáticamente. Contiene alrededor de 130000 palabras (64 muestras
de aproximadamente 2000 elementos cada una) tomadas de las siguientes
categorı́as del corpus de Brown:
• Prensa (reportajes)
• Literatura
• Ficción (aventuras)
• Textos académicos
2
2 Comparativa
Brown Susanne Penn Treebank
Antigüedad 1963-64 1992 1989-92
Monolingue Sı́ Sı́ Sı́
Anotado Sı́1 Sı́ Sı́
Etiquetado Léxico Léxico Léxico y sintácti-
co
Tamaño Más de 1.000.000 Sobre 130.000 Más de 4.500.000
de palabras palabras de palabras
Num. etiquetas 87 léxicas2 353 léxicas3 36 + 12 léxicas;
14 + 4 sintácti-
cas
Temáticas 15 categorı́as 4 categorı́as (ver N/A
(ver sección 1.1) sección 1.2)
Procedencia Textos publica- Textos publica- Textos publica-
dos dos dos y conversa-
ciones transcritas
3 Análisis
¿Cuál es el corpus más apropiado para extraer información estadı́stica signi-
ficativa referente a cuales son las etiquetas léxicas y las parejas de etiquetas
léxicas consecutivas que aparecen más frecuentemente en los textos?
1
La versión C del corpus de Brown está anotada; otras no lo están.
2
Contando simples y compuestas, el corpus de Brown posee 187 etiquetas.
3
Sin incluir las usadas para “grammatical idioms”
3
Referencias
[1] W. Nelson Francis and Henry Kucera. Manual of information to ac-
company A Standard Corpus of Present-Day Edited American English,
for use with Digital Computers. http://clu.uni.no/icame/manuals/
BROWN/INDEX.HTM, 1979. [Online; consultado el 05 de noviembre de 2018].