Está en la página 1de 4

Tarea 2: Comparación de corpus

Rubén Romero Garcı́a

1 Descripción
1.1 Brown
Brown (Brown University Standard Corpus of Present-Day American En-
glish) es un corpus monolingue anotado con categorı́as léxicas (POS tag-
ging), compilado por W. Nelson Francis y Henry Kucera en la Universidad
de Brown entre 1963 y 1964 a partir de diversos textos publicados en EEUU
a lo largo del año 1961 [1]. Contiene algo más de un millón de palabras, 500
muestras de aproximadamente 2000 palabras cada una, divididas en quince
categorı́as:

• Prensa (reportajes, editoriales y crı́ticas)

• Religión

• Hobbies

• Conocimiento popular

• Literatura

• Ficción (general, misterio, ciencia-ficción, aventuras y romántica)

• Humor

• Textos académicos

• Miscelánea

Existen seis versiones de este corpus: A, B, C, Bergen I y II y la Brown


MARC Form.

1
1.2 Susanne
Susanne (Surface and Underlying Structural Analyses of Naturalistic English)
es un corpus monolingue anotado con categorı́as léxicas creado en Reino Uni-
do en 1992 a partir de un subconjunto del corpus de Brown. El objetivo
original del proyecto era proporcionar datos estadı́sticos para parsear tex-
tos automáticamente. Contiene alrededor de 130000 palabras (64 muestras
de aproximadamente 2000 elementos cada una) tomadas de las siguientes
categorı́as del corpus de Brown:

• Prensa (reportajes)

• Literatura

• Ficción (aventuras)

• Textos académicos

El esquema de este corpus “intenta representar todos aquellos aspectos de


la gramática inglesa suficientemente definidos como para ser anotados for-
malmente, con las categorı́as y las fronteras entre ellas especificadas de tal
manera que, idealmente, dos analistas trabajando independientemente sobre
el mismo texto bajo el mismo esquema deben producir el mismo análisis es-
tructural” [2].

1.3 Penn Treebank


Penn Treebank es un corpus compilado originalmente durante los años 1989
y 1992 y consistente en más de 4.5 millones de palabras en inglés estadouni-
dense. Está anotado con categorı́as léxicas y análisis sintáctico, y posee por
tanto dos conjuntos de etiquetas: uno léxico, de 36 etiquetas (más otras 12
para signos de puntuación y simbolos de divisa) y uno sintáctico, de 14 eti-
quetas (más 4 para otros elementos) [3]. Las fuentes originales de este corpus
son principalmente el Dow Jones News Service y el corpus de Brown, aunque
versiones posteriores incluyen también palabras del corpus Switchboard de
conversaciones telefónicas transcritas y del Wall Street Journal.

2
2 Comparativa
Brown Susanne Penn Treebank
Antigüedad 1963-64 1992 1989-92
Monolingue Sı́ Sı́ Sı́
Anotado Sı́1 Sı́ Sı́
Etiquetado Léxico Léxico Léxico y sintácti-
co
Tamaño Más de 1.000.000 Sobre 130.000 Más de 4.500.000
de palabras palabras de palabras
Num. etiquetas 87 léxicas2 353 léxicas3 36 + 12 léxicas;
14 + 4 sintácti-
cas
Temáticas 15 categorı́as 4 categorı́as (ver N/A
(ver sección 1.1) sección 1.2)
Procedencia Textos publica- Textos publica- Textos publica-
dos dos dos y conversa-
ciones transcritas

Tabla 1: Comparación de corpus

3 Análisis
¿Cuál es el corpus más apropiado para extraer información estadı́stica signi-
ficativa referente a cuales son las etiquetas léxicas y las parejas de etiquetas
léxicas consecutivas que aparecen más frecuentemente en los textos?

Para este objetivo, el corpus de Brown es preferible al de Susanne. El mayor


tamaño de Brown, unido a su menor número de etiquetas, hace que los datos
estadı́sticos sean más significativos que con Susanne, en el que, por ejemplo,
algunas etiquetas aparecen una única vez.

1
La versión C del corpus de Brown está anotada; otras no lo están.
2
Contando simples y compuestas, el corpus de Brown posee 187 etiquetas.
3
Sin incluir las usadas para “grammatical idioms”

3
Referencias
[1] W. Nelson Francis and Henry Kucera. Manual of information to ac-
company A Standard Corpus of Present-Day Edited American English,
for use with Digital Computers. http://clu.uni.no/icame/manuals/
BROWN/INDEX.HTM, 1979. [Online; consultado el 05 de noviembre de 2018].

[2] Geoffrey Sampson. The SUSANNE Corpus: Documentation, Release 5.


https://www.grsampson.net/SueDoc.html, 2000. [Online; consultado
el 05 de noviembre de 2018].

[3] Mitchell P Marcus, Mary Ann Marcinkiewicz, and Beatrice Santorini.


Building a large annotated corpus of english: The penn treebank. Compu-
tational linguistics, 19(2):313–330, 1993.