DIT UNED MSC Advanced AI - Assignment 2

Tarea 2: Comparación de corpus
Rubén Romero Garcı́a
1 Descripción
1.1 Brown
Brown (Brown University Standard Corpus of Present-Day American En-
glish) es un corpus monolingue anotado con categorı́as léxicas (POS tag-
ging), compilado por W. Nelson Francis y Henry Kucera en la Universidad
de Brown entre 1963 y 1964 a partir de diversos textos publicados en EEUU
a lo largo del año 1961 [1]. Contiene algo más de un millón de palabras, 500
muestras de aproximadamente 2000 palabras cada una, divididas en quince
categorı́as:
• Prensa (reportajes, editoriales y crı́ticas)
• Religión
• Hobbies
• Conocimiento popular
• Literatura
• Ficción (general, misterio, ciencia-ficción, aventuras y romántica)
• Humor
• Textos académicos
• Miscelánea
Existen seis versiones de este corpus: A, B, C, Bergen I y II y la Brown

MARC Form.
1
1.2 Susanne
Susanne (Surface and Underlying Structural Analyses of Naturalistic English)
es un corpus monolingue anotado con categorı́as léxicas creado en Reino Uni-
do en 1992 a partir de un subconjunto del corpus de Brown. El objetivo
original del proyecto era proporcionar datos estadı́sticos para parsear tex-
tos automáticamente. Contiene alrededor de 130000 palabras (64 muestras
de aproximadamente 2000 elementos cada una) tomadas de las siguientes
categorı́as del corpus de Brown:
• Prensa (reportajes)
• Literatura
• Ficción (aventuras)
• Textos académicos
El esquema de este corpus “intenta representar todos aquellos aspectos de

la gramática inglesa suficientemente definidos como para ser anotados for-
malmente, con las categorı́as y las fronteras entre ellas especificadas de tal
manera que, idealmente, dos analistas trabajando independientemente sobre
el mismo texto bajo el mismo esquema deben producir el mismo análisis es-
tructural” [2].
1.3 Penn Treebank

Penn Treebank es un corpus compilado originalmente durante los años 1989
y 1992 y consistente en más de 4.5 millones de palabras en inglés estadouni-
dense. Está anotado con categorı́as léxicas y análisis sintáctico, y posee por
tanto dos conjuntos de etiquetas: uno léxico, de 36 etiquetas (más otras 12
para signos de puntuación y simbolos de divisa) y uno sintáctico, de 14 eti-
quetas (más 4 para otros elementos) [3]. Las fuentes originales de este corpus
son principalmente el Dow Jones News Service y el corpus de Brown, aunque
versiones posteriores incluyen también palabras del corpus Switchboard de
conversaciones telefónicas transcritas y del Wall Street Journal.
2
2 Comparativa
Brown Susanne Penn Treebank
Antigüedad 1963-64 1992 1989-92
Monolingue Sı́ Sı́ Sı́
Anotado Sı́1 Sı́ Sı́
Etiquetado Léxico Léxico Léxico y sintácti-
co
Tamaño Más de 1.000.000 Sobre 130.000 Más de 4.500.000
de palabras palabras de palabras
Num. etiquetas 87 léxicas2 353 léxicas3 36 + 12 léxicas;
14 + 4 sintácti-
cas
Temáticas 15 categorı́as 4 categorı́as (ver N/A
(ver sección 1.1) sección 1.2)
Procedencia Textos publica- Textos publica- Textos publica-
dos dos dos y conversa-
ciones transcritas
Tabla 1: Comparación de corpus
3 Análisis
¿Cuál es el corpus más apropiado para extraer información estadı́stica signi-
ficativa referente a cuales son las etiquetas léxicas y las parejas de etiquetas
léxicas consecutivas que aparecen más frecuentemente en los textos?
Para este objetivo, el corpus de Brown es preferible al de Susanne. El mayor

tamaño de Brown, unido a su menor número de etiquetas, hace que los datos
estadı́sticos sean más significativos que con Susanne, en el que, por ejemplo,
algunas etiquetas aparecen una única vez.
1
La versión C del corpus de Brown está anotada; otras no lo están.
2
Contando simples y compuestas, el corpus de Brown posee 187 etiquetas.
3
Sin incluir las usadas para “grammatical idioms”
3
Referencias
[1] W. Nelson Francis and Henry Kucera. Manual of information to ac-
company A Standard Corpus of Present-Day Edited American English,
for use with Digital Computers. http://clu.uni.no/icame/manuals/
BROWN/INDEX.HTM, 1979. [Online; consultado el 05 de noviembre de 2018].
[2] Geoffrey Sampson. The SUSANNE Corpus: Documentation, Release 5.

https://www.grsampson.net/SueDoc.html, 2000. [Online; consultado
el 05 de noviembre de 2018].
[3] Mitchell P Marcus, Mary Ann Marcinkiewicz, and Beatrice Santorini.

Building a large annotated corpus of english: The penn treebank. Compu-
tational linguistics, 19(2):313–330, 1993.

DIT UNED MSC Advanced AI - Assignment 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

DIT UNED MSC Advanced AI - Assignment 2

Cargado por

Copyright:

Formatos disponibles

Tarea 2: Comparación de corpus

Rubén Romero Garcı́a

• Prensa (reportajes, editoriales y crı́ticas)

• Ficción (general, misterio, ciencia-ficción, aventuras y romántica)

Existen seis versiones de este corpus: A, B, C, Bergen I y II y la Brown

El esquema de este corpus “intenta representar todos aquellos aspectos de

1.3 Penn Treebank

Tabla 1: Comparación de corpus

Para este objetivo, el corpus de Brown es preferible al de Susanne. El mayor

[2] Geoffrey Sampson. The SUSANNE Corpus: Documentation, Release 5.

[3] Mitchell P Marcus, Mary Ann Marcinkiewicz, and Beatrice Santorini.

También podría gustarte