Está en la página 1de 29

La constitución del Corpus

Lingüístico en Ingeniería
Dr. Alfonso Medina Urrea
IINGEN-UNAM
Curso de Lingüística de Corpus
Corpus lingüísticos
• Más que simples colecciones de textos
• Necesidad de representatividad
– Cualitativa
– Cuantitativa
• Un corpus cerrado se planea y luego se
construye
• Uno abierto requiere planeación
basándose en lo constituido
Corpus Lingüístico en Ingeniería
• Proyecto CONACyT
• El primero en ingeniería
• Colección abierta de textos
• Todas las áreas de la ingeniería
– civil, mecánica, eléctrica, computación, etc.
• Variedad de tipos textuales
– informes, libros, artículos, tesis, ponencias,
etc.
• Estará disponible en Internet
Equipo de trabajo
• PC Windows, software para reconocer
caracteres (OMNIPAGE) y escáner para
digitalizar
– Cuenta única en trámite para tener un solo
entrenamiento del reconocedor
• Servidor UNIX AYAX para almacenar respaldos
y el Corpus mismo
• PC para desarrollar herramientas de búsquedas
(Python para las entrañas y Java para la
interfaz WEB)
Obtención de textos
• En papel y electrónicos
• Diseño de petición formal (tríptico, formulario,
carta de autorización, etc.)
• Diversificación de fuentes
– Programas de instituciones educativas y de
investigación (FI, IPN, UVM, etc.)
– Bibliotecas (USI, etc.)
– Obras de investigadores y publicaciones de
instituciones de investigación (IINGEN, IPN, etc.)
– Publicaciones periódicas (revistas)
Participantes
• Administradores
– Obtienen y asignan documentos
– Dan de alta digitalizadores
– Supervisan participantes –digitalizadores
(becarios, SS), archivadores
– Coordina redacción de documentación y
manuales
– Resuelve incertidumbres
Participantes
• Digitalizadores
– Trabaja en PC Windows
– Alimenta base bibliográfica
– Escanea documentos
– Activa reconocedor óptico de caracteres
– Revisa y corrige textos
– Respalda OCD (en AYAX)
– Los guarda en almacén (RTF)
Participantes
• Archivadores
– Accesan cuenta en AYAX para procesar
siguientes etapas
– Toman archivos del almacén (RTF)
– Los convierten a HTML (TXT) con FrontPage
– Aplican desetiquetador (TXT)
– Corrigen etiquetado con macros (TXT)
– Estarán encargados de etapas todavía no
operativas
Problemas
• Los formatos no se guardan como se
espera
• Administración de fuentes
• Derechos de autor
– Porción del corpus con autorización
– Porción sin autorización para conteos
estadísticos y extracción terminográfica pero
no para concordancias o búsquedas
de PDF a RTF
Carta de autorización
Base Bibliográfica del Corpus
• Control de documentos del Corpus
• Genera identificador único lixxxx, inxxxx, etc.
• Consigna información
– Bibliográfica
– Quienes son los responsables
– Estado en cadena de procesamiento
– Estadísticas mínimas (tamaño, avance, etc.)
• Actualiza información producida por otros
programas (el desetiquetador)
• Reporta representatividad según áreas y tipos
Ficha bibliográfica
Avance de digitalización
Avance de digitalización
tipos textuales
• Tipología
– Artículos
– Ponencias
– Libros
– Informes
– Tesis
– Diccionarios
• Reporte en número de
textos/palabras
generado por BB
áreas y sub-áreas temáticas
• Guía visual para Ingeniería eléctrica
orientación de áreas
menos abarcadas computación

• Reporte por número


de palabras/textos
por áreas temáticas
del corpus
• Reporte similar por
cada subárea
áreas y sub-áreas temáticas
Problemas
• ¿Qué tan finas deben ser las variables?
– Género, institución, etc.
– Difusión vs investigación
– Derecho, leyes, reglamentos, códigos
• Balance y representatividad de sistemas
dialectales del español (peninsular,
argentino, etc.)
• Traducciones
Etiquetado
• Documentos XML
• Aplicación lo más automatizada posible
(minimización de intervención humana)
– Documento RTF
– TXT con etiquetas HTML (FrontPage)
• Minimiza número de etiquetas
• Antietiquetado
– elimina y convierte etiquetas
– Procesa estadísticas que se actualizan en BB
• Macros (sólo para corrección manual)
Etiquetado
• 1er problema (forma textual)
– Conservar rasgos tipográficos
– Datos del texto (estadísticas)
• 2do problema (información lingüística)
(pendiente)
– Datos mínimos (fechas, siglas,
abreviaturas...)
– Marcar partes de la oración (EAGLES)
– Marcaje morfosintáctico, semántico
Herramientas
• Internet
• Generador de concordancias
• Reportes estadísticos
• Búsquedas inteligentes
– Rasgos tipográficos
– Expresiones regulares
– Estructuras lingüísticas (pendiente)
• Desarrollo en plataforma UNIX
Etiquetado
Desetiquetador
• Transforma etiquetas que marcan
fenómenos tipográficos que nos interesan
a las etiquetas que hemos diseñado
• Elimina las que no se necesitan
• Crea archivo con información para la BB
(número de palabras en el documento
procesado)
Problemas
• Cambio de las etiquetas (para simplificar
procedimiento)
<hi rendN=“bo”>caso</hi> en lugar de <b>caso</b>
• Orden de pasos para maximizar automatización
– Cuándo se aplican etiquetas
• Digitalizador detecta error ortográfico del original
¿cómo comunicar automáticamente a etapas posteriores?
****contsrucción**** se convierte en
<sic corr=construcción>contsrucción</sic>
– Macros
• Cuándo aplicar, ¿en OPD, RTF, DOC o TXT?
Documentación
• Descripciones de procedimientos
(obtención de textos, base bibliográfica
cadena de procesamiento, etc.)
• Perfiles y actividades específicas de
participantes (administrador, digitalizador,
archivador)
• Textos de inducción a las actividades
• Instalación y settings de programas
requeridos
Conclusiones
• Inevitabilidad de errores de todos tipos
• Con esto en mente, ha sido posible
automatizar la cadena de procesamiento
más que Barcelona
• Pero revisión ocular y aplicación manual
de macros sigue siendo una etapa
• Digitalizar sin tener la cadena resuelta
causa problemas y rezagos innecesarios
BB
desetiquetador

TXT
RTF

UNIX
WINDOWS
FIN

La constitución del Corpus


Lingüístico en Ingeniería
29 marzo 2004

También podría gustarte