Ing Linguis

La constitución del Corpus
Lingüístico en Ingeniería
Dr. Alfonso Medina Urrea
IINGEN-UNAM
Curso de Lingüística de Corpus
Corpus lingüísticos
• Más que simples colecciones de textos
• Necesidad de representatividad
– Cualitativa
– Cuantitativa
• Un corpus cerrado se planea y luego se
construye
• Uno abierto requiere planeación
basándose en lo constituido
Corpus Lingüístico en Ingeniería
• Proyecto CONACyT
• El primero en ingeniería
• Colección abierta de textos
• Todas las áreas de la ingeniería
– civil, mecánica, eléctrica, computación, etc.
• Variedad de tipos textuales
– informes, libros, artículos, tesis, ponencias,
etc.
• Estará disponible en Internet
Equipo de trabajo
• PC Windows, software para reconocer
caracteres (OMNIPAGE) y escáner para
digitalizar
– Cuenta única en trámite para tener un solo
entrenamiento del reconocedor
• Servidor UNIX AYAX para almacenar respaldos
y el Corpus mismo
• PC para desarrollar herramientas de búsquedas
(Python para las entrañas y Java para la
interfaz WEB)
Obtención de textos
• En papel y electrónicos
• Diseño de petición formal (tríptico, formulario,
carta de autorización, etc.)
• Diversificación de fuentes
– Programas de instituciones educativas y de
investigación (FI, IPN, UVM, etc.)
– Bibliotecas (USI, etc.)
– Obras de investigadores y publicaciones de
instituciones de investigación (IINGEN, IPN, etc.)
– Publicaciones periódicas (revistas)
Participantes
• Administradores
– Obtienen y asignan documentos
– Dan de alta digitalizadores
– Supervisan participantes –digitalizadores
(becarios, SS), archivadores
– Coordina redacción de documentación y
manuales
– Resuelve incertidumbres
Participantes
• Digitalizadores
– Trabaja en PC Windows
– Alimenta base bibliográfica
– Escanea documentos
– Activa reconocedor óptico de caracteres
– Revisa y corrige textos
– Respalda OCD (en AYAX)
– Los guarda en almacén (RTF)
Participantes
• Archivadores
– Accesan cuenta en AYAX para procesar
siguientes etapas
– Toman archivos del almacén (RTF)
– Los convierten a HTML (TXT) con FrontPage
– Aplican desetiquetador (TXT)
– Corrigen etiquetado con macros (TXT)
– Estarán encargados de etapas todavía no
operativas
Problemas
• Los formatos no se guardan como se
espera
• Administración de fuentes
• Derechos de autor
– Porción del corpus con autorización
– Porción sin autorización para conteos
estadísticos y extracción terminográfica pero
no para concordancias o búsquedas
de PDF a RTF
Carta de autorización
Base Bibliográfica del Corpus
• Control de documentos del Corpus
• Genera identificador único lixxxx, inxxxx, etc.
• Consigna información
– Bibliográfica
– Quienes son los responsables
– Estado en cadena de procesamiento
– Estadísticas mínimas (tamaño, avance, etc.)
• Actualiza información producida por otros
programas (el desetiquetador)
• Reporta representatividad según áreas y tipos
Ficha bibliográfica
Avance de digitalización
Avance de digitalización
tipos textuales
• Tipología
– Artículos
– Ponencias
– Libros
– Informes
– Tesis
– Diccionarios
• Reporte en número de
textos/palabras
generado por BB
áreas y sub-áreas temáticas
• Guía visual para Ingeniería eléctrica
orientación de áreas
menos abarcadas computación
• Reporte por número

de palabras/textos
por áreas temáticas
del corpus
• Reporte similar por
cada subárea
áreas y sub-áreas temáticas
Problemas
• ¿Qué tan finas deben ser las variables?
– Género, institución, etc.
– Difusión vs investigación
– Derecho, leyes, reglamentos, códigos
• Balance y representatividad de sistemas
dialectales del español (peninsular,
argentino, etc.)
• Traducciones
Etiquetado
• Documentos XML
• Aplicación lo más automatizada posible
(minimización de intervención humana)
– Documento RTF
– TXT con etiquetas HTML (FrontPage)
• Minimiza número de etiquetas
• Antietiquetado
– elimina y convierte etiquetas
– Procesa estadísticas que se actualizan en BB
• Macros (sólo para corrección manual)
Etiquetado
• 1er problema (forma textual)
– Conservar rasgos tipográficos
– Datos del texto (estadísticas)
• 2do problema (información lingüística)
(pendiente)
– Datos mínimos (fechas, siglas,
abreviaturas...)
– Marcar partes de la oración (EAGLES)
– Marcaje morfosintáctico, semántico
Herramientas
• Internet
• Generador de concordancias
• Reportes estadísticos
• Búsquedas inteligentes
– Rasgos tipográficos
– Expresiones regulares
– Estructuras lingüísticas (pendiente)
• Desarrollo en plataforma UNIX
Etiquetado
Desetiquetador
• Transforma etiquetas que marcan
fenómenos tipográficos que nos interesan
a las etiquetas que hemos diseñado
• Elimina las que no se necesitan
• Crea archivo con información para la BB
(número de palabras en el documento
procesado)
Problemas
• Cambio de las etiquetas (para simplificar
procedimiento)
<hi rendN=“bo”>caso</hi> en lugar de <b>caso</b>
• Orden de pasos para maximizar automatización
– Cuándo se aplican etiquetas
• Digitalizador detecta error ortográfico del original
¿cómo comunicar automáticamente a etapas posteriores?
****contsrucción**** se convierte en
<sic corr=construcción>contsrucción</sic>
– Macros
• Cuándo aplicar, ¿en OPD, RTF, DOC o TXT?
Documentación
• Descripciones de procedimientos
(obtención de textos, base bibliográfica
cadena de procesamiento, etc.)
• Perfiles y actividades específicas de
participantes (administrador, digitalizador,
archivador)
• Textos de inducción a las actividades
• Instalación y settings de programas
requeridos
Conclusiones
• Inevitabilidad de errores de todos tipos
• Con esto en mente, ha sido posible
automatizar la cadena de procesamiento
más que Barcelona
• Pero revisión ocular y aplicación manual
de macros sigue siendo una etapa
• Digitalizar sin tener la cadena resuelta
causa problemas y rezagos innecesarios
BB
desetiquetador
TXT
RTF
UNIX
WINDOWS
FIN
La constitución del Corpus

Lingüístico en Ingeniería
29 marzo 2004

Ing Linguis

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ing Linguis

Cargado por

Copyright:

Formatos disponibles

La constitución del Corpus

• Reporte por número

La constitución del Corpus

También podría gustarte