Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lingüístico en Ingeniería
Dr. Alfonso Medina Urrea
IINGEN-UNAM
Curso de Lingüística de Corpus
Corpus lingüísticos
• Más que simples colecciones de textos
• Necesidad de representatividad
– Cualitativa
– Cuantitativa
• Un corpus cerrado se planea y luego se
construye
• Uno abierto requiere planeación
basándose en lo constituido
Corpus Lingüístico en Ingeniería
• Proyecto CONACyT
• El primero en ingeniería
• Colección abierta de textos
• Todas las áreas de la ingeniería
– civil, mecánica, eléctrica, computación, etc.
• Variedad de tipos textuales
– informes, libros, artículos, tesis, ponencias,
etc.
• Estará disponible en Internet
Equipo de trabajo
• PC Windows, software para reconocer
caracteres (OMNIPAGE) y escáner para
digitalizar
– Cuenta única en trámite para tener un solo
entrenamiento del reconocedor
• Servidor UNIX AYAX para almacenar respaldos
y el Corpus mismo
• PC para desarrollar herramientas de búsquedas
(Python para las entrañas y Java para la
interfaz WEB)
Obtención de textos
• En papel y electrónicos
• Diseño de petición formal (tríptico, formulario,
carta de autorización, etc.)
• Diversificación de fuentes
– Programas de instituciones educativas y de
investigación (FI, IPN, UVM, etc.)
– Bibliotecas (USI, etc.)
– Obras de investigadores y publicaciones de
instituciones de investigación (IINGEN, IPN, etc.)
– Publicaciones periódicas (revistas)
Participantes
• Administradores
– Obtienen y asignan documentos
– Dan de alta digitalizadores
– Supervisan participantes –digitalizadores
(becarios, SS), archivadores
– Coordina redacción de documentación y
manuales
– Resuelve incertidumbres
Participantes
• Digitalizadores
– Trabaja en PC Windows
– Alimenta base bibliográfica
– Escanea documentos
– Activa reconocedor óptico de caracteres
– Revisa y corrige textos
– Respalda OCD (en AYAX)
– Los guarda en almacén (RTF)
Participantes
• Archivadores
– Accesan cuenta en AYAX para procesar
siguientes etapas
– Toman archivos del almacén (RTF)
– Los convierten a HTML (TXT) con FrontPage
– Aplican desetiquetador (TXT)
– Corrigen etiquetado con macros (TXT)
– Estarán encargados de etapas todavía no
operativas
Problemas
• Los formatos no se guardan como se
espera
• Administración de fuentes
• Derechos de autor
– Porción del corpus con autorización
– Porción sin autorización para conteos
estadísticos y extracción terminográfica pero
no para concordancias o búsquedas
de PDF a RTF
Carta de autorización
Base Bibliográfica del Corpus
• Control de documentos del Corpus
• Genera identificador único lixxxx, inxxxx, etc.
• Consigna información
– Bibliográfica
– Quienes son los responsables
– Estado en cadena de procesamiento
– Estadísticas mínimas (tamaño, avance, etc.)
• Actualiza información producida por otros
programas (el desetiquetador)
• Reporta representatividad según áreas y tipos
Ficha bibliográfica
Avance de digitalización
Avance de digitalización
tipos textuales
• Tipología
– Artículos
– Ponencias
– Libros
– Informes
– Tesis
– Diccionarios
• Reporte en número de
textos/palabras
generado por BB
áreas y sub-áreas temáticas
• Guía visual para Ingeniería eléctrica
orientación de áreas
menos abarcadas computación
TXT
RTF
UNIX
WINDOWS
FIN