Está en la página 1de 1

¿Cómo transcribir periódicos antiguos?

Lingüística de corpus

Patricio Moya M.

La transcripción de textos para su explotación como corpus no es una tarea interpretativa por parte
del investigador, sino que meramente reproductiva de lo que se puede desprender de la obra original.
Dado que el objetivo será que los investigadores puedan describir alguna característica lingüística
en un momento dado, la inclusión de la propia visión solo entorpercerá los resultados que se podrían
llegar a obtener. Codificaciones o etiquetados para estudiar ciertos fenómenos deben realizarse de
forma posterior a la transcripción y siempre en una copia del corpus original.

Los criterios que se deben seguir para la transcripción del corpus de noticias son los siguientes:

1. La transcripción debe hacerse en formato texto plano en programas tipo bloc de notas.
2. Se debe mantener la ortografía puntual tal como aparece en el original.
3. En general, la ortografía acentual y literal se deben mantener a excepción de los siguientes
casos que requieren su actualización:
i. Palabras que ya no se tildan como fué o dió.
ii. Usos provenientes de la denominada "Ortografía chilena" como el cambio de <j>
por <g> en palabras como <jeneral> o <i> por <y> cuando esta tenía función vocálica como en <rey>.
En ambos, se debe transcribir siguiendo los usos ortográficos actuales.
4. Se debe transcribir toda la noticia (incluyendo titular y bajadas). Se debe excluir lo
siguiente:
i. Autor (periodista)
ii. Fecha de publicación
iii. Si hay imágenes, las bajadas de cada una de estas.

5. Cada archivo transcrito deberá tener un código de nombre que permita identificarlo
posteriormente. Por ejemplo, si su noticia es del 09 de septiembre de 1973 y corresponde al diario
El Mercurio, usted creará un código que le permita rastrearlo del tipo: 09_09_73_elm.

6. Junto con transcribir, deberá crear una planilla en donde se detallen ciertas características
de cada noticia que podrá rastrear gracias al código. La planilla deberá estar compuesta de las
siguientes columnas:
- Primera columna: código de los archivos
- Segunda columna: diario
- Tercera columna: fecha
- Cuarta columna: autor (si lo hubiera)
- Quinta columna: fecha
- Sexta columna: otra información contextual que le pareciera relevante.

También podría gustarte