Está en la página 1de 9

Instrucciones para transcribir y anotar audio– ASR

Índice
1. Tipos de audio............................................................................................................................................................................................................................ 2
a. Speech.................................................................................................................................................................................................................................... 2
b. Discard.................................................................................................................................................................................................................................... 2
2. Recortes de audio....................................................................................................................................................................................................................... 2
a. Palabra o diálogo poco claro................................................................................................................................................................................................... 3
b. Diálogo superpuesto............................................................................................................................................................................................................... 3
c. Música, melodías, canciones, sonidos de animales o de la naturaleza...................................................................................................................................3
d. Ruidos:.................................................................................................................................................................................................................................... 3
e. Modal Words.......................................................................................................................................................................................................................... 4
3. Transcripción del audio.............................................................................................................................................................................................................. 4
a. Palabras incompletas.............................................................................................................................................................................................................. 4
b. Palabras en inglés................................................................................................................................................................................................................... 5
c. Palabras homófonas............................................................................................................................................................................................................... 5
d. Abreviaturas........................................................................................................................................................................................................................... 5
e. Poemas................................................................................................................................................................................................................................... 5
f. Voces de niños......................................................................................................................................................................................................................... 5
g. Malas palabras o lenguaje abusivo......................................................................................................................................................................................... 5
h. Audio con efectos o acelerado............................................................................................................................................................................................... 5
i. Dialectos.................................................................................................................................................................................................................................. 6
4. Links importantes....................................................................................................................................................................................................................... 6
Anexo......................................................................................................................................................................................................................................... 9
5. Cuadro con instrucciones para recortar el audio.....................................................................................................................................................................7

6. Cuadro con instrucciones para realizar transcripciones...........................................................................................................................................................8

1. Tipos de audio
Los audios se pueden clasificar de dos maneras en la herramienta de anotación:

a. Speech
Son los audios que transcribimos, contiene al menos dos palabras. Aquellos donde hay lenguaje claro en el idioma que transcribimos (español de la variante de
Colombia).

b. Discard
Son los audios que no debemos transcribir y si llegan con un texto por defecto, debe ser eliminado.

 Audios que no están en español o tienen un dialecto diferente al de Colombia.


 Audios que son poco claros o en los cuales no podemos identificar qué dice la persona que habla.
 Audios que solo contengan modal words (ah, aha, wow, etc)
 Audios que no tienen sonidos que provengan del habla humana. Por ejemplo: canciones con melodía, sonidos de animales o de
la naturaleza.
 Audios que contienen menos de dos palabras.

2. Recortes de audio
Si necesitamos hacer un recorte en el audio, es decir, seleccionar una parte que se escuche clara para hacer la transcripción, lo tenemos que hacer
sin pensar en el sentido de la oración. No importa si la frase queda incompleta o no tiene sentido.

Escenarios
a. Palabra o diálogo poco claro
 Al principio o al final del audio: recortar la parte que no se entiende bien y transcribir el resto del diálogo.
 En el medio del audio: recortar la parte del audio que no se entiende bien y seleccionar una parte que sea clara para su
transcripción. Ejemplo: el audio está compuesto de tres partes [parte clara O] + [parte poco clara X] + [parte clara O], selecciono y
transcribo solo una de las partes claras del audio (preferentemente la más larga).

b. Diálogo superpuesto
o En la totalidad del audio: no se transcribe el audio. Hay que clasificarlo como Discard y borrar la transcripción predeterminada
antes de enviarlo.
o En una parte del audio: hay que recortar la parte del audio con discurso superpuesto y transcribir el resto, es decir, la parte clara.
o Hay superposición de la misma palabra u oración: se puede transcribir el audio siempre y cuando se escuche con claridad. Es
el caso en que dos o varias personas dicen lo mismo al unísono.
o La voz principal del audio se escucha de forma clara, aunque hay otras personas hablando o ruidos difusos: en este escenario,
podemos transcribir lo que dice la voz principal e ignorar las de fondo, si es que lo escuchamos con claridad la principal.

c. Música, melodías, canciones, sonidos de animales o de la naturaleza:


o En toda la extensión del audio: no lo debemos transcribir. Hay que clasificarlo como Discard y borrar la
transcripción predeterminada antes de enviarlo. Por ejemplo, si la persona canta siguiendo la canción original (Es decir,
la voz del cantante).
o Canciones con diálogo encima: hay que cortar la canción y transcribir solo la parte del audio donde haya diálogo. Si la canción
no afecta la claridad del diálogo, se puede ignorar la canción y transcribir el diálogo en su totalidad. Si lo afecta y es muy complicado
de cortar, no se debe transcribir el diálogo, y se selecciona Discard.
o Canciones a capela: cuando una persona canta a capela o con melodía de fondo (solo melodía, sin la voz del cantante), por ejemplo, un karaoke,
se debe transcribir el diálogo.
d. Ruidos:
o En toda la extensión del audio: El audio presenta mucho ruido y no hay diálogo claro. No se transcribe el audio. Hay que clasificarlo como
Discard y borrar la transcripción predeterminada antes de enviarlo.
o En una parte del audio:
 Si afecta el diálogo, hay que cortarlo y transcribir solo una de las partes claras. El audio quedará compuesto de tres partes: [parte
clara O] + [ruido X] + [parte clara O], selecciono y transcribo solo una de las partes claras del audio (preferentemente la más
larga).
 Si no afecta el diálogo, lo ignoro y transcribo ambas partes. El audio estará compuesto de tres partes [parte clara O] + [ruido que
no afecta el diálogo y diálogo X] + [parte clara O], puedo transcribir todo.
o El ruido no afecta el diálogo en ninguna de las partes: puedo transcribirlo en su totalidad.
e. Modal Words
Son interjecciones u onomatopeyas (palabras, no ruidos o sonidos) que aparecen de forma frecuente en los audios. Solo se pueden transcribir
aquellas que estén aceptadas en la pestaña “Modal words” (Buscar en la carpeta Box) y en el diccionario de la RAE.

o Al comienzo o final del audio: se debe recortar el audio de forma tal que queden hasta dos modal words. Por ejemplo: en el audio se
escucha “jo jo jo feliz Navidad”, debo cortar el primer “jo” del audio, de modo tal que solo queden dos y transcribir “jo jo feliz Navidad”.
o En el medio del audio:
 Si las puedo contar, debo transcribir estas palabras tantas veces la escuche.
 Si no las puedo contar, debo recortar el audio. El audio quedará compuesto de tres partes [parte clara O] + [modal words que no se
pueden contar] + [parte clara O], debo seleccionar una parte clara, cortar el audio y transcribir (preferentemente, elegir la más
larga).

Importante: las transcripciones no pueden estar compuestas solo de modal words. Si este fuera el caso, hay que descartar el audio. Sin embargo, sí pueden
estar compuestas por una modal word y una palabra con significado. Por ejemplo: “ja gracioso”

3. Transcripción del audio


El audio se transcribe sin signos de puntuación ( . , ¡ ¿ ¡ ? ; : < > () ) y las palabras solo se separan con espacios (no más de un espacio tipeado), serán
aceptados apóstrofe ‘ y guion medio “-“ en caso de ser necesario.

Los números y los caracteres especiales se transcriben en letras (por ejemplo: “9” se transcribe “nueve”, “@” se transcribe “arroba”). Todas las
transcripciones deben tener, como mínimo, dos palabras.

Las tildes y el uso de las mayúsculas se deben respetar para los casos recomendados por la Real Academia Española (por ejemplo, nombres propios y fechas
especiales). No se comienza una oración con mayúscula salvo que sea un nombre propio/fecha especial/país/nombre de una marca/casos que apliquen.

Las palabras u oraciones se deben transcribir tantas veces las escuchemos, incluso si están repetidas.
No se transcribe en distintos párrafos. Siempre se sigue una misma línea de texto.

Escenarios

a. Palabras incompletas
o Al principio o al final del audio
 Si la palabra incompleta tiene significado por sí, se debe transcribir. Por ejemplo: "Quiero decir una pala", en lugar de
palabra, debemos transcribir lo que se escuchó porque existe "quiero decir una pala".
 Si la palabra incompleta no tiene significado por sí, no se tiene que transcribir. Por ejemplo: "Hola hermano, feliz Año
Nue", debemos cortar el "Nue" porque no existe y transcribir "hola hermano feliz año".
o En el medio del audio
 Si la palabra incompleta NO existe, se ignora y se transcribe el resto del audio. Por ejemplo: "me ena ena enamoré",
debemos transcribir "me enamoré" ignorando lo que está incompleto.
 Si la palabra incompleta existe, se transcribe TODO el diálogo tal cual lo escuchamos. Por ejemplo. "necesito urgente unas vaca
vaca vacaciones”. “Me voy al al supermercado ja ja”

b. Palabras en inglés o en otros dialectos del español (de otro país)


Al menos debo tener una palabra en es-CO (español Colombia)
o Inglés al principio o al final del audio
Hay que cortarlo y transcribir solo lo que está en español. Por ejemplo: Si escuchamos la parte "I love you Jenny te queremos mucho"
cortamos la parte en inglés "I love you" y transcribimos la parte en español "Jenny te queremos mucho".
o Inglés en el medio del audio
 Si hay hasta tres palabras consecutivas en inglés, las podemos transcribir si estamos seguros de cómo hacerlo. Si no,
debemos interceptar (cortar, dejar afuera) la parte en inglés – es preferible antes de equivocarse -. Por ejemplo: "contemos
one two three listos ya" se puede transcribir.
 Si hay más de tres palabras consecutivas, hay que cortar la parte en inglés y transcribir solo una parte en español. Por ejemplo: si
tenemos "contemos todos one two three four listos ya", cortaremos el audio y transcribiremos solo "contemos todos" o “listos
ya” según qué parte elegimos.
o Otros idiomas en el audio

 Cortar esas palabras del audio ya sea que estén al inicio, medio o final. Si no es inglés u otro dialecto del español no es
compatible con el proyecto, y no debe ser incluido en el audio/transcripción.

c. Palabras homófonas
o Si podemos decidir por contexto qué palabra es, debemos transcribir la palabra que corresponde. Por ejemplo: “Se reveló la noticia”.
o Si ambas palabras tienen sentido por contexto, podemos optar por cualquiera de ellas. Por ejemplo: “Se reveló” también puede ser
“Se rebeló”.
d. Abreviaturas e Informal words.
Se transcriben tal cual se escuchan. Por ejemplo: si alguien pronuncia “Ig” en lugar de “Instagram”, se puede transcribir “i g”.

e. Poemas
Se deben transcribir en prosa, no hay que separar en párrafos.

f. Voces de niños
o Si notamos que el niño tiene dificultad en pronunciar las palabras y por eso las cambia, debemos transcribir lo que dice en la forma
estándar de la palabra. Por ejemplo: el nene dice “quiero tota de cumpleaños”, debemos transcribir “quiero torta de cumpleaños”
g. Malas palabras o lenguaje abusivo
Se tienen que transcribir en todas las circunstancias.
h. Audio con efectos o acelerado
 Si se puede comprender, se transcribe. Pero si no lo podemos comprender, no se transcribe y se aplica “discard”.

Recomendaciones generales.
Chequear dos veces antes de enviar la tarea.
Solo transcribir palabras que podes escuchar claramente, no adivinar.
Transcribí lo que escuches mientras sea claro, aunque no tenga sentido la oración.
Lo que transcribas debe corresponder en un 100% con lo que se escucha en el audio (Salvando lo antes expuesto).

i. Dialectos
 Tenemos que transcribir el audio en la variante del idioma español en la que estamos trabajando. Si trabajamos con español de España,
tiene que haber por lo menos una persona hablando con dicha variante de español. Si el audio entero está en otro dialecto, tenemos que
descartarlo.

4. Links importantes
o Diccionario de la RAE: https://dle.rae.es/de
o Uso de tildes: https://www.rae.es/dpd/tilde
o Diccionario Panhispánico de Dudas: https://www.rae.es/dpd/
o Fundeau: https://www.fundeu.es/
o Elementos compositivos (prefijos y sufijos):
https://www.rae.es/sites/default/files/Elementos_compositivos_prefijos_y_sufijos_del_espanol_Esencial.pdf
o Lista de Modal Words & palabras frecuentes.
5. Cuadro con instrucciones para recortar el audio
6. Cuadro con instrucciones para realizar transcripciones
Anexo

 La tarea va a estar correcta siempre y cuando el audio coincida con la transcripción que realizamos. Puede haber algunos casos muy
particulares donde las palabras son confusas, “vamos para allí” “vamos ahí”. Si no lo podemos diferenciar, podemos aceptar la transcripción.
En cualquier otro caso, es importante no hacer interpretaciones subjetivas sobre lo que estamos escuchando.
 Es fundamental revisar la ortografía de las transcripciones y evitar errores. Hay que prestar mucha atención a la acentuación y a aquellas
palabras que por contexto pueden sonar iguales a otras, pero se escriben diferente. Por ejemplo: “si no” vs. “sino”, “porque” vs “por qué”,
“cómo“ vs. “como”, “si”, vs “sí”, etc.
 Tal como mencionamos anteriormente, la transcripción tiene que coincidir con la porción de audio que seleccionamos para
transcribir. Cualquier palabra que esté de más o que se haya omitido descalificará la tarea.

También podría gustarte