Ake 3.0 Long Audio Transcription Rule (ES) (v3)

Reglas de ASR para transcripción de audios largos
1. Breve introducción
Este es un proyecto de revisión de transcripciones de audios largos. Todos los audios tendrán una
duración aproximada de 5 minutos. Lo que tenemos que hacer es,
1. Escuchar el audio y juzgar si es válido.
2. Ajustar la marca de tiempo, segmentar cada audio en varios clips cortos de no más de 15
segundos (s).
3. Juzgar si es válido para cada clip y agregar las etiquetas correspondientes.
4. Hacer clic en el botón de pretranscripción para clips válidos, verificar el contenido del texto
de pretranscripción y modificar el texto si tiene algún error. El texto de la transcripción debe
seguir estrictamente el contenido del audio.
Escuchar el audio y juzgar si

es válido.
Inválido: si todo el audio es

Válido: verificar si el dominio es inválido, elige la razón por la
correcto. que lo es y envíalo.
Ajustar la marca de tiempo, dividir cada

audio en varios clips cortos. Cada clip
deberá durar menos de 15 segundos.
Si el clip es inválido, las partes

Juzgar la validez de cada clip. inválidas con duración de más de 1
segundo necesitan segmentarse y
etiquetarse de forma separada. Los clips
inválidos no necesitan transcribirse.
Si el clip es válido, hacer clic en el botón de

pretranscripción para los clips válidos, verificar el
contenido del texto de pretranscripción y modificar el
texto si es que tiene algún error. El texto de transcripción
debe seguir estrictamente el contenido del audio
2. Motivos de audio inválidos
Si todo el audio tiene los siguientes problemas, elija el motivo de invalidez correspondiente y
envíelo.
a. Idioma no objetivo (Non-target language). Todo el audio no corresponde al idioma

objetivo.
b. Contenido ilegal (Illegal content). El audio involucra religión, antipolítica, pornografía,

violencia, discriminación racial, drogas, etc.
c. Mala calidad (Poor quality): se habla demasiado rápido/pronunciación confusa/ruido de

fondo demasiado alto...
3. Reglas de segmentación
1. Use el mouse para mover el espectro en la marca de tiempo, presione S y el audio se dividirá en
la posición del espectro. Cada audio largo debe dividirse en varios clips cortos de acuerdo con el
significado de la oración. Un clip debe de contener preferentemente una oración independiente.
No deben de quedar oraciones incompletas en un clip. Si la oración no cabe en un solo clip,
podemos cortarla de acuerdo con el orden semántico, en donde haya comas o donde haya palabras
de enlace, como conectores o preposiciones. Cada clip corto debe tener menos de 15 segundos y
menos de 120 caracteres.
2. Un solo clip válido puede contener solamente el contenido del discurso de una persona y el
discurso de otra persona debe dividirse en otro clip.
3. Cada clip corto debe mantener la relativa integridad del significado de la oración. Intente NO
romper la integridad de una oración debido a la segmentación.
4. Las porciones de audio inválidas como silencios/risas/música de fondo que sean mayores a un
segundo (> 1s) deben segmentarse y etiquetarse como inválidas. Si la duración inválida es < 1s,
entonces podemos ignorarla y transcribir normalmente.
5. No es necesario dejar silencios antes y después de cada fragmento válido. Solo asegúrese de que
el discurso no se corte.
ATENCIÓN:
Por favor, corte los clips de acuerdo con el significado de la frase y después teniendo en cuenta la
limitación de tiempo y caracteres. Hay que intentar que cada clip contenga una frase con
significado completo. La siguiente imagen muestra un segmento incorrecto:
Una segmentación correcta para estos clips es:
Clip 1: Si entra otro, se pone el abrigo. No nos damos cuenta de lo que pasa alrededor, ¿no?
Clip 2: Nuestra atención está focalizada hacia una persona.
● Dos (o más) oraciones completas de un mismo hablante pueden estar en un clip si el total
sus caracteres es inferior a 120. Sin embargo, no podemos juntar una frase incompleta con
una frase corta completa en un mismo clip. La frase incompleta tiene que ir en un clip
aparte para no quedar así.
(√) Clip1: Juan, ¿estás bien? ¿Necesitas ayuda?
(╳) Clip1: Juan, ¿estás bien? ¿Por qué no comemos una manzana,
Clip2: no tienes hambre?
(√) Clip1: Juan, ¿estás bien?
Clip2: ¿Por qué no comemos una manzana, no tienes hambre?
● Los cortes para segmentar deben de elegirse de acuerdo con el orden semántico, no de
acuerdo con las pausas del hablante.
Por ejemplo, aunque el hablante haga una pausa después de la palabra “información”, no podemos
hacer el corte allí.
(╳)
Clip1：Dicho de otra manera, ¿no? Tú tienes que ser consciente de una información
Clip 2：para que de alguna manera consiga llegar a la memoria a largo plazo.
(√)
Clip1：Dicho de otra manera, ¿no?

Clip 2 ： Tú tienes que ser consciente de una información para que de alguna manera consiga
llegar a la memoria a largo plazo.
(╳)
Clip1：Me rompí la rodilla jugando fútbol
Clip 2：cuando era joven. Me encanta el helado de vainilla.
(√)
Clip1：Me rompí la rodilla jugando fútbol cuando era joven.
Clip 2：Me encanta el helado de vainilla.
4. Reglas de etiquetas
1.<noise>: Ruido de voz no humana, incluidos ruidos leves, aplausos, solamente música de fondo,
solo música, ruidos sin discurso, etc.
2.<deaf>: Ruido de voz humana, incluyendo lenguaje no objetivo, risa, publicidad, canciones
vocales, etc.
3. <overlap>: sonido de muchas voces superpuestas, que se pueden reconocer. Voces mixtas que
no se pueden transcribir. (Nota: si hay muchas voces hablando juntas pero se puede reconocer al
orador principal, transcriba el contenido del orador principal).
NOTA: A los clips inválidos se deben asignar etiquetas y NO necesitan transcribirse. Si un clip
válido contiene una duración inválida inferior a 1s, puede transcribirlo normalmente sin necesidad
de segmentarlo.
5. Reglas de transcripción
5.1 Siga estrictamente el principio de REGISTRAR EXACTAMENTE LO QUE ESCUCHA.

NO AGREGAR NI OMITIR ALGÚN CONTEXTO. No se permite ortografía incorrecta.
Ejemplo 1: palabras repetidas
Transcriba lo que ha escuchado en el audio. Hay que añadir comas entre las palabras
repetidas. Por ejemplo:
Y, y, y de repente me dicen, ¿estás cansada?
Estuve mucho tiempo en estas, estas tierras.
Ejemplo 2: tartamudeo
Si el hablante tartamudea palabras como "El color que me gusta es el ver, verde", se transcribe
tal cual se escucha dado que la palabra "ver" existe en español. Hay que añadir comas entre
esas palabras que interrumpen el discurso.
Sin embargo, si el hablante tartamudea como "Si yo no lo hubiera dicho en la reuni, reunión".
Entonces, no se transcribe "reuni", es necesario segmentar esa porción como inválida, aunque
sea menos de 1s, ya que "reuni" no existe en español. No podemos inventar palabras en el
texto transcrito.
Ejemplo 3: partículas modales
En la transcripción también se incluyen las partículas modales como eh, ah, em...Se deben
añadir comas antes y después de las partículas modales.
Si la partícula modal está al principio de la frase, solamente hay que añadir una coma después.
Por ejemplo: Ah, hoy fue muy divertido.
Si la partícula modal está en medio de la frase, entonces hay que añadir comas tanto antes
como después de la frase. Por ejemplo: Creo, eh, que puedo ir a la fiesta el viernes.
5.2 Transcriba palabras en inglés de acuerdo con su pronunciación. Las oraciones con 1 a 3
palabras en inglés se pueden transcribir normalmente si las reconoce. Pero si una oración
completa está en inglés o hay más de tres palabras en inglés, entonces esta parte debe
segmentarse y marcarse como clip inválido, no necesita transcribirse. La transcripción debe
seguir estrictamente el audio. Si se pronuncia en inglés, entonces debemos transcribir las
palabras en inglés. Se debe agregar un espacio entre dos palabras en inglés. Por ejemplo:
thank you.
5.3 Nombres propios
a) Nombre de persona en inglés. El nombre de una persona bien conocida o famosa debe
ser transcrito por el nombre que se reconoce oficialmente. Los nombres generales deben
estar marcados con los caracteres más comunes. -> Barak Obama, Donald Trump.
b) Marca inglesa. Las marcas deben seguir las publicaciones oficiales, como iPhone,
Samsung.
c) El uso de homónimos: asegúrese de que la gramática sea correcta cuando la

pronunciación sea la misma. Por ejemplo, leche muchas ganas -> le eché muchas ganas.
(leche no se ajusta a la semántica y la gramática.)
d) Abreviaturas. Deben de ir en mayúsculas. Esta regla cambia dependiendo de si la

pronunciación es en inglés o español.
Si se pronuncia en inglés, escriba la letra inglesa en mayúscula y sin espacios. Por

ejemplo: X /eks/、 VIP /vi:' ai' pi/.
Sin embargo, si se pronuncia en español, entonces hay que transcribirlo de acuerdo a su

fonética en español. Por ejemplo: EQUIS['ekis̺]、VE I PE.
5.4 Números
Los números deben traducirse completamente a las palabras correspondientes del idioma
objetivo de acuerdo con su pronunciación. Los números arábigos NO deben aparecer en la
transcripción. Deben escribirse como palabra.
Ejemplo 1:
“5256” -> "cinco mil doscientos cincuenta y seis"
"19%"->"diecinueve por ciento".
5.5 Puntuación
1. Solamente puntuación estándar [,] [.] [¿?] [¡!] se puede utilizar durante la transcripción. Por
ejemplo, “:-)”, ” >:-(“, ”:-|” no están permitidos.
2. Algunos símbolos especiales #, @, *, &, % deben transcribirse como palabra por
pronunciación, por ejemplo: “%” se transcribe a “porcentaje”.
3. La puntuación no se puede utilizar de forma continua. Por ejemplo, los puntos suspensivos
(...) no están permitidos.
4. Los signos de puntuación básicos del idioma deben mantenerse, por ejemplo, los acentos (´) y
las diéresis (¨).
5. Una coma debe de colocarse antes de ¿ cuando la pregunta forma parte de una frase. Por
ejemplo: Y, además no lo sé, ¿cómo será ahora?
5.6 Uso de mayúsculas: La primera letra de una frase debe ir en mayúscula. La siguiente frase
después de un signo de interrogación/punto final/signo de exclamación debe ir en mayúsculas.
Por ejemplo:
1)
¡Sí! y no te importa hacer unos créditos extra en un año. (╳).

¡Sí! Y no te importa hacer unos créditos extra en un año. (√).
2)
¿Por qué te da por ahí? ¿tan mal estabas allí? (╳)
¿Por qué te da por ahí? ¿Tan mal estabas allí? (√)
3)
Y, también no sé es ¿cómo será ahora? pero en aquella época. (╳)
Y, también no sé es, ¿cómo será ahora? Pero en aquella época. (√)
6. Criterios de aceptación
Precisión promedio del texto superior al 96%.
Precisión de texto = Número correcto de palabras/Número total de palabras estándar
Precisión de texto promedio = Suma de la precisión de texto/Número total de textos de

verificación puntual * 100%

Ake 3.0 Long Audio Transcription Rule (ES) (v3)

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ake 3.0 Long Audio Transcription Rule (ES) (v3)

Cargado por

Copyright:

Formatos disponibles

Reglas de ASR para transcripción de audios largos

1. Escuchar el audio y juzgar si es válido.

3. Juzgar si es válido para cada clip y agregar las etiquetas correspondientes.

Escuchar el audio y juzgar si

Inválido: si todo el audio es

Ajustar la marca de tiempo, dividir cada

Si el clip es inválido, las partes

Si el clip es válido, hacer clic en el botón de

a. Idioma no objetivo (Non-target language). Todo el audio no corresponde al idioma

b. Contenido ilegal (Illegal content). El audio involucra religión, antipolítica, pornografía,

c. Mala calidad (Poor quality): se habla demasiado rápido/pronunciación confusa/ruido de

Una segmentación correcta para estos clips es:

Clip 2: Nuestra atención está focalizada hacia una persona.

(√) Clip1: Juan, ¿estás bien? ¿Necesitas ayuda?

Clip2: no tienes hambre?

(√) Clip1: Juan, ¿estás bien?

Clip2: ¿Por qué no comemos una manzana, no tienes hambre?

Clip1：Dicho de otra manera, ¿no?

Clip1：Me rompí la rodilla jugando fútbol

Clip 2：cuando era joven. Me encanta el helado de vainilla.

Clip1：Me rompí la rodilla jugando fútbol cuando era joven.

Clip 2：Me encanta el helado de vainilla.

5.1 Siga estrictamente el principio de REGISTRAR EXACTAMENTE LO QUE ESCUCHA.

Ejemplo 1: palabras repetidas

Estuve mucho tiempo en estas, estas tierras.

Ejemplo 3: partículas modales

5.3 Nombres propios

c) El uso de homónimos: asegúrese de que la gramática sea correcta cuando la

d) Abreviaturas. Deben de ir en mayúsculas. Esta regla cambia dependiendo de si la

Si se pronuncia en inglés, escriba la letra inglesa en mayúscula y sin espacios. Por

Sin embargo, si se pronuncia en español, entonces hay que transcribirlo de acuerdo a su

“5256” -> "cinco mil doscientos cincuenta y seis"

"19%"->"diecinueve por ciento".

2. Algunos símbolos especiales #, @, *, &, % deben transcribirse como palabra por

pronunciación, por ejemplo: “%” se transcribe a “porcentaje”.

¡Sí! y no te importa hacer unos créditos extra en un año. (╳).

¿Por qué te da por ahí? ¿tan mal estabas allí? (╳)

¿Por qué te da por ahí? ¿Tan mal estabas allí? (√)

Y, también no sé es ¿cómo será ahora? pero en aquella época. (╳)

Y, también no sé es, ¿cómo será ahora? Pero en aquella época. (√)

Precisión promedio del texto superior al 96%.

Precisión de texto = Número correcto de palabras/Número total de palabras estándar

Precisión de texto promedio = Suma de la precisión de texto/Número total de textos de

También podría gustarte