Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Breve introducción
Este es un proyecto de revisión de transcripciones de audios largos. Todos los audios tendrán una
duración aproximada de 5 minutos. Lo que tenemos que hacer es,
2. Ajustar la marca de tiempo, segmentar cada audio en varios clips cortos de no más de 15
segundos (s).
4. Hacer clic en el botón de pretranscripción para clips válidos, verificar el contenido del texto
de pretranscripción y modificar el texto si tiene algún error. El texto de la transcripción debe
seguir estrictamente el contenido del audio.
3. Reglas de segmentación
1. Use el mouse para mover el espectro en la marca de tiempo, presione S y el audio se dividirá en
la posición del espectro. Cada audio largo debe dividirse en varios clips cortos de acuerdo con el
significado de la oración. Un clip debe de contener preferentemente una oración independiente.
No deben de quedar oraciones incompletas en un clip. Si la oración no cabe en un solo clip,
podemos cortarla de acuerdo con el orden semántico, en donde haya comas o donde haya palabras
de enlace, como conectores o preposiciones. Cada clip corto debe tener menos de 15 segundos y
menos de 120 caracteres.
2. Un solo clip válido puede contener solamente el contenido del discurso de una persona y el
discurso de otra persona debe dividirse en otro clip.
3. Cada clip corto debe mantener la relativa integridad del significado de la oración. Intente NO
romper la integridad de una oración debido a la segmentación.
4. Las porciones de audio inválidas como silencios/risas/música de fondo que sean mayores a un
segundo (> 1s) deben segmentarse y etiquetarse como inválidas. Si la duración inválida es < 1s,
entonces podemos ignorarla y transcribir normalmente.
5. No es necesario dejar silencios antes y después de cada fragmento válido. Solo asegúrese de que
el discurso no se corte.
ATENCIÓN:
Por favor, corte los clips de acuerdo con el significado de la frase y después teniendo en cuenta la
limitación de tiempo y caracteres. Hay que intentar que cada clip contenga una frase con
significado completo. La siguiente imagen muestra un segmento incorrecto:
Clip 1: Si entra otro, se pone el abrigo. No nos damos cuenta de lo que pasa alrededor, ¿no?
● Dos (o más) oraciones completas de un mismo hablante pueden estar en un clip si el total
sus caracteres es inferior a 120. Sin embargo, no podemos juntar una frase incompleta con
una frase corta completa en un mismo clip. La frase incompleta tiene que ir en un clip
aparte para no quedar así.
(╳) Clip1: Juan, ¿estás bien? ¿Por qué no comemos una manzana,
● Los cortes para segmentar deben de elegirse de acuerdo con el orden semántico, no de
acuerdo con las pausas del hablante.
Por ejemplo, aunque el hablante haga una pausa después de la palabra “información”, no podemos
hacer el corte allí.
(╳)
Clip1:Dicho de otra manera, ¿no? Tú tienes que ser consciente de una información
Clip 2:para que de alguna manera consiga llegar a la memoria a largo plazo.
(√)
(╳)
(√)
4. Reglas de etiquetas
1.<noise>: Ruido de voz no humana, incluidos ruidos leves, aplausos, solamente música de fondo,
solo música, ruidos sin discurso, etc.
2.<deaf>: Ruido de voz humana, incluyendo lenguaje no objetivo, risa, publicidad, canciones
vocales, etc.
3. <overlap>: sonido de muchas voces superpuestas, que se pueden reconocer. Voces mixtas que
no se pueden transcribir. (Nota: si hay muchas voces hablando juntas pero se puede reconocer al
orador principal, transcriba el contenido del orador principal).
NOTA: A los clips inválidos se deben asignar etiquetas y NO necesitan transcribirse. Si un clip
válido contiene una duración inválida inferior a 1s, puede transcribirlo normalmente sin necesidad
de segmentarlo.
5. Reglas de transcripción
Transcriba lo que ha escuchado en el audio. Hay que añadir comas entre las palabras
repetidas. Por ejemplo:
Y, y, y de repente me dicen, ¿estás cansada?
Ejemplo 2: tartamudeo
Si el hablante tartamudea palabras como "El color que me gusta es el ver, verde", se transcribe
tal cual se escucha dado que la palabra "ver" existe en español. Hay que añadir comas entre
esas palabras que interrumpen el discurso.
Sin embargo, si el hablante tartamudea como "Si yo no lo hubiera dicho en la reuni, reunión".
Entonces, no se transcribe "reuni", es necesario segmentar esa porción como inválida, aunque
sea menos de 1s, ya que "reuni" no existe en español. No podemos inventar palabras en el
texto transcrito.
En la transcripción también se incluyen las partículas modales como eh, ah, em...Se deben
añadir comas antes y después de las partículas modales.
Si la partícula modal está al principio de la frase, solamente hay que añadir una coma después.
Por ejemplo: Ah, hoy fue muy divertido.
Si la partícula modal está en medio de la frase, entonces hay que añadir comas tanto antes
como después de la frase. Por ejemplo: Creo, eh, que puedo ir a la fiesta el viernes.
5.2 Transcriba palabras en inglés de acuerdo con su pronunciación. Las oraciones con 1 a 3
palabras en inglés se pueden transcribir normalmente si las reconoce. Pero si una oración
completa está en inglés o hay más de tres palabras en inglés, entonces esta parte debe
segmentarse y marcarse como clip inválido, no necesita transcribirse. La transcripción debe
seguir estrictamente el audio. Si se pronuncia en inglés, entonces debemos transcribir las
palabras en inglés. Se debe agregar un espacio entre dos palabras en inglés. Por ejemplo:
thank you.
a) Nombre de persona en inglés. El nombre de una persona bien conocida o famosa debe
ser transcrito por el nombre que se reconoce oficialmente. Los nombres generales deben
estar marcados con los caracteres más comunes. -> Barak Obama, Donald Trump.
b) Marca inglesa. Las marcas deben seguir las publicaciones oficiales, como iPhone,
Samsung.
5.4 Números
Los números deben traducirse completamente a las palabras correspondientes del idioma
objetivo de acuerdo con su pronunciación. Los números arábigos NO deben aparecer en la
transcripción. Deben escribirse como palabra.
Ejemplo 1:
5.5 Puntuación
1. Solamente puntuación estándar [,] [.] [¿?] [¡!] se puede utilizar durante la transcripción. Por
ejemplo, “:-)”, ” >:-(“, ”:-|” no están permitidos.
3. La puntuación no se puede utilizar de forma continua. Por ejemplo, los puntos suspensivos
(...) no están permitidos.
4. Los signos de puntuación básicos del idioma deben mantenerse, por ejemplo, los acentos (´) y
las diéresis (¨).
5. Una coma debe de colocarse antes de ¿ cuando la pregunta forma parte de una frase. Por
ejemplo: Y, además no lo sé, ¿cómo será ahora?
5.6 Uso de mayúsculas: La primera letra de una frase debe ir en mayúscula. La siguiente frase
después de un signo de interrogación/punto final/signo de exclamación debe ir en mayúsculas.
Por ejemplo:
1)
2)
3)
6. Criterios de aceptación