Presentación Whisper

ESTANCIA FOSS
INTELIGENCIA ARTIFICIAL
WHISPER
“La inteligencia artificial puede ser la mejor o la peor cosa que le
haya sucedido a la humanidad."
Stephen Hawking
OBJETIVO.
Dar a conocer el concepto, uso y aplicación de la librería Whisper, en el

campo de la transcripción de audio, así como las principales ventajas y
desventajas.
CONTENIDO.
1. ¿Origen de Whisper?
1.1 ¿Qué es Whisper?
1.2 Ventajas y desventajas de Whisper.
1.3 Whisper OpenAI.
1.4 Datos sobre Whisper
1.5 Whisper; funcionamiento
1.6 Formato Multitarea.
1.7 Detalles de entrenamiento
SEMBLANZA.
La estancia FOSS de Whisper es una inmersión en los fundamentos esenciales del

procesamiento de auido utilizando la poderosa herramienta Whisper. Es una tecnología de
vanguardia que allana el camino para convertir con precisión entradas de audio en texto
multilenguaje. Esto significa que puede transcribir con más precisión y rapidez que otros
programas informáticos.
1. ¿ORIGEN DE WHISPER?
.
Whisper OpenAI es una tecnología de vanguardia que allana el camino para

convertir con precisión la voz en texto.
Whisper OpenAI utiliza técnicas avanzadas de aprendizaje automático para

comprender el contexto y los matices del lenguaje hablado
Es de código abierto para que los científicos de datos y los desarrolladores

puedan modificar y utilizar la API para la transcripción, traducción y otras
tareas de aprendizaje automático con datos de audio.
Fig. 1. Gary Badski. (Fuente:

https://blog.desdelinux.net/opencv-una-biblioteca-para-el-reconocimiento-de-objetos-en-imagene
s-y-camaras/
1.1 ¿QUÉ ES WHISPER?
• Whisper (automatic speech recognition) OpenAI

es una tecnología de vanguardia para convertir
con precisión la voz en texto.
• El software tradicional de reconocimiento de voz

sólo reconocía las palabras habladas, Whisper
OpenAI utiliza técnicas avanzadas de aprendizaje
automático para comprender el contexto y los
matices del lenguaje hablado.
Fig. 2. Ejemplo de visión artificial. (Fuente:

https://blog.desdelinux.net/opencv-una-biblioteca-para-el-reconocimiento-de-objetos-en-imagenes-y-camaras/, Darkcrizt)
1.2 VENTAJAS Y DESVENTAJAS WHISPER.
Ventajas Desventajas
• Entrenado en 680.000 horas de datos supervisados multilingües y • Problemas de privacidad: comunicaciones empresariales.
multitarea recopilados de la web. • Seguridad de los datos: Existe el riesgo de que los datos puedan ser
• Mayor solidez ante los acentos, el ruido de fondo y el lenguaje vulnerables a violaciones de seguridad o accesos no autorizados.
técnico • Adopción y aceptación: reacios a adoptar tecnologías de inteligencia
• Permite la transcripción en varios idiomas. artificial.
• Modelos de código abierto y código de inferencia. • Errores de IA: existe la posibilidad de que Whisper AI cometa errores
• La API de Whisper Open AI le permite funcionar en múltiples en el procesamiento y análisis de datos.
plataformas, lo que la hace accesible a todo el mundo • Dependencia tecnológica: interrupciones en el servicio o problemas
técnicos.
1.3 WHISPER.
¿Qué es?
1.4 DATOS SOBRE WHISPER.
1.5 WHISPER FUNCIONAMIENTO.
• Entrada de audio.
Todo el audio se vuelve a muestrear a 16 000 Hz, y se calcula una representación de

espectrograma Mel de magnitud de registro de 80 canales en ventanas de 25 milisegundos con un
avance de 10 milisegundos.
• Entrada de audio.
Cada espectograma es pasado por la Trnasformada de Fourier y se mapean las frecuencias a la

escala de Mel que imita el oído humano a diferentes frecuencias.
• Preprocesamiento con la RNN.
El codificador procesa esta representación de entrada con un pequeño bloque
inicial que consta de dos capas de convolución con un ancho de filtro de 3 y la
función de activación GELU.
• Convoluciones
La segunda capa de convolución tiene un paso de dos. Luego se agregan incrustaciones de
posición sinusoidal a la salida del bloque inicial, después de lo cual se aplican los bloques
Transformer del codificador.
• Incrustaciones de posición sinusoidal.
Después de las capas de convolución, se agregan incrustaciones de posición sinusoidal. Estas

incrustaciones se utilizan para proporcionar información sobre la posición de cada elemento en
la secuencia de entrada.
Las incrustaciones de posición sinusoidal son una forma de codificar

la información de posición en el modelo.
1.5 WHISPER FUNCIONAMIENTO
La suma de los vectores resultante.

Un sistema de reconocimiento de voz con todas
las funciones puede incluir muchos
componentes adicionales, como:
• Detección de actividad de voz .
• Diarización del hablante
• Texto inverso normal.
Hay muchas tareas diferentes que se pueden

realizar en la misma señal de audio de entrada:
transcripción, traducción, detección de
actividad de voz, alineación e identificación de
idioma..
modelos para aplicaciones sólo en inglés tienden a funcionar mejor, especialmente para los modelos tiny.eny base.en. Observamos que la diferencia se vuelve menos significativa para los modelos small.eny m
1.6 FORMATO
MULTITAREA
Los modelos .en para aplicaciones solo en inglés tienden a funcionar
mejor.
Entrenamos un conjunto de modelos de varios

tamaños para estudiar las propiedades de escala de
Whisper.
Durante el desarrollo y la evaluación iniciales,

observamos que los modelos Whisper tenían una
tendencia a transcribir conjeturas plausibles pero
casi siempre incorrectas para los nombres de los
hablantes.
1.6 FORMATO MULTITAREA
El rendimiento de Whisper varía mucho según el idioma. La siguiente figura muestra el

comportamiento por modelos de idioma. WER (tasa de erro de palabras) y CER (tasa de
error de caracteres)
1. DETALLES DE ENTRENAMIENTO
Traducción: 97%
Identificación de idioma: 79.7%
Whisper es competitivo con los sistemas ASR comerciales y de código abierto de última generación en la transcripción de formato
largo. Se compara la distribución de las tasas de error de palabras de seis sistemas ASR en siete conjuntos de datos de formato
largo, donde las longitudes de entrada van desde unos pocos minutos hasta unas pocas horas.
1. DETALLES DE ENTRENAMIENTO
El desempeño de Whisper es cercano al de los

transcriptores humanos profesionales. Este gráfico
muestra las distribuciones WER de 25 grabaciones del
conjunto de datos Kincaid46 transcritas por Whisper, los
mismos 4 sistemas ASR comerciales de la A-D, un
servicio de transcripción humana asistido por
computadora (E) y 4 servicios de transcripción humana
(F-I). El diagrama de caja se superpone con puntos que
indican los WER en grabaciones individuales, y el WER
agregado de las 25 grabaciones se anota en cada cuadro.
Gracias

Presentación Whisper

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Presentación Whisper

Cargado por

Copyright:

Formatos disponibles

ESTANCIA FOSS

Dar a conocer el concepto, uso y aplicación de la librería Whisper, en el

La estancia FOSS de Whisper es una inmersión en los fundamentos esenciales del

Whisper OpenAI es una tecnología de vanguardia que allana el camino para

Whisper OpenAI utiliza técnicas avanzadas de aprendizaje automático para

Es de código abierto para que los científicos de datos y los desarrolladores

Fig. 1. Gary Badski. (Fuente:

• Whisper (automatic speech recognition) OpenAI

• El software tradicional de reconocimiento de voz

Fig. 2. Ejemplo de visión artificial. (Fuente:

Todo el audio se vuelve a muestrear a 16 000 Hz, y se calcula una representación de

Cada espectograma es pasado por la Trnasformada de Fourier y se mapean las frecuencias a la

Después de las capas de convolución, se agregan incrustaciones de posición sinusoidal. Estas

Las incrustaciones de posición sinusoidal son una forma de codificar

La suma de los vectores resultante.

Hay muchas tareas diferentes que se pueden

Entrenamos un conjunto de modelos de varios

Durante el desarrollo y la evaluación iniciales,

El rendimiento de Whisper varía mucho según el idioma. La siguiente figura muestra el

El desempeño de Whisper es cercano al de los

También podría gustarte