Está en la página 1de 26

ESTANCIA FOSS

INTELIGENCIA ARTIFICIAL
WHISPER
“La inteligencia artificial puede ser la mejor o la peor cosa que le
haya sucedido a la humanidad."

Stephen Hawking
OBJETIVO.

Dar a conocer el concepto, uso y aplicación de la librería Whisper, en el


campo de la transcripción de audio, así como las principales ventajas y
desventajas.
CONTENIDO.

1. ¿Origen de Whisper?
1.1 ¿Qué es Whisper?
1.2 Ventajas y desventajas de Whisper.
1.3 Whisper OpenAI.
1.4 Datos sobre Whisper
1.5 Whisper; funcionamiento
1.6 Formato Multitarea.
1.7 Detalles de entrenamiento
SEMBLANZA.

La estancia FOSS de Whisper es una inmersión en los fundamentos esenciales del


procesamiento de auido utilizando la poderosa herramienta Whisper. Es una tecnología de
vanguardia que allana el camino para convertir con precisión entradas de audio en texto
multilenguaje. Esto significa que puede transcribir con más precisión y rapidez que otros
programas informáticos.
1. ¿ORIGEN DE WHISPER?
.

Whisper OpenAI es una tecnología de vanguardia que allana el camino para


convertir con precisión la voz en texto.

Whisper OpenAI utiliza técnicas avanzadas de aprendizaje automático para


comprender el contexto y los matices del lenguaje hablado

Es de código abierto para que los científicos de datos y los desarrolladores


puedan modificar y utilizar la API para la transcripción, traducción y otras
tareas de aprendizaje automático con datos de audio.

Fig. 1. Gary Badski. (Fuente:


https://blog.desdelinux.net/opencv-una-biblioteca-para-el-reconocimiento-de-objetos-en-imagene
s-y-camaras/
1.1 ¿QUÉ ES WHISPER?

• Whisper (automatic speech recognition) OpenAI


es una tecnología de vanguardia para convertir
con precisión la voz en texto.

• El software tradicional de reconocimiento de voz


sólo reconocía las palabras habladas, Whisper
OpenAI utiliza técnicas avanzadas de aprendizaje
automático para comprender el contexto y los
matices del lenguaje hablado.

Fig. 2. Ejemplo de visión artificial. (Fuente:


https://blog.desdelinux.net/opencv-una-biblioteca-para-el-reconocimiento-de-objetos-en-imagenes-y-camaras/, Darkcrizt)
1.2 VENTAJAS Y DESVENTAJAS WHISPER.

Ventajas Desventajas

• Entrenado en 680.000 horas de datos supervisados multilingües y • Problemas de privacidad: comunicaciones empresariales.
multitarea recopilados de la web. • Seguridad de los datos: Existe el riesgo de que los datos puedan ser
• Mayor solidez ante los acentos, el ruido de fondo y el lenguaje vulnerables a violaciones de seguridad o accesos no autorizados.
técnico • Adopción y aceptación: reacios a adoptar tecnologías de inteligencia
• Permite la transcripción en varios idiomas. artificial.
• Modelos de código abierto y código de inferencia. • Errores de IA: existe la posibilidad de que Whisper AI cometa errores
• La API de Whisper Open AI le permite funcionar en múltiples en el procesamiento y análisis de datos.
plataformas, lo que la hace accesible a todo el mundo • Dependencia tecnológica: interrupciones en el servicio o problemas
técnicos.
1.3 WHISPER.
¿Qué es?
1.4 DATOS SOBRE WHISPER.
1.5 WHISPER FUNCIONAMIENTO.
1.5 WHISPER FUNCIONAMIENTO.
1.5 WHISPER FUNCIONAMIENTO.
• Entrada de audio.

Todo el audio se vuelve a muestrear a 16 000 Hz, y se calcula una representación de


espectrograma Mel de magnitud de registro de 80 canales en ventanas de 25 milisegundos con un
avance de 10 milisegundos.

• Entrada de audio.

Cada espectograma es pasado por la Trnasformada de Fourier y se mapean las frecuencias a la


escala de Mel que imita el oído humano a diferentes frecuencias.
1.5 WHISPER FUNCIONAMIENTO.
• Preprocesamiento con la RNN.
El codificador procesa esta representación de entrada con un pequeño bloque
inicial que consta de dos capas de convolución con un ancho de filtro de 3 y la
función de activación GELU.

• Convoluciones
La segunda capa de convolución tiene un paso de dos. Luego se agregan incrustaciones de
posición sinusoidal a la salida del bloque inicial, después de lo cual se aplican los bloques
Transformer del codificador.
1.5 WHISPER FUNCIONAMIENTO.
• Incrustaciones de posición sinusoidal.

Después de las capas de convolución, se agregan incrustaciones de posición sinusoidal. Estas


incrustaciones se utilizan para proporcionar información sobre la posición de cada elemento en
la secuencia de entrada.

Las incrustaciones de posición sinusoidal son una forma de codificar


la información de posición en el modelo.
1.5 WHISPER FUNCIONAMIENTO.
1.5 WHISPER FUNCIONAMIENTO

La suma de los vectores resultante.


1.5 WHISPER FUNCIONAMIENTO
Un sistema de reconocimiento de voz con todas
las funciones puede incluir muchos
componentes adicionales, como:
• Detección de actividad de voz .
• Diarización del hablante
• Texto inverso normal.

Hay muchas tareas diferentes que se pueden


realizar en la misma señal de audio de entrada:
transcripción, traducción, detección de
actividad de voz, alineación e identificación de
idioma..
1.5 WHISPER FUNCIONAMIENTO
1.5 WHISPER FUNCIONAMIENTO
modelos para aplicaciones sólo en inglés tienden a funcionar mejor, especialmente para los modelos tiny.eny base.en. Observamos que la diferencia se vuelve menos significativa para los modelos small.eny m

1.6 FORMATO
MULTITAREA
Los modelos .en para aplicaciones solo en inglés tienden a funcionar
mejor.

Entrenamos un conjunto de modelos de varios


tamaños para estudiar las propiedades de escala de
Whisper.

Durante el desarrollo y la evaluación iniciales,


observamos que los modelos Whisper tenían una
tendencia a transcribir conjeturas plausibles pero
casi siempre incorrectas para los nombres de los
hablantes.
1.6 FORMATO MULTITAREA

El rendimiento de Whisper varía mucho según el idioma. La siguiente figura muestra el


comportamiento por modelos de idioma. WER (tasa de erro de palabras) y CER (tasa de
error de caracteres)
1. DETALLES DE ENTRENAMIENTO

Traducción: 97%
Identificación de idioma: 79.7%

Whisper es competitivo con los sistemas ASR comerciales y de código abierto de última generación en la transcripción de formato
largo. Se compara la distribución de las tasas de error de palabras de seis sistemas ASR en siete conjuntos de datos de formato
largo, donde las longitudes de entrada van desde unos pocos minutos hasta unas pocas horas.
1. DETALLES DE ENTRENAMIENTO

El desempeño de Whisper es cercano al de los


transcriptores humanos profesionales. Este gráfico
muestra las distribuciones WER de 25 grabaciones del
conjunto de datos Kincaid46 transcritas por Whisper, los
mismos 4 sistemas ASR comerciales de la A-D, un
servicio de transcripción humana asistido por
computadora (E) y 4 servicios de transcripción humana
(F-I). El diagrama de caja se superpone con puntos que
indican los WER en grabaciones individuales, y el WER
agregado de las 25 grabaciones se anota en cada cuadro.
Gracias

También podría gustarte