Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTELIGENCIA ARTIFICIAL
WHISPER
“La inteligencia artificial puede ser la mejor o la peor cosa que le
haya sucedido a la humanidad."
Stephen Hawking
OBJETIVO.
1. ¿Origen de Whisper?
1.1 ¿Qué es Whisper?
1.2 Ventajas y desventajas de Whisper.
1.3 Whisper OpenAI.
1.4 Datos sobre Whisper
1.5 Whisper; funcionamiento
1.6 Formato Multitarea.
1.7 Detalles de entrenamiento
SEMBLANZA.
Ventajas Desventajas
• Entrenado en 680.000 horas de datos supervisados multilingües y • Problemas de privacidad: comunicaciones empresariales.
multitarea recopilados de la web. • Seguridad de los datos: Existe el riesgo de que los datos puedan ser
• Mayor solidez ante los acentos, el ruido de fondo y el lenguaje vulnerables a violaciones de seguridad o accesos no autorizados.
técnico • Adopción y aceptación: reacios a adoptar tecnologías de inteligencia
• Permite la transcripción en varios idiomas. artificial.
• Modelos de código abierto y código de inferencia. • Errores de IA: existe la posibilidad de que Whisper AI cometa errores
• La API de Whisper Open AI le permite funcionar en múltiples en el procesamiento y análisis de datos.
plataformas, lo que la hace accesible a todo el mundo • Dependencia tecnológica: interrupciones en el servicio o problemas
técnicos.
1.3 WHISPER.
¿Qué es?
1.4 DATOS SOBRE WHISPER.
1.5 WHISPER FUNCIONAMIENTO.
1.5 WHISPER FUNCIONAMIENTO.
1.5 WHISPER FUNCIONAMIENTO.
• Entrada de audio.
• Entrada de audio.
• Convoluciones
La segunda capa de convolución tiene un paso de dos. Luego se agregan incrustaciones de
posición sinusoidal a la salida del bloque inicial, después de lo cual se aplican los bloques
Transformer del codificador.
1.5 WHISPER FUNCIONAMIENTO.
• Incrustaciones de posición sinusoidal.
1.6 FORMATO
MULTITAREA
Los modelos .en para aplicaciones solo en inglés tienden a funcionar
mejor.
Traducción: 97%
Identificación de idioma: 79.7%
Whisper es competitivo con los sistemas ASR comerciales y de código abierto de última generación en la transcripción de formato
largo. Se compara la distribución de las tasas de error de palabras de seis sistemas ASR en siete conjuntos de datos de formato
largo, donde las longitudes de entrada van desde unos pocos minutos hasta unas pocas horas.
1. DETALLES DE ENTRENAMIENTO