0 calificaciones0% encontró este documento útil (0 votos)
12 vistas3 páginas
Whisper es un sistema de reconocimiento de voz entrenado con más de 680,000 horas de datos multilingües que no solo convierte voz a texto, sino que también traduce al inglés. Aunque no es fácil de usar directamente, varios programadores han creado aplicaciones amigables impulsadas por Whisper. Whisper usa codificadores y decodificadores con transformers para capturar audio, separarlo en segmentos, codificarlos a secuencias y luego decodificarlos a texto usando características como identificación de idioma y traducción multilingü
Descripción original:
Título original
Cuál es la inteligencia artificial que convierte voz a texto
Whisper es un sistema de reconocimiento de voz entrenado con más de 680,000 horas de datos multilingües que no solo convierte voz a texto, sino que también traduce al inglés. Aunque no es fácil de usar directamente, varios programadores han creado aplicaciones amigables impulsadas por Whisper. Whisper usa codificadores y decodificadores con transformers para capturar audio, separarlo en segmentos, codificarlos a secuencias y luego decodificarlos a texto usando características como identificación de idioma y traducción multilingü
Whisper es un sistema de reconocimiento de voz entrenado con más de 680,000 horas de datos multilingües que no solo convierte voz a texto, sino que también traduce al inglés. Aunque no es fácil de usar directamente, varios programadores han creado aplicaciones amigables impulsadas por Whisper. Whisper usa codificadores y decodificadores con transformers para capturar audio, separarlo en segmentos, codificarlos a secuencias y luego decodificarlos a texto usando características como identificación de idioma y traducción multilingü
¿Qué es Whisper? Según se explica en la página oficial del proyecto, Whisper "es un sistema de reconocimiento automático de voz (ASR) entrenado con más de 680,000 horas de datos supervisados multilingües y multitarea recopilados de la web". El programa no solo es capaz de convertir a texto lo que escucha, sino que también de traducirlo al inglés en tiempo (por ahora) con resultados sorprendentes. La herramienta es muy precisa, reconoce la puntuación y es capaz de entender hasta las voces veloces y complejas.
¿Cómo usar Whisper?
El problema con Whisper es que (todavía) no es fácil de utilizar. Como un gran número de aplicaciones de inteligencia artificial, es necesario utilizar un programa como Google Colab que permite a los usuarios "escribir y ejecutar código abierto de Python en el navegador". Aunque este proceso no es tan complejo como suena (y existen cantidad de tutoriales en YouTube que te ayudarían a hacerlo), sigue siendo engorroso sobre todo para quienes no somos desarrolladores. Pero gracias a que Whisper es un desarrollo de código abierto, varios programadores han comenzado a crear aplicaciones más amigables impulsadas por Whisper que, una vez instaladas, te permiten probar las mieles de la transcripción de texto asistida por la inteligencia artificial. Está basado en una arquitectura de codificadores y decodificadores con trasnformers. El audio es capturado y separado en partes de 30 segundos para pasar a un codificador que lo transforma en secuencias que el modelo puede entender. Luego cada una las partes se pasan a un decodificador entrenado para transcribir la voz a texto, utilizando features especiales que dirigen al modelo único. Este realiza tareas como identificación de idioma, marcas de tiempo a nivel de frase, transcripción de voz multilingüe y traducción de voz al inglés. Además, Whisper, como muchos otros modelos, cuenta con distintas versiones para su uso. Estas versiones cambian en la cantidad de parámetros que tienen y, por supuesto, el peso de cada modelo en tamaño es afectado por la cantidad de parámetros con los que fue entrenado, de modo que a más parámetros más pesa el modelo y más recursos requiere.
¿Cómo puedo usar Whisper?
En Python, es bastante sencillo, lo puedes ejecutar incluso en un notebook de Colab. Este es el código: De no tener Whisper como librería solo debes instalarla con: