Unidad 2. Una introducción amigable a las aplicaciones de audio

Bienvenido a la segunda unidad del curso de audio de Hugging Face¡, Anteriormente, exploramos los conceptos fundamentales de los datos de audio y aprendimo como trabajar con conjuntos de datos de audio usando las librerias 🤗 Datasets y 🤗 Transformers. Discutimos diferentes conceptos como frecuencia de muestreo, amplitud, profundidad de bits, forma de onda y espectrogramas, y vimos como preprocesar datos para un modelo pre-entrenado.

En este punto quiza estes ansioso por aprender acerca de las tareas de audio que 🤗 Transformers puede realizar, y ahora que tienes los conocimientos fundamentales para comprenderlo todo, echemos un vistazo a unos impresionantes ejemplos de aplicaciones de audio.

Clasificación de Audio: Categorizar facilmente un clip de audio. Puedes identificar si una grabación es de un ladrido de un perro o un maullido de gato, o a que género corresponde una cación.
Reconocimiento automático de voz: Transformar un clip de audio en texto a traves de una transcripción automática. Puedes obtener la representación en texto de una grabación en donde alguien habla. Muy útil para tomar notas!
Diarización de hablantes Alguna vez te has preguntado ¿Quién habla en una grabación? con 🤗 Transformers, puedes identificar que persona esta hablando en un determinado tiempo del clip de audio. Imaginate ser capaz de de diferencias entre “Alice” y “Bob” en una grabación en donde ambos estan teniendo una conversación.
Texto a voz: Crear una narración a partir de un texto que puede ser usada para crear un audio book, ayuda con la accesibilidad, o le da la voz a un NPC en un juego. con 🤗 Transformers puedes hacer facilmente esto

En esta unidad, tu aprenderas como usar modelos pre entrenados para algunas de estas tareas usando la función pipeline() de 🤗 Transformers. Especificamente, veremos como usar modelos pre-entrenados para las tareas de clasificación de audio y reconocimiento automático de la voz. Comencemos!

< > Update on GitHub

Audio Course

Unidad 2. Una introducción amigable a las aplicaciones de audio