Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción a la Síntesis de Voz y Clonación de Voz
- Visión general de texto-a-discurso (TTS) y síntesis de voz neural
- Clonación de voz vs generación de discurso: casos de uso y límites
- Modelos clave: Tacotron, WaveNet, FastSpeech, VITS
Trabajando con Plataformas Comerciales
- Uso de ElevenLabs y Resemble AI
- Creación, clonación y edición de voces
- Acceso a API y flujos de trabajo texto-a-discurso
Construyendo con Herramientas de Código Abierto
- Instalación y configuración de Coqui TTS
- Entrenamiento de voces personalizadas y gestión de conjuntos de datos
- Generación de discurso con control fino (tono, velocidad, emoción)
Preparación de Datos y Gestión de Conjuntos de Datos de Voz
- Recolección y limpieza de muestras de voz
- Segmentación, etiquetado y alineamiento de transcripciones
- Fuentes éticas y consentimiento de voces
Integración de Aplicaciones
- Incorporación de TTS en sitios web y aplicaciones
- Creación de sistemas IVR y bots interactivos
- Generación de diálogos sintéticos para video y juegos
Evaluación de Calidad y Realismo
- MOS (Puntuación Media de Opinión) y pruebas de inteligibilidad
- Control de expresividad y prosodia
- Comparación de latencia, fidelidad y realismo
Consideraciones Éticas, Legales y de Gobierno
- Riesgos de deepfakes y uso responsable
- Consentimiento, atribución e implicaciones de derechos de autor
- Regulaciones y políticas organizacionales
Resumen y Pasos Siguientes
Requerimientos
- Conocimiento de fundamentos de aprendizaje automático
- Familiaridad con formatos de archivos de audio y herramientas de edición
- Habilidades básicas de programación en Python
Público Objetivo
- Desarrolladores y ingenieros de IA interesados en la síntesis de voz
- Creadores de contenido y tecnólogos de medios explorando generación de voz
- Equipos de I+D que construyen sistemas de audio personalizados o dinámicos
14 Horas