Programa del Curso
Introducción
- Aprendizaje a través del refuerzo positivo
Elementos de Reinforcement Learning
Términos importantes (Acciones, Estados, Recompensas, Política, Valor, Valor Q, etc.)
Descripción general de los métodos de soluciones tabulares
Creación de un agente software
Comprensión de los enfoques basados en valores, políticas y modelos
Trabajar con el Proceso de Decisión de Markov (MDP)
Cómo definen las políticas la forma de comportarse de un agente
Uso de métodos de Monte Carlo
Aprendizaje de Diferencias Temporales
n-paso Bootstrapping
Métodos de solución aproximados
Predicción en política con aproximación
Control en la política con aproximación
Métodos fuera de política con aproximación
Descripción de los seguimientos de elegibilidad
Uso de métodos de gradiente de políticas
Resumen y conclusión
Requerimientos
- Experiencia con el aprendizaje automático
- Programming Experiencia
Audiencia
- Científicos de datos