Contacta con nosotros

Temario del curso

Introducción al AIOps predictivo

  • Panorama general del análisis predictivo en operaciones de TI
  • Fuentes de datos para la predicción (registros, métricas, eventos)
  • Conceptos clave en pronóstico de series temporales y patrones de anomalías

Diseño de modelos de predicción de incidentes

  • Etiquetado de incidentes históricos y comportamiento del sistema
  • Selección y entrenamiento de modelos (por ejemplo, LSTM, Random Forest, AutoML)
  • Evaluación del rendimiento del modelo y manejo de falsos positivos

Recopilación de datos e ingeniería de características

  • Ingesta y alineación de datos de registros y métricas para la entrada del modelo
  • Extracción de características de datos estructurados y no estructurados
  • Manejo del ruido y datos faltantes en los flujos operativos

Automatización del Análisis de la Causa Raíz (RCA)

  • Correlación basada en grafos de servicios e infraestructura
  • Uso de ML para inferir posibles causas raíz a partir de cadenas de eventos
  • Visualización del RCA con paneles conscientes de la topología

Remediación y Automatización de Flujos de Trabajo

  • Integración con plataformas de automatización (por ejemplo, Ansible, Rundeck)
  • Desencadenamiento de reversiones, reinicios o redireccionamiento de tráfico
  • Auditoría y documentación de las intervenciones automatizadas

Escalamiento de Flujos de Trabajo Inteligentes de AIOps

  • MLOps para observabilidad: reentrenamiento y versión de modelos
  • Ejecución de predicciones en tiempo real en nodos distribuidos
  • Mejores prácticas para implementar AIOps en entornos de producción

Estudios de Caso y Aplicaciones Prácticas

  • Análisis de datos reales de incidentes utilizando modelos de AIOps predictivo
  • Implementación de flujos de RCA con datos sintéticos y de producción
  • Revisión de casos de uso industriales: interrupciones en la nube, inestabilidad de microservicios, degradación de red

Resumen y Próximos Pasos

Requerimientos

  • Experiencia con sistemas de monitoreo como Prometheus o ELK
  • Conocimiento práctico de Python y aprendizaje automático básico
  • Familiaridad con los flujos de trabajo de gestión de incidentes

Perfil del participante

  • Ingenieros senior de confiabilidad del sitio (SREs)
  • Arquitectos de automatización de TI
  • Líderes de plataformas DevOps y observabilidad
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas