Programa del Curso
Introducción al Aprendizaje Automático (Machine Learning)
- Tipos de aprendizaje automático – supervisado vs no supervisado
- Del aprendizaje estadístico al aprendizaje automático
- El flujo de trabajo de minería de datos: comprensión del negocio, preparación de datos, modelado, despliegue
- Elección del algoritmo adecuado para la tarea
- Overfitting y el compromiso entre sesgo y varianza (bias-variance tradeoff)
Introducción a Python y Bibliotecas de Aprendizaje Automático
- Por qué usar lenguajes de programación para el aprendizaje automático
- Elección entre R y Python
- Curso intensivo de Python y Jupyter Notebooks
- Bibliotecas de Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Prueba y Evaluación de Algoritmos de Aprendizaje Automático
- Generalización, overfitting y validación del modelo
- Estrategias de evaluación: holdout, cross-validation, bootstrapping
- Métricas para regresión: ME, MSE, RMSE, MAPE
- Métricas para clasificación: precisión, matriz de confusión, clases desbalanceadas
- Visualización del rendimiento del modelo: curva de utilidad, curva ROC, curva de elevación (lift curve)
- Selección de modelos y búsqueda en cuadrícula para ajuste (grid search for tuning)
Preparación de Datos
- Importación y almacenamiento de datos en Python
- Análisis exploratorio y estadísticas descriptivas
- Manejo de valores faltantes y outliers
- Estandarización, normalización y transformación
- Recodificación de datos cualitativos y manipulación de datos con pandas
Algoritmos de Clasificación
- Clasificación binaria vs multiclase
- Regresión logística y funciones discriminantes
- Naïve Bayes, k-vecinos más cercanos (k-nearest neighbors)
- Árboles de decisión: CART, Bosques Aleatorios (Random Forests), Bagging, Boosting, XGBoost
- Máquinas de Vectores Soporte y núcleos (Support Vector Machines and kernels)
- Técnicas de aprendizaje en conjunto (ensemble learning techniques)
Regresión y Predicción Numérica
- Mínimos cuadrados y selección de variables
- Métodos de regularización: L1, L2
- Regresión polinomial y modelos no lineales
- Árboles de regresión y splines
Redes Neuronales
- Introducción a las redes neuronales y aprendizaje profundo (deep learning)
- Funciones de activación, capas y retropropagación (backpropagation)
- Perceptrones multicapa (Multilayer perceptrons - MLP)
- Uso de TensorFlow o PyTorch para modelado básico de redes neuronales
- Redes neuronales para clasificación y regresión
Pronóstico de Ventas y Análisis Predictivo
- Series temporales vs pronóstico basado en regresión
- Manejo de datos estacionales y tendencias (trend-based data)
- Construcción de un modelo de pronóstico de ventas utilizando técnicas de aprendizaje automático
- Evaluación de la precisión del pronóstico y la incertidumbre
- Interpretación e interpretación empresarial y comunicación de resultados
Aprendizaje No Supervisado (Unsupervised Learning)
- Técnicas de clustering: k-means, k-medoids, clustering jerárquico, SOMs (Self-Organizing Maps)
- Reducción de dimensionalidad: PCA, análisis factorial, SVD
- Escalamiento multidimensional (multidimensional scaling)
Minería de Texto (Text Mining)
- Preprocesamiento y tokenización de texto
- Bolsa de palabras, stemming y lematización (lemmatization)
- Análisis de sentimiento y frecuencia de palabras
- Visualización de datos de texto con nubes de palabras (word clouds)
Sistemas de Recomendación (Recommendation Systems)
- Filtrado colaborativo basado en usuarios y elementos (user-based and item-based collaborative filtering)
- Diseño y evaluación de motores de recomendación (recommendation engines)
Minería de Patrones de Asociación (Association Pattern Mining)
- Conjuntos de elementos frecuentes y algoritmo Apriori
- Análisis de cesta de compra y ratio de elevación (lift ratio)
Detección de Anomalías (Outlier Detection)
- Análisis de valores extremos (extreme value analysis)
- Métodos basados en distancia y densidad (distance-based and density-based methods)
- Detección de anomalías en datos de alta dimensión (high-dimensional data)
Estudio de Caso de Aprendizaje Automático (Machine Learning Case Study)
- Comprensión del problema empresarial
- Preprocesamiento de datos y ingeniería de características (feature engineering)
- Selección de modelos y ajuste de parámetros (parameter tuning)
- Evaluación y presentación de resultados (presentation of findings)
- Despliegue del modelo (deployment)
Resumen y Pasos Siguientes (Summary and Next Steps)
Requerimientos
- Conocimientos básicos de conceptos de aprendizaje automático, como el aprendizaje supervisado y no supervisado
- Familiaridad con la programación en Python (variables, bucles, funciones)
- Alguna experiencia con el manejo de datos usando bibliotecas como pandas o NumPy es útil, pero no es requerida
- No se espera ninguna experiencia previa con modelado avanzado o redes neuronales
Público objetivo
- Científicos de datos
- Analistas de negocios
- Ingenieros de software y profesionales técnicos que trabajan con datos
Testimonios (2)
el ecosistema de ML no solo incluye MLFlow sino también Optuna, hyperops, docker y docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Curso - MLflow
Traducción Automática
Disfruté participar en el entrenamiento Kubeflow, que se llevó a cabo de forma remota. Este entrenamiento me permitió consolidar mis conocimientos sobre los servicios de AWS, K8s y todas las herramientas DevOps relacionadas con Kubeflow, que son las bases necesarias para abordar adecuadamente el tema. Quiero agradecer a Malawski Marcin por su paciencia y profesionalismo en la formación y en la orientación sobre las mejores prácticas. Malawski aborda el tema desde diferentes ángulos, utilizando distintas herramientas de implementación Ansible, EKS kubectl, Terraform. Ahora estoy definitivamente convencido de que me dirijo al campo de aplicación correcto.
Guillaume Gautier - OLEA MEDICAL | Improved diagnosis for life TM
Curso - Kubeflow
Traducción Automática