Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Cada sesión tiene una duración de 2 horas
Día 1: Sesión 1: Panorama empresarial del porqué de la Inteligencia Empresarial de Big Data en el Gobierno
- Estudios de caso del NIH, DoE
- Tasa de adopción de Big Data en agencias gubernamentales y cómo están alineando sus operaciones futuras alrededor del Análisis Predictivo con Big Data
- Áreas de aplicación a gran escala en DoD, NSA, IRS, USDA, etc.
- Interfaz de Big Data con datos heredados
- Comprensión básica de las tecnologías habilitantes en el análisis predictivo
- Integración de datos y visualización en cuadros de mando (dashboards)
- Gestión del fraude
- Generación de reglas comerciales/detección de fraude
- Detección de amenazas y perfilado
- Análisis costo-beneficio para la implementación de Big Data
Día 1: Sesión 2: Introducción al Big Data - 1
- Características principales del Big Data: volumen, variedad, velocidad y veracidad. Arquitectura MPP para el volumen.
- Bases de datos de almacenamiento (Data Warehouses) – esquema estático, conjunto de datos de evolución lenta
- Base de datos MPP como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluciones basadas en Hadoop – sin condiciones sobre la estructura del conjunto de datos.
- Patrón típico: HDFS, MapReduce (crunch), recuperación desde HDFS
- Lote (Batch): adecuado para análisis no interactivo
- Volumen: CEP datos en streaming
- Opciones típicas – productos CEP (ej. Infostreams, Apama, MarkLogic, etc.)
- Menos preparados para producción – Storm/S4
- Bases de datos NoSQL – (columnares y clave-valor): las más adecuadas como complemento analítico a data warehouse/base de datos
Día 1: Sesión 3: Introducción al Big Data - 2
Soluciones NoSQL
- Almacén KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Almacén KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Almacén KV (Jerárquico) - GT.m, Cache
- Almacén KV (Ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Caché KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Almacén de tuplas - Gigaspaces, Coord, Apache River
- Bases de datos de objetos - ZopeDB, DB40, Shoal
- Almacén de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Almacén columnar ancho - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variaciones de datos: Introducción a los problemas de limpieza de datos en el Big Data
- RDBMS – estructura/esquema estático, no promueve un entorno ágil y exploratorio.
- NoSQL – semiestructurado, suficiente estructura para almacenar datos sin un esquema exacto previo al almacenamiento
- Problemas de limpieza de datos
Día 1: Sesión 4: Introducción al Big Data - 3: Hadoop
- ¿Cuándo seleccionar Hadoop?
- Datos ESTRUCTURADOS - Las bases de datos y almacenes de datos empresariales pueden almacenar grandes cantidades de datos (con un costo) pero imponen estructura (no es bueno para la exploración activa)
- Datos SEMIESTRUCTURADOS – difíciles de manejar con soluciones tradicionales (DW/DB)
- Almacenamiento de datos = ESFUERZO ENORME y estático incluso después de la implementación
- Para variedad y volumen de datos, procesados en hardware comercial – HADOOP
- Hardware comercial necesario para crear un clúster Hadoop
Introducción a MapReduce /HDFS
- MapReduce – distribución de la computación en múltiples servidores
- HDFS – hacer los datos disponibles localmente para el proceso de cómputo (con redundancia)
- Datos – pueden ser no estructurados/sin esquema (a diferencia del RDBMS)
- Responsabilidad del desarrollador de dar sentido a los datos
- Programar MapReduce = trabajar con Java (pros/contras), carga manual de datos en HDFS
Día 2: Sesión 1: Ecosistema de Big Data - Construcción de Big Data ETL: universo de herramientas de Big Data, qué usar y cuándo?
- Hadoop vs. Otras soluciones NoSQL
- Para acceso interactivo y aleatorio a los datos
- Hbase (base de datos orientada a columnas) sobre Hadoop
- Acceso aleatorio a los datos pero con restricciones impuestas (máx 1 PB)
- No es bueno para análisis ad-hoc, bueno para registro, conteo, series temporales
- Sqoop - Importar desde bases de datos a Hive o HDFS (acceso JDBC/ODBC)
- Flume – Transmitir datos (ej. datos de registro) hacia HDFS
Día 2: Sesión 2: Sistema de gestión de Big Data
- Componentes móviles, nodos de cómputo inician/fallan: ZooKeeper - Para servicios de configuración/coordinación/nombrado
- Pipeline/flujo de trabajo complejo: Oozie – gestionar flujo de trabajo, dependencias, cadena de margarita (daisy chain)
- Desplegar, configurar, gestión de clústeres, actualizaciones etc. (admin sys): Ambari
- En la Nube: Whirr
Día 2: Sesión 3: Análisis predictivo en Inteligencia Empresarial - 1: Técnicas fundamentales y BI basado en aprendizaje automático:
- Introducción al aprendizaje automático (Machine learning)
- Aprendizaje de técnicas de clasificación
- Predicción Bayesiana - preparación del archivo de entrenamiento
- Máquina de vectores de soporte (SVM)
- KNN p-Tree Álgebra y minería vertical
- Red neuronal
- Problema de grandes variables en Big Data - Bosque aleatorio (RF)
- Problema de automatización en Big Data – RF ensemble multi-modelo
- Automatización a través de Soft10-M
- Herramienta de análisis de texto - Treeminer
- Aprendizaje ágil
- Aprendizaje basado en agentes
- Aprendizaje distribuido
- Introducción a herramientas de código abierto para análisis predictivo: R, Rapidminer, Mahout
Día 2: Sesión 4: Ecosistema de análisis predictivo - 2: Problemas comunes de análisis predictivo en el Gobierno
- Análisis de información
- Análisis visual
- Análisis predictivo estructurado
- Análisis predictivo no estructurado
- Perfilado de amenazas/fraudstar/proveedores
- Motor de recomendación
- Detección de patrones
- Descubrimiento de reglas/escenarios – fallo, fraude, optimización
- Descubrimiento de la causa raíz
- Análisis de sentimiento
- Analítica CRM
- Análisis de redes
- Análisis de texto
- Revisión asistida por tecnología
- Análisis de fraude
- Análisis en tiempo real
Día 3: Sesión 1: Análisis en tiempo real y escalable sobre Hadoop
- Por qué fallan los algoritmos de análisis comunes en Hadoop/HDFS
- Apache Hama - para computación distribuida síncrona masiva
- Apache SPARK - para computación en clústeres para análisis en tiempo real
- CMU Graphics Lab2 - Enfoque asíncrono basado en grafos para la computación distribuida
- Enfoque basado en Álgebra p-KNN de Treeminer para reducir el costo operativo del hardware
Día 3: Sesión 2: Herramientas para eDiscovery y Forensia
- eDiscovery sobre Big Data vs. datos heredados – una comparación de costo y rendimiento
- Codificación predictiva y revisión asistida por tecnología (TAR)
- Demostración en vivo de un producto Tar (vMiner) para comprender cómo funciona TAR para un descubrimiento más rápido
- Indexación más rápida a través de HDFS – velocidad de los datos
- NLP o procesamiento del lenguaje natural – varias técnicas y productos de código abierto
- eDiscovery en idiomas extranjeros - tecnología para el procesamiento de idiomas extranjeros
Día 3: Sesión 3: Inteligencia Empresarial de Big Data para Ciberseguridad – Comprensión de las vistas completas de 360 grados desde la rápida recopilación de datos hasta la identificación de amenazas
- Comprensión de los fundamentos del análisis de seguridad - superficie de ataque, mala configuración de seguridad, defensas del host
- Infraestructura de red/ gran tubería de datos / ETL de respuesta para análisis en tiempo real
- Predictivo vs prescriptivo – reglas fijas basadas en reglas vs descubrimiento automático de reglas de amenaza desde metadatos
Día 3: Sesión 4: Big Data en USDA: Aplicaciones en Agricultura
- Introducción al IoT (Internet de las Cosas) para la agricultura - Big Data basado en sensores y control
- Introducción a la imagen satelital y sus aplicaciones en la agricultura
- Integración de datos de sensores e imágenes para fertilidad del suelo, recomendaciones de cultivo y pronóstico
- Seguros agrícolas y Big Data
- Pronóstico de pérdida de cultivos
Día 4: Sesión 1: Prevención de fraude mediante Inteligencia Empresarial de Big Data en el Gobierno - Análisis de Fraude:
- Clasificación básica del análisis de fraude - basado en reglas vs análisis predictivo
- Aprendizaje automático supervisado vs no supervisado para la detección de patrones de fraude
- Fraude de proveedores/sobre facturas por proyectos
- Fraude en Medicare y Medicaid - técnicas de detección de fraude para el procesamiento de reclamaciones
- Fraudes de reembolso de viajes
- Fraudes de devoluciones del IRS
- Se proporcionarán estudios de caso y demostraciones en vivo donde los datos estén disponibles.
Día 4: Sesión 2: Análisis de Redes Sociales - Recolección e inteligencia análisis
- API ETL de Big Data para extraer datos de redes sociales
- Texto, imágenes, metadatos y video
- Análisis de sentimiento desde el feed de redes sociales
- Filtrado contextual y no contextual del feed de redes sociales
- Cuadro de mando (Dashboard) de redes sociales para integrar diversas redes sociales
- Perfilado automatizado de perfiles de redes sociales
- Se dará una demo en vivo de cada análisis a través de la herramienta Treeminer.
Día 4: Sesión 3: Análisis de Big Data en procesamiento de imágenes y flujos de video
- Técnicas de almacenamiento de imágenes en Big Data - Solución de almacenamiento para datos que exceden los petabytes
- LTFS y LTO
- GPFS-LTFS (Solución de almacenamiento en capas para grandes datos de imagen)
- Fundamentos del análisis de imágenes
- Reconocimiento de objetos
- Segmentación de imágenes
- Rastreo de movimiento
- Reconstrucción de imagen 3-D
Día 4: Sesión 4: Aplicaciones de Big Data en NIH:
- Áreas emergentes de la bioinformática
- Meta-genómica y problemas de minería de Big Data
- Análisis predictivo con Big Data para Farmacogenómica, Metabolómica y Proteómica
- Big Data en el proceso genómico downstream (secuente)
- Aplicación del análisis predictivo de Big data en la salud pública
Cuadro de mando (Dashboard) de Big Data para rápida accesibilidad y visualización de diversos datos:
- Integración de la plataforma de aplicaciones existente con el Cuadro de mando de Big Data
- Gestión de Big Data
- Estudio de caso del Cuadro de mando de Big Data: Tableau y Pentaho
- Usar la aplicación de Big Data para impulsar servicios basados en ubicación en el gobierno.
- Sistema de seguimiento y gestión
Día 5: Sesión 1: Cómo justificar la implementación de Inteligencia Empresarial de Big Data dentro de una organización:
- Definición del ROI para la implementación de Big Data
- Estudios de caso sobre el ahorro de tiempo de los analistas para la recopilación y preparación de datos – aumento en la ganancia de productividad
- Estudios de caso de ganancias de ingresos al ahorrar el costo de licencias de bases de datos
- Ganancias de ingresos por servicios basados en ubicación
- Ahorros por prevención de fraude
- Un enfoque integrado basado en hojas de cálculo para calcular el gasto aproximado vs. ganancia/ahorro de ingresos de la implementación de Big Data.
Día 5: Sesión 2: Procedimiento paso a paso para reemplazar sistemas de datos heredados por sistemas de Big Data:
- Comprensión del Mapa de ruta práctico de migración de Big Data
- ¿Qué información importante se necesita antes de diseñar una implementación de Big Data?
- ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
- ¿Cómo estimar el crecimiento de los datos?
- Estudios de caso
Día 5: Sesión 4: Revisión de proveedores de Big Data y revisión de sus productos. Sesión de preguntas y respuestas:
- Accenture
- APTEAN (anteriormente CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anteriormente 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Parte de EMC)
Requerimientos
- Conocimiento básico del funcionamiento empresarial y los sistemas de datos en el gobierno dentro de su dominio
- Comprensión básica de SQL/Oracle o bases de datos relacionales
- Comprensión básica de Estadística (a nivel de hojas de cálculo)
35 Horas
Testimonios (1)
La capacidad del formador de alinear el curso con los requisitos de la organización, y no solo proporcionarlo por el mero hecho de impartirlo.
Masilonyane - Revenue Services Lesotho
Curso - Big Data Business Intelligence for Govt. Agencies
Traducción Automática