Contacta con nosotros

Temario del curso

Cada sesión tiene una duración de 2 horas

Día 1: Sesión 1: Panorama empresarial del porqué de la Inteligencia Empresarial de Big Data en el Gobierno

  • Estudios de caso del NIH, DoE
  • Tasa de adopción de Big Data en agencias gubernamentales y cómo están alineando sus operaciones futuras alrededor del Análisis Predictivo con Big Data
  • Áreas de aplicación a gran escala en DoD, NSA, IRS, USDA, etc.
  • Interfaz de Big Data con datos heredados
  • Comprensión básica de las tecnologías habilitantes en el análisis predictivo
  • Integración de datos y visualización en cuadros de mando (dashboards)
  • Gestión del fraude
  • Generación de reglas comerciales/detección de fraude
  • Detección de amenazas y perfilado
  • Análisis costo-beneficio para la implementación de Big Data

Día 1: Sesión 2: Introducción al Big Data - 1

  • Características principales del Big Data: volumen, variedad, velocidad y veracidad. Arquitectura MPP para el volumen.
  • Bases de datos de almacenamiento (Data Warehouses) – esquema estático, conjunto de datos de evolución lenta
  • Base de datos MPP como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop – sin condiciones sobre la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (crunch), recuperación desde HDFS
  • Lote (Batch): adecuado para análisis no interactivo
  • Volumen: CEP datos en streaming
  • Opciones típicas – productos CEP (ej. Infostreams, Apama, MarkLogic, etc.)
  • Menos preparados para producción – Storm/S4
  • Bases de datos NoSQL – (columnares y clave-valor): las más adecuadas como complemento analítico a data warehouse/base de datos

Día 1: Sesión 3: Introducción al Big Data - 2

Soluciones NoSQL

  • Almacén KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Almacén KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Almacén KV (Jerárquico) - GT.m, Cache
  • Almacén KV (Ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Caché KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Almacén de tuplas - Gigaspaces, Coord, Apache River
  • Bases de datos de objetos - ZopeDB, DB40, Shoal
  • Almacén de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Almacén columnar ancho - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variaciones de datos: Introducción a los problemas de limpieza de datos en el Big Data

  • RDBMS – estructura/esquema estático, no promueve un entorno ágil y exploratorio.
  • NoSQL – semiestructurado, suficiente estructura para almacenar datos sin un esquema exacto previo al almacenamiento
  • Problemas de limpieza de datos

Día 1: Sesión 4: Introducción al Big Data - 3: Hadoop

  • ¿Cuándo seleccionar Hadoop?
  • Datos ESTRUCTURADOS - Las bases de datos y almacenes de datos empresariales pueden almacenar grandes cantidades de datos (con un costo) pero imponen estructura (no es bueno para la exploración activa)
  • Datos SEMIESTRUCTURADOS – difíciles de manejar con soluciones tradicionales (DW/DB)
  • Almacenamiento de datos = ESFUERZO ENORME y estático incluso después de la implementación
  • Para variedad y volumen de datos, procesados en hardware comercial – HADOOP
  • Hardware comercial necesario para crear un clúster Hadoop

Introducción a MapReduce /HDFS

  • MapReduce – distribución de la computación en múltiples servidores
  • HDFS – hacer los datos disponibles localmente para el proceso de cómputo (con redundancia)
  • Datos – pueden ser no estructurados/sin esquema (a diferencia del RDBMS)
  • Responsabilidad del desarrollador de dar sentido a los datos
  • Programar MapReduce = trabajar con Java (pros/contras), carga manual de datos en HDFS

Día 2: Sesión 1: Ecosistema de Big Data - Construcción de Big Data ETL: universo de herramientas de Big Data, qué usar y cuándo?

  • Hadoop vs. Otras soluciones NoSQL
  • Para acceso interactivo y aleatorio a los datos
  • Hbase (base de datos orientada a columnas) sobre Hadoop
  • Acceso aleatorio a los datos pero con restricciones impuestas (máx 1 PB)
  • No es bueno para análisis ad-hoc, bueno para registro, conteo, series temporales
  • Sqoop - Importar desde bases de datos a Hive o HDFS (acceso JDBC/ODBC)
  • Flume – Transmitir datos (ej. datos de registro) hacia HDFS

Día 2: Sesión 2: Sistema de gestión de Big Data

  • Componentes móviles, nodos de cómputo inician/fallan: ZooKeeper - Para servicios de configuración/coordinación/nombrado
  • Pipeline/flujo de trabajo complejo: Oozie – gestionar flujo de trabajo, dependencias, cadena de margarita (daisy chain)
  • Desplegar, configurar, gestión de clústeres, actualizaciones etc. (admin sys): Ambari
  • En la Nube: Whirr

Día 2: Sesión 3: Análisis predictivo en Inteligencia Empresarial - 1: Técnicas fundamentales y BI basado en aprendizaje automático:

  • Introducción al aprendizaje automático (Machine learning)
  • Aprendizaje de técnicas de clasificación
  • Predicción Bayesiana - preparación del archivo de entrenamiento
  • Máquina de vectores de soporte (SVM)
  • KNN p-Tree Álgebra y minería vertical
  • Red neuronal
  • Problema de grandes variables en Big Data - Bosque aleatorio (RF)
  • Problema de automatización en Big Data – RF ensemble multi-modelo
  • Automatización a través de Soft10-M
  • Herramienta de análisis de texto - Treeminer
  • Aprendizaje ágil
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a herramientas de código abierto para análisis predictivo: R, Rapidminer, Mahout

Día 2: Sesión 4: Ecosistema de análisis predictivo - 2: Problemas comunes de análisis predictivo en el Gobierno

  • Análisis de información
  • Análisis visual
  • Análisis predictivo estructurado
  • Análisis predictivo no estructurado
  • Perfilado de amenazas/fraudstar/proveedores
  • Motor de recomendación
  • Detección de patrones
  • Descubrimiento de reglas/escenarios – fallo, fraude, optimización
  • Descubrimiento de la causa raíz
  • Análisis de sentimiento
  • Analítica CRM
  • Análisis de redes
  • Análisis de texto
  • Revisión asistida por tecnología
  • Análisis de fraude
  • Análisis en tiempo real

Día 3: Sesión 1: Análisis en tiempo real y escalable sobre Hadoop

  • Por qué fallan los algoritmos de análisis comunes en Hadoop/HDFS
  • Apache Hama - para computación distribuida síncrona masiva
  • Apache SPARK - para computación en clústeres para análisis en tiempo real
  • CMU Graphics Lab2 - Enfoque asíncrono basado en grafos para la computación distribuida
  • Enfoque basado en Álgebra p-KNN de Treeminer para reducir el costo operativo del hardware

Día 3: Sesión 2: Herramientas para eDiscovery y Forensia

  • eDiscovery sobre Big Data vs. datos heredados – una comparación de costo y rendimiento
  • Codificación predictiva y revisión asistida por tecnología (TAR)
  • Demostración en vivo de un producto Tar (vMiner) para comprender cómo funciona TAR para un descubrimiento más rápido
  • Indexación más rápida a través de HDFS – velocidad de los datos
  • NLP o procesamiento del lenguaje natural – varias técnicas y productos de código abierto
  • eDiscovery en idiomas extranjeros - tecnología para el procesamiento de idiomas extranjeros

Día 3: Sesión 3: Inteligencia Empresarial de Big Data para Ciberseguridad – Comprensión de las vistas completas de 360 grados desde la rápida recopilación de datos hasta la identificación de amenazas

  • Comprensión de los fundamentos del análisis de seguridad - superficie de ataque, mala configuración de seguridad, defensas del host
  • Infraestructura de red/ gran tubería de datos / ETL de respuesta para análisis en tiempo real
  • Predictivo vs prescriptivo – reglas fijas basadas en reglas vs descubrimiento automático de reglas de amenaza desde metadatos

Día 3: Sesión 4: Big Data en USDA: Aplicaciones en Agricultura

  • Introducción al IoT (Internet de las Cosas) para la agricultura - Big Data basado en sensores y control
  • Introducción a la imagen satelital y sus aplicaciones en la agricultura
  • Integración de datos de sensores e imágenes para fertilidad del suelo, recomendaciones de cultivo y pronóstico
  • Seguros agrícolas y Big Data
  • Pronóstico de pérdida de cultivos

Día 4: Sesión 1: Prevención de fraude mediante Inteligencia Empresarial de Big Data en el Gobierno - Análisis de Fraude:

  • Clasificación básica del análisis de fraude - basado en reglas vs análisis predictivo
  • Aprendizaje automático supervisado vs no supervisado para la detección de patrones de fraude
  • Fraude de proveedores/sobre facturas por proyectos
  • Fraude en Medicare y Medicaid - técnicas de detección de fraude para el procesamiento de reclamaciones
  • Fraudes de reembolso de viajes
  • Fraudes de devoluciones del IRS
  • Se proporcionarán estudios de caso y demostraciones en vivo donde los datos estén disponibles.

Día 4: Sesión 2: Análisis de Redes Sociales - Recolección e inteligencia análisis

  • API ETL de Big Data para extraer datos de redes sociales
  • Texto, imágenes, metadatos y video
  • Análisis de sentimiento desde el feed de redes sociales
  • Filtrado contextual y no contextual del feed de redes sociales
  • Cuadro de mando (Dashboard) de redes sociales para integrar diversas redes sociales
  • Perfilado automatizado de perfiles de redes sociales
  • Se dará una demo en vivo de cada análisis a través de la herramienta Treeminer.

Día 4: Sesión 3: Análisis de Big Data en procesamiento de imágenes y flujos de video

  • Técnicas de almacenamiento de imágenes en Big Data - Solución de almacenamiento para datos que exceden los petabytes
  • LTFS y LTO
  • GPFS-LTFS (Solución de almacenamiento en capas para grandes datos de imagen)
  • Fundamentos del análisis de imágenes
  • Reconocimiento de objetos
  • Segmentación de imágenes
  • Rastreo de movimiento
  • Reconstrucción de imagen 3-D

Día 4: Sesión 4: Aplicaciones de Big Data en NIH:

  • Áreas emergentes de la bioinformática
  • Meta-genómica y problemas de minería de Big Data
  • Análisis predictivo con Big Data para Farmacogenómica, Metabolómica y Proteómica
  • Big Data en el proceso genómico downstream (secuente)
  • Aplicación del análisis predictivo de Big data en la salud pública

Cuadro de mando (Dashboard) de Big Data para rápida accesibilidad y visualización de diversos datos:

  • Integración de la plataforma de aplicaciones existente con el Cuadro de mando de Big Data
  • Gestión de Big Data
  • Estudio de caso del Cuadro de mando de Big Data: Tableau y Pentaho
  • Usar la aplicación de Big Data para impulsar servicios basados en ubicación en el gobierno.
  • Sistema de seguimiento y gestión

Día 5: Sesión 1: Cómo justificar la implementación de Inteligencia Empresarial de Big Data dentro de una organización:

  • Definición del ROI para la implementación de Big Data
  • Estudios de caso sobre el ahorro de tiempo de los analistas para la recopilación y preparación de datos – aumento en la ganancia de productividad
  • Estudios de caso de ganancias de ingresos al ahorrar el costo de licencias de bases de datos
  • Ganancias de ingresos por servicios basados en ubicación
  • Ahorros por prevención de fraude
  • Un enfoque integrado basado en hojas de cálculo para calcular el gasto aproximado vs. ganancia/ahorro de ingresos de la implementación de Big Data.

Día 5: Sesión 2: Procedimiento paso a paso para reemplazar sistemas de datos heredados por sistemas de Big Data:

  • Comprensión del Mapa de ruta práctico de migración de Big Data
  • ¿Qué información importante se necesita antes de diseñar una implementación de Big Data?
  • ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
  • ¿Cómo estimar el crecimiento de los datos?
  • Estudios de caso

Día 5: Sesión 4: Revisión de proveedores de Big Data y revisión de sus productos. Sesión de preguntas y respuestas:

  • Accenture
  • APTEAN (anteriormente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte de EMC)

Requerimientos

  • Conocimiento básico del funcionamiento empresarial y los sistemas de datos en el gobierno dentro de su dominio
  • Comprensión básica de SQL/Oracle o bases de datos relacionales
  • Comprensión básica de Estadística (a nivel de hojas de cálculo)
 35 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas