Programa del Curso

===== Día 01 ===== Descripción general de Big Data Business Intelligence for Criminal Intelligence Analysis

  • Casos de estudio de las fuerzas del orden - Policía predictiva
  • Tasa de adopción de Big Data en las Fuerzas del Orden y cómo están alineando sus operaciones futuras en torno a Big Data Predictive Analytics
  • Soluciones tecnológicas emergentes, como sensores de disparos, videos de vigilancia y redes sociales
  • Uso de la tecnología Big Data para mitigar la sobrecarga de información
  • Interfaz de Big Data con datos heredados
  • Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
  • Integración de datos y visualización de cuadros de mando
  • Gestión del fraude
  • Reglas de negocio y detección de fraudes
  • Detección y creación de perfiles de amenazas
  • Análisis de costo-beneficio para la implementación de Big Data

Introducción a Big Data

  • Principales características del Big Data: Volumen, Variedad, Velocidad y Veracidad.
  • Arquitectura MPP (Procesamiento Paralelo Masivo)
  • Almacenes de datos: esquema estático, conjunto de datos que evoluciona lentamente
  • Bases de datos MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop: no hay condiciones en la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (crunch), recuperar de HDFS
  • Apache Spark para el procesamiento de secuencias
  • Por lotes: adecuado para análisis / no interactivo
  • Volumen : Datos de transmisión de CEP
  • Opciones típicas: productos CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
  • Menos producción lista – Storm/S4
  • Bases de datos NoSQL (en columnas y clave-valor): Más adecuadas como complemento analítico para el almacén de datos/base de datos

NoSQL soluciones

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Almacén KV (Jerárquico) - GT.m, Caché
  • Tienda KV (Ordenada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tienda de tuplas - Gigaspaces, Coord, Apache River
  • Base de datos de objetos: ZopeDB, DB40, Shoal
  • Almacén de documentos: CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Amplio almacén en columnas: BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de datos: Introducción a Data Cleaning problemas en Big Data

  • RDBMS: estructura/esquema estático, no promueve un entorno ágil y exploratorio.
  • NoSQL – semiestructurado, estructura suficiente para almacenar datos sin un esquema exacto antes de almacenar los datos
  • Problemas de limpieza de datos

Hadoop

  • ¿Cuándo seleccionar Hadoop?
  • ESTRUCTURADO: los almacenes/bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponer una estructura (no es bueno para la exploración activa)
  • Datos SEMI ESTRUCTURADOS: difíciles de llevar a cabo con soluciones tradicionales (DW/DB)
  • Datos de almacenamiento = ENORME esfuerzo y estática incluso después de la implementación
  • Para variedad y volumen de datos, procesados en hardware básico – HADOOP
  • Commodity H/W necesario para crear un Hadoop clúster

Introducción a Map Reduce /HDFS

  • MapReduce: distribuya la informática en varios servidores
  • HDFS: hacer que los datos estén disponibles localmente para el proceso informático (con redundancia)
  • Datos: pueden ser no estructurados o sin esquema (a diferencia de RDBMS)
  • Responsabilidad del desarrollador para dar sentido a los datos
  • Programming MapReduce = trabajar con Java (pros/contras), carga manual de datos en HDFS

===== Día 02 ===== Big Data Ecosistema -- Construcción Big Data ETL (Extraer, Transformar, Cargar) -- ¿Qué Big Data herramientas usar y cuándo?

  • Hadoop frente a otras soluciones NoSQL
  • Para el acceso interactivo y aleatorio a los datos
  • Hbase (base de datos orientada a columnas) sobre Hadoop
  • Acceso aleatorio a los datos, pero se imponen restricciones (máx. 1 PB)
  • No es bueno para el análisis ad-hoc, es bueno para el registro, el recuento, las series temporales
  • Sqoop: importación desde bases de datos a Hive o HDFS (acceso JDBC/ODBC)
  • Flume: transmita datos (por ejemplo, datos .log) a HDFS

Sistema Big Data Management

  • Piezas móviles, nodos de cómputo de inicio/fallo: ZooKeeper: para servicios de configuración/coordinación/nomenclatura
  • Canalización/flujo de trabajo complejo: Oozie: gestiona el flujo de trabajo, las dependencias y la conexión en cadena
  • Implementar, configurar, administrar clústeres, actualizar, etc. (administrador de sistemas): Ambari
  • En la nube : Whirr

Predictive Analytics -- Técnicas Fundamentales e Inteligencia de Negocios basada en Aprendizaje Automático

  • Introducción al aprendizaje automático
  • Aprendizaje de técnicas de clasificación
  • Predicción bayesiana: preparación de un archivo de entrenamiento
  • Máquina de vectores de soporte
  • KNN p-Tree Algebra y minería vertical
  • Redes neuronales
  • Problema de variables grandes de Big Data: bosque aleatorio (RF)
  • Problema de automatización de Big Data – RF de conjuntos multimodelo
  • Automatización a través de Soft10-M
  • Herramienta de análisis de texto-Treeminer
  • Aprendizaje ágil
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a las herramientas de código abierto para el análisis predictivo : R, Python, Rapidminer, Mahut

Predictive Analytics Ecosistema y su aplicación en el Análisis de Inteligencia Criminal

  • La tecnología y el proceso investigativo
  • Analítica de información
  • Análisis de visualización
  • Análisis predictivo estructurado
  • Análisis predictivo no estructurado
  • Perfiles de amenazas/fraudes/proveedores
  • Motor de recomendaciones
  • Detección de patrones
  • Descubrimiento de reglas/escenarios: fallo, fraude, optimización
  • Descubrimiento de la causa raíz
  • Análisis de sentimiento
  • Análisis de CRM
  • Análisis de red
  • Análisis de texto para obtener información de transcripciones, declaraciones de testigos, charlas en Internet, etc.
  • Revisión asistida por tecnología
  • Análisis de fraude
  • Analítica en tiempo real

===== Día 03 ===== Análisis en tiempo real y Scalable a través de Hadoop

  • Por qué fallan los algoritmos analíticos comunes en Hadoop/HDFS
  • Apache Hama: para computación distribuida síncrona masiva
  • Apache SPARK: para computación en clúster y análisis en tiempo real
  • CMU Graphics Lab2: enfoque asíncrono basado en gráficos para la computación distribuida
  • KNN p -- Enfoque basado en álgebra de Treeminer para reducir el costo de operación del hardware

Herramientas para eDiscovery y análisis forense

  • eDiscovery sobre Big Data frente a datos heredados: una comparación de costo y rendimiento
  • Codificación predictiva y revisión asistida por tecnología (TAR)
  • Demostración en vivo de vMiner para comprender cómo TAR permite un descubrimiento más rápido
  • Indexación más rápida a través de HDFS – Velocidad de los datos
  • NLP (procesamiento del lenguaje natural): productos y técnicas de código abierto
  • eDiscovery en lenguas extranjeras: tecnología para el procesamiento de lenguas extranjeras

Big Data BI para Cyber Security – Obtener una visión de 360 grados, recopilación rápida de datos e identificación de amenazas

  • Comprender los conceptos básicos de la analítica de seguridad: superficie de ataque, configuración incorrecta de seguridad, defensas de host
  • Infraestructura de red / Tubería de datos de gran tamaño / ETL de respuesta para análisis en tiempo real
  • Prescriptivo vs predictivo – Reglas fijas basadas en reglas vs detección automática de amenazas a partir de metadatos

Recopilación de datos dispares para el análisis de inteligencia criminal

  • Uso de IoT (Internet de las cosas) como sensores para la captura de datos
  • Uso de imágenes satelitales para la vigilancia doméstica
  • Uso de datos de vigilancia e imágenes para la identificación de delitos
  • Otras tecnologías de recopilación de datos: drones, cámaras corporales, sistemas de etiquetado GPS y tecnología de imágenes térmicas
  • Combinar la recuperación automatizada de datos con los datos obtenidos de informantes, interrogatorios e investigaciones
  • Forecasting Actividad delictiva

===== Día 04 ===== BI de prevención de fraude de Big Data en Fraud Analytics

  • Clasificación básica de Fraud Analytics: análisis basado en reglas frente a análisis predictivo
  • Aprendizaje automático supervisado frente a no supervisado para la detección de patrones de fraude
  • Business al fraude comercial, al fraude de reclamaciones médicas, al fraude de seguros, a la evasión fiscal y al blanqueo de capitales.

Social Media Analítica -- Recopilación y análisis de inteligencia

  • Cómo Social Media es utilizado por los delincuentes para organizarse, reclutar y planificar
  • API ETL de Big Data para extraer datos de redes sociales
  • Texto, imagen, metadatos y vídeo
  • Análisis de sentimiento a partir del feed de redes sociales
  • Filtrado contextual y no contextual del feed de redes sociales
  • Social Media Panel de control para integrar diversas redes sociales
  • Elaboración automatizada de perfiles de redes sociales
  • La demostración en vivo de cada análisis se dará a través de Treeminer Tool

Big Data Analítica en el procesamiento de imágenes y transmisiones de vídeo

  • Técnicas de almacenamiento de imágenes en Big Data -- Solución de almacenamiento para datos que superan los petabytes
  • LTFS (Sistema de Archivos de Cinta Lineal) y LTO (Cinta Lineal Abierta)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System): solución de almacenamiento en capas para Big Image Data
  • Fundamentos de la analítica de imágenes
  • Reconocimiento de objetos
  • Segmentación de imágenes
  • Seguimiento de movimiento
  • Reconstrucción de imágenes en 3D

Biométricas, ADN y programas de identificación de próxima generación

  • Más allá de las huellas dactilares y el reconocimiento facial
  • Reconocimiento de voz, pulsación de teclas (análisis del patrón de escritura de un usuario) y CODIS (sistema combinado de índice de ADN)
  • Más allá de la coincidencia de ADN: uso del fenotipado forense de ADN para construir un rostro a partir de muestras de ADN

Big Data Panel de control para un rápido acceso a diversos datos y visualización:

  • Integración de la plataforma de aplicaciones existente con Big Data Dashboard
  • Gestión de Big Data
  • Caso de estudio de Big Data Dashboard: Tableau y Pentaho
  • Utilice la aplicación Big Data para impulsar los servicios basados en la ubicación en el gobierno.
  • Sistema de seguimiento y gestión

===== Día 05 ===== Cómo justificar Big Data la implementación de BI dentro de una organización:

  • Definición del ROI (Retorno de la inversión Investment) para la implementación de Big Data
  • Casos prácticos para ahorrar tiempo a los analistas en la recopilación y preparación de datos, lo que aumenta la productividad
  • Aumento de los ingresos gracias a la reducción del coste de las licencias de bases de datos
  • Aumento de ingresos de los servicios basados en la ubicación
  • Ahorro de costes gracias a la prevención del fraude
  • Un enfoque de hoja de cálculo integrado para calcular los gastos aproximados frente a la ganancia/ahorro de ingresos de la implementación de Big Data.

Procedimiento paso a paso para reemplazar un sistema de datos heredado por un sistema Big Data

  • Big Data Hoja de ruta de la migración
  • ¿Qué información crítica se necesita antes de diseñar un sistema Big Data?
  • ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
  • Cómo estimar el crecimiento de los datos
  • Casos de estudio

Revisión de Big Data Proveedores y revisión de sus productos.

  • Accenture
  • APTEAN (anteriormente software de los CDC)
  • Sistemas Cisco
  • Cloudera
  • Dell
  • EMC
  • Corporación GoodData
  • Guavus
  • Sistemas de datos de Hitachi
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluciones de Opera
  • Oráculo
  • Pentaho
  • Platfora
  • Qliktech
  • Cuanto
  • Espacio en rack
  • Análisis de Revolution
  • Ventas de ventas
  • SAVIA
  • Instituto SAS
  • Sisense
  • Software AG/Terracotta
  • Automatización de Soft10
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Piensa en grande en analítica
  • Sistemas de señalización de mareas
  • Minador de árboles
  • VMware (Parte de EMC)

Sesión de preguntas y respuestas

Requerimientos

    Conocimiento de los
  • procesos de aplicación de la ley y los sistemas de datos
  • Conocimientos básicos de SQL/Oracle o base de datos relacional
  • Conocimientos básicos de estadística (a nivel de hoja de cálculo)
  35 horas
 

Número de participantes


Comienza

Termina


Las fechas están sujetas a disponibilidad y tienen lugar entre 09:30 y 16:30.
Los cursos de formación abiertos requieren más de 5 participantes.

Testimonios (5)

Cursos Relacionados

Categorías Relacionadas