Programa do Curso

Dia 01

Visão geral de Big Data Business Intelligence para análise de informações criminais

  • Estudos de casos de aplicação da lei - policiamento preditivo
  • Taxa de adoção do Big Data nas agências de aplicação da lei e modo como estas estão a alinhar as suas operações futuras em torno do Big Data Predictive Analytics
  • Soluções tecnológicas emergentes, como sensores de tiro, vídeo de vigilância e redes sociais
  • Utilização da tecnologia Big Data para reduzir a sobrecarga de informação
  • Interação de Big Data com dados herdados
  • Conhecimento básico das tecnologias facilitadoras da análise preditiva
  • Data Integration e visualização de painéis de controlo
  • Gestão da fraude
  • Business Rules e Deteção de fraudes
  • Deteção de ameaças e definição de perfis
  • Análise custo-benefício para a implementação do Big Data

Introdução a Big Data

  • Principais caraterísticas do Big Data -- Volume, Variedade, Velocidade e Veracidade.
  • Arquitetura MPP (Massively Parallel Processing)
  • Data Warehouses - esquema estático, conjunto de dados em evolução lenta
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluções baseadas em Hadoop - sem condições para a estrutura do conjunto de dados.
  • Padrão típico: HDFS, MapReduce (crunch), recuperação a partir de HDFS
  • Apache Spark para processamento de fluxos
  • Lote - adequado para processamento analítico/não-interativo
  • Volume : Dados de fluxo contínuo CEP
  • Opções típicas - produtos CEP (por exemplo, Infostreams, Apama, MarkLogic, etc.)
  • Menos prontos para a produção - Storm/S4
  • NoSQL Databases - (colunares e de valor-chave): Mais adequados como complemento analítico de um armazém de dados/base de dados

NoSQL soluções

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Armazenamento KV (Hierárquico) - GT.m, Cache
  • Armazenamento KV (ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Armazenamento de tuplas - Gigaspaces, Coord, Apache River
  • Objectos Database - ZopeDB, DB40, Shoal
  • Armazenamento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Armazenamento colunar amplo - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de dados: introdução a Data Cleaning questões em Big Data

  • RDBMS - estrutura/esquema estático, não promove um ambiente ágil e exploratório.
  • NoSQL - semi-estruturado, estrutura suficiente para armazenar dados sem um esquema exato antes de armazenar os dados
  • Problemas de limpeza de dados

Hadoop

  • Quando selecionar Hadoop?
  • ESTRUTURADOS - Os armazéns de dados/bases de dados das empresas podem armazenar dados maciços (a um custo) mas impõem uma estrutura (não é bom para a exploração ativa)
  • Dados SEMI-ESTRUTURADOS - difícil de efetuar utilizando soluções tradicionais (DW/DB)
  • Armazenamento de dados = esforço ENORME e estático mesmo após a implementação
  • Para a variedade e o volume de dados, é necessário hardware de base - HADOOP
  • É necessário hardware de base para criar um Hadoop Cluster

Introdução à redução de mapa/HDFS

  • MapReduce - distribuir a computação por vários servidores
  • HDFS - disponibiliza os dados localmente para o processo de computação (com redundância)
  • Dados - podem ser não estruturados/sem esquema (ao contrário dos RDBMS)
  • Responsabilidade do programador para dar sentido aos dados
  • [MapReduce = trabalhar com Java (prós/contras), carregar manualmente os dados no HDFS

Dia 02

Ecossistema Big Data -- Construindo Big Data ETL (Extrair, Transformar, Carregar) -- Que ferramentas Big Data usar e quando?

  • Hadoop vs. Outras NoSQL soluções
  • Para acesso interativo e aleatório aos dados
  • Hbase (base de dados orientada por colunas) em cima de Hadoop
  • Acesso aleatório aos dados, mas com restrições (máximo de 1 PB)
  • Não é bom para análises ad-hoc, mas é bom para registo, contagem, séries temporais
  • Sqoop - Importação de bases de dados para Hive ou HDFS (acesso JDBC/ODBC)
  • Flume - Fluxo de dados (por exemplo, dados de registo) para o HDFS

Big Data Management Sistema

  • Partes móveis, nós de computação arrancam/falham :ZooKeeper - Para serviços de configuração/coordenação/nomeação
  • Pipeline/fluxo de trabalho complexo: Oozie - gerir o fluxo de trabalho, dependências, cadeia de margaridas
  • Implementação, configuração, gestão de clusters, atualização, etc. (administrador do sistema): Ambari
  • Na nuvem: Whirr

Predictive Analytics - Técnicas Fundamentais e Machine Learning baseadas em Business Inteligência

  • Introdução a Machine Learning
  • Aprendizagem de técnicas de classificação
  • Previsão Bayesiana -- preparando um ficheiro de treino
  • Máquina de Vectores de Suporte
  • KNN p-Tree Álgebra e mineração vertical
  • Neural Networks
  • Big Data problema de grandes variáveis -- floresta aleatória (RF)
  • Big Data Problema de automatização - Conjunto multi-modelo RF
  • Automatização através do Soft10-M
  • Ferramenta de análise de texto - Treeminer
  • Agile Aprendizagem
  • Aprendizagem baseada em agentes
  • Aprendizagem distribuída
  • Introdução a ferramentas de código aberto para análise preditiva: R, Python, Rapidminer, Mahut

Predictive Analytics Ecossistema e sua aplicação em Análise de Inteligência Criminal

  • A tecnologia e o processo de investigação
  • Analítica de insight
  • Análise de visualização
  • Análise preditiva estruturada
  • Análise preditiva não estruturada
  • Perfil de ameaça/fraude/fornecedor
  • Motor de recomendação
  • Deteção de padrões
  • Descoberta de regras/cenários - falha, fraude, otimização
  • Descoberta da causa raiz
  • Análise de sentimentos
  • Análise de CRM
  • Análise de redes
  • Análise de texto para obter informações a partir de transcrições, declarações de testemunhas, conversas na Internet, etc.
  • Revisão assistida por tecnologia
  • Análise de fraudes
  • Análise em tempo real

Dia 03

Análise em tempo real e Scalable sobre Hadoop

  • Porque é que os algoritmos analíticos comuns falham em Hadoop/HDFS
  • Apache Hama- para computação distribuída síncrona em massa
  • Apache SPARK- para computação em cluster e análise em tempo real
  • CMU Graphics Lab2- Abordagem assíncrona baseada em grafos para computação distribuída
  • KNN p -- Abordagem baseada em álgebra do Treeminer para reduzir o custo de operação do hardware

Ferramentas para descoberta eletrônica e análise forense

  • eDiscovery sobre Big Data vs. dados herdados - uma comparação de custo e desempenho
  • Codificação preditiva e Revisão Assistida por Tecnologia (TAR)
  • Demonstração em direto do vMiner para compreender como a TAR permite uma descoberta mais rápida
  • Indexação mais rápida através do HDFS - Velocidade dos dados
  • PNL (Processamento de linguagem natural) - produtos e técnicas de fonte aberta
  • eDiscovery em línguas estrangeiras - tecnologia para o processamento de línguas estrangeiras

Big Data BI para Cyber Security – Obtendo uma visão de 360 graus, coleta rápida de dados e identificação de ameaças

  • Compreender os conceitos básicos da análise de segurança - superfície de ataque, má configuração da segurança, defesas do anfitrião
  • Infraestrutura de rede / Grande base de dados / Resposta ETL para análise em tempo real
  • Prescritivo vs preditivo - Baseado em regras fixas vs descoberta automática de regras de ameaças a partir de metadados

Coletando dados díspares para análise de inteligência criminal

  • Utilização da IoT (Internet das Coisas) como sensores para a captação de dados
  • Utilização de imagens de satélite para vigilância doméstica
  • Utilização de dados de vigilância e de imagem para a identificação de criminosos
  • Outras tecnologias de recolha de dados - drones, câmaras corporais, sistemas de marcação por GPS e tecnologia de imagem térmica
  • Combinação da recuperação automática de dados com dados obtidos de informadores, interrogatórios e investigação
  • Forecasting atividade criminosa

Dia 04

Prevenção da fraude BI de Big Data na análise da fraude

  • Classificação básica da análise da fraude -- análise baseada em regras vs análise preditiva
  • Aprendizagem automática supervisionada ou não supervisionada para a deteção de padrões de fraude
  • Business para fraude comercial, fraude em pedidos de indemnização médica, fraude em seguros, evasão fiscal e branqueamento de capitais

Social Media Analytics – Coleta e análise de inteligência

  • Como Social Media é utilizado pelos criminosos para organizar, recrutar e planear
  • Big Data API ETL para extração de dados de redes sociais
  • Texto, imagem, metadados e vídeo
  • Análise de sentimentos a partir do feed das redes sociais
  • Filtragem contextual e não contextual do feed dos média sociais
  • Social Media Painel de controlo para integrar diversos meios de comunicação social
  • Criação automática de perfis de redes sociais
  • Será feita uma demonstração em direto de cada análise através da ferramenta Treeminer

Big Data Análise em processamento de imagens e feeds de vídeo

  • Técnicas de armazenamento de imagens em Big Data -- Solução de armazenamento para dados superiores a petabytes
  • LTFS (Linear Tape File System) e LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- solução de armazenamento em camadas para grandes dados de imagem
  • Fundamentos da análise de imagens
  • Reconhecimento de objectos
  • Segmentação de imagens
  • Seguimento de movimentos
  • Reconstrução de imagens 3-D

Biométricas, DNA e programas de identificação da próxima geração

  • Para além da recolha de impressões digitais e do reconhecimento facial
  • Reconhecimento da fala, das teclas (análise do padrão de digitação de um utilizador) e CODIS (sistema combinado de índice de ADN)
  • Para além da correspondência de ADN: utilização de fenotipagem de ADN forense para construir um rosto a partir de amostras de ADN

Big Data Painel para acessibilidade rápida de diversos dados e exibição:

  • Integração da plataforma de aplicação existente com o Big Data Painel de Controlo
  • Big Data gestão
  • Estudo de caso do Big Data Dashboard: Tableau e Pentaho
  • Utilizar a aplicação Big Data para enviar serviços baseados na localização em Govt.
  • Sistema de seguimento e gestão

Dia 05

Como justificar a implementação do Big Data BI numa organização:

  • Definir o ROI (Return on Investment) para a implementação do Big Data
  • Estudos de casos para poupar tempo aos analistas na recolha e preparação de dados - aumento da produtividade
  • Ganho de receitas devido a um menor custo de licenciamento da base de dados
  • Ganho de receitas com serviços baseados na localização
  • Poupança de custos com a prevenção da fraude
  • Uma abordagem integrada de folha de cálculo para calcular as despesas aproximadas vs. ganhos/poupanças de receitas da implementação de Big Data.

Procedimento passo a passo para substituir um sistema de dados legado por um sistema Big Data

  • Roteiro de migração Big Data
  • Que informação crítica é necessária antes de arquitetar um sistema Big Data?
  • Quais são as diferentes formas de calcular o Volume, a Velocidade, a Variedade e a Veracidade dos dados
  • Como estimar o crescimento dos dados
  • Casos de estudo

Revisão de Big Data Fornecedores e revisão de seus produtos.

  • Accenture
  • APTEAN (Anteriormente CDC Software)
  • Cisco Sistemas
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluções Opera
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolução Analítica
  • Salesforce
  • SAP
  • SAS Instituto
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminador
  • VMware (Parte da EMC)

Sessão de perguntas/respostas

Requisitos

  • Conhecimento dos processos de aplicação da lei e dos sistemas de dados
  • Conhecimentos básicos de SQL/Oracle ou de bases de dados relacionais
  • Conhecimentos básicos de estatística (a nível de folha de cálculo)

Público-alvo

  • Especialistas em matéria de aplicação da lei com formação técnica
 35 Horas

Declaração de Clientes (1)

Próximas Formações Provisórias

Categorias Relacionadas