Programa do Curso
Dia 01
Visão geral de Big Data Business Intelligence para análise de informações criminais
- Estudos de casos de aplicação da lei - policiamento preditivo
- Taxa de adoção do Big Data nas agências de aplicação da lei e modo como estas estão a alinhar as suas operações futuras em torno do Big Data Predictive Analytics
- Soluções tecnológicas emergentes, como sensores de tiro, vídeo de vigilância e redes sociais
- Utilização da tecnologia Big Data para reduzir a sobrecarga de informação
- Interação de Big Data com dados herdados
- Conhecimento básico das tecnologias facilitadoras da análise preditiva
- Data Integration e visualização de painéis de controlo
- Gestão da fraude
- Business Rules e Deteção de fraudes
- Deteção de ameaças e definição de perfis
- Análise custo-benefício para a implementação do Big Data
Introdução a Big Data
- Principais caraterísticas do Big Data -- Volume, Variedade, Velocidade e Veracidade.
- Arquitetura MPP (Massively Parallel Processing)
- Data Warehouses - esquema estático, conjunto de dados em evolução lenta
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluções baseadas em Hadoop - sem condições para a estrutura do conjunto de dados.
- Padrão típico: HDFS, MapReduce (crunch), recuperação a partir de HDFS
- Apache Spark para processamento de fluxos
- Lote - adequado para processamento analítico/não-interativo
- Volume : Dados de fluxo contínuo CEP
- Opções típicas - produtos CEP (por exemplo, Infostreams, Apama, MarkLogic, etc.)
- Menos prontos para a produção - Storm/S4
- NoSQL Databases - (colunares e de valor-chave): Mais adequados como complemento analítico de um armazém de dados/base de dados
NoSQL soluções
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Armazenamento KV (Hierárquico) - GT.m, Cache
- Armazenamento KV (ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Armazenamento de tuplas - Gigaspaces, Coord, Apache River
- Objectos Database - ZopeDB, DB40, Shoal
- Armazenamento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Armazenamento colunar amplo - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de dados: introdução a Data Cleaning questões em Big Data
- RDBMS - estrutura/esquema estático, não promove um ambiente ágil e exploratório.
- NoSQL - semi-estruturado, estrutura suficiente para armazenar dados sem um esquema exato antes de armazenar os dados
- Problemas de limpeza de dados
Hadoop
- Quando selecionar Hadoop?
- ESTRUTURADOS - Os armazéns de dados/bases de dados das empresas podem armazenar dados maciços (a um custo) mas impõem uma estrutura (não é bom para a exploração ativa)
- Dados SEMI-ESTRUTURADOS - difícil de efetuar utilizando soluções tradicionais (DW/DB)
- Armazenamento de dados = esforço ENORME e estático mesmo após a implementação
- Para a variedade e o volume de dados, é necessário hardware de base - HADOOP
- É necessário hardware de base para criar um Hadoop Cluster
Introdução à redução de mapa/HDFS
- MapReduce - distribuir a computação por vários servidores
- HDFS - disponibiliza os dados localmente para o processo de computação (com redundância)
- Dados - podem ser não estruturados/sem esquema (ao contrário dos RDBMS)
- Responsabilidade do programador para dar sentido aos dados
- [MapReduce = trabalhar com Java (prós/contras), carregar manualmente os dados no HDFS
Dia 02
Ecossistema Big Data -- Construindo Big Data ETL (Extrair, Transformar, Carregar) -- Que ferramentas Big Data usar e quando?
- Hadoop vs. Outras NoSQL soluções
- Para acesso interativo e aleatório aos dados
- Hbase (base de dados orientada por colunas) em cima de Hadoop
- Acesso aleatório aos dados, mas com restrições (máximo de 1 PB)
- Não é bom para análises ad-hoc, mas é bom para registo, contagem, séries temporais
- Sqoop - Importação de bases de dados para Hive ou HDFS (acesso JDBC/ODBC)
- Flume - Fluxo de dados (por exemplo, dados de registo) para o HDFS
Big Data Management Sistema
- Partes móveis, nós de computação arrancam/falham :ZooKeeper - Para serviços de configuração/coordenação/nomeação
- Pipeline/fluxo de trabalho complexo: Oozie - gerir o fluxo de trabalho, dependências, cadeia de margaridas
- Implementação, configuração, gestão de clusters, atualização, etc. (administrador do sistema): Ambari
- Na nuvem: Whirr
Predictive Analytics - Técnicas Fundamentais e Machine Learning baseadas em Business Inteligência
- Introdução a Machine Learning
- Aprendizagem de técnicas de classificação
- Previsão Bayesiana -- preparando um ficheiro de treino
- Máquina de Vectores de Suporte
- KNN p-Tree Álgebra e mineração vertical
- Neural Networks
- Big Data problema de grandes variáveis -- floresta aleatória (RF)
- Big Data Problema de automatização - Conjunto multi-modelo RF
- Automatização através do Soft10-M
- Ferramenta de análise de texto - Treeminer
- Agile Aprendizagem
- Aprendizagem baseada em agentes
- Aprendizagem distribuída
- Introdução a ferramentas de código aberto para análise preditiva: R, Python, Rapidminer, Mahut
Predictive Analytics Ecossistema e sua aplicação em Análise de Inteligência Criminal
- A tecnologia e o processo de investigação
- Analítica de insight
- Análise de visualização
- Análise preditiva estruturada
- Análise preditiva não estruturada
- Perfil de ameaça/fraude/fornecedor
- Motor de recomendação
- Deteção de padrões
- Descoberta de regras/cenários - falha, fraude, otimização
- Descoberta da causa raiz
- Análise de sentimentos
- Análise de CRM
- Análise de redes
- Análise de texto para obter informações a partir de transcrições, declarações de testemunhas, conversas na Internet, etc.
- Revisão assistida por tecnologia
- Análise de fraudes
- Análise em tempo real
Dia 03
Análise em tempo real e Scalable sobre Hadoop
- Porque é que os algoritmos analíticos comuns falham em Hadoop/HDFS
- Apache Hama- para computação distribuída síncrona em massa
- Apache SPARK- para computação em cluster e análise em tempo real
- CMU Graphics Lab2- Abordagem assíncrona baseada em grafos para computação distribuída
- KNN p -- Abordagem baseada em álgebra do Treeminer para reduzir o custo de operação do hardware
Ferramentas para descoberta eletrônica e análise forense
- eDiscovery sobre Big Data vs. dados herdados - uma comparação de custo e desempenho
- Codificação preditiva e Revisão Assistida por Tecnologia (TAR)
- Demonstração em direto do vMiner para compreender como a TAR permite uma descoberta mais rápida
- Indexação mais rápida através do HDFS - Velocidade dos dados
- PNL (Processamento de linguagem natural) - produtos e técnicas de fonte aberta
- eDiscovery em línguas estrangeiras - tecnologia para o processamento de línguas estrangeiras
Big Data BI para Cyber Security – Obtendo uma visão de 360 graus, coleta rápida de dados e identificação de ameaças
- Compreender os conceitos básicos da análise de segurança - superfície de ataque, má configuração da segurança, defesas do anfitrião
- Infraestrutura de rede / Grande base de dados / Resposta ETL para análise em tempo real
- Prescritivo vs preditivo - Baseado em regras fixas vs descoberta automática de regras de ameaças a partir de metadados
Coletando dados díspares para análise de inteligência criminal
- Utilização da IoT (Internet das Coisas) como sensores para a captação de dados
- Utilização de imagens de satélite para vigilância doméstica
- Utilização de dados de vigilância e de imagem para a identificação de criminosos
- Outras tecnologias de recolha de dados - drones, câmaras corporais, sistemas de marcação por GPS e tecnologia de imagem térmica
- Combinação da recuperação automática de dados com dados obtidos de informadores, interrogatórios e investigação
- Forecasting atividade criminosa
Dia 04
Prevenção da fraude BI de Big Data na análise da fraude
- Classificação básica da análise da fraude -- análise baseada em regras vs análise preditiva
- Aprendizagem automática supervisionada ou não supervisionada para a deteção de padrões de fraude
- Business para fraude comercial, fraude em pedidos de indemnização médica, fraude em seguros, evasão fiscal e branqueamento de capitais
Social Media Analytics – Coleta e análise de inteligência
- Como Social Media é utilizado pelos criminosos para organizar, recrutar e planear
- Big Data API ETL para extração de dados de redes sociais
- Texto, imagem, metadados e vídeo
- Análise de sentimentos a partir do feed das redes sociais
- Filtragem contextual e não contextual do feed dos média sociais
- Social Media Painel de controlo para integrar diversos meios de comunicação social
- Criação automática de perfis de redes sociais
- Será feita uma demonstração em direto de cada análise através da ferramenta Treeminer
Big Data Análise em processamento de imagens e feeds de vídeo
- Técnicas de armazenamento de imagens em Big Data -- Solução de armazenamento para dados superiores a petabytes
- LTFS (Linear Tape File System) e LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- solução de armazenamento em camadas para grandes dados de imagem
- Fundamentos da análise de imagens
- Reconhecimento de objectos
- Segmentação de imagens
- Seguimento de movimentos
- Reconstrução de imagens 3-D
Biométricas, DNA e programas de identificação da próxima geração
- Para além da recolha de impressões digitais e do reconhecimento facial
- Reconhecimento da fala, das teclas (análise do padrão de digitação de um utilizador) e CODIS (sistema combinado de índice de ADN)
- Para além da correspondência de ADN: utilização de fenotipagem de ADN forense para construir um rosto a partir de amostras de ADN
Big Data Painel para acessibilidade rápida de diversos dados e exibição:
- Integração da plataforma de aplicação existente com o Big Data Painel de Controlo
- Big Data gestão
- Estudo de caso do Big Data Dashboard: Tableau e Pentaho
- Utilizar a aplicação Big Data para enviar serviços baseados na localização em Govt.
- Sistema de seguimento e gestão
Dia 05
Como justificar a implementação do Big Data BI numa organização:
- Definir o ROI (Return on Investment) para a implementação do Big Data
- Estudos de casos para poupar tempo aos analistas na recolha e preparação de dados - aumento da produtividade
- Ganho de receitas devido a um menor custo de licenciamento da base de dados
- Ganho de receitas com serviços baseados na localização
- Poupança de custos com a prevenção da fraude
- Uma abordagem integrada de folha de cálculo para calcular as despesas aproximadas vs. ganhos/poupanças de receitas da implementação de Big Data.
Procedimento passo a passo para substituir um sistema de dados legado por um sistema Big Data
- Roteiro de migração Big Data
- Que informação crítica é necessária antes de arquitetar um sistema Big Data?
- Quais são as diferentes formas de calcular o Volume, a Velocidade, a Variedade e a Veracidade dos dados
- Como estimar o crescimento dos dados
- Casos de estudo
Revisão de Big Data Fornecedores e revisão de seus produtos.
- Accenture
- APTEAN (Anteriormente CDC Software)
- Cisco Sistemas
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Anteriormente 10Gen)
- MU Sigma
- Netapp
- Soluções Opera
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolução Analítica
- Salesforce
- SAP
- SAS Instituto
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminador
- VMware (Parte da EMC)
Sessão de perguntas/respostas
Requisitos
- Conhecimento dos processos de aplicação da lei e dos sistemas de dados
- Conhecimentos básicos de SQL/Oracle ou de bases de dados relacionais
- Conhecimentos básicos de estatística (a nível de folha de cálculo)
Público-alvo
- Especialistas em matéria de aplicação da lei com formação técnica
Declaração de Clientes (1)
A Deepthi estava super sintonizada com as minhas necessidades, sabia quando adicionar camadas de complexidade e quando se conter e adotar uma abordagem mais estruturada. A Deepthi trabalhou verdadeiramente ao meu ritmo e assegurou que eu fosse capaz de utilizar as novas funções/ferramentas, mostrando primeiro e depois deixando-me recriar os itens, o que ajudou realmente a incorporar a formação. Não podia estar mais satisfeito com os resultados desta formação e com o nível de especialização da Deepthi!
Deepthi - Invest Northern Ireland
Curso - IBM Cognos Analytics
Máquina Traduzida