Programa do Curso

Introdução a Data Analysis e Big Data

  • O que faz com que Big Data seja "grande"?
    • Velocidade, volume, variedade, veracidade (VVVV)
  • Limites do processamento de dados tradicional
  • Processamento distribuído
  • Análise estatística
  • Tipos de análise Machine Learning
  • Data Visualization

Big Data Papéis e responsabilidades

  • Administradores
  • Programadores
  • Analistas de dados

Languages Utilizado para Data Analysis

  • R Language
    • Porquê R para Data Analysis?
    • Manipulação de dados, cálculo e visualização de gráficos
  • Python
    • Porquê Python para Data Analysis?
    • Manipulação, processamento, limpeza e processamento de dados

Abordagens a Data Analysis

  • Análise estatística
    • Análise de séries temporais
    • Forecasting com modelos de Correlação e Regressão
    • Inferencial Statistics (estimativa)
    • Descritiva Statistics em conjuntos Big Data (por exemplo, cálculo da média)
  • Machine Learning
    • Aprendizagem supervisionada vs não supervisionada
    • Classificação e agrupamento
    • Estimativa do custo de métodos específicos
    • Filtragem
  • Processamento de linguagem natural
    • Processamento de texto
    • Compreensão do significado do texto
    • Geração automática de texto
    • Análise de sentimentos / análise de tópicos
  • Computer Vision
    • Aquisição, processamento, análise e compreensão de imagens
    • Reconstrução, interpretação e compreensão de cenas 3D
    • Utilização de dados de imagem para tomar decisões

Big Data Infra-estruturas

  • Armazenamento de dados
    • Bases de dados relacionais (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Bases de dados não relacionais (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Compreender as nuances
      • Bases de dados hierárquicas
      • Bases de dados orientadas para objectos
      • Bases de dados orientadas para documentos
      • Bases de dados orientadas para gráficos
      • Outras bases de dados
  • Processamento distribuído
    • Hadoop
      • HDFS como um sistema de ficheiros distribuído
      • MapReduce para processamento distribuído
    • Faísca
      • Estrutura de computação em cluster de memória tudo-em-um para processamento de dados em grande escala
      • Fluxo estruturado
      • Spark SQL
      • Machine Learning bibliotecas: MLlib
      • Processamento de grafos com GraphX
  • Scala bilidade
    • Nuvem pública
      • AWS, Google, Aliyun, etc.
    • Nuvem privada
      • OpenStack, Cloud Foundry, etc.
    • Escalabilidade automática

Escolher a solução correta para o problema

O futuro da Big Data

Resumo e próximos passos

Requisitos

  • Conhecimentos gerais de matemática
  • Conhecimentos gerais de programação
  • Conhecimentos gerais de bases de dados

Público

  • Desenvolvedores / programadores
  • Consultores de TI
 35 Horas

Declaração de Clientes (7)

Próximas Formações Provisórias

Categorias Relacionadas