Programa do Curso

  • Introdução
    • Hadoop história, conceitos
    • Ecossistema
    • Distribuições
    • Arquitetura de alto nível
    • Hadoop mitos
    • Hadoop desafios (hardware / software)
    • Laboratórios: discuta os seus Big Data projectos e problemas
  • Planeamento e instalação
    • Seleção de software, Hadoop distribuições
    • Dimensionar o cluster, planear o crescimento
    • Seleção de hardware e rede
    • Topologia de rack
    • Instalação
    • Multi-tenancy
    • Estrutura de diretórios, registos
    • Benchmarking
    • Laboratórios: instalação do cluster, execução de benchmarks de desempenho
  • Operações do HDFS
    • Conceitos (escalonamento horizontal, replicação, localidade de dados, reconhecimento de rack)
    • Nós e daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorização do estado de saúde
    • Administração baseada em linha de comando e navegador
    • Adição de armazenamento, substituição de unidades defeituosas
    • Laboratórios: familiarizar-se com as linhas de comando do HDFS
  • Ingestão de dados
    • Flume para logs e outros dados de ingestão no HDFS
    • Sqoop para importar de bases de dados SQL para o HDFS, bem como exportar de volta para SQL
    • Armazenamento de dados Hadoop com Hive
    • Cópia de dados entre clusters (distcp)
    • Utilização do S3 como complemento do HDFS
    • Melhores práticas e arquitecturas de ingestão de dados
    • Laboratórios: configuração e utilização do Flume, o mesmo para o Sqoop
  • Operações e administração do MapReduce
    • Computação paralela antes do mapreduce: comparação entre HPC e administração Hadoop
    • Cargas de clusters MapReduce
    • Nós e Daemons (JobTracker, TaskTracker)
    • Apresentação da IU do MapReduce
    • Configuração do Mapreduce
    • Configuração de tarefas
    • Otimização do MapReduce
    • MR à prova de falhas: o que dizer aos seus programadores
    • Laboratórios: executando exemplos de MapReduce
  • YARN: nova arquitetura e novas capacidades
    • Objectivos de conceção e arquitetura de implementação do YARN
    • Novos actores: ResourceManager, NodeManager, Application Master
    • Instalação do YARN
    • Agendamento de tarefas no YARN
    • Laboratórios: investigar o agendamento de trabalhos
  • Tópicos avançados
    • Monitorização de hardware
    • Monitorização de clusters
    • Adição e remoção de servidores, atualização Hadoop
    • Backup, recuperação e planeamento da continuidade do negócio
    • Fluxos de trabalho do Oozie
    • Hadoop Alta disponibilidade (HA)
    • [Federação
    • Proteger o cluster com Kerberos
    • Laboratórios: configurar a monitorização
  • Trilhas opcionais
    • Cloudera Manager para administração de clusters, monitorização e tarefas de rotina; instalação, utilização. Nesta faixa, todos os exercícios e laboratórios são realizados no ambiente de distribuição do Cloudera (CDH5)
    • Ambari para administração de cluster, monitoramento e tarefas de rotina; instalação, uso. Neste curso, todos os exercícios e laboratórios são realizados no gerenciador de cluster Ambari e na Hortonworks Data Platform (HDP 2.0)

Requisitos

  • conhecimentos básicos Linux de administração de sistemas
  • competências básicas de scripting

Não são necessários conhecimentos de Hadoop e Computação Distribuída, mas serão introduzidos e explicados durante o curso.

Ambiente de laboratório

Instalação zero: Não há necessidade de instalar o software hadoop nas máquinas dos alunos! Um cluster hadoop funcional será fornecido aos alunos.

Os alunos precisarão do seguinte

  • um cliente SSH (Linux e Mac já têm clientes ssh, para Windows recomenda-se Putty)
  • um browser para aceder ao cluster. Recomendamos o browser Firefox com a extensão FoxyProxy instalada
 21 Horas

Declaração de Clientes (5)

Próximas Formações Provisórias

Categorias Relacionadas