Programa do Curso

Secção 1: Introdução ao Hadoop

  • história do hadoop, conceitos
  • sistema ecológico
  • distribuições
  • arquitetura de alto nível
  • mitos do hadoop
  • desafios do hadoop
  • hardware / software
  • laboratório: primeiro olhar sobre Hadoop

Secção 2: HDFS

  • Conceção e arquitetura
  • conceitos (escalonamento horizontal, replicação, localidade de dados, rack awareness)
  • Daemons : Namenode, namenode secundário, nó de dados
  • comunicações / batimentos cardíacos
  • integridade dos dados
  • caminho de leitura/escrita
  • Namenode Alta disponibilidade (HA), Federação
  • laboratórios : Interagindo com o HDFS

Secção 3 : Map Reduce

  • conceitos e arquitetura
  • daemons (MRV1) : jobtracker / tasktracker
  • fases : driver, mapper, shuffle/sort, reducer
  • Map Reduce Versão 1 e Versão 2 (YARN)
  • Aspectos internos do Map Reduce
  • Introdução ao programa Java Map Reduce
  • laboratórios: execução de um programa MapReduce de exemplo

Secção 4 : Pig

  • pig vs java map reduce
  • fluxo de trabalho pig
  • linguagem latina do pig
  • ETL com Pig
  • Transformações e junções
  • Funções definidas pelo utilizador (UDF)
  • laboratórios: escrever scripts Pig para analisar dados

Secção 5: Hive

  • arquitetura e design
  • tipos de dados
  • Suporte SQL em Hive
  • Criando Hive tabelas e consultando
  • partições
  • junções
  • processamento de texto
  • laboratórios : vários laboratórios sobre processamento de dados com Hive

Secção 6: HBase

  • conceitos e arquitetura
  • hbase vs RDBMS vs cassandra
  • API do HBase Java
  • Dados de séries temporais no HBase
  • desenho de esquemas
  • laboratórios : Interagir com o HBase usando shell; programação na API do HBase Java; exercício de desenho de esquemas

Requisitos

  • à vontade com Java linguagem de programação (a maior parte dos exercícios de programação são em java)
  • confortável no ambiente Linux (ser capaz de navegar na linha de comandos Linux, editar ficheiros usando vi / nano)

Ambiente de laboratório

Instalação zero: Não há necessidade de instalar o software hadoop nas máquinas dos alunos! Um cluster hadoop funcional será fornecido aos alunos.

Os alunos precisarão do seguinte

  • um cliente SSH (Linux e Mac já têm clientes ssh, para Windows recomenda-se Putty )
  • um browser para aceder ao cluster. Recomendamos o browser Firefox
 28 Horas

Declaração de Clientes (5)

Próximas Formações Provisórias

Categorias Relacionadas