Programa do Curso
Secção 1: Introdução ao Hadoop
- história do hadoop, conceitos
- sistema ecológico
- distribuições
- arquitetura de alto nível
- mitos do hadoop
- desafios do hadoop
- hardware / software
- laboratório: primeiro olhar sobre Hadoop
Secção 2: HDFS
- Conceção e arquitetura
- conceitos (escalonamento horizontal, replicação, localidade de dados, rack awareness)
- Daemons : Namenode, namenode secundário, nó de dados
- comunicações / batimentos cardíacos
- integridade dos dados
- caminho de leitura/escrita
- Namenode Alta disponibilidade (HA), Federação
- laboratórios : Interagindo com o HDFS
Secção 3 : Map Reduce
- conceitos e arquitetura
- daemons (MRV1) : jobtracker / tasktracker
- fases : driver, mapper, shuffle/sort, reducer
- Map Reduce Versão 1 e Versão 2 (YARN)
- Aspectos internos do Map Reduce
- Introdução ao programa Java Map Reduce
- laboratórios: execução de um programa MapReduce de exemplo
Secção 4 : Pig
- pig vs java map reduce
- fluxo de trabalho pig
- linguagem latina do pig
- ETL com Pig
- Transformações e junções
- Funções definidas pelo utilizador (UDF)
- laboratórios: escrever scripts Pig para analisar dados
Secção 5: Hive
- arquitetura e design
- tipos de dados
- Suporte SQL em Hive
- Criando Hive tabelas e consultando
- partições
- junções
- processamento de texto
- laboratórios : vários laboratórios sobre processamento de dados com Hive
Secção 6: HBase
- conceitos e arquitetura
- hbase vs RDBMS vs cassandra
- API do HBase Java
- Dados de séries temporais no HBase
- desenho de esquemas
- laboratórios : Interagir com o HBase usando shell; programação na API do HBase Java; exercício de desenho de esquemas
Requisitos
- à vontade com Java linguagem de programação (a maior parte dos exercícios de programação são em java)
- confortável no ambiente Linux (ser capaz de navegar na linha de comandos Linux, editar ficheiros usando vi / nano)
Ambiente de laboratório
Instalação zero: Não há necessidade de instalar o software hadoop nas máquinas dos alunos! Um cluster hadoop funcional será fornecido aos alunos.
Os alunos precisarão do seguinte
- um cliente SSH (Linux e Mac já têm clientes ssh, para Windows recomenda-se Putty )
- um browser para aceder ao cluster. Recomendamos o browser Firefox
Declaração de Clientes (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay