Programa do Curso
- Introdução
- Hadoop história, conceitos
- Ecossistema
- Distribuições
- Arquitetura de alto nível
- Hadoop mitos
- Hadoop desafios (hardware / software)
- Laboratórios: discuta os seus Big Data projectos e problemas
- Planeamento e instalação
- Seleção de software, Hadoop distribuições
- Dimensionar o cluster, planear o crescimento
- Seleção de hardware e rede
- Topologia de rack
- Instalação
- Multi-tenancy
- Estrutura de diretórios, registos
- Benchmarking
- Laboratórios: instalação do cluster, execução de benchmarks de desempenho
- Operações do HDFS
- Conceitos (escalonamento horizontal, replicação, localidade de dados, reconhecimento de rack)
- Nós e daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorização do estado de saúde
- Administração baseada em linha de comando e navegador
- Adição de armazenamento, substituição de unidades defeituosas
- Laboratórios: familiarizar-se com as linhas de comando do HDFS
- Ingestão de dados
- Flume para logs e outros dados de ingestão no HDFS
- Sqoop para importar de bases de dados SQL para o HDFS, bem como exportar de volta para SQL
- Armazenamento de dados Hadoop com Hive
- Cópia de dados entre clusters (distcp)
- Utilização do S3 como complemento do HDFS
- Melhores práticas e arquitecturas de ingestão de dados
- Laboratórios: configuração e utilização do Flume, o mesmo para o Sqoop
- Operações e administração do MapReduce
- Computação paralela antes do mapreduce: comparação entre HPC e administração Hadoop
- Cargas de clusters MapReduce
- Nós e Daemons (JobTracker, TaskTracker)
- Apresentação da IU do MapReduce
- Configuração do Mapreduce
- Configuração de tarefas
- Otimização do MapReduce
- MR à prova de falhas: o que dizer aos seus programadores
- Laboratórios: executando exemplos de MapReduce
- YARN: nova arquitetura e novas capacidades
- Objectivos de conceção e arquitetura de implementação do YARN
- Novos actores: ResourceManager, NodeManager, Application Master
- Instalação do YARN
- Agendamento de tarefas no YARN
- Laboratórios: investigar o agendamento de trabalhos
- Tópicos avançados
- Monitorização de hardware
- Monitorização de clusters
- Adição e remoção de servidores, atualização Hadoop
- Backup, recuperação e planeamento da continuidade do negócio
- Fluxos de trabalho do Oozie
- Hadoop Alta disponibilidade (HA)
- [Federação
- Proteger o cluster com Kerberos
- Laboratórios: configurar a monitorização
- Trilhas opcionais
- Cloudera Manager para administração de clusters, monitorização e tarefas de rotina; instalação, utilização. Nesta faixa, todos os exercícios e laboratórios são realizados no ambiente de distribuição do Cloudera (CDH5)
- Ambari para administração de cluster, monitoramento e tarefas de rotina; instalação, uso. Neste curso, todos os exercícios e laboratórios são realizados no gerenciador de cluster Ambari e na Hortonworks Data Platform (HDP 2.0)
Requisitos
- conhecimentos básicos Linux de administração de sistemas
- competências básicas de scripting
Não são necessários conhecimentos de Hadoop e Computação Distribuída, mas serão introduzidos e explicados durante o curso.
Ambiente de laboratório
Instalação zero: Não há necessidade de instalar o software hadoop nas máquinas dos alunos! Um cluster hadoop funcional será fornecido aos alunos.
Os alunos precisarão do seguinte
- um cliente SSH (Linux e Mac já têm clientes ssh, para Windows recomenda-se Putty)
- um browser para aceder ao cluster. Recomendamos o browser Firefox com a extensão FoxyProxy instalada
Declaração de Clientes (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay