Programa do Curso

Introdução

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm e Flink

Instalação e configuração de Apache Beam

Visão geral dos recursos e da arquitetura do Apache Beam

  • Modelo de feixe, SDKs, executores de pipeline de feixe
  • Back-ends de processamento distribuído

Entendendo o modelo Apache Beam Programming

  • Como um pipeline é executado

Executando um pipeline de amostra

  • Preparando um pipeline WordCount
  • Executando o pipeline localmente

Projetando um Pipeline

  • Planejando a estrutura, escolhendo as transformações, e determinando os métodos de entrada e saída

Criando o pipeline

  • Escrevendo o programa driver e definindo o pipeline
  • Usando classes Apache Beam
  • Conjuntos de dados, transformações, I/O, codificação de dados, etc.

Executando o pipeline

  • Executando o pipeline localmente, em máquinas remotas e em uma nuvem pública
  • Escolhendo um executor
  • Configurações específicas do runner

Testando e depurando Apache Beam

  • Usando dicas de tipo para emular a tipagem estática
  • Gerenciando Python Dependências do pipeline

Processando conjuntos de dados limitados e não limitados

  • Janelas e gatilhos

Tornando seus pipelines reutilizáveis e passíveis de manutenção

Criar novas fontes e sumidouros de dados

  • API de fonte e sumidouro Apache Beam

Integrando Apache Beam com outros Big Data sistemas

  • Apache Hadoop, Apache Spark, Apache Kafka

Solução de problemas

Resumo e conclusão

Requisitos

  • Experiência com Python Programming.
  • Experiência com a linha de comando Linux.

Público

  • Desenvolvedores
 14 Horas

Próximas Formações Provisórias

Categorias Relacionadas