Cursos de Unified Batch and Stream Processing with Apache Beam

Apache Beam é um modelo de programação unificado e de código aberto para definir e executar pipelines de processamento de dados paralelos. O seu poder reside na sua capacidade de executar pipelines em lote e em fluxo contínuo, sendo a execução efectuada por um dos back-ends de processamento distribuído suportados pelo Beam: Apache Apex, Apache Flink, Apache Spark e Google Cloud Dataflow. A solução Apache Beam é útil para tarefas de ETL (Extrair, Transformar e Carregar), como mover dados entre diferentes mídias de armazenamento e fontes de dados, transformar dados em um formato mais desejável e carregar dados em um novo sistema.

Neste treinamento ao vivo conduzido por instrutor (no local ou remoto), os participantes aprenderão como implementar os SDKs Apache Beam em um aplicativo Java ou Python que define um pipeline de processamento de dados para decompor um grande conjunto de dados em pedaços menores para processamento paralelo e independente.

Ao final deste treinamento, os participantes serão capazes de:

Instalar e configurar Apache Beam.
Utilizar um único modelo de programação para efetuar o processamento em lote e em fluxo a partir da sua aplicação Java ou Python.
Executar pipelines em vários ambientes.

Formato do curso

Parte palestra, parte discussão, exercícios e muita prática

Nota

Este curso estará disponível Scala no futuro. Por favor, contacte-nos para organizar.

Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.

Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.

Programa do Curso

Introdução

Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm e Flink

Instalação e configuração de Apache Beam

Visão geral dos recursos e da arquitetura do Apache Beam

Modelo de feixe, SDKs, executores de pipeline de feixe
Back-ends de processamento distribuído

Entendendo o modelo Apache Beam Programming

Como um pipeline é executado

Executando um pipeline de amostra

Preparando um pipeline WordCount
Executando o pipeline localmente

Projetando um Pipeline

Planejando a estrutura, escolhendo as transformações, e determinando os métodos de entrada e saída

Criando o pipeline

Escrevendo o programa driver e definindo o pipeline
Usando classes Apache Beam
Conjuntos de dados, transformações, I/O, codificação de dados, etc.

Executando o pipeline

Executando o pipeline localmente, em máquinas remotas e em uma nuvem pública
Escolhendo um executor
Configurações específicas do runner

Testando e depurando Apache Beam

Usando dicas de tipo para emular a tipagem estática
Gerenciando Python Dependências do pipeline

Processando conjuntos de dados limitados e não limitados

Janelas e gatilhos

Tornando seus pipelines reutilizáveis e passíveis de manutenção

Criar novas fontes e sumidouros de dados

API de fonte e sumidouro Apache Beam

Integrando Apache Beam com outros Big Data sistemas

Apache Hadoop, Apache Spark, Apache Kafka

Solução de problemas

Resumo e conclusão

Requisitos

Experiência com Python Programming.
Experiência com a linha de comando Linux.

Público

Desenvolvedores

14 Horas

Precisa de ajuda para escolher o curso certo?

Cursos de Unified Batch and Stream Processing with Apache Beam

Programa do Curso

Requisitos

Próximas Formações Provisórias

Unified Batch and Stream Processing with Apache Beam

Unified Batch and Stream Processing with Apache Beam

Unified Batch and Stream Processing with Apache Beam

Unified Batch and Stream Processing with Apache Beam

Unified Batch and Stream Processing with Apache Beam

Categorias Relacionadas

Este site em outros países/regiões

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites