Programa do Curso

Introdução

  • Aprendizagem através do reforço positivo

Elements de Reinforcement Learning

Termos importantes (Acções, Estados, Recompensas, Política, Valor, Valor-Q, etc.)

Visão geral dos métodos de soluções tabulares

Criar um agente de software

Compreender as abordagens baseadas no valor, na política e no modelo

Trabalhando com o Processo de Decisão Markov (MDP)

Como as políticas definem o modo de comportamento de um agente

Utilização de métodos de Monte Carlo

Aprendizagem por diferença temporal

n-passo Bootstrapping

Métodos de solução aproximada

Previsão na política com aproximação

Controlo em política com aproximação

Métodos extrapolíticos com aproximação

Compreender os traços de elegibilidade

Utilização de métodos de gradiente de política

Resumo e conclusão

Requisitos

  • Experiência com aprendizagem automática
  • Experiência Programming

Público

  • Cientistas de dados
 21 Horas

Próximas Formações Provisórias

Categorias Relacionadas