Efeito do Tamanho do Lote no Treinamento da Rede Neural

O primeiro gráfico acima mostra que os tamanhos maiores dos lotes atravessam de fato menos distância por época. A distância do lote 32 de treinamento varia de 0,15 a 0,4, enquanto que para o lote 256 de treinamento fica em torno de 0,02-0,04. Na verdade, como podemos ver no segundo gráfico, a proporção das distâncias entre as épocas aumenta com o tempo!

Mas por que o treinamento em lotes grandes percorre menos distância por época? Será porque temos menos lotes, e portanto menos atualizações por época? Ou será porque cada atualização de lote percorre menos distância? Ou, a resposta é uma combinação de ambos?

Para responder a esta pergunta, vamos medir o tamanho de cada atualização de lote.