Effekten af batchstørrelse på træning af neurale net

Det første plot ovenfor viser, at de større batchstørrelser faktisk tilbagelægger mindre afstand pr. epoch. Afstanden for batch 32-træningsepoke varierer fra 0,15 til 0,4, mens den for batch 256-træning er omkring 0,02-0,04. Som vi kan se i det andet plot, stiger forholdet mellem epokens afstande faktisk over tid!

Men hvorfor tilbagelægger store batches mindre afstand pr. epok? Er det fordi vi har færre batches og dermed færre opdateringer pr. epoch? Eller er det, fordi hver batchopdatering tilbagelægger mindre afstand? Eller er svaret en kombination af begge dele?

For at besvare dette spørgsmål skal vi måle størrelsen af hver batchopdatering.