AWS DeepRacer: modello 5

AWS DeepRacer sfrutta Amazon SageMaker per addestrare il modello dietro le quinte e utilizza AWS RoboMaker per simulare l’interazione dell’agente con l’ambiente. Guarda come si comporta l’agente nell’ambiente scelto, come prescritto dalla funzione di ricompensa.

Configurazione della formazione

Grafico dei premi

Questo grafico mostra la ricompensa totale per episodio nel tempo. Dai a n una traccia e una funzione di ricompensa, la ricompensa totale supera una certa soglia quando l’agente finisce un giro. Se la ricompensa totale nella tua formazione supera costantemente la soglia, è probabile che il modello sia convergente. La ricompensa totale varia a causa di azioni casuali che l’agente intraprende per l’esplorazione. Il selettore di iterazione del modello consente alla simulazione di AWS DeepRacer di passare dalla formazione alla valutazione del punto di controllo fino alla fine del lavoro di formazione.

Posizione attuale nella AWS DeepRacer League con questo modello 469/1381