Je ne comprends pas bien la différence entre un apprentissage supervisé et un apprentissage par renforcement, car dans les deux cas on a la notion de feedback pour améliorer l'algorithme. Est-ce que la différence réside dans le fait que, pour l'apprentissage par renforcement, ce ne soit pas nous (l'humain) qui apportons directement les données à l'algorithme, mais lui-même qui les récupère dans son environnement ?
Merci d'avance.


