Petite question sur la méthode des "K nearest neighbors" !
Lorsque l'on considère un plan (soit 2 variables)la méthode est assez simple à comprendre. Maintenant considérons un modèle multivarié. Prenons par exemple les chances d'avoir un cancer.
On sait que le modèle sera complexe étant donnée la multitude de variables à prendre en compte on doit passer par un modèle multivarié.
Si l'on veut un modèle pas trop complexe pour éviter l'overfitting, ni trop simple, pour éviter l'underfitting, on va quand même se retrouver avec une dizaine de variables.
Donc reprenons, dans un plan, 2 variables c'est bon, dans un espace, 3 variables c'est bon pour les K nearest neighbors il suffit d'avoir une sphère. Mais passons à 4, 5 ou même 10 variables ! Dans ce cas on peut faire plus ou moins en sorte que ça marche mathématiquement, ça se fait très bien mais visuellement c'est pas toppp une sphère à 10 dimensions
! Donc en généralisant, lorsqu'on étudie des modèles multivariés avec n variables en IA, ce qui est fréquent, doit-on utiliser une hypersphère à n dimensions (ou n-sphère) pour la technique des K nearest neighbors ? Ou alors on tente une réduction du nombre de variables au risque de tomber dans l'underfitting ?
Après c'est vrai que ça n'a pas beaucoup d'intérêts d'étudier 2 variables comme dans l'exemple du prof, un "humain" le fait très bien, mais l'utilité de l'IA c'est bien de pouvoir avoir une multitude de variables possibles ! Donc cela serait dommage d'avoir à enlever des variables ?
Qu'en pensez-vous ? La question peut sembler longue et complexe mais elle découle du cours !
Merci d'avance et bon week-end !






