🎯 Objectifs
- Comprendre la méthode des moindres carrés.
- Exécuter l’algorithme KNN à la main.
- Comprendre l’impact de K et la pondération.
- Effectuer une itération de Descente de Gradient.
Exercice 1 : Régression Linéaire Simple
On cherche à prédire la note d’un étudiant () en fonction de son temps de révision en heures (). On a 3 points de données :
- A : (1h, 2/20)
- B : (2h, 4/20)
- C : (4h, 8/20)
On cherche une droite modèle . (On suppose pour simplifier, la droite passe par l’origine).
Questions :
- Tracez ces 3 points sur un graphique.
- Tracez la droite .
- Calculez l’erreur pour chaque point avec ce modèle. L’erreur est la différence .
- Calculez la MSE (Mean Squared Error) de ce modèle.
- Essayez avec le modèle . La MSE est-elle meilleure ?
- Intuitivement, quel est le meilleur ?
Exercice 2 : K-Nearest Neighbors (KNN)
On veut prédire si un client va acheter un produit (Classe 1 : Achat, Classe 0 : Pas Achat) en fonction de son Âge et de son Revenu (normalisés).
Dataset connu :
- P1 (Âge=20, Rev=20) : Non (0)
- P2 (Âge=25, Rev=25) : Non (0)
- P3 (Âge=40, Rev=60) : Oui (1)
- P4 (Âge=50, Rev=50) : Oui (1)
- P5 (Âge=30, Rev=40) : Non (0)
Nouveau client X : (Âge=35, Rev=35).
Questions :
- Placez approximativement les points sur un graphique 2D.
- Calculez la distance Euclidienne au carré () entre X et chaque point P1…P5.
- Rappel : . Pas besoin de la racine carrée pour comparer.
- Quels sont les 3 plus proches voisins (K=3) de X ?
- Quelle est la classe majoritaire parmi ces 3 voisins ?
- Quelle est la prédiction pour X ?
Exercice 3 : L’impact de K
Reprenons l’exercice précédent.
Questions :
- Si on choisit K=1, quelle est la prédiction ? Quel est le voisin considéré ?
- Si on choisit K=5 (tous les points), quelle est la prédiction ?
- Imaginez que P5 (le voisin le plus proche) soit une erreur de saisie (un “outlier”). Quel impact cela a-t-il si K=1 ? Et si K=3 ?
- Concluez sur le rôle de K dans le lissage de la décision.
Exercice 4 : Descente de Gradient (Manuelle)
On reprend l’exercice 1 avec le modèle . On veut trouver le meilleur sans deviner, en utilisant la dérivée. La fonction de coût pour un seul point est . La dérivée de l’erreur par rapport à est : .
Prenons le point C (4h, 8/20). On initialise (pente trop faible).
Questions :
- Calculez la prédiction .
- Calculez l’erreur .
- Calculez le gradient (la pente de l’erreur) : .
- Le gradient est négatif, cela veut dire qu’il faut augmenter .
- Mettez à jour avec un taux d’apprentissage .
- .
- Quelle est la nouvelle valeur de ? Est-on plus proche de la solution idéale () ?
Exercice 5 : KNN Pondéré (Weighted KNN)
Dans l’exercice 2, les 3 voisins étaient P5 (très proche), P2 (moyen) et P3 (loin). Pourtant, P3 a autant de poids que P5 dans le vote.
On décide de pondérer le vote par l’inverse de la distance carrée : .
Données (Distances carrées fictives pour simplifier) :
- (Classe 0)
- (Classe 0)
- (Classe 1)
Questions :
- Calculez le poids de chaque voisin ().
- Faites la somme des poids pour la Classe 0.
- Faites la somme des poids pour la Classe 1.
- Qui gagne ? Est-ce différent du vote majoritaire simple ?