🎯 Objectifs
- Mener un projet de Data Science de A à Z.
- Participer (fictivement) à une compétition Kaggle.
- Appliquer toutes les notions vues en cours.
1. Le Contexte
Le naufrage du Titanic est l’un des plus célèbres de l’histoire. Votre mission : Créer un modèle capable de prédire quels passagers ont survécu au naufrage.
Les données sont disponibles ici : Titanic Dataset (Seaborn) ou sur Kaggle.
2. Cahier des Charges
Votre notebook doit contenir les sections suivantes :
A. Analyse Exploratoire (EDA)
- Quel est le taux de survie global ?
- Les femmes ont-elles plus survécu que les hommes ? (Visualisez avec un barplot).
- Les passagers de 1ère classe ont-ils plus survécu ?
- Quel est l’impact de l’âge ?
- Y a-t-il des valeurs manquantes ? (Indice :
AgeetDecken ont souvent).
B. Prétraitement (Preprocessing)
C’est l’étape la plus importante.
- Nettoyage : Que faire des âges manquants ? (Remplacer par la médiane ?). Supprimer la colonne
Decktrop vide ? - Encodage : Les algorithmes ne comprennent pas “male”/“female”. Transformez-les en 0/1. Idem pour la ville d’embarquement.
- Sélection : Gardez les colonnes pertinentes (ex:
pclass,sex,age,fare,sibsp).
C. Modélisation
Testez au moins 3 algorithmes différents :
- KNN (Pensez à normaliser les données !).
- Régression Logistique (C’est de la classification malgré son nom).
- Random Forest (Souvent très performant sur ce dataset).
D. Évaluation et Optimisation
- Utilisez la validation croisée (
cross_val_score) pour avoir une estimation fiable. - Essayez d’optimiser les hyperparamètres du meilleur modèle (ex:
n_neighborspour KNN,n_estimatorspour Random Forest) avecGridSearchCV.
3. Critères d’évaluation
- Rigueur de la démarche (Train/Test split respecté, métriques adaptées).
- Qualité du code (commentaires, noms de variables clairs).
- Visualisation (graphiques pertinents et titrés).
- Performance (Essayez de dépasser 80% d’accuracy !).
Bonne chance ! 🚢