2026
Fake News Detection
Système de détection de fake news par NLP avec pipeline complet : baseline TF-IDF, fine-tuning BERT/RoBERTa/DeBERTa, évaluation cross-dataset et analyse d'interprétabilité SHAP/LIME. Entraîné sur le dataset LIAR (12 800 déclarations politiques).
Ce projet de spécialisation NLP propose un système complet de détection de fake news. Le pipeline couvre l'analyse exploratoire, le prétraitement, les modèles baseline (Naive Bayes, Régression Logistique, XGBoost), le fine-tuning de modèles transformer (BERT, RoBERTa, DeBERTa), l'évaluation sur un dataset externe (généralisation out-of-distribution) et l'analyse d'interprétabilité avec SHAP et LIME. Le dataset LIAR contient 12 800 déclarations politiques étiquetées par les fact-checkers de PolitiFact. Le projet intègre également une analyse de biais éthique.
Défis
- Classification multi-classes de déclarations politiques avec nuances contextuelles
- Généralisation du modèle sur des datasets externes non vus à l'entraînement
- Interprétabilité des décisions du modèle pour garantir la confiance
- Détection et analyse des biais dans les prédictions
Solutions
- Pipeline progressif : baseline TF-IDF → fine-tuning BERT/RoBERTa/DeBERTa
- Évaluation cross-dataset pour mesurer la robustesse out-of-distribution
- Analyse SHAP et LIME pour l'explicabilité des prédictions
- Audit de biais éthique intégré dans le pipeline d'évaluation
Résultats
- 5 notebooks couvrant le pipeline complet EDA → interprétabilité
- Comparaison de 6+ modèles (baseline + transformers)
- Analyse d'interprétabilité SHAP/LIME sur les prédictions
- Évaluation de généralisation sur dataset externe
Technologies
Python · PyTorch · BERT · Transformers · SHAP · LIME · Scikit-learn · XGBoost