2026

Fake News Detection

Système de détection de fake news par NLP avec pipeline complet : baseline TF-IDF, fine-tuning BERT/RoBERTa/DeBERTa, évaluation cross-dataset et analyse d'interprétabilité SHAP/LIME. Entraîné sur le dataset LIAR (12 800 déclarations politiques).

Ce projet de spécialisation NLP propose un système complet de détection de fake news. Le pipeline couvre l'analyse exploratoire, le prétraitement, les modèles baseline (Naive Bayes, Régression Logistique, XGBoost), le fine-tuning de modèles transformer (BERT, RoBERTa, DeBERTa), l'évaluation sur un dataset externe (généralisation out-of-distribution) et l'analyse d'interprétabilité avec SHAP et LIME. Le dataset LIAR contient 12 800 déclarations politiques étiquetées par les fact-checkers de PolitiFact. Le projet intègre également une analyse de biais éthique.

Défis

Classification multi-classes de déclarations politiques avec nuances contextuelles
Généralisation du modèle sur des datasets externes non vus à l'entraînement
Interprétabilité des décisions du modèle pour garantir la confiance
Détection et analyse des biais dans les prédictions

Solutions

Pipeline progressif : baseline TF-IDF → fine-tuning BERT/RoBERTa/DeBERTa
Évaluation cross-dataset pour mesurer la robustesse out-of-distribution
Analyse SHAP et LIME pour l'explicabilité des prédictions
Audit de biais éthique intégré dans le pipeline d'évaluation

Résultats

5 notebooks couvrant le pipeline complet EDA → interprétabilité
Comparaison de 6+ modèles (baseline + transformers)
Analyse d'interprétabilité SHAP/LIME sur les prédictions
Évaluation de généralisation sur dataset externe

Technologies

Python · PyTorch · BERT · Transformers · SHAP · LIME · Scikit-learn · XGBoost