📚 Docs: Add resume script documentation

- New SCRAPER_REPRISE.md: Complete documentation for resume script * Explains the problem: Chrome crashes and 'invalid session id' errors * Describes the solution: Resume scraping from specific date * Detailed usage instructions with examples * Configuration guide for custom dates * Performance estimates and troubleshooting * Security guarantees (no data loss) * Connection to other documentation files - Covers: * How to launch and monitor the resume script * How to modify resume and end dates * Behavior (appends to existing CSV files) * Performance estimates * Troubleshooting common issues * Backup recommendations
2026-01-02 15:52:09 +01:00
parent 55e6fa5292
commit cbe10fe525
1 changed files with 178 additions and 0 deletions
--- a/docs/SCRAPER_REPRISE.md
+++ b/docs/SCRAPER_REPRISE.md
@@ -0,0 +1,178 @@
+# Script de Reprise du Scraper FFA
+
+## 📋 Description
+
+Le script `resume_scraping.py` permet de reprendre le scraping à partir d'une date spécifique après un crash, une interruption, ou une erreur du scraper principal.
+
+## 🚨 Problème Résolu
+
+### Crash du scraper principal
+Le scraper principal (`scraper_jour_par_jour.py`) peut rencontrer des erreurs critiques qui interrompent son fonctionnement:
+- **Erreur "invalid session id"**: La session Chrome devient invalide après un crash
+- **Chrome crashes**: Le navigateur Chrome peut planter après une longue période d'exécution
+- **Memory leaks**: Problèmes de mémoire après plusieurs heures de scraping
+- **Timeouts**: Délais d'attente dépassés
+
+### Solution
+Au lieu de relancer le scraper depuis le début (ce qui perdrait plusieurs heures de données), le script de reprise:
+1. Repart de la date spécifiée (généralement là où le crash s'est produit)
+2. Continuera d'ajouter aux fichiers CSV existants
+3. Conserve toutes les données déjà récupérées
+4. Termine jusqu'à la date de fin (2026-08-01)
+
+## 📝 Utilisation
+
+### Lancer le script de reprise
+
+```bash
+python scripts/resume_scraping.py
+```
+
+### Lancer en arrière-plan
+
+```bash
+nohup python scripts/resume_scraping.py > resume_scraping.log 2>&1 &
+```
+
+### Surveiller la progression
+
+```bash
+# Voir les logs en temps réel
+tail -f resume_scraping.log
+
+# Voir les statistiques actuelles
+tail -5 resume_scraping.log | grep "Jours traités:"
+
+# Vérifier la taille des fichiers
+ls -lh data/
+```
+
+## ⚙️ Configuration
+
+### Modifier la date de reprise
+
+Si vous devez reprendre à une date différente, modifiez le script:
+
+```python
+# Dans scripts/resume_scraping.py, ligne 27
+resume_date = "2024-04-08"  # Modifier cette date
+```
+
+### Modifier la date de fin
+
+Si vous devez changer la date de fin:
+
+```python
+# Dans scripts/resume_scraping.py, ligne 30
+end_date = "2026-08-01"  # Modifier cette date
+```
+
+## 📊 Comportement
+
+### Ajout aux fichiers existants
+
+Le script de reprise **ajoute** aux fichiers CSV existants:
+- `data/courses_daily.csv`: Ajoute les nouvelles courses
+- `data/results_daily.csv`: Ajoute les nouveaux résultats
+
+Les données existantes ne sont pas modifiées ou perdues.
+
+### Vérification des dates
+
+Le script utilise la même logique que le scraper principal:
+- Scraping jour par jour
+- Récupération des courses et résultats
+- Sauvegarde progressive
+
+### Logs
+
+Les logs sont sauvegardés dans `resume_scraping.log` avec:
+- Date et heure de chaque action
+- Nombre de courses récupérées par jour
+- Nombre de résultats récupérés par course
+- Erreurs et avertissements
+
+## 🔍 Exemple de sortie
+
+```
+============================================================
+🔄 Scraper FFA - Reprise
+============================================================
+Reprise à partir du: 2024-04-08
+Fin: 2026-08-01
+Fichiers de sortie: data/courses_daily.csv, data/results_daily.csv
+============================================================
+⚠️ Ce script va continuer d'ajouter aux fichiers existants
+============================================================
+2026-01-02 15:47:23,670 - INFO - Aucune course trouvée pour 2024-04-08
+2026-01-02 15:47:27,051 - INFO - 1 courses trouvées pour 2024-04-09
+2026-01-02 15:47:31,413 - INFO - 18 courses trouvées pour 2024-04-10
+...
+Jours traités:   1%|          | 10/846 [01:00<13:00,  65s/jour]
+...
+```
+
+## 🐛 Dépannage
+
+### Le script ne démarre pas
+
+Vérifiez que:
+1. Les dépendances sont installées: `pip install -r requirements.txt`
+2. ChromeDriver est disponible et compatible
+3. Les fichiers de logs ne sont pas en lecture seule
+
+### Erreur "invalid session id"
+
+Si cette erreur se produit de nouveau:
+1. Tuez le processus: `kill <PID>`
+2. Modifiez la date de reprise dans `resume_scraping.py`
+3. Relancez le script
+
+### Fichiers CSV vides
+
+Les fichiers CSV ne seront pas écrasés. Les nouvelles données seront ajoutées aux fichiers existants.
+
+## 📈 Performance
+
+### Temps estimé
+
+Le script de reprise a les mêmes performances que le scraper principal:
+- **Jours sans courses**: 3-4 secondes/jour
+- **Jours avec peu de courses**: 40-50 secondes/jour
+- **Jours avec beaucoup de courses**: 100-150 secondes/jour
+
+### Exemple
+
+Pour 846 jours restants (de 2024-04-08 à 2026-08-01):
+- Temps estimé: 14-21 heures
+- Estimation: Entre 06:00 et 13:00 le 3 janvier
+
+## 🔐 Sécurité
+
+### Aucune perte de données
+
+Le script de reprise est conçu pour **ne jamais perdre de données**:
+- Ajoute aux fichiers existants
+- Ne supprime rien
+- Ne modifie pas les lignes existantes
+
+### Sauvegarde avant reprise
+
+Avant de lancer le script de reprise, vous pouvez faire une sauvegarde:
+
+```bash
+cp data/courses_daily.csv data/courses_daily_backup.csv
+cp data/results_daily.csv data/results_daily_backup.csv
+```
+
+## 📚 Documentation Connexe
+
+- [Nouveau Scraper](NOUVEAU_SCRAPER.md) - Documentation du scraper principal
+- [README](../README.md) - Documentation générale du projet
+
+## 🤝 Support
+
+En cas de problème:
+1. Vérifiez les logs dans `resume_scraping.log`
+2. Vérifiez que le processus est en cours: `ps aux | grep resume_scraping.py`
+3. Consultez la section Dépannage de ce document