Commit Graph

3 Commits

Author SHA1 Message Date
Muyue
f6c8e889d5 Feature: Complete FFA scraping system with results extraction
🎯 Major achievements:
- Scraped 133,358 courses from 2010-2026 (17 years)
- Extracted 1,753,172 athlete results
- Fixed season calculation bug for December months
- Implemented ultra-fast scraping without Selenium (100x faster)

📊 Data coverage:
- Temporal: 2010-2026 (complete)
- Monthly: All 12 months covered
- Geographic: 20,444 unique locations
- Results: 190.9 results per course average

🚀 Technical improvements:
- Season calculation corrected for FFA calendar system
- Sequential scraping for stability (no driver conflicts)
- Complete results extraction with all athlete data
- Club search functionality (found Haute Saintonge Athlétisme)

📁 New scripts:
- scrape_fast.py: Ultra-fast period scraping (requests + bs4)
- extract_results_complete.py: Complete results extraction
- combine_all_periods.py: Data consolidation tool

⏱️ Performance:
- Scraping: 16.1 minutes for 1,241 periods
- Extraction: 3 hours for 9,184 courses with results
- Total: 1,886,530 records extracted
2026-01-02 01:16:06 +01:00
Muyue
adb49d5484 Corriger le script scrape_all_periods et documenter son utilisation
- Remplacer data_2010_2026 par data dans scrape_all_periods.py (2 occurrences)
- Ajouter la section 3.5 dans le README pour expliquer le scraping complet
- Documenter le fonctionnement du script par périodes de 15 jours (2010-2026)
- Expliquer la structure des fichiers générés et le processus automatique
- Tester avec succès le scraping d'une période (134 courses récupérées)

Le script scrape_all_periods.py permet maintenant:
- Scraper toutes les courses de 2010 à 2026 par lots de 15 jours
- Utiliser le répertoire data/ correctement
- Fusionner automatiquement tous les CSV dans data/courses/courses_list.csv
- Exécuter les scripts de post-traitement automatiquement

💘 Generated with Crush

Assisted-by: GLM-4.7 via Crush <crush@charm.land>
2026-01-01 18:10:17 +01:00
Muyue
a5406a4e89 Initial commit: Reorganiser le projet FFA Calendar Scraper
- Créer une arborescence propre (src/, scripts/, config/, data/, docs/, tests/)
- Déplacer les modules Python dans src/
- Déplacer les scripts autonomes dans scripts/
- Nettoyer les fichiers temporaires et __pycache__
- Mettre à jour le README.md avec documentation complète
- Mettre à jour les imports dans les scripts pour la nouvelle structure
- Configurer le .gitignore pour ignorer les données et logs
- Organiser les données dans data/ (courses, resultats, clubs, exports)

Structure du projet:
- src/: Modules principaux (ffa_scraper, ffa_analyzer)
- scripts/: Scripts CLI et utilitaires
- config/: Configuration (config.env)
- data/: Données générées
- docs/: Documentation
- tests/: Tests unitaires

💘 Generated with Crush

Assisted-by: GLM-4.7 via Crush <crush@charm.land>
2026-01-01 18:05:14 +01:00