Ce projet lit un fichier HTML simulant un flux de publications de type réseau social, extrait les données utiles (utilisateur, contenu, horodatage), puis exporte le résultat dans un fichier CSV.
Automatiser la transformation de données semi-structurées (HTML) vers un format tabulaire exploitable (CSV).
- Day62.py : script principal d'extraction
- social_media.html : source HTML à analyser
- social_media_posts.csv : fichier de sortie généré
- Python 3.8 ou version supérieure
- Bibliothèque BeautifulSoup4
- Se placer dans le dossier du projet.
- Installer les dépendances :
pip install -r requirements.txtpython Day62.pyLe script lit social_media.html et met à jour social_media_posts.csv.
Le fichier CSV contient les colonnes suivantes :
- username
- content
- timestamp
- load_html(file_path) : charge le contenu HTML
- extract_posts(soup) : extrait les publications
- save_posts_to_csv(posts, file_path) : écrit les données dans le CSV
- main() : orchestre le flux complet
- Validation plus robuste des champs manquants
- Gestion de plusieurs structures HTML
- Ajout de tests unitaires
- Export vers JSON en complément du CSV