Skip to content

Omotolaaa7/HTML_to_CSV

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Extracteur de publications HTML vers CSV

Description

Ce projet lit un fichier HTML simulant un flux de publications de type réseau social, extrait les données utiles (utilisateur, contenu, horodatage), puis exporte le résultat dans un fichier CSV.

Objectif

Automatiser la transformation de données semi-structurées (HTML) vers un format tabulaire exploitable (CSV).

Fichiers du projet

  • Day62.py : script principal d'extraction
  • social_media.html : source HTML à analyser
  • social_media_posts.csv : fichier de sortie généré

Prérequis

  • Python 3.8 ou version supérieure
  • Bibliothèque BeautifulSoup4

Installation

  1. Se placer dans le dossier du projet.
  2. Installer les dépendances :
pip install -r requirements.txt

Exécution

python Day62.py

Le script lit social_media.html et met à jour social_media_posts.csv.

Résultat attendu

Le fichier CSV contient les colonnes suivantes :

  • username
  • content
  • timestamp

Structure fonctionnelle

  • load_html(file_path) : charge le contenu HTML
  • extract_posts(soup) : extrait les publications
  • save_posts_to_csv(posts, file_path) : écrit les données dans le CSV
  • main() : orchestre le flux complet

Améliorations possibles

  • Validation plus robuste des champs manquants
  • Gestion de plusieurs structures HTML
  • Ajout de tests unitaires
  • Export vers JSON en complément du CSV

About

Ce projet lit un fichier HTML simulant un flux de publications de type réseau social, extrait les données utiles (utilisateur, contenu, horodatage), puis exporte le résultat dans un fichier CSV.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors