Skip to content

[Epic] Chromium/Chrome 連携で JS 前提サイト取得を改善する #302

@kuwa2005

Description

@kuwa2005

概要

HTTrack の従来エンジンだけでは クライアントサイドで DOM を組み立てるサイト の再現が限界がある。
Chrome / Chromium 互換ブラウザを裏で起動し、レンダリング後のドキュメントやネットワークを取得する経路を追加し、JS 前提の Web への適合を段階的に上げる。

スコープ(構想)

  • コマンドラインで ブラウザ exe パスユーザーデータ(プロフィール)ディレクトリ を指定
  • 既定はヘッドレス(表示なし)。オプションでウィンドウ表示、または表示はするが目立たないモード等を選択可能に
  • ログイン・認証のため、一般ユーザーが自前で長い CLI を組まなくても済む プリセット/ガイド付きオプション(例: 取得前に停止してログイン待ち)

非ゴール(当面)

  • 違法・規約違反のスクレイピング支援
  • すべての BOT 対策突破
  • EasyList 級の完全な広告ブロック(既存 -#a とは別レイヤで検討可)

子タスク(別 Issue)

  • CLI・UX 仕様の確定
  • CDP / 子プロセス・成果物の HTTrack への載せ方
  • Phase 1: オプション受けとり + スタブログ

受け入れ基準(Epic 完了イメージ)

  • 代表的な CSR ページで、従来エンジンより 再現度が向上 するデモができる
  • オプションとドキュメントが揃い、認証フローが再現可能な手順が README / doc にある

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions