概要
HTTrack の従来エンジンだけでは クライアントサイドで DOM を組み立てるサイト の再現が限界がある。
Chrome / Chromium 互換ブラウザを裏で起動し、レンダリング後のドキュメントやネットワークを取得する経路を追加し、JS 前提の Web への適合を段階的に上げる。
スコープ(構想)
- コマンドラインで ブラウザ exe パス・ユーザーデータ(プロフィール)ディレクトリ を指定
- 既定はヘッドレス(表示なし)。オプションでウィンドウ表示、または表示はするが目立たないモード等を選択可能に
- ログイン・認証のため、一般ユーザーが自前で長い CLI を組まなくても済む プリセット/ガイド付きオプション(例: 取得前に停止してログイン待ち)
非ゴール(当面)
- 違法・規約違反のスクレイピング支援
- すべての BOT 対策突破
- EasyList 級の完全な広告ブロック(既存
-#a とは別レイヤで検討可)
子タスク(別 Issue)
- CLI・UX 仕様の確定
- CDP / 子プロセス・成果物の HTTrack への載せ方
- Phase 1: オプション受けとり + スタブログ
受け入れ基準(Epic 完了イメージ)
- 代表的な CSR ページで、従来エンジンより 再現度が向上 するデモができる
- オプションとドキュメントが揃い、認証フローが再現可能な手順が README / doc にある
概要
HTTrack の従来エンジンだけでは クライアントサイドで DOM を組み立てるサイト の再現が限界がある。
Chrome / Chromium 互換ブラウザを裏で起動し、レンダリング後のドキュメントやネットワークを取得する経路を追加し、JS 前提の Web への適合を段階的に上げる。
スコープ(構想)
非ゴール(当面)
-#aとは別レイヤで検討可)子タスク(別 Issue)
受け入れ基準(Epic 完了イメージ)