從 HuggingFace 下載並準備 Vision MCQ benchmark 的 example datasets,供使用者快速驗證流程而無需下載完整資料集。
對應 CLAUDE.md
Section 6.1 - 提供評測集來源與 example 樣本
任務內容
-
從以下 HuggingFace dataset 各取 10-20 筆代表性樣本:
opencompass/MMBench (dev split, EN)
Lin-Chen/MMStar
MMMU/MMMU (val split)
lmms-lab/POPE
-
將圖片儲存為 jpg/png 檔案於 datasets/example/{benchmark}/images/
-
建立 JSONL 檔案於 datasets/example/{benchmark}/test.jsonl,格式:
{"id": "...", "image_path": "images/xxx.jpg", "question": "...", "A": "...", "B": "...", "C": "...", "D": "...", "answer": "B"}
POPE 為 Yes/No 二選一,使用 A: Yes, B: No 對應
-
在 scripts/ 下建立 prepare_vision_mcq_examples.py 維護用腳本
-
更新 datasets/example/README.md
驗收標準
Part of Milestone #22
從 HuggingFace 下載並準備 Vision MCQ benchmark 的 example datasets,供使用者快速驗證流程而無需下載完整資料集。
對應 CLAUDE.md
Section 6.1 - 提供評測集來源與 example 樣本
任務內容
從以下 HuggingFace dataset 各取 10-20 筆代表性樣本:
opencompass/MMBench(dev split, EN)Lin-Chen/MMStarMMMU/MMMU(val split)lmms-lab/POPE將圖片儲存為 jpg/png 檔案於
datasets/example/{benchmark}/images/建立 JSONL 檔案於
datasets/example/{benchmark}/test.jsonl,格式:{"id": "...", "image_path": "images/xxx.jpg", "question": "...", "A": "...", "B": "...", "C": "...", "D": "...", "answer": "B"}POPE 為 Yes/No 二選一,使用
A: Yes,B: No對應在
scripts/下建立prepare_vision_mcq_examples.py維護用腳本更新
datasets/example/README.md驗收標準
Part of Milestone #22