feat(vision_mcq): prepare example datasets from HuggingFace

從 HuggingFace 下載並準備 Vision MCQ benchmark 的 example datasets，供使用者快速驗證流程而無需下載完整資料集。

## 對應 CLAUDE.md
Section 6.1 - 提供評測集來源與 example 樣本

## 任務內容

1. 從以下 HuggingFace dataset 各取 10-20 筆代表性樣本：
   - `opencompass/MMBench` (dev split, EN)
   - `Lin-Chen/MMStar`
   - `MMMU/MMMU` (val split)
   - `lmms-lab/POPE`

2. 將圖片儲存為 jpg/png 檔案於 `datasets/example/{benchmark}/images/`

3. 建立 JSONL 檔案於 `datasets/example/{benchmark}/test.jsonl`，格式：
   ```json
   {"id": "...", "image_path": "images/xxx.jpg", "question": "...", "A": "...", "B": "...", "C": "...", "D": "...", "answer": "B"}
   ```
   POPE 為 Yes/No 二選一，使用 `A: Yes`, `B: No` 對應

4. 在 `scripts/` 下建立 `prepare_vision_mcq_examples.py` 維護用腳本

5. 更新 `datasets/example/README.md`

## 驗收標準
- [ ] 4 個 benchmark 各有 example dataset
- [ ] 圖片可正常開啟
- [ ] JSONL 格式正確、欄位齊全
- [ ] README 已更新

Part of Milestone #22

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat(vision_mcq): prepare example datasets from HuggingFace #128

對應 CLAUDE.md

任務內容

驗收標準

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

feat(vision_mcq): prepare example datasets from HuggingFace #128

Description

對應 CLAUDE.md

任務內容

驗收標準

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions