feat(vision_mcq): speed benchmark vs VLMEvalKit

記錄 Twinkle Eval (Phase 1 vision_mcq) 與 VLMEvalKit 在同等條件下的評測速度對比。

## 對應 CLAUDE.md
Section 6.4 - 記錄評測速度對比

## 任務內容

在 `docs/evals/vision_mcq.md` 的「速度對比」段落記錄：

- **Twinkle Eval（單機）**：
  - 總耗時
  - 並行 worker 數（max_workers）
  - 模型名稱
  - 題目數量

- **VLMEvalKit（同等硬體、同等題數）**：
  - 總耗時
  - 模型名稱
  - 題目數量

如 VLMEvalKit 無法在同等環境執行，註明「無法直接對比」並說明原因。

## 驗收標準
- [ ] 文件記錄速度對比數據
- [ ] 標明測試環境（GPU/CPU、API endpoint 類型）
- [ ] 有 benchmark 規模說明

Part of Milestone #22

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat(vision_mcq): speed benchmark vs VLMEvalKit #131

對應 CLAUDE.md

任務內容

驗收標準

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

feat(vision_mcq): speed benchmark vs VLMEvalKit #131

Description

對應 CLAUDE.md

任務內容

驗收標準

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions