記錄 Twinkle Eval (Phase 1 vision_mcq) 與 VLMEvalKit 在同等條件下的評測速度對比。
對應 CLAUDE.md
Section 6.4 - 記錄評測速度對比
任務內容
在 docs/evals/vision_mcq.md 的「速度對比」段落記錄:
-
Twinkle Eval(單機):
- 總耗時
- 並行 worker 數(max_workers)
- 模型名稱
- 題目數量
-
VLMEvalKit(同等硬體、同等題數):
如 VLMEvalKit 無法在同等環境執行,註明「無法直接對比」並說明原因。
驗收標準
Part of Milestone #22
記錄 Twinkle Eval (Phase 1 vision_mcq) 與 VLMEvalKit 在同等條件下的評測速度對比。
對應 CLAUDE.md
Section 6.4 - 記錄評測速度對比
任務內容
在
docs/evals/vision_mcq.md的「速度對比」段落記錄:Twinkle Eval(單機):
VLMEvalKit(同等硬體、同等題數):
如 VLMEvalKit 無法在同等環境執行,註明「無法直接對比」並說明原因。
驗收標準
Part of Milestone #22