Skip to content

feat(vision_mcq): speed benchmark vs VLMEvalKit #131

@lianghsun

Description

@lianghsun

記錄 Twinkle Eval (Phase 1 vision_mcq) 與 VLMEvalKit 在同等條件下的評測速度對比。

對應 CLAUDE.md

Section 6.4 - 記錄評測速度對比

任務內容

docs/evals/vision_mcq.md 的「速度對比」段落記錄:

  • Twinkle Eval(單機)

    • 總耗時
    • 並行 worker 數(max_workers)
    • 模型名稱
    • 題目數量
  • VLMEvalKit(同等硬體、同等題數)

    • 總耗時
    • 模型名稱
    • 題目數量

如 VLMEvalKit 無法在同等環境執行,註明「無法直接對比」並說明原因。

驗收標準

  • 文件記錄速度對比數據
  • 標明測試環境(GPU/CPU、API endpoint 類型)
  • 有 benchmark 規模說明

Part of Milestone #22

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    Status

    Backlog

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions