API 同步 高可信
LMArena Text-to-Image
适合作为开闭源混合图片生成排行的主同步源。
- 指标
- Arena rating,越高越好
- 频率
- 每 30 分钟同步;上游 latest split 随 LMArena 发布节奏更新。
开源与闭源混合 原始来源 API 同步 高可信
LMArena Image Edit
补充图片编辑模型,例如 GPT Image、Gemini 图像、Seedream 等。
- 指标
- Arena rating,越高越好
- 频率
- 每 30 分钟同步。
开源与闭源混合 原始来源 API 同步 高可信
LMArena Text-to-Video
文生视频主同步源,覆盖字节、快手、xAI、Google 等厂商。
- 指标
- Arena rating,越高越好
- 频率
- 每 30 分钟同步。
开源与闭源混合 原始来源 API 同步 高可信
LMArena Image-to-Video
图生视频工作流的补充同步源。
- 指标
- Arena rating,越高越好
- 频率
- 每 30 分钟同步。
开源与闭源混合 原始来源 API 同步 高可信
SWE-bench Verified
真实 GitHub issue 修复类 Agent Coding 的最佳结构化来源。
- 指标
- Resolved 百分比,越高越好
- 频率
- 每小时同步;来源为 Hugging Face benchmark leaderboard API。
开源与闭源混合 原始来源 API 同步 高可信
LMArena WebDev
补充 SWE-bench,覆盖网页开发偏好排行。
- 指标
- Arena rating,越高越好
- 频率
- 每 30 分钟同步。
开源与闭源混合 原始来源 API 同步 高可信
Open ASR Leaderboard
语音识别强来源;音频生成榜单仍需要二级人工/解析来源补充。
- 指标
- 平均 WER,越低越好
- 频率
- 可按小时或每日同步;benchmark API 结构化且可复现。
开源与闭源混合 原始来源 CSV 同步 中可信
OCRBench v2 English
适合 OCR 和文字密集视觉理解;建议同步到 D1 后做中等可信展示。
- 指标
- Average Score,越高越好
- 频率
- 每日从 raw CSV 同步;上游发布节奏不如 HF benchmark API 规范。
开源与闭源混合 原始来源 CSV 同步 中可信
OCRBench v2 Chinese
中文 OCR 与文档理解补充榜单。
- 指标
- Average Score,越高越好
- 频率
- 每日从 raw CSV 同步。
开源与闭源混合 原始来源 API 同步 高可信
LMArena Document
文档类多模态任务的可同步来源。
- 指标
- Arena rating,越高越好
- 频率
- 每 30 分钟同步。
开源与闭源混合 原始来源 API 同步 高可信
LMArena Vision
通用视觉推理和多模态模型对比。
- 指标
- Arena rating,越高越好
- 频率
- 每 30 分钟同步。
开源与闭源混合 原始来源 HTML 观察 观察源
Artificial Analysis Video
公开质量较高,但 HTML 解析比 benchmark API 更脆弱。
- 指标
- Video Arena ELO,越高越好
- 频率
- 没有稳定公开 API 前,只作交叉参考。
开源与闭源混合 原始来源 HTML 观察 观察源
Aider Polyglot
覆盖 C++、Go、Java、JavaScript、Python、Rust 的代码编辑榜单,但暂未发现稳定 JSON。
- 指标
- Pass rate,越高越好
- 频率
- 人工或 HTML 解析备用;适合作为代码编辑能力交叉参考。
开源与闭源混合 原始来源