实时模型排行雷达

模型排行

覆盖图片、视频、Coding、音频、OCR/文档和视觉模型的实用榜单页。优先使用公开 API 与 raw CSV，HTML 榜单只作交叉参考。

来源 LMArena Text-to-Image 正在加载实时榜单数据...

排行来源

排名	模型	机构	分数	开放状态	证据
正在加载实时榜单数据...

数据源矩阵

每个来源都标注同步方式和可信度，方便 Codex 后续决定哪些自动抓取、哪些只做参考。

API 同步高可信

LMArena Text-to-Image

适合作为开闭源混合图片生成排行的主同步源。

指标: Arena rating，越高越好
频率: 每 30 分钟同步；上游 latest split 随 LMArena 发布节奏更新。

开源与闭源混合原始来源

API 同步高可信

LMArena Image Edit

补充图片编辑模型，例如 GPT Image、Gemini 图像、Seedream 等。

指标: Arena rating，越高越好
频率: 每 30 分钟同步。

开源与闭源混合原始来源

API 同步高可信

LMArena Text-to-Video

文生视频主同步源，覆盖字节、快手、xAI、Google 等厂商。

指标: Arena rating，越高越好
频率: 每 30 分钟同步。

开源与闭源混合原始来源

API 同步高可信

LMArena Image-to-Video

图生视频工作流的补充同步源。

指标: Arena rating，越高越好
频率: 每 30 分钟同步。

开源与闭源混合原始来源

API 同步高可信

SWE-bench Verified

真实 GitHub issue 修复类 Agent Coding 的最佳结构化来源。

指标: Resolved 百分比，越高越好
频率: 每小时同步；来源为 Hugging Face benchmark leaderboard API。

开源与闭源混合原始来源

API 同步高可信

LMArena WebDev

补充 SWE-bench，覆盖网页开发偏好排行。

指标: Arena rating，越高越好
频率: 每 30 分钟同步。

开源与闭源混合原始来源

API 同步高可信

Open ASR Leaderboard

语音识别强来源；音频生成榜单仍需要二级人工/解析来源补充。

指标: 平均 WER，越低越好
频率: 可按小时或每日同步；benchmark API 结构化且可复现。

开源与闭源混合原始来源

CSV 同步中可信

OCRBench v2 English

适合 OCR 和文字密集视觉理解；建议同步到 D1 后做中等可信展示。

指标: Average Score，越高越好
频率: 每日从 raw CSV 同步；上游发布节奏不如 HF benchmark API 规范。

开源与闭源混合原始来源

CSV 同步中可信

OCRBench v2 Chinese

中文 OCR 与文档理解补充榜单。

指标: Average Score，越高越好
频率: 每日从 raw CSV 同步。

开源与闭源混合原始来源

API 同步高可信

LMArena Document

文档类多模态任务的可同步来源。

指标: Arena rating，越高越好
频率: 每 30 分钟同步。

开源与闭源混合原始来源

API 同步高可信

LMArena Vision

通用视觉推理和多模态模型对比。

指标: Arena rating，越高越好
频率: 每 30 分钟同步。

开源与闭源混合原始来源

HTML 观察观察源

Artificial Analysis Video

公开质量较高，但 HTML 解析比 benchmark API 更脆弱。

指标: Video Arena ELO，越高越好
频率: 没有稳定公开 API 前，只作交叉参考。

开源与闭源混合原始来源

HTML 观察观察源

Aider Polyglot

覆盖 C++、Go、Java、JavaScript、Python、Rust 的代码编辑榜单，但暂未发现稳定 JSON。

指标: Pass rate，越高越好
频率: 人工或 HTML 解析备用；适合作为代码编辑能力交叉参考。

开源与闭源混合原始来源