Skip to content

Daya Benchmark 测评榜单

关于 Daya Benchmark

Daya Benchmark 是由 Daya 官方维护的动态 AI 模型测评榜单,致力于为业界提供全面、客观、实时的 AI 模型性能评估。我们会定期对 Daya 平台上的模型与供应商渠道进行系统化测评,帮助用户快速了解最新能力表现。

测评特色

全渠道覆盖测评:对于每个模型的所有可用供应商渠道,我们都进行独立测试。例如,GPT-4 模型如果同时支持 OpenAI 和 Azure 两个供应商,我们将分别对这两个渠道进行测评,以反映不同供应商在性能、稳定性等方面的差异。

公开透明:我们会持续公开测评方法、评分逻辑与榜单更新说明,方便用户理解排名依据并长期跟踪结果变化。

数据集与方法论

我们采用 Scale AI 公开发布的 Humanity's Last Exam (Text Only) 数据集作为主要测评标准。该数据集涵盖了广泛的知识领域和推理能力测试,是业界公认的高质量 AI 评估基准。

关于该数据集的详细信息,请参考:https://scale.com/leaderboard/humanitys_last_exam_text_only

测评方法

我们对每个模型进行全量测试,力求获得最全面的性能评估。但由于部分模型厂商的内容过滤策略等技术限制,某些模型可能无法完成全部测试问题。

针对此类情况,我们采用以下公平的计分方式:

  • 评分计算:以该模型实际成功回复的问题数量作为总数进行评分计算
  • 价格折算:按照实际测试完成率对价格进行等比例折算,确保性价比计算的公平性
  • 透明度保障:每个模型的详细成功率和测试完成情况可参考各期 benchmark 中对应供应商来源模型的测试原始数据

我们的目标

Daya Benchmark 致力于构建一个动态更新的实时榜单,让业界能够及时了解 AI 模型的最新性能表现。我们将持续改进测评方法,扩展测试维度,为用户提供更全面的模型选择参考。

反馈与建议

我们欢迎社区的反馈与建议。如果您对测评方法、结果分析或榜单功能有任何想法,欢迎在 Daya 仓库的 Issue 区提出:https://github.com/ZikaiSun/daya/issues

感谢您对 Daya Benchmark 的关注与支持。