Daya Benchmark 测评榜单

关于 Daya Benchmark

Daya Benchmark 是由 Daya 官方维护的动态 AI 模型测评榜单，致力于为业界提供全面、客观、实时的 AI 模型性能评估。我们会定期对 Daya 平台上的模型与供应商渠道进行系统化测评，帮助用户快速了解最新能力表现。

全渠道覆盖测评：对于每个模型的所有可用供应商渠道，我们都进行独立测试。例如，GPT-4 模型如果同时支持 OpenAI 和 Azure 两个供应商，我们将分别对这两个渠道进行测评，以反映不同供应商在性能、稳定性等方面的差异。

公开透明：我们会持续公开测评方法、评分逻辑与榜单更新说明，方便用户理解排名依据并长期跟踪结果变化。

我们采用 Scale AI 公开发布的 Humanity's Last Exam (Text Only) 数据集作为主要测评标准。该数据集涵盖了广泛的知识领域和推理能力测试，是业界公认的高质量 AI 评估基准。

我们对每个模型进行全量测试，力求获得最全面的性能评估。但由于部分模型厂商的内容过滤策略等技术限制，某些模型可能无法完成全部测试问题。

针对此类情况，我们采用以下公平的计分方式：

Daya Benchmark 致力于构建一个动态更新的实时榜单，让业界能够及时了解 AI 模型的最新性能表现。我们将持续改进测评方法，扩展测试维度，为用户提供更全面的模型选择参考。

我们欢迎社区的反馈与建议。如果您对测评方法、结果分析或榜单功能有任何想法，欢迎在 Daya 仓库的 Issue 区提出：https://github.com/ZikaiSun/daya/issues

感谢您对 Daya Benchmark 的关注与支持。