FlagEval

FlagEval是什么

FlagEval（天秤）是由北京智源人工智能研究院推出的AI大模型评测体系开放平台。提供评测方法统一规范、数据集原创防泄露、兼顾客观与主观评测、深度对标人类认知能力。支持全球800多个开闭源模型评测，覆盖语言、多模态、文图生成等多个领域，并积极参与国内外大模型评测标准制定，是国内最具权威性和中立性的第三方评测基础设施之一。

FlagEval的主要功能

多领域综合评测：涵盖自然语言处理（NLP）、计算机视觉（CV）、音频（Audio）、多模态（Multimodal）四大场景，支持基础模型、预训练算法、微调/压缩算法三大对象。
八大核心能力维度：包括语言理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观等，全面刻画模型认知水平。
客观+主观混合评测：客观部分在统一环境中运行；主观部分通过高频迭代的打分标准和大量非公开评测集，减少偏差。
原创非公开数据集：构建大量未公开测试题，防止模型“刷榜”或数据污染，保障评测结果真实有效。
排行榜与角斗场机制：提供公开榜单，并支持“大模型角斗场”等交互式对比评测，增强结果可解释性。
开放合作生态：与十余家高校及研究机构共建评测数据与工具，支持社区贡献与共享。