解读｜8月SuperCLUE大模型评测体系、方法及变动说明

Original SuperCLUE CLUE中文语言理解测评基准

2024-09-09

8月28日，CLUE社区发布了8月中文大模型测评榜单，引起了社会各界的广泛关注和热议，关于评测结果在众多开源社群展开了讨论，为此，CLUE团队发起了“8月SuperCLUE反馈收集”活动，收到近千份反馈。

本文会对8月SuperCLUE的评测方法进行解读，同时对开发者关心的典型问题进行回复。

8月SuperCLUE的评测方法

8月SuperCLUE评测主要包括多轮开放问题测评（OPEN）和三大能力选择题评测（OPT）。共3337题，其中，OPEN623题、OPT2714题。8月SuperCLUE总排行榜的总分由SuperCLUE-OPEN和OPT两部分合并组成：

总分=50%*OPEN分+50%*OPT分

OPEN多轮开放问题测评（主观题）

OPEN主观题的测评聚焦在反应大模型用于真实用户场景的能力，特别是开放式问题的生成能力、指令遵循和多轮交互能力，包括十大基础能力。

8月OPEN主观题由测试库中抽取后人工进行校验并撰写第二轮问题。OPEN基准使用超级模型（如GPT4）作为评判官，使用一个待评估模型与一个基准模型（如gpt-3.5-turbo）进行对比，让超级模型选出哪个模型更好。答案是，A模型好，B模型好，或平局。评估的标准，是要求超级模型作为一个公证的评估者，评估模型的质量。回答的质量包括回答有针对性、准确和全面，并且可以对多轮能力进行评测。

示例

OPT三大能力选择题测评（选择题）

OPT选择题的测评维度主要包括基础能力、学术与专业能力和中文特性三个维度，共计有74个评测任务。

8月OPT选择题是在SuperCLUE十万量级测试库中抽取，并移除了过去历月评测集，保证8月的选择题是全新独立性。针对每一个题目，我们构造了统一的prompt供模型使用，要求模型选取ABCD中一个唯一的选项。

示例：

--语义理解：请阅读下面的例子，回答如下问题：我的工作室位于我的住所附近，这使得我每天晚上能够在家工作。请问下面哪一个表述是错误的？A. 我的工作室就在我家旁边。B. 我每天晚上在家工作。C. 我的工作室位于我住处附近。D. 我每天晚上都去工作室工作。
--逻辑与推理：在下列袋子里，一个袋子里只有红色的弹珠，另一个袋子里只有绿色的弹珠，剩下的袋子里有红色和绿色的弹珠，袋子上的标记被放错了。现在你只能从一个袋子里面摸出其中的一个弹珠，摸到红色的弹珠之后，你怎么能判断出剩下哪个袋子里有绿色的弹珠？A. 袋子1。B. 袋子2。C. 袋子3.D. 无法确定。

如果模型的回答不是标准的答案，而是一段文字，系统会采取特定的策略自动提取出模型的答案。该策略结合模型的表现进行优化和完善。当无法提取有效答案的时候，则表明模型没有按照人类做题的要求，未正确理解指令，则认为模型回答错误。

0202002

8月SuperCLUE的主要变动

1. 8月将OPEN和OPT合并为总排行榜，用于全面的表现大模型综合能力；之前的榜单OPEN、OPT是分别进行公布。

2. 十大基础能力由7月的选择题形式，扩展成选择题OPT+主观题OPEN形式。因此个别模型的得分和排名会有些波动。

3. 新增Qwen-7B-Chat、Mengzi、openbuddy-llama2-13b、Chinese-Alpaca-2-13B，同时根据模型综合能力、更新节奏等因素去掉了部分模型(如MOSS)。

4. Baichuan-13B-Chat模型于8月1日在Huggingface上更新，为了区分7月评测的Baichuan-13B-Chat的版本，本次评测用Baichuan-13B-Chat（V2）命名，具体解释权交由模型官方。

5. 由于文心一言和360智脑的网页版限制，OPT选择题的评测是调用ERNIE-3.5-Turbo、360GPT_S2_V9.4。因为版本可能的不一致导致分数波动，解释权交由模型官方。

03003003

对用户反馈的回复

SuperCLUE发起的8月榜单反馈收集，收到了近千份的反馈，主要集中在一些共性的疑问，本文特此回复。

评测透明化

用户提问：模型的评测方法不够透明，不知道具体是怎么评测的。

答复：上文已经列出模型的评测方法、我们的思考、能力定义、人工与自动化一致性验证，更具体的信息可查阅技术报告https://arxiv.org/abs/2307.15020

用户提问：是否有公布大模型的超参数（如temperature、top_p）设置的计划？

答复：9月SuperCLUE评测准备已经开启，9月榜单会附上ModelCard包括详细的模型调用信息。包括但不限于超参数，如：模型名称、序列长度、系统prompt设置、调用待评估模型的推理代码。

用户提问：评测数据集是否有开源计划？

答复：目前SuperCLUE为闭卷考试，减少模型训练过程中混入评测试题的可能。SuperCLUE会选择合适的时机开源历史评测数据。

用户提问：大模型对问题的回答具有随机性，同一问题多次回答可能出现一会回答正确和一会回答错误的情况，评测时是如何处理这种情况？

答复：就像调用其他成熟的开源或闭源模型一样，我们使用的都是官方的超参数和示例方法进行模型调用；通过使用足够数量的题目进行测试（目前使用3000规模的题目），可以大幅减少模型随机性带来的效果波动。

用户提问：开放式问题的回答如何评估，从哪些方面进行评估？如果使用超级模型代替人工评估，如何确保超级模型评估的公正性和准确性，根据了解使用LLM评估时，LLM可能会倾向于冗长的回答。

答复：开放式问题的评估我们采用与代表性模型进行对战进行，使用超级模型作为评审官的形式进行。如GPT-4作为公认的最好模型，具有较强的综合能力。国外的相关研究（斯坦福大学、加州伯克利大学）表明，可以实现与人工高度的一致性（85%-95%）。针对一些明确答案的问题，我们通过改进prompt设置，可以忽略回答长度带来的影响；另外一个准确、全面、具体详细、中立客观的回答，通常也会被人认为是一个好的答案。

模型排名变动问题

用户提问：百川从7月的9位提到8月的1位，为什么变动会这么大？

答复：主要原因是8月我们将OPEN开放主观题榜单和OPT选择题榜单合并成了总榜单，之前是分开公布。另外，可以看到，Baichuan-13B-Chat是在7月份的OPT榜单中第9位；Baichuan-13B-Chat由于版本更新成V2之后在8月份的OPT榜单中位列第4位。8月份的总排行榜为OPEN主观题+OPT选择题，总分Baichuan-13B-Chat（V2）位列第一。

用户提问：为什么ChatGLM-130B落后于ChatGLM2-6B，不符合直觉啊。

答复：ChatGLM2-6B为二代GLM模型，ChatGLM-130B为一代模型，模型代际差别中架构、不同的数据、训练方法可能会造成效果的巨大差异，参数量只是其中的一个因素；

用户提问：360之前排名第一，现在排名为什么下降这么多？

答复：我们分析可能的原因有3个。

首先，之前测的只是OPT选择题，8月总排行榜是OPT选择题+OPEN开放主观题，SuperCLUE认为，需要全面衡量大模型的能力，选择题可以有，但更需要开放主观题的测试；其次，本次评测由于360智脑网页端的限制无法进行高效评测，改由360GPT_S2_V9.4的API调用形式，版本是否一致可看官方公告；最后，中文大模型竞争激烈，8月新推出和升级的模型较多。

用户提问：每次发布的榜单模型不一样，一些老模型应该仍然保持在列表上，都不够全。

答复：部分模型由于综合效果、用户使用和关注度情况、版本更新频率等多方面考量，在8月评测中暂时去掉了。

用户提问：Baichuan-13B-Chat（v2）是个哪个模型，没有找到V2版。

答复：Baichuan-13B-Chat模型于8月1日在Huggingface上更新，为了区分7月评测的Baichuan-13B-Chat的版本，本次评测用Baichuan-13B-Chat（V2）命名，具体解释权交由模型官方。

与其他测评的区别

用户提问：注意到新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》和你们的榜单之间存在明显的评价差异，能否解释其中的原因？

答复：首先，我们认可新华社研究院中国企业发展研究中心的研究，他们的报告确实包含了多维度的测评，并且得出了许多有价值的结论。然而，我们的评价体系和他们的存在一些重要的差异，这也是造成评价结果差异的原因。

测试维度差异：我们的测试维度与新华社研究中心的不完全相同。虽然我们都关注逻辑推理、生成创作、语言、对话、常识等方面，但我们的重点可能不同。此外，我们对各维度的权重分配也有自己的考量，这也是人为设定的。

测试方法差异：对于开放主观题，新华社研究中心提供的是绝对分数，而我们则计算与代表性模型的胜率。这种方法的不同也可能会导致评价结果的差异。

测试自动化与人工评测：为了尽可能降低人为主观因素的影响，我们采用自动化测试。而新华社研究中心在主观题测评中使用的是人工评测。这两种方法在评价结果上可能存在一定差异。

另外，我们注意到新华社研究中心的测评中，各个模型的总体差异非常少，一般都在93-100之间（100分制）。这可能是由于他们并没有对标国际代表性的模型，因此看不到与先进模型的差距；他们也没有包括代表性的开源模型的测试；我们的测试题目多达3337题，相比他们使用的500道题，更能全面深入地评价模型的性能；

总结，虽然我们的评价结果与新华社研究中心的存在差异，但这种差异主要源于我们的评价维度、方法和标准的不同。同时，我们欣赏并认可他们的研究工作，我们均致力于推动人工智能领域的发展。

开发者的宝贵建议

1. 坚持独立性、透明度，测试方式更公开。

2. 继续加油，增加题目量和题目类型，中国需要权威的中立评测机构。

3. 建议多收集实际工作要用的案例。

.....

SuperCLUE感谢开发者的宝贵意见和建议，有任何关于SuperCLUE大模型评测相关的疑问和建议，可关注下午CLUE官方公众号与我们联系。

CLUE官方账号

进交流群可关注👇

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

解读｜8月SuperCLUE大模型评测体系、方法及变动说明

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

解读｜8月SuperCLUE大模型评测体系、方法及变动说明

您可能也对以下帖子感兴趣