查看原文
其他

9月榜单!SuperCLUE中文大模型评测基准最新排名发布,新增AI Agent榜

SuperCLUE CLUE中文语言理解测评基准
2024-09-09

中文通用大模型综合性评测基准SuperCLUE 

2023年9月榜单

9月26日,SuperCLUE发布中文大模型9月榜单。

榜单地址:www.superclueai.com

技术报告:https://arxiv.org/abs/2307.15020

SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力。

SuperCLUE评测维度体系
以下为SuperCLUE评测的9月榜单。
SuperCLUE 9月榜单

9月榜单由总排行榜和各个分类任务榜单组成。

本次评测选取了目前国内外最具代表性的20个通用大语言模型,9月评测数据集为全新的3458道测试题。


总排行榜

注:国外代表性模型(GPT4.0/Claude2/gpt-3.5/Llama-2)参与榜单对比,但不参与排名。

OPEN排行榜

注:OPEN更关注开放式非选择题形式,同时可测模型多轮对话能力。

OPT排行榜

注:OPT为客观选择题评测形式,包括三大能力七十余子任务。 

基础能力排行榜

注:基础能力在多轮开放OPEN上的表现。

开源排行榜

注:主要列举了有代表性的7个开源模型。由于评测时间有限,数量众多的开源模型未列入本次评测,感谢开源模型对中文社区贡献!

更多分类任务榜单可访问榜单地址:
www.superclueai.com
以上为9月SuperCLUE发布的大模型评测排行榜。9月评测方法、问题讨论、变动及模型信息,关注下方公众号,回复进群,进入SuperCLUE交流群获取更多信息。
SuperCLUE认为榜上有名的都是英雄。

温馨提醒,此榜单仅用于学术研究,不作为投资建议。

9月评测的变动
1. 模型变动
1)新增商汤商量SenseChat 3.0大模型、vivo的vivoLM大模型、字节跳动的豆包大模型。 
2)本次评测了百度的两个版本模型,分别为网页版文心一言(v2.3.1)与API版本ERNIE-3.5-Turbo。(注:过去8月份OPT选择题评测的是ERNIE-3.5-Turbo的API,OPEN开放问题评测的是文心一言的网页版)。

3)ChatGLM闭源模型由ChatGLM-130B升级为ChatGLM2-Pro。

具体被测模型的配置信息见Github的ModelCard。
Github地址:

https://github.com/CLUEbenchmark/SuperCLUE

2. 评测任务变动

本月评测任务新增AI智能体,重点评估AI Agent在【工具使用】和【任务规划】两个关键能力上的表现。

3. 评分机制变动
SuperCLUE结合大模型市场技术进展及国内外评测基准现状,对综合性评测总分评分逻辑进行优化。
1)多轮开放评测OPEN评分标准:在与基线模型对战过程中,我们认为胜的情况价值意义更大。所以,本次OPEN测评将胜(1分)调整为胜(3分)。如一道题目对战,胜得3分,平局得1分,负得0分。
2)我们发现客观选择题并不能考察中文大模型的真实综合能力,多轮主观题的能力尤为重要,所以我们在计算总分时,将OPEN的权重由50%提升至60%。

9月评测示例
维度一:专业技能与知识

能力1:计算

这是一种专业能力,使其能够执行数学运算,如加法、减法、乘法和除法,甚至更复杂的数学问题。这涉及到理解数学问题的表述,以及如何步骤地解决这些问题。

多轮对话示例


注:本示例中可同时评测多轮对话能力

能力2:代码

这是一种专业能力,能够理解和生成编程代码。这涉及到理解多种编程语言的语法、结构和习惯,以及如何解决编程问题。
示例




能力3:逻辑与推理

这是一种专业能力,能够理解和应用逻辑原则进行推理。这涉及到分析问题、识别问题及推理。

示例


能力4:知识与百科

这是一种知识能力,能够像百科全书一样提供知识信息。这涉及到理解和回答关于广泛主题的问题,以及提供准确、详细和最新的信息。
多轮对话示例


维度二:语言理解与生成

能力5:语言理解与抽取

这是一种语言能力,能够理解并解析输入的文字信息的含义。模型需要能够识别短语、句子、段落的含义,同时还要能从更大的文本块中抽取关键信息和主题。

多轮对话示例


注:本示例中可同时评测多轮对话能力

能力6:上下文对话

这是一种语言能力,需要理解并记住前面的对话信息,以便在回答中保持连贯性。这涉及到理解对话的整体流程和上下文环境,或生成相应的对话。

示例


能力7:生成与创作

这是一种语言能力,能够创造新的文本内容,如文章、文案、短故事、诗歌。这涉及到创造性地运用语言,同时还要考虑到风格、语境和目标读者。

示例


能力8:角色扮演

这是一种感知能力,使其能够在特定的模拟环境或情景中扮演一个角色。这涉及到理解特定角色的行为、说话风格,以及在特定情境下的适当反应。

示例


维度三:AI智能体

能力9:任务规划

该能力是大模型作为智能体(AI Agent)的能力,可以根据需求自主的完成任务规划。
示例


注:本示例中可同时评测多轮对话能力

能力10:工具使用

该能力是大模型作为智能体(AI Agent)的能力,重点考察根据需求自主使用工具的能力。
示例


维度四:安全
能力11:传统安全
这是一种安全能力,重点考察偏见歧视、财产隐私、违法犯罪等传统类安全能力。
示例


能力12:指令攻击

这是一种安全能力,重点考察用户提出的问题中涉及不适当或不合理的主题之后模型的安全能力,输入这些问题后,模型可能将遵循这些指令并产生不安全的内容。

示例



SuperCLUE是什么?

中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?

它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。

SuperCLUE由三大基准组成:

基准一:SuperCLUE-Open
是一个有挑战的多轮对话开放问题基准,用于评估中文大模型的多轮对话、开放式问题和遵循指令的能力,包括四大能力、十二维度的基础任务。
具体评测方法是针对一个特定问题,利用超级模型作为评判官,根据被评估的模型相对于基线模型(如gpt-3.5)的胜、平局或失败的个数计算综合得分。
详情点击文章:首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布

基准二:SuperCLUE-Opt
是每月以数千道客观选择题评测的基准,包含三个维度能力(基础能力、中文特性能力、学术与专业能力),共七十余个子任务。

详情点击文章:最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单
基准三:SuperCLUE-Safety
SC-Safety大模型安全类测评,包含以下三个维度能力的检验:传统安全类、负责任人工智能和指令攻击,包括二十余项子任务,每个任务约有200余道题目。共有4912个题目,即2456对题目(含问题和多轮追问)。所有题目均为具有安全挑战性的题目,皆有由模型和人类引入对抗性技术获得的“安全风险”题目。

详情点击文章:安全评测!中文大模型多轮对抗安全基准SuperCLUE-Safety正式发布

SuperCLUE具有独特的优势

  • 反映用户真实场景

多轮开放式问题+客观题的评估的综合性评估
  • 闭卷考试

SuperCLUE为闭卷考试,数据集严格保密,减少模型训练数据混入评测数据的可能性。
  • 月榜(月度更新)

SuperCLUE按照月考的形式进行评测。
SuperCLUE的不足与局限
  1. 选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。


  2. 选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。


SuperCLUE基准按照月度进行更新,会纳入更多可用中文大模型,欢迎大模型研发机构联系与交流,可在下方申请评测。
CLUE官网:https://www.cluebenchmarks.com

Github地址:https://github.com/CLUEbenchmark/SuperCLUE

 (二维码失效可以在公众号后台回复SuperCLUE加入)

  

延伸阅读



论文:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark

https://arxiv.org/abs/2307.15020

LMSYS文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B
相关项目:Alpaca_Eval: A validated automatic evaluator for instruction-following language models

往期推荐



8月榜单!SuperCLUE中文大模型评测基准最新排名发布

7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE

最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单

RWKV、IDEA姜子牙、西湖大模型上榜SuperCLUE基准

中文模型评测基准SuperCLUE更新,新增360智脑大模型

中文通用大模型评测基准SuperCLUE发布更新,新增Claude、清华GLM千亿模型

中文大模型对战平台「SuperCLUE-琅琊榜」开启,首期入围近20个模型

大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超GPT3.5

首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布

中国公司突破1200分超ChatGPT创历史新高,登顶AI琅琊榜!

百川开源大模型Baichuan-13B评测揭晓|SuperCLUE

Meta开源免费商用大模型Llama2-13B测评揭晓 | SuperCLUE

  

   点击阅读原文,查看SuperCLUE榜单

修改于
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存