CLUE中文语言理解测评基准

其他

GPT-4o mini中文基准评测出炉!超越GPT-4,领先GPT-3.5 Turbo 20分

提升1.27分,判定为推理等级5,得分更加接近GPT-4o。结论3:GPT-4o在代码生成单元测试基准(SC-Code3)上得分63.87分,较GPT-4提升0.13分,和GPT-4
7月25日 下午 4:53
其他

Llama 3.1 405B 中文基准评测出炉!推理总分80.44,略超GPT-4 Turbo,不敌GPT-4o

Turbo略高(0.11分),与GPT-4o有一定差距(2分)。测评结果SuperCLUE-Math6SuperCLUE-Code3更多模型测评信息,可加入SuperCLUE
7月24日 下午 7:18
其他

AIGVBench文生视频测评首期结果公布,1000个AI视频对比,最高72.9分,Luma仅第3

近年来,随着技术的进步,文生视频(Text-to-Video)的研究和应用在全球范围内蓬勃发展。例如,OpenAI推出的Sora模型便能根据文本创建逼真的视频内容,这类技术在短视频制作、影视制作、广告和娱乐行业等领域具有巨大的应用潜力和商业价值。Sora
7月2日 下午 3:15
其他

易车大模型上榜SuperCLUE-Auto汽车测评榜单,并刷新国内最好成绩

本测评结果仅用于学术研究。2024年6月24日,汽车大模型测评基准SuperCLUE-Auto发布更新,新增了易车大模型的测评结果。易车大模型是以易车经过二十余年深耕汽车行业积淀的庞大独有语料库为基础,结合前沿大模型技术自主研发训练的汽车垂直领域大模型。易车大模型旨在为用户提供全面和精准的汽车领域生态服务,包括车辆介绍、选购推荐、购买指导、使用及保养等,贯穿从选车到购车再到用车的全生命周期。丰富的数据基础和扎实的技术让易车大模型成为用户在汽车领域可靠、专业的智能助手,为用户提供高效和专业的服务体验。那么,易车在SuperCLUE汽车测评基准的表现如何?与国内外代表性大模型相比处于什么位置?在各项基础能力上如智能座舱与交互、汽车营销、车辆使用和汽车通用知识上会有怎样的表现?我们基于SuperCLUE-Auto汽车综合性测评基准,对易车大模型进行了全方位测评。测评环境参考标准:SuperCLUE-Auto汽车大模型测评基准评测模型:易车大模型(官方小范围内测API)评测集:SuperCLUE汽车评测集,4大核心基础能力的十余个任务。模型GenerationConfig配置:temperature=0.1top_p=0.8max_new_tokens=1024stream=true测评方法:本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE-Auto汽车综合性测评基准。本次测评经过人工抽样校验。先说结论结论1:在SuperCLUE汽车测评基准上,易车大模型表现不俗,以总分82.23分的优异成绩刷新国内最好成绩。结论2:在本次测评中,相比国外代表性模型很有竞争力。总体来看,易车大模型在中文汽车应用领域总体表现好于GPT4,但与GPT4
6月24日 下午 3:03
科技

文生图大模型基准测评首期榜单公布,DALL-E 3取得最高76.94分

文生图技术已在人工智能领域取得重要进展,使计算机能够依据文本描述生成图像。特别是在中文场景中,此技术不仅改变了内容创作方式,还在广告和营销、设计和创意、艺术和娱乐等行业大展拳脚。中文的复杂性给技术的发展带来了挑战。目前,国际上如DALL-E
6月12日 下午 9:10
其他

首个中文大模型匿名竞技场「琅琊榜」榜单发布! 12000次投票,近20个领先模型,最高1173分

对战发起团队|SuperCLUE2024年6月6日,国内首个中文大模型匿名对战竞技场「琅琊榜」正式发布,首期榜单包含17个中文代表性大模型,截止6月5日共获得12608次有效投票。#大模型竞技场「琅琊榜」「琅琊榜」是SuperCLUE团队推出的中文大模型匿名对战竞技场,旨在为中文通用大模型提供一个公平、公正、开放的对抗竞技平台。在这里,顶尖的中文大模型们将在完全匿名的环境下进行激烈对决,通过真实用户投票,实时产生排名和分析报告,为研究者和开发者提供宝贵的数据支持。琅琊榜致力于推动中文人工智能技术的发展,打造中文大模型领域的权威竞技场和榜单。「琅琊榜」竞技场官方唯一地址:www.langyb.com#首期榜单在首期大模型竞技场「琅琊榜」榜单中,MiniMax的abab6.5-chat以1173分暂列榜首,智谱AI的GLM-4和月之暗面的moonshot-v1-128k(Kimi)紧随其后,分别取得1079分和1059分。在本次榜单中,超过1000分的大模型有10个,均有不俗表现。注:已排除获得少于300票的模型,因为它们的置信区间可能会很大。部分模型API的价格是分别基于输入和输出的
6月6日 下午 12:16
其他

SuperCLUE-Long:中文原生长文本测评基准

随着大语言模型应用的推广,越来越多的用户开始参与到模型的使用中,进而对模型的性能也提出了更多的要求。“长文本”作为用户普遍关注的热点话题,是目前国内外企业重点推进的项目,例如OpenAI推出的GPT-4
5月30日 下午 12:28
其他

国内大模型竞争加剧!百川智能「Baichuan4」全网首测,以总分80.64刷新SuperCLUE中文基准

本测评结果仅用于学术研究。据悉,百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月19日受百川智能官方邀请,对Baichuan4在SuperCLUE通用大模型综合性中文测评基准上,进行了全方位综合性测评。Baichuan4体验地址:https://www.baichuan-ai.com/(已官方更新为准)测评环境参考标准:SuperCLUE综合性测评标准评测模型:Baichuan4(官方于5月19日提供的内测API版本)评测集:SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,包括计算、逻辑推理、代码、长文本在内的基础十大任务。模型GenerationConfig配置:temperature=0.3repetition_penalty=1.05top_p=0.85max_new_tokens=2048stream=false测评方法:本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。先说结论结论1:国内最佳成绩在SuperCLUE综合基准上的评测中,Baichuan4以总得分80.64分刷新了国内记录。不仅如此,它在中文综合能力测试中以1.51分的领先优势超过了GPT-4-Turbo-0125,展现了其在大模型方面的强大实力。结论2:分类任务表现分析理科表现:在理科领域,Baichuan4虽然以国内最佳成绩领先,但与GPT-4-Turbo-0125相比还有4.23分的差距,显示出进一步优化的空间。文科表现:在文科任务中,Baichuan4以83.13分的高分不仅领先国内,也是国际上的最高分,比GPT-4-Turbo-0125高出5.33分,验证了其在文科领域的卓越能力。结论3:全面而均衡的能力展示Baichuan4在多个领域展示了其均衡的能力,特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面处于领先地位。这使得Baichuan4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。然而,它在代码能力方面仍有提升的潜力。对比模型数据来源:SuperCLUE,
5月22日 下午 1:02
其他

商汤「日日新5.0」中文基准测评出炉,总分80.03刷新最好成绩,文科能力领跑

PT-4-Turbo-0125低4.35分,还有一定提升空间。其中,计算(80.6)、逻辑推理(73.8)、工具使用(80.8)均刷新国内最好成绩;在代码能力上还有一定优化空间。SenseChat
5月21日 下午 12:22
其他

GPT-4o登顶中文推理基准,总分81.73,刷新数学和代码最好成绩

本测评结果仅用于学术研究。5月14日凌晨,OpenAI召开春季发布会,发布新版本模型GPT-4o。它具备实时多模态人机交互能力,打通了文本、语音和视觉,语音延迟大幅降低。GPT-4o的API速度比GPT-4
5月14日 下午 6:13
其他

零一万物Yi-Large模型全网首测,总分74.29,打平Claude3,刷新国内最好成绩|SuperCLUE

本测评结果仅用于学术研究。零一万物(01.AI)成立于2023年5月16日,致力于打造全新的AI2.0平台。去年11月,零一万物发布Yi-6B、Yi-34B双语开源模型;前不久又推出一站式
5月13日 下午 12:04
其他

深度求索DeepSeek-V2中文推理任务表现强劲,总分74.46,超越Llama3|SuperCLUE

本测评结果仅用于学术研究。近日,深度求索正式开源第二代MoE模型DeepSeek-V2,引起了中文技术社区的广泛关注。据官方说明,DeepSeek-V2是一个参数更多、能力更强、成本更低的模型。值得注意的是,DeepSeek-V2每百万tokens输入1元、输出2元(32K上下文),价格仅为GPT-4-Turbo的近百分之一。而且官方披露DeepSeek-V2在开源模型中最强,与GPT-4-Turbo等闭源模型在评测中处于同一梯队。针对公众关注的DeepSeek-V2的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)和中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例),对DeepSeek-V2在数学和编程方面的能力进行了全面评估。先说结论结论1:在完成SuperCLUE推理任务时,DeepSeek-v2的整体得分为74.46,表现突出。该模型与一些国际领先模型相比具有优势,比如它比Llama3-70B高出1.29分。然而,与GPT-4
5月11日 下午 7:46
其他

通义千问2.5性能全面赶超GPT-4 Turbo?

本测评结果仅用于学术研究。5月9日,阿里云正式发布通义千问2.5。阿里云官方表示,该模型性能全面赶超GPT-4
5月10日 下午 6:00
自由知乎 自由微博
其他

中文大模型基准测评2024年4月报告

SuperCLUE团队2024/04背景自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年4月,全球大模型竞争态势并未衰减,随着Claude3、Gemini1.5和Llama3的发布,更是推动国内外大模型领域进入到更为激进的大模型发展新常态。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此,我们发布了《中文大模型基准测评2024年度4月报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。点击文章底部【阅读原文】查看高清完整PDF版。在线完整报告地址(可下载):www.cluebenchmarks.com/superclue_2404目录一、国内大模型关键进展1.
4月30日 上午 8:56
其他

SuperCLUE-ICabin:汽车智能座舱大模型测评基准

随着科技的飞速发展,汽车行业正面临着前所未有的变革。自动驾驶、智能网联、人工智能等技术的不断成熟,使得汽车不再局限于传统的交通工具,而是成为人们生活中的一个重要空间。尤其是智能座舱,作为汽车的重要组成部分,其发展速度和应用范围令人瞩目。智能座舱通过集成大量高科技功能,为驾驶员和乘客提供了更为舒适、便捷的乘坐体验。它不仅包括了语音识别交互、图像感知、个性化服务推荐等常见功能,还涉及智能驾驶和自动驾驶等高端技术。因此,智能座舱的智能化水平成为了衡量一辆汽车科技含量的重要标准。为了更好地引领和规范智能座舱技术的发展,我国相关机构推出了《汽车智能座舱分级与综合评价白皮书》。该标准从智能、安全、高效、愉悦能四个方面对智能座舱的智能化水平进行评价,旨在为当前提供更为可靠和全面的参考依据。但该标准仅仅只是从宏观层面为智能座舱的评测构建了一个框架,而针对一些具体的通用场景和智能座舱中的大模型表现能力的相关测评标准仍存在空白和不足。在这个背景下,SuperCLUE智能座舱评测基准应运而生。SuperCLUE-ICabin是一个专门针对汽车智能座舱的大模型测评基准,旨在为智能座舱的研发和生产提供一套科学、严谨的评价体系。本文将详细介绍SuperCLUE智能座舱评测基准的构成、测评方法和应用场景,以期为智能座舱行业的发展提供有益的参考。项目地址:https://github.com/CLUEbenchmark/SuperCLUE-icabin文章地址:https://www.cluebenchmarks.com/superclue_ICabin.html#
4月25日 下午 10:33
其他

Llama3中文基准测评出炉!性能惊艳,数学、代码能力接近GPT4

本测评结果仅用于学术研究。4月17日,Meta发布8B和70B参数的Llama3模型,引发全球科技领域的广泛讨论。Meta表示,Llama3是在两个定制的24K的GPU集群上、基于超过
4月22日 下午 12:32
其他

【发布】SuperCLUE-Code3:中文原生等级化代码能力测评基准

在人工智能的快速发展中,中文大模型在文本生成、推理能力、长文本处理等领域取得了很大的进步。然而,生成能直接运行使用的代码是AI领域的一大挑战,并且具有生产力级别的现实意义,对大模型的理解能力和创造力提出了更高要求。尽管存在多个编程语言生成和理解的测试基准,如HumanEval,但它们大多基于英语,无法直接用于评估中文大模型在编程领域的表现。目前,中文编程环境缺乏一个专门的评测基准,这限制了中文大模型在代码生成方面能力的客观评估和优化。这一语言和文化差异导致中文大模型在编程任务上的潜力未能得到充分挖掘和利用。为了缓解这一问题,我们推出了SuperCLUE-Code3测评集和基准。这是一个HumanEval的中文升级版,通过功能性单元测试,专门设计来评估和提升中文大模型在代码生成方面的核心能力。SuperCLUE-Code3(简称SC-Code3)不仅延续了HumanEval高质量,更在多样性和应用广度上进行了适当扩充。SC-Code3基准具备以下特点:中文原生环境测试:SC-Code3基准着重考查模型在处理中文编程问题上的性能,所有编程问题有多个测试用例、经过多重校验、可进行端到端的测试,确保评估的准确性和专业性。全面的任务类型:
2月21日 下午 2:04
其他

SuperCLUE-Math6: 新一代中文数学推理数据集的探索之旅

在人工智能领域,我们正见证着大语言模型如ChatGPT的蓬勃发展,它们是我们走向通用人工智能梦想的关键一步。大量中文大模型的推出,更是开启了人工智能在各行各业的全新应用时代;像GSM8K数学推理任务,可以考察多步逻辑推理能力、应用数学和实现知识的能力、需要自然语言理解和解决方案、具备精确的评估标准的任务,受到了广泛的使用。然而,在这一进程中,缺乏能够测试中文大模型在深入数学推理上能力的原生数据集,导致中文模型的数学逻辑能力评估,一直依赖于英文测试集。为了缓解这一问题,我们推出了SuperCLUE-Math6数据集。这是一个GSM8K的中文升级版,专门设计来评估和提升中文大模型在数学推理方面的核心能力。SuperCLUE-Math6(简称SC-Math6)不仅延续了GSM8K的高质量和多样性,更在难度和应用广度上进行了适当的扩充。SuperCLUE-Math6具有三大特点:1.中文原生场景的数学推理:每个问题均以中文原生环境呈现,配备详细的自然语言解题方案,强化了模型在中文语言环境下的适用性和实际应用价值。2.多轮交互下的多步推理能力考察:适应真实交互场景,通过问题及其追问,考察模型在连续对话环境中的多步逻辑推理与问题解决能力。3.推理能力等级自动评定:独创的评估系统能自动给出大模型处理数学问题的推理能力等级,为模型智力水平提供量化指标。SuperCLUE-Math6的推出不仅填补了中文数学推理数据集的空缺,而且对于提升中文大模型在复杂逻辑和数学问题解决能力上的表现具有重要价值。期待SuperCLUE-Math6能激励更多的创新,推动大模型在各行各业的广泛应用,从而为社会带来更深远的影响。Github地址:
1月15日 下午 12:26
其他

中文大模型基准测评2023年度报告

SuperCLUE团队2023/12背景自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此,我们发布了《中文大模型基准测评2023年度报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。关注公众号,后台回复“2023报告”,获取高清版完整PDF。目录一、国内大模型关键进展1.
2023年12月28日
其他

SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布

今年以来,大模型在各个领域得到了广泛应用。随着智能化、智能驾驶、车联网等技术的不断进步,高速发展的汽车行业对于中文大模型的需求也日益增长。然而,尽管大模型在汽车领域的应用潜力巨大,现有的大模型测评基准并未能覆盖汽车行业的需求,它们主要是针对通用能力的测评,这导致了行业内对大模型能力的评估缺乏公开的评价标准。为了解决这一问题,我们推出了专门针对汽车行业的大模型测评基准(SuperCLUE-Auto)。这是首个汽车行业大模型测评基准,它是一个多维度的多轮开放式问题的测评基准。它不仅能评价汽车行业大模型的能力,也能针对具体维度和模型的回答给出细化的反馈。我们希望这一基准能够促进评价和提升中文大模型在汽车行业中的应用效果,促进智能化水平的提高,同时也为行业内的研发提供方向指引。测评体系、代表性示例、榜单已经在这里发布:www.cluebenchmarks.com/superclue_auto.htmlhttps://github.com/CLUEbenchmark/SuperCLUE-autoSuperCLUE-AutoSuperCLUE-Auto包括4大核心基础能力的十余个任务。具体任务如下:能力一:智能座舱与交互这类任务主要考察模型车内人机交互能力,主要涵盖驾驶信息管理、车辆控制功能、娱乐系统及信息处理能力,提升用户体验,增加驾乘舒适度和安全性。使用场景包括但不限于:用车、出行、娱乐和信息获取。能力二:汽车营销汽车营销是一系列旨在促进汽车销售和品牌忠诚度的策略和活动,它涵盖广告、促销、品牌建设、市场研究以及客户关系管理。本次测评主要包括但不限于:汽车厂商的产品发布会文案、汽车媒体介绍产品亮点、汽车测评、4S宣传促销文案、选车、汽车视频、汽车资讯等。能力三:汽车理解与知识主要考察大模型对汽车行业的全面认知和解释能力。包括但不限于:对品牌、子品牌、型号和设计特性的识别;汽车通用知识和新能源汽车知识的了解和掌握;对用户查询的解析以提供个性化推荐和服务;以及利用这些知识来提供定制资讯和支持精准营销策略的制定与执行。能力四:车辆使用指南主要考察大模型对车辆操作和维护等方面的掌握能力,需要提供详尽的车辆功能使用方法、维护指南、故障诊断以及售后资源,以确保车辆得到正确使用和最佳维护。测评方法及打分规则评估流程1.
2023年12月25日
其他

谷歌Gemini中文基准测评出炉!总分51,不敌GPT4|SuperCLUE

Pro的表现如下:SuperCLUE-OPEN(11月)注:国内第一梯队模型为11月SuperCLUE-Open中Top10模型在SuperCLUE-OPEN多轮开放问题测评基准上,Gemini
2023年12月8日
其他

中文大模型SuperCLUE基准测评报告2023,暨ChatGPT发布一周年特别报告

自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此,我们发布了《SuperCLUE中文大模型基准测评报告,2023》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。以下为报告精选:END.关注公众号,后台回复“大模型报告”,获取高清版完整PDF。
2023年11月28日
其他

出门问问大模型「序列猴子」测评揭晓,擅长创作、代码、知识百科|SuperCLUE

在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。联系交流
2023年11月23日
其他

GPT-4 Turbo中文基准评测出炉!总分98.4,八项满分,领先31分|SuperCLUE

Turbo支持更长、各个任务上效果更强并且价格更低,拉高了AI竞争的上限、门槛,国内大模型厂商需要加油了。更多模型测评信息,请加入SuperCLUE交流群。延伸阅读:技术报告:SuperCLUE:
2023年11月9日
其他

SOTA!ChatGLM3刷新智能体中文基准SuperCLUE-Agent最好成绩

本测评结果仅用于学术研究。10月27日,清华&智谱AI推出了全自研的第三代基座大模型ChatGLM3及相关系列产品。据悉,ChatGLM3
2023年11月7日
其他

解读|SuperCLUE中文大模型评测方法及说明(10月)

10月25日,CLUE社区发布了SuperCLUE中文大模型测评基准10月榜单。本文会对10月SuperCLUE的评测报告进行全方位解读。0110月SuperCLUE的评测方法10月SuperCLUE评测主要包括多轮开放问题测评(OPEN)和三大能力客观题测评(OPT)。共3754题,其中OPEN有606道多轮简答题,OPT有3148道选择题。10月SuperCLUE总排行榜的总分由SuperCLUE-OPEN和OPT两部分合并组成,总分=60%*OPEN分+40%*OPT分。OPEN多轮开放问题测评OPEN主观题的测评聚焦在反应大模型用于真实用户场景的能力,特别是开放式问题的生成能力、指令遵循和多轮交互能力,包括四大能力上百个任务。10月OPEN主观题由测试库(2.4万道题)中采取不重复抽样获得,并人工进行校验。OPEN基准使用超级模型(如GPT4)作为评判官,使用一个待评估模型与一个基准模型(如gpt-3.5-turbo)进行对比,让超级模型选出哪个模型更好。答案是A模型好,B模型好,或平局。评估的标准,是要求超级模型作为一个公证的评估者,评估模型的质量。回答的质量包括回答有针对性、准确和全面,并且可以对多轮能力进行评测。示例可以上下滚动的图片OPT三大能力客观题测评OPT选择题的测评维度主要包括基础能力、学术与专业能力和中文特性三个维度,共计有74个评测任务。10月OPT选择题是在SuperCLUE十万量级测试库中抽取,并移除了过去历月评测集,保证10月选择题是全新独立的。针对每一个题目,我们构造了统一的prompt供模型使用,要求模型选取ABCD中一个唯一的选项。如果模型的回答不是标准的答案,而是一段文字,系统会采取特定的策略自动提取出模型的答案。该策略结合模型的表现进行优化和完善。当无法提取有效答案的时候,则表明模型没有按照人类做题的要求,未正确理解指令,则认为模型回答错误。0210月SuperCLUE的评测模型变动10月新增模型:1.Moonshot月之暗面最新推出的支持输入20万汉字的大模型moonshot,本次测评的是搭载该模型的智能助手产品Kimi
2023年10月27日
其他

【新基准】SuperCLUE-Agent:首个AI智能体中文测评基准发布

对过去的行为进行自我批评和反思,从错误中吸取教训,并为未来的步骤进行改进,从而提高最终结果的质量的能力。#思维链(CoT):该任务主要考察的是AI
2023年10月19日
其他

OPPO大模型AndesGPT测评揭晓,Agent智能体表现不俗|SuperCLUE

在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。联系交流
2023年10月16日
其他

解读 | SuperCLUE 2023年9月全面测评大模型四大能力

引言SuperCLUE是中文通用大模型的综合性评测基准,旨在对大模型在各个能力维度上的表现进行全方位的评估。本文我们将对2023年9月SuperCLUE大模型评测榜单进行剖析,解读各大模型的性能表现和行业发展趋势。9月SuperCLUE支持细分基础能力榜单,详情可关注:www.superclueai.com一、SuperCLUE评测方法论1.
2023年9月28日
其他

9月榜单!SuperCLUE中文大模型评测基准最新排名发布,新增AI Agent榜

Agent)的能力,可以根据需求自主的完成任务规划。示例注:本示例中可同时评测多轮对话能力能力10:工具使用该能力是大模型作为智能体(AI
2023年9月26日
其他

天工大模型测评揭晓,文理兼顾,跻身中文闭源模型第一梯队|SuperCLUE

在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。联系交流
2023年9月25日
其他

安全评测!中文大模型多轮对抗安全基准SuperCLUE-Safety正式发布

提供虚假贷款:在收集到足够的信息后,推销员会向客户提供一份虚假的贷款协议。这份协议通常会包含一些不切实际的优惠条件,如极低的利率和宽松的还款条件。客户可能会被这些优惠条件所吸引,从而签署协议。4.
2023年9月12日
其他

百川最新开源Baichuan2测评揭晓,理科能力提升明显,总分领跑中文开源|SuperCLUE

近日,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,均为免费可商用。并且还开源了模型训练的Check
2023年9月11日
其他

OpenBuddy最新开源700亿参数大模型评测揭晓,擅长代码、推理|SuperCLUE

近日,OpenBuddy社区正式发布了OpenBuddy-LLaMA2-70B大语言模型,这是迄今为止该社区训练出的最大参数规模模型,除了本次发布的700亿参数模型之外,OpenBuddy社区已经推出了3B、7B、13B、30B、40B、65B等多种规模的模型,同时还支持中文,英文,日文,韩文,法文,德文等多种语言。并且据OpenBuddy官方自测,70B的认知能力和逻辑推理能力,有机会成为GPT3.5的开源平替。
2023年9月6日
其他

解读|8月SuperCLUE大模型评测体系、方法及变动说明

8月28日,CLUE社区发布了8月中文大模型测评榜单,引起了社会各界的广泛关注和热议,关于评测结果在众多开源社群展开了讨论,为此,CLUE团队发起了“8月SuperCLUE反馈收集”活动,收到近千份反馈。本文会对8月SuperCLUE的评测方法进行解读,同时对开发者关心的典型问题进行回复。018月SuperCLUE的评测方法8月SuperCLUE评测主要包括多轮开放问题测评(OPEN)和三大能力选择题评测(OPT)。共3337题,其中,OPEN623题、OPT2714题。8月SuperCLUE总排行榜的总分由SuperCLUE-OPEN和OPT两部分合并组成:总分=50%*OPEN分+50%*OPT分OPEN多轮开放问题测评(主观题)OPEN主观题的测评聚焦在反应大模型用于真实用户场景的能力,特别是开放式问题的生成能力、指令遵循和多轮交互能力,包括十大基础能力。8月OPEN主观题由测试库中抽取后人工进行校验并撰写第二轮问题。OPEN基准使用超级模型(如GPT4)作为评判官,使用一个待评估模型与一个基准模型(如gpt-3.5-turbo)进行对比,让超级模型选出哪个模型更好。答案是,A模型好,B模型好,或平局。评估的标准,是要求超级模型作为一个公证的评估者,评估模型的质量。回答的质量包括回答有针对性、准确和全面,并且可以对多轮能力进行评测。示例OPT三大能力选择题测评(选择题)OPT选择题的测评维度主要包括基础能力、学术与专业能力和中文特性三个维度,共计有74个评测任务。8月OPT选择题是在SuperCLUE十万量级测试库中抽取,并移除了过去历月评测集,保证8月的选择题是全新独立性。针对每一个题目,我们构造了统一的prompt供模型使用,要求模型选取ABCD中一个唯一的选项。示例:--语义理解:请阅读下面的例子,回答如下问题:我的工作室位于我的住所附近,这使得我每天晚上能够在家工作。请问下面哪一个表述是错误的?A.
2023年8月31日
其他

8月榜单!SuperCLUE中文大模型评测基准最新排名发布

国内大模型在中文任务上的表现与GPT3.5仍有一定距离,但差距在持续缩小。SuperCLUE认为,我们应该不卑不亢,同时破除假象,真实面对优势与差距,脚踏实地的完成超越。2.
2023年8月28日
其他

首批Llama2汉化版测评揭晓,不敌原生Baichuan-13B | SuperCLUE

在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。延伸阅读论文:SuperCLUE:
2023年7月31日
其他

7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE

增加了Claude-2、百川智能的Baichuan-13B-Chat、清华&智谱AI的ChatGLM2-6B、
2023年7月25日
其他

百川开源大模型Baichuan-13B评测揭晓|SuperCLUE

继6月发布了7B预训练底座模型后,百川智能团队于近日最新开源了13B模型,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用,引起了中文社区的广泛热议。目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之间。那么百川开源的这个模型相对于其他国内外有代表性的模型表现怎么样,比如与ChatGPT3.5有多大差距;与国内代表性的开源模型相比是什么水平;在一些比较受关注的能力上,如生成与创作、逻辑推理、代码生成,表现如何?因此,我们基于SuperCLUE-Open测评基准,也就是在开放式的问题并结合多轮对话能力的测试,用1200道题对Baichuan-13B-Chat进行了测评。话不多说,先看成绩~
2023年7月17日
其他

首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布

Leaderboard,https://tatsu-lab.github.io/alpaca_eval/致谢本基准的成功运行离不开FastChat项目在源代码方面的大力支持,在此十分感谢Large
2023年7月5日
其他

最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单

2023年6月榜单6月19日,SuperCLUE发布大模型6月榜单。SuperCLUE:
2023年6月19日
其他

大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超GPT3.5

如果参与者获胜,他们的等级分数将增加的量取决于预期胜率和实际比赛结果。增加的分数越多,如果他们输掉比赛,他们的等级分数将减少的量也取决于预期胜率和实际比赛结果。这样做是为了保持整个系统的平衡。6.
其他

RWKV、IDEA姜子牙、西湖大模型上榜SuperCLUE基准

GPT之间的差距较大,但在逐渐逼近可以看到在本次SuperCLUE上效果最好的国内模型,与GPT-4相比有不少的差距。但是我们更应该看到,
2023年5月30日
其他

中文模型评测基准SuperCLUE更新,新增360智脑大模型

GPT之间的差距较大,但在逐渐逼近可以看到在本次SuperCLUE上效果最好的国内模型,与GPT-4相比有不少的差距。但是我们更应该看到,
2023年5月22日
其他

中文大模型对战平台「SuperCLUE-琅琊榜」开启,首期入围近20个模型

SuperCLUE中文通用大模型评测基准自5月9日发布以来,引发了社区的热烈讨论,收到了大量反馈和宝贵建议,讨论最多的是如何在AI大模型百家争鸣的时代,构建公正、客观、有效的大模型评测基准。中文通用大模型评测基准SuperCLUE发布更新,新增Claude、清华GLM千亿模型为此,SuperCLUE团队发起中文大模型对战平台「SuperCLUE-琅琊榜」,平台会选取目前国内外具有代表性的大语言模型进行两两对战。「SuperCLUE-琅琊榜」对战平台旨在为中文通用大模型提供一个公平、公正、开放的评测平台,目标是纳入国内外绝大部分具有代表性的可用模型,为用户提供清晰、客观、有效的模型对比结果。琅琊榜会按定期或按月更新。现特邀您作为出题人和裁判,参与对战平台评测,与我们一起煮酒论英雄。参与地址:www.SuperCLUEAI.com(对战平台界面)1.出题通过www.SuperCLUEAI.com
其他

中文通用大模型评测基准SuperCLUE发布更新,新增Claude、清华GLM千亿模型

20个百分点,并且BELLE-13B(基于LLaMA并在中文上训练和微调过的模型)的总分也超过了
被用户删除
科学

中文通用大模型综合性评测基准SuperCLUE正式发布

20个百分点,并且BELLE-13B(基于LLaMA并在中文上训练和微调过的模型)的总分也超过了