查看原文
其他

首批Llama2汉化版测评揭晓,不敌原生Baichuan-13B | SuperCLUE

Facebook母公司Meta近期发布了开源可商用的大模型Llama2,受到了广泛关注。Llama2将训练数据量增加了 40%,它包括70亿、130亿和700亿参数量的多个版本。最近国内外大厂包括微软、阿里云等也宣布支持Llama2。开源社区和大量机构、个人也纷纷着手基于Llama2构建中文版本及其应用。
在前几期我们也对Baichuan-13B、Llama2-13B-Chat等国内外知名开源模型,基于SuperCLUE-Open评测基准做了深度评测,Baichuan-13B的效果在大部分任务上优于Llama2-13B-Chat,引发了开源社区的大量讨论。
但由于Llama2的中文数据只占0.13%,同时CLUE团队观察到国内已经涌现出了一批基于Llama2的中文版模型,因此,这次我们选择了开源社区中讨论较多的5个Llama2中文版本模型,基于SuperCLUE开放式与多轮测评基准(即针对开放式的问题并结合多轮对话能力的测试),用600道主观题对Llama2中文版模型进行了定量和定性评估。

GitHub地址:https://github.com/CLUEbenchmark/SuperCLUE-Llama2-Chinese

那基于Llama2的汉化版本的效果如何呢,还是老规矩,先看成绩~

结论



1. 根据SuperCLUE的OPEN评测结果,当前处于Llama2中文版的初级阶段,总体上模型质量参差不齐。
2. 有部分模型取得不错的效果(如OpenBuddy),效果与ChatGLM2-6B接近(35.12 VS 36.50),但与Baichuan-13B-Chat相比还有明显差距(35.12 VS 65.18)。我们认为,研发中文基座模型及其基础上训练的中文模型是有必要性的。
3. 在本次评估的5个模型中,中文交互的效果有所提升,但有3个模型通用能力远远小于Llama2原版的效果(10多分 vs 27分)。我们认为,基于Llama2训练的中文模型,可以提升中文能力,但同时也可能会引起通用能力的大幅降低。
4. 当前开源的Llama2中文模型与GPT3.5相比,差距巨大。最好模型与GPT3.5对战的胜率最高仅为12%,要达到接近的效果(如33%),还有很长的路要走。

5. 任务维度上,一些模型(openbuddy,FlagAlpha)具有还不错的生成与创作能力;并且在多种任务上都可以生成较长的回复,有些结构比较完整。

以下是我们从定量定性两个角度对模型进行的测评分析。

定量分析



SuperCLUE开放式多轮测评-Llama2中文版排行

注:GPT4、 baichuan、GLM为对比参考模型,不参与排名

计算方法:
针对一个特定问题,利用超级模型作为评判官,被评估的模型相对于基线模型(如gpt-3.5)的胜、平局或失败的个数。
OPEN分数=(win+tie)/(win+tie+loss)*100。win,即胜,tie即平,loss即负。

详细评测方法可访问首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布

SuperCLUE开放式多轮测评-十大能力:以Llama2中文版为例

在SuperCLUE开放式多轮测评-十大能力成绩评估中,我们发现Llama2中文模型在多数任务上效果比较一般,多数能力的平均分离及格线都有比较大的差距。

定性分析



1. 基础能力的例子

1)生成与创作

比如给定一个话题、一个写作任务来创作一段文字对于LLMs而言是相对比较容易的任务。我们发现作为中文llama-2微调模型中的佼佼者,openbuddy生成的内容在结构性、丰富度上距离百川13b也有不小的差距。

2)语义理解与抽取

openbuddy能精确地理解用户的意图完成任务,但是从返回的内容本身以及格式上来说openbuddy输出的内容不如百川的好。

2. 上下文能力的例子

在两轮对话的测试中,两个模型都能正确的完成任务。
在我们给出的示例中,openbuddy在第一轮的回答中给出的建议不如百川13b给出的建议充分,但两者的回答结构都非常优秀,让用户能有不错的体验。在第二轮对话中,虽然openbuddy修改了自己的回答,但是相比百川,其修改的幅度较小,很大比例是照搬上一轮的回答,并且openbuddy输出的内容未包含“医生自己亲身经历“。

3. 复杂任务(逻辑推理、代码生成、思维链路等)的例子

1)代码生成
代码,属于百川和openbuddy都不擅长的领域。和我们在百川测评报告中提到的一样,在我们给出的示例中,百川虽然能完成任务,但是给出的代码完全没考虑到非整数元素不需要逆转。至于openbuddy,其虽然理解了用户仅将整数逆转的需求,但是给出的代码仅仅是把原列表中的整数按顺序放入新列表返回,并且给出的示例也和其给出的代码的实际效果不一致。
回顾我们上一篇的推文,可以发现Llama-2-13B-chat本身也会出现给出的代码与给出的代码用例不一致的情况。

2)逻辑推理与计算

逻辑推理,同样属于百川和openbuddy都不擅长的领域。两者对问题的回答都是错误的。其中openbuddy的回答更显混乱一些,不仅没能正确理解问题,而且出现了许多非常初等的计算错误,比如4-2-4=0这种错误回答。两个模型都在回答时搞错了卡牌的总数,而我们在问题中是明确指出总共有十张卡牌的。

正确答案是4张绿色背景卡牌

回顾Llama-2-13B-chat可以看到,Llama-2-13B-chat同样无法给出正确答案。

当前Llama2开源中文版技术路线



1. 指令微调:根据已经开源的版本看,目前主要是基于Llama2进行指令微调。

2. 高效微调:目前普遍采用高效微调技术(如LoRA/QLoRA) 来微调大模型(如FlagAlpha, firefly_llama2_13b等)。这类技术上具备在单张GPU上微调大型语言模型的能力。LoRa为LLM的每一层添加了少量的可训练参数(适配器),并冻结了所有原始参数。这样对于微调,只需要更新适配器权重,这可以显著减少内存占用;QLoRA通过更高的量化(4-bit)和更多的可微调参数等进行改进。

3. 中文词汇表:部分模型(如openbuddy-llama2-13b)改进或扩充词汇表,实现中文上更好的支持。

4. 微调数据:使用百万微调数据进行微调,开源或构造特定领域数据(yayi)。


评估的不足与局限性



1. 它是一个自动化的模型能力测评,没有人类的主观因素;虽然加州伯克利大学/斯坦福大学的相关研究表明(见延伸阅读),自动化测评具有与人类评估的高度一致性(相关系数0.8-0.9),但进一步的分析还可以包括人类对模型的评估。
2. 评估的能力主要是基于SuperCLUE的十大基础能力,即使具有较高的代表性,但并不能保证覆盖了所有能力的评估
3. 当前基于Llama2的中文版在快速迭代中,虽然我们本次选取的是最为知名的(7月底),但开源社区各个团队的快速迭代可能会导致后续相对表现的进一步变化

4. 在本文中,我们没有测试一些其他但有用的维度。比如,我们没有测试模型的性能问题(推理速度),也还没有测试模型的支持的有效的输入长度。后续可能会进行专门的测试。


延伸阅读



论文:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark
https://arxiv.org/abs/2307.15020

GitHub地址:https://github.com/CLUEbenchmark/SuperCLUE-Llama2-Chinese

SuperCLUE-Open:中文通用大模型开放式与多轮测评基准(7月)https://www.cluebenchmarks.com/superclue_open.html

SuperCLUE-Open的GitHub地址:

https://github.com/CLUEbenchmark/SuperCLUE-Open
 (二维码失效可以在公众号后台回复Llama2加入)
  



点击阅读原文,查看SuperCLUE评测详情
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存