baichuan-7B开源发布,压力给到了另一边的二王

6月15日,搜狗创始人王小川于今年4月创办的,发布了首个大模型成果baichuan-7B。70亿的参数量,开源可商用,王小川和百川智能又凭实力上了次热搜。回想今年首次召开媒体见面会时,王小川对自家的百川大模型就极为自信,“年底争取发布国内最好的大模型”的话,在外界听来更像吹牛,特别是当时距离文心一言的亮相还只有半个月。

短短两个多月过去了,百川此次发布的baichuan-7B足够让很多人闭嘴,虽然最近的大模型令人眼花缭乱,宛如走马灯般“你方唱罢我登场”。baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上,以显著优势全面超过了ChatGLM-6B等其他大模型,并且在MMLU英文权威评测榜单上,也领先-7B很多。目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平台发布。

一、当之无愧的7B

虽然大模型的好坏评价,各家企业至今尚未形成共识,但榜单跑分仍然是验证大模型能力相当重要的一个办法,而且此次baichuan-7B的表现也的确称得上令人印象深刻。在三个最具影响力的中文评估标准中,baichuan-7B在同等参数量级大模型中的综合评分十分引人注目:

1. 由微软研究院发起的评测标准AGI Eval中,baichuan-7B综合评分34.4,在国内的高考、司法考试、SAT、LSAT、GRE等考试中表现出色,比LLaMa-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等不少竞争对手都要领先;

2. 在英国爱丁堡大学、清华、上交三个顶级院校联合创建的C-Eval大模型评测体系下,baichuan-7B的发挥同样值得称道。在覆盖52个学科的测评中,baichuan-7B最终获评34.4分,在同量级产品中排名第一;

3. 复旦大学研究团队所创建的GAOKAO评测框架中,这个评测以国内各地的高考题为主,baichuan-7B在高考题目上的表现同样惊艳,不仅评分在同参数量级的模型中独占鳌头,而且第二名与之相比的差距近8分。

值得关注的是,在这次跑分中,baichuan-7B的表现甚至比一些参数量级更大的模型都要好,其中不乏一些参数比baichuan-7B高数倍的。在榜单上,比起130亿参数的GLM-130B上个月的评测结果, baichuan-7B的综合评分也仅比它低了1.2分。虽然在三个中文评测榜单上都名列前茅,而baichuan-7B却没有偏科,是个通才。在由美国诸多名校联合划定的MMLU英文评估基准上,baichuan-7B的得分也超过了多名先发者,包括ChatGLM-6B,LLaMA-7B等开源模型,在英文跨学科专业能力上同样可圈可点。

排行榜网址:https://cevalbenchmark.com/static/leaderboard_zh.html

二、独门秘籍

baichuan-7B的成绩斐然,离不开百川智能在幕后的艰苦努力,虽然外界很多时候都更关注大模型的侃侃而谈。概括说来,百川智能的方法有以下几个:

1. 构建大规模且高质量的语料库。为了保证语料质量,百川智能使用了质量模型对数据打分,以保证对原始数据集的层层筛选,甚至是精确到“篇章级”,“句子级”;而在语料多样性方面,百川智能则专门为此研发了“超大规模局部敏感哈希聚类系统和语义聚类系统”,以完成对数据的多层次、多粒度聚类。经过这套双管齐下的努力加持,baichuan-7B,名义上是有70亿参数量级的大模型,但是背后还包含1.2万亿的高质量训练数据集,正所谓“重剑无锋,大巧不工”。

2. 强化训练效率。训练效率之于大模型,恰如学习方法之于考生,只有掌握了正确方法才可能事半功倍,否则往往会适得其反。距离百川智能成立仅寥寥数月,baichuan-7B能有现在的出彩表现,高效率的训练绝对是不能忽视的一个原因。据一些媒体报道,baichuan-7B深度整合了模型机制来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信,baichuan-7B成功实现了计算与通信的高效重叠,进而达到了超线性的训练加速,在千卡集群上,训练吞吐量能达到180+的每秒浮点运算次数。同时,通过更好的训练流程设计和超参数选择,baichuan-7B的收敛速度也获得了明显改善,也就让其在困惑度(PPL)和训练损失(training loss)的表现上非常优秀。

3. 优化算法。算法可以类比为人的天赋,在很多时候,努力决定下限,天赋决定上限。此次baichuan-7B的算法优化,主要体现在更大的窗口长度上。为了能让大模型在训练和推理阶段捕捉更多的上下文信息,以更好的完成一些长文本任务,大模型能力受窗口长度的制约颇为明显。而基于高效的注意力机制优化,百川智能实现了“万级”的超长动态窗口扩张能力。两倍于现有开源模型的窗口长度,baichuan-7B把这个参数升级到了4k,理解能力相比过去有了巨大的提升。

概括一下百川智能的秘籍,就是更优质、更多样、更大规模的数据,更高效且收敛的训练,再辅以更强的上下文理解能力,因此baichuan-7B能有现在的抢眼表现绝非偶然。

地址:https://github.com/baichuan-inc/baichuan-7B/blob/main/README.md

三、海纳百川,百川战略

自王小川今年4月创办百川智能,进入大模型赛道以来,“海纳百川”就是他秉持的核心精神。也正因如此,baichuan-7B选择开源完全是意料之中。代码采用的是Apache-2.0协议,模型权重采用了免费商用协议,因此baichuan-7B如同一本打开的字典或辞海,开放给社会各界来使用,当然也包括商业领域或商业化用途。此外,baichuan-7B还开放了推理代码、INT4量化实现、微调代码,以及预训练模型的权重。这对帮助用户实现模型调优、降低成本应用部署,吸引新粉丝入局,以及其他研究者调用baichuan-7B完成自己的研究都有很大的助力,无形中也延长了baichuan-7B的产品寿命。开源也让baichuan-7B获得了清华和北大的青睐。据披露,两所高校均已表示,预计在未来与百川智能深入合作,来一起推动baichuan-7B的应用和发展。

面对baichuan-7B的亮眼表现,让人不由得有些怀疑王小川当时说的“年底争取做国内最好大模型”,可能真的不是豪言壮语。而这次成功的亮相,也让百川智能,乃至国内整个大模型业界都看到了新鲜的动力和希望。百川智能的此次首秀虽然亮眼但绝非终点,之后王小川的每一步都相当值得期待。

与王小川的惊艳首秀形成对比的,起步更早的“美团二王”,王慧文与王兴,最近几个月都没有什么动静,要知道当初“光年之外”引起的关注度可比百川智能只多不少的。毫无疑问,此番百川智能和baichuan-7B的后发先至以及出色表现,“二王”不可能不知道,但二人的社交平台上皆毫无反应。或许可以说他们也在专注于自己的大模型,亦或者也可以认为他们的内心已经拉响了“红色警报”。不论怎样,说现在的他们毫无压力,你相信吗?

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

此网站受reCAPTCHA和Google隐私权政策服务条款适用。

Scroll to Top