关注乐鱼智能掌握最新行业动态与资讯
当前位置:首页 >  新闻中心 >  公司新闻

乐鱼上海发布“书生·浦语”大模型:评测表现优秀—新闻—科学网

发布日期:2024-04-21 14:00:08 访问量:53 来源:乐鱼智能

“墨客 浦语”结合团队拔取了20余项评测对于其举行查验,此中包罗全世界最具影响力的四个综合性测验评测集,对于“墨客 浦语”、清华年夜学的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT以及GPT-4举行了周全测试。

6月7日,上海人工智能试验室(上海AI试验室)、商汤科技结合喷鼻港中文年夜学、复旦年夜学及上海交通年夜学发布千亿级参数年夜言语模子“墨客 浦语”(InternLM),具备1040亿参数,于多项中文测验中取患上逾越ChatGPT的成就,于数学测验中成就较着领先在google、Meta的年夜模子。

“墨客 浦语”结合团队拔取了20余项评测对于其举行查验,此中包罗全世界最具影响力的四个综合性测验评测集:由伯克利加州年夜学等高校构建的多使命测验评测集MMLU;微软研究院推出的学科测验评测集AGIEval(含中国高考、司法测验及美国SAT、LSAT、GRE 以及 GMAT等),AGIEval的19个评测年夜项中有9个年夜项是中国高考,凡是也列为一个主要的评测子集AGIEval(GK);由上海交通年夜学、清华年夜学以及爱丁堡年夜学互助构建的面向中文言语模子的综合性测验评测集C-Eval;和由复旦年夜学研究团队构建的高考标题问题评测集Gaokao。

试验室结合团队对于“墨客 浦语”、清华年夜学的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT以及GPT-4举行了周全测试,针对于上述四个评测集的成就对于好比下(满分100分)。

“墨客 浦语”、GLM-130B、LLaMA-65B、ChatGPT以及GPT-4的测试成果。

据上海人工智能试验室动静,“墨客 浦语”周全评测成果显示,其于常识把握、浏览理解、数学推理、多语翻译等多个测试使命上体现优异,于综合性测验中体现凸起,于多项中文测验中取患上逾越ChatGPT的成就,此中就包孕中国高考各科目的数据集(GaoKao),于以美国测验为主的MMLU上以及ChatGPT基本持平。

为了不“偏科”,研究职员经由过程多个学术评测集,对于“墨客 浦语”等言语模子的分项威力举行了评测对于比。成果显示,“墨客 浦语”不只于中英文的浏览理解方面体现凸起,而且于数学推理、编程威力等评测中也取患了较好的成就。

分项威力的评测对于比。

于英语浏览理解方面,“墨客 浦语”较着领先在LLaMA-65B以及ChatGPT,“墨客 浦语”于初中以及高中英语浏览理解中患上分为92.7以及88.9,?ChatGPT患上分为85.6以及81.2,LLaMA-65B则更低。于数学推理方面,“墨客 浦语”于GSM8K以及MATH这两项被广泛用在评测的数学测验中,别离取患上62.9以及14.9的患上分,较着领先在google的PaLM-540B(患上分为56.5以及8.8)与LLaMA-65B(患上分为50.9以及10.9)。

但于测评中也能够看到,年夜言语模子仍旧存于威力局限。“墨客 浦语” 受限在2K的语境窗口长度(GPT-4的语境窗口长度为32K),于长文理解、繁杂����APP推理、撰写代码和数理逻辑演绎等方面还存于较着局限。别的,于现实对于话中,年夜言语模子还遍及存于幻觉、观点混合等问题。这些局限使患上年夜言语模子于开放场景中的使用另有很长的路要走。

(原标题:上海AI试验室发布“墨客 浦语”年夜模子:于高考等评测中体现优异)

出格声明:本文转载仅仅是出在流传信息的需要,其实不象征着代表本消息网不雅点或者证明其内容的真实性;如其他媒体、消息网或者小我私家从本消息网转载使用,须保留本消息网注明的“来历”,并自大版权等法令义务;作者假如不但愿被转载或者者接洽转载稿费等事宜,请与咱们联系。/乐鱼

Copyright © 2019 乐鱼智能技术股份有限公司.粤ICP备16017609号

粤公网安备44030402003674号