亚洲国产高清在线观看视频_日韩欧美国产aⅴ另类_奇米影视7777久久精品_欧美 国产 亚洲 卡通 综合

您的位置:首頁 > 財經(jīng) >

模型“日日新”:商湯“商量SenseChat 2.0”多個評測基準綜合表現(xiàn)超ChatGPT_全球時快訊


商湯科技近日公布了自研中文語言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三個權(quán)威大語言模型評測基準的成績。根據(jù)評測結(jié)果,“商量SenseChat 2.0”在三個測試集中表現(xiàn)均領(lǐng)先ChatGPT,實現(xiàn)了我國語言大模型研究的重要突破。


(資料圖片)

截至目前,已有近千家企業(yè)客戶通過申請,應用和體驗“商量SenseChat 2.0”超強的長文本理解、邏輯推理、多輪對話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力,并且“商量SenseChat 2.0”還在服務客戶過程中,持續(xù)實現(xiàn)著快速迭代和提升,以及知識的實時更新。

商湯科技公布的評測結(jié)果中,選取了全球三大權(quán)威語言模型測評基準MMLU、AGIEval、C-Eval,結(jié)果顯示“商量SenseChat 2.0”在三個測試集中表現(xiàn)均領(lǐng)先ChatGPT,部分已十分接近GPT4的水平。

其中,MMLU是由美國加州大學伯克利分校、哥倫比亞大學、芝加哥大學及伊利諾伊大學厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務語言理解的評測基準,涵蓋了科學、技術(shù)、工程、數(shù)據(jù),人文、社會科學等領(lǐng)域的57個科目,難度從初級水平到高級專業(yè)水平,考驗世界知識和解決問題的能力。

在該評測中,“商量SenseChat 2.0”綜合得分為68.6,遠超GLM-130B(45.7分)的得分,同時還超過了ChatGPT(67.3分)、LLaMA-65B(63.5分)僅落后GPT-4(86.4分),位居第二。

AGIEval是由微軟研究院發(fā)布的,專門用于評估基礎(chǔ)模型在人類認知和問題解決相關(guān)任務中表現(xiàn)出的一般能力,從而實現(xiàn)模型智能和人類智能的對比。

在該評測中,“商量SenseChat 2.0”測出49.91的分數(shù),遙遙領(lǐng)先GLM-130B(34.2分)、LLaMMA-65B(34.0分),并再次超越ChatGPT(42.9分),僅次于GPT-4的56.4分。在其中的AGIEval(GK)評測子集中,“商量SenseChat 2.0”以58.5分全面領(lǐng)先,僅微弱差距落后GPT-4(58.8分)。

C-Eval是由上海交通大學、清華大學和愛丁堡大學合作構(gòu)建的面向中文語言模型的綜合性考試評測集,包含了13948個多項選擇題,涵蓋了52個不同的學科和四個難度級別。

面對C-Eval評測基準,“商量SenseChat 2.0”拿到了66.1的分數(shù),在參評的18個大模型中,僅次于GPT-4(68.7分),全面領(lǐng)先ChatGPT等一眾海內(nèi)外大模型。其中,C-Eval(Hard)子評測集,是選擇了8個具有挑戰(zhàn)性的數(shù)據(jù)、物理和化學科目,進一步考核大語言模型的推理能力,“商量SenseChat 2.0”也表現(xiàn)居于前列。

據(jù)悉,今年4月,商湯正式發(fā)布“商湯日日新SenseNova”大模型體系,以及自研中文語言大模型“商量SenseChat”。截至6月,全球范圍內(nèi)正式發(fā)布的大語言模型已超過40款,其中由中國廠商、高校、科研院所等發(fā)布的大語言模型近20款。

(文章來源:上海證券報·中國證券網(wǎng))

標簽:

相關(guān)閱讀

葫芦岛市| 安阳市| 绥中县| 青浦区| 渭南市| 文登市| 宁津县| 吉安县| 米泉市| 宁强县| 沙河市| 昂仁县| 吉安县| 手游| 盐亭县| 宁阳县| 老河口市| 平南县| 桐梓县| 邵阳县| 会泽县| 安义县| 永平县| 南华县| 东至县| 和政县| 西宁市| 郴州市| 田阳县| 滁州市| 阿拉善左旗| 娱乐| 华容县| 黔江区| 贡觉县| 华阴市| 青铜峡市| 张家口市| 兰坪| 收藏| 玉林市|