《“巢燧”大模型基準(zhǔn)測試報(bào)告》在成都發(fā)布,中文大模型數(shù)學(xué)推理能力大幅增強(qiáng)

12月25日,于成都舉行的“2024人工智能大模型基準(zhǔn)測試科創(chuàng)發(fā)展大會(huì)”上,《“巢燧”大模型基準(zhǔn)測試報(bào)告》(以下簡稱“報(bào)告”)正式發(fā)布。該報(bào)告由OpenEval平臺(tái)、天津大學(xué)自然語言處理實(shí)驗(yàn)室和大模型基準(zhǔn)評測專家委員會(huì)聯(lián)合紅星新聞發(fā)布,聚焦知識能力和價(jià)值對齊兩大維度,對國內(nèi)研發(fā)的開源和閉源大語言模型進(jìn)行了系統(tǒng)的評測。

今年以來,我國的人工智能大模型正以前所未有的速度發(fā)展,各類大模型百花齊放。據(jù)不完全統(tǒng)計(jì),國產(chǎn)大模型的數(shù)量已超過200個(gè),覆蓋多個(gè)行業(yè)領(lǐng)域,應(yīng)用場景不斷拓展。記者了解到,報(bào)告希望通過系統(tǒng)而全面的大模型評測,為AI發(fā)展和安全治理提供關(guān)鍵數(shù)據(jù),推動(dòng)AI發(fā)展和應(yīng)用符合倫理原則和標(biāo)準(zhǔn),實(shí)現(xiàn)AI智善和諧發(fā)展。

報(bào)告收錄了“巢燧”大模型基準(zhǔn)綜合評測第二次評測結(jié)果顯示,在過去一年里,中文大模型在學(xué)科知識以及數(shù)學(xué)推理等領(lǐng)域的能力大幅增強(qiáng)。閉源模型在學(xué)科知識、數(shù)學(xué)推理、語言理解及常識掌握等方面,相較開源模型展現(xiàn)出了更出色的性能。以下為“巢燧”大模型基準(zhǔn)綜合評測第二次評測結(jié)果:

一、 評測維度

此次評測聚焦于知識能力和價(jià)值對齊兩大維度、六則細(xì)項(xiàng),多模態(tài)大模型多步推理,大模型中文高考數(shù)學(xué)復(fù)雜推理兩個(gè)專項(xiàng)評測,對大語言模型展開全面評測。

1. 知識能力評測

語言知識:通過評估大模型在自然語言理解、預(yù)測和生成方面的能力,揭示其對語言的全面理解和運(yùn)用能力。其中使用的數(shù)據(jù)集有BiPaR、C3等,包含的具體任務(wù)有小說問答、閱讀理解、文本推理、詞性理解等。

學(xué)科知識:采用人類標(biāo)準(zhǔn)化考試方式,對大模型進(jìn)行多學(xué)科知識水平的綜合評估,以確保其在各學(xué)科領(lǐng)域的廣泛知識基礎(chǔ)。學(xué)科知識按照學(xué)科類型有人文藝術(shù)、社會(huì)科學(xué)、自然科學(xué)等類型,按照學(xué)科段分為小學(xué)階段、初中階段、高中階段、大學(xué)階段等。

常識知識:通過常識沖突檢測、推理和補(bǔ)充等方式,深入評估大模型在常識知識和推理能力方面的表現(xiàn),以確保其能夠有效運(yùn)用廣泛的常識。常識知識包含了常識錯(cuò)誤診斷、常識錯(cuò)誤定位、常識錯(cuò)誤抽取等。

數(shù)學(xué)推理:以數(shù)學(xué)應(yīng)用題的形式進(jìn)行評測,重點(diǎn)考察大模型在基礎(chǔ)數(shù)學(xué)推理方面的能力,以保證其具備對復(fù)雜數(shù)學(xué)問題的解決潛力。數(shù)學(xué)推理包含了方程、分?jǐn)?shù)、集合、四則運(yùn)算、概率統(tǒng)計(jì)等內(nèi)容。

2. 價(jià)值對齊評測

倫理對齊:通過評估大模型在偏見、歧視、有毒內(nèi)容等方面的價(jià)值對齊能力,確保其生成的內(nèi)容符合道德和倫理準(zhǔn)則,避免不當(dāng)?shù)钠姾推缫?。包含偏見、冒犯、歧視、臟話等內(nèi)容。

安全可控:評估大模型在合作意愿、可糾正性等方面的安全可控能力,以確保在使用過程中能夠及時(shí)識別并糾正不安全或不適當(dāng)?shù)男袨?,保障用戶的安全和隱私。評測包含了系統(tǒng)的可糾正性、富有遠(yuǎn)見、理性決策等方面。

3. 多模態(tài)大模型多步推理專項(xiàng)評測

本專項(xiàng)評測涵蓋了8款開源多模態(tài)大模型和5款閉源多模態(tài)大模型,使用多步推理數(shù)據(jù)集進(jìn)行評測。該數(shù)據(jù)集分為8個(gè)子集,即多模態(tài)推理、邏輯推理任務(wù)、圖表分析推理、數(shù)學(xué)問題推理、科學(xué)問題推理、文件理解推理、?頁瀏覽型推理、閱讀理解推理。測試數(shù)據(jù)集最?的特點(diǎn)在于:每?個(gè)測試樣例都由較長的?系列推理操作組成。按照完成任務(wù)所需要的推理步數(shù),該數(shù)據(jù)集測試樣例又可分為三個(gè)難度級別:Level 1(3-6步推理)、Level 2(7-11步推理)、Level 3(12步以上推理)。

4. 大模型中文高考數(shù)學(xué)復(fù)雜推理專項(xiàng)評測

本專項(xiàng)評測涵蓋了1款閉源復(fù)雜推理大模型OpenAI o1-mini和2款開源復(fù)雜推理大模型Qwen-QWQ-32B、Skywork-o1-Open-Llama-3.1-8B,使用多類別數(shù)學(xué)推理數(shù)據(jù)集進(jìn)行評測。該數(shù)據(jù)集分為8個(gè)子集:基本初等函數(shù)與導(dǎo)數(shù)推理、三角函數(shù)與解三角形推理、平面解析幾何推理、數(shù)列推理、立體幾何與空間向量推理、計(jì)數(shù)原理推理、統(tǒng)計(jì)與概率推理、其他數(shù)學(xué)推理(涵蓋邏輯、集合、不等式、復(fù)數(shù))。

測試數(shù)據(jù)集最?的特點(diǎn)在于,所有數(shù)據(jù)均來源于最新的2024年1月至2024年5月的高考數(shù)學(xué)預(yù)測試卷以及模擬試卷,減少了數(shù)據(jù)污染的影響。該數(shù)據(jù)集內(nèi)容豐富,共包含4399題,難度等級劃分為7級,所有測試樣例難度等級均進(jìn)行了人工標(biāo)注,一些難度較大的題目答案解析超過2000字符。本次評測另采用了2款開源大模型Qwen-Math-2.5-72B-Instruct和Meta-Llama-3-8B-Instruct作為Baseline與復(fù)雜推理大模型的評測結(jié)果進(jìn)行比較。

二、 國內(nèi)大模型知識能力和價(jià)值對齊總體表現(xiàn)

基于“巢燧”基準(zhǔn)評測綜合測試結(jié)果,多個(gè)國內(nèi)大模型,如文心一言、千問、豆包、yi、商湯商量中文能力超過GPT-4。百川、abab6.5s、星火、混元、Kimi、GLM-4等,中文能力超過GPT-3.5-Turbo。以上評測結(jié)果表明,國內(nèi)大模型在過去一年中取得了關(guān)鍵進(jìn)展。

三、 知識能力和價(jià)值對齊評測結(jié)果

1. 開源模型評測結(jié)果

2. 閉源模型評測結(jié)果

3. 6個(gè)維度評測結(jié)果

四、 多模態(tài)大模型多步推理專項(xiàng)評測

1. 開源多模態(tài)大模型評測結(jié)果概覽:

如性能雷達(dá)圖所示,開源多模態(tài)大模型呈現(xiàn)出以下特點(diǎn):

(1) 閱讀理解推理和文件理解推理是開源多模態(tài)大模型區(qū)分度較大的維度;

(2)開源大模型在不同維度的表現(xiàn)展示出相似的特點(diǎn),例如在閱讀理解推理的表現(xiàn)均好于數(shù)學(xué)問題推理或圖表分析推理等。

如圖所示,開源多模態(tài)大模型的性能隨著問題難度增加而下降。

2. 閉源大模型評測結(jié)果概述

基于性能雷達(dá)圖,閉源多模態(tài)大模型呈現(xiàn)出以下特點(diǎn):

(1)閉源多模態(tài)大模型在不同維度的表現(xiàn)展示出相似的特點(diǎn),例如在閱讀理解推理和文件理解推理表現(xiàn)較好,在多模態(tài)推理和數(shù)學(xué)問題推理表現(xiàn)較差等;

(2)閉源多模態(tài)大模型在網(wǎng)頁瀏覽型推理和圖表分析推理的差異較大。

如圖所示,閉源多模態(tài)大模型的性能隨著問題難度增加而下降。

3. 總結(jié)

對比開源多模態(tài)大模型與閉源多模態(tài)大模型,我們發(fā)現(xiàn):

(1)開源多模態(tài)大模型在多模態(tài)推理和科學(xué)問題推理兩個(gè)維度展現(xiàn)出了顯著的優(yōu)勢,尤其是在多模態(tài)推理上,多個(gè)開源大模型已經(jīng)達(dá)到或超過GPT-4o;

(2)相比于開源多模態(tài)大模型,閉源多模態(tài)大模型在網(wǎng)頁瀏覽型推理、文件理解推理和圖表分析推理等維度普遍表現(xiàn)更優(yōu)秀;而在數(shù)學(xué)問題推理和多模態(tài)推理兩個(gè)維度上,閉源多模態(tài)大模型與開源多模態(tài)大模型的差異并不明顯。

(3)開源多模態(tài)大模型與閉源多模態(tài)大模型的性能均隨著問題難度增加而下降,問題難度越低,不同模型間的差異越明顯。

綜上所述,目前多模態(tài)大模型在數(shù)學(xué)問題推理和多模態(tài)推理等維度還有待關(guān)注和重視,同時(shí),多模態(tài)大模型在推理步驟較長的任務(wù)中表現(xiàn)較差,這表明未來大模型的發(fā)展仍然需要重視多步推理的能力提升。

五、 大模型中文高考數(shù)學(xué)復(fù)雜推理專項(xiàng)評測

如性能雷達(dá)圖所示,復(fù)雜推理模型在中文高考數(shù)學(xué)推理中呈現(xiàn)出以下特點(diǎn):

(1) 在同等參數(shù)規(guī)模下,Skywork-o1-Open-Llama-3.1-8B相比同系列基座模型Meta-Llama-3-8B-Instruct大幅提升了模型的數(shù)學(xué)推理能力;

(2)小型復(fù)雜推理模型在高考數(shù)學(xué)推理上的能力達(dá)到近似大型模型的水平。Skywork-o1-Open-Llama-3.1-8B與32B Qwen QWQ模型和經(jīng)過數(shù)學(xué)方面微調(diào)和強(qiáng)化學(xué)習(xí)的72B Qwen模型相比,其準(zhǔn)確率在各評測維度上達(dá)到了近似水平;

(3) 閉源復(fù)雜推理模型OpenAI o1-mini在中文高考數(shù)學(xué)推理中的綜合準(zhǔn)確率稍稍領(lǐng)先,在五個(gè)評測維度上優(yōu)于其它模型,在兩個(gè)評測維度上落后于其他模型。

如圖所示,復(fù)雜推理大模型的性能隨著問題難度增加呈現(xiàn)明顯下降趨勢,閉源復(fù)雜推理大模型OpenAI o1-mini在處理較難問題上具有明顯優(yōu)勢。

綜上所述,小型復(fù)雜推理模型在高考數(shù)學(xué)推理能力上顯示出了顯著的進(jìn)步,但大型基座模型仍然有利于復(fù)雜推理能力的提升。對于難度為4及以上的題目,所有模型都表現(xiàn)欠佳,這表明未來大模型在復(fù)雜推理能力上仍然具有很大提升空間。

六、 總結(jié)

在過去一年里,中文大型模型在學(xué)科知識以及數(shù)學(xué)推理等領(lǐng)域的能力大幅增強(qiáng)。閉源模型在學(xué)科知識、數(shù)學(xué)推理、語言理解及常識掌握等方面,相較于開源模型展現(xiàn)出了更出色的性能。盡管閉源模型在部分知識維度上領(lǐng)先,但在倫理對齊和安全可控方面,相較于開源模型的優(yōu)勢并不突出。這一現(xiàn)象提醒我們,在追求模型性能提高的同時(shí),不能忽視倫理和安全性問題。

在致力于提升大型模型知識能力的同時(shí),還需更加重視價(jià)值對齊的問題。隨著模型能力的不斷提升,這一問題的重要性愈加凸顯。我們應(yīng)當(dāng)拓展對大型模型的評估研究范圍,不應(yīng)僅限于學(xué)科知識等單一維度,而應(yīng)構(gòu)建更全面、多樣化的評估標(biāo)準(zhǔn)和體系,以促進(jìn)大型模型的智善協(xié)同發(fā)展。

紅星新聞?dòng)浾?俞瑤 實(shí)習(xí)記者 符小茵

編輯 鄧凌瑤

(下載紅星新聞,報(bào)料有獎(jiǎng)!)

標(biāo)題:《“巢燧”大模型基準(zhǔn)測試報(bào)告》在成都發(fā)布,中文大模型數(shù)學(xué)推理能力大幅增強(qiáng)

地址:http://www.sme-os.com/kaoxiang/20006.html