1月30日,上海人工智能實驗室發(fā)布了大模型開源開放評測體系司南(OpenCompass2.0),同時在對部分主流大模型評測診斷的基礎(chǔ)上,揭曉了年度大模型評測榜單,提到了國內(nèi)大模型的優(yōu)勢與短板。
根據(jù)評測,復(fù)雜推理相關(guān)能力是大模型普遍面臨的難題,國內(nèi)大模型相比于GPT-4還存在差距,這是大模型在金融、工業(yè)等要求可靠的場景落地需要的關(guān)鍵能力。不過,在中文場景下國內(nèi)最新的大模型已展現(xiàn)出獨特優(yōu)勢,尤其在語言、知識維度上接近GPT-4 Turbo的水平。
在客觀評測能力排行上,整體來看大語言模型整體能力仍有較大提升空間。在百分制的客觀評測基準(zhǔn)中,GPT-4 Turbo(升級版GPT-4)在各項評測中均獲最佳表現(xiàn),也僅達到61.8分的及格水平。
OpenCompass2.0的分析結(jié)果顯示,不少國內(nèi)廠商近期新發(fā)布的模型在多個能力維度上正在快速縮小與GPT-4 Turbo的差距,包括智譜清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名較為靠前,反映了這些新模型具有較為均衡和全面的性能。
值得一提的是,此次大模型排行并未納入所有大模型企業(yè),各家迭代版本時間不盡相同。上海人工智能實驗室方面表示,更多企業(yè)在陸續(xù)發(fā)布新的大模型,一些企業(yè)近期也有發(fā)布新版本的計劃,所有這些新的大模型會進入下一期榜單上。
根據(jù)客觀評測結(jié)果,部分大模型分?jǐn)?shù)與GPT-4 Turbo已接近,但這并不意味著國內(nèi)大模型與GPT-4 Turbo差距很校上海人工智能實驗室青年科學(xué)家陳愷對第一財經(jīng)解釋,分?jǐn)?shù)是由不同的維度組合而來,國內(nèi)的大模型和GPT-4 Turbo在不同的維度上表現(xiàn)并不一樣,有些維度如知識、語言上可能打得有來有回,有些維度如推理上還存在著一定的差距,評測本身也會有局限性。
“出什么樣的題目去考察知識邊界會有區(qū)別,如果都出競賽題,可能一個0分一個100分,出高考題那可能就是一個80分,一個90分。”陳愷表示,評測是一個整體普適性的比較,作為一個綜合評測在難度上會相對平衡,雖然國內(nèi)大模型與GPT-4的差距在縮小,但也不能忽視我們在復(fù)雜推理場景有大的進步空間。
從具體指標(biāo)來看各個大模型的能力或許更為全面。OpenCompass2.0有客觀評測和主觀評測,大致類似考試中的客觀題與主觀題,總體上從語言、知識、創(chuàng)作、推理、數(shù)學(xué)、代碼、智能體等方面對大模型的能力進行評測,在圖中能力項顏色條越長代表能力越高。
評測顯示,推理、數(shù)學(xué)、代碼、智能體是國內(nèi)大模型的短板。GPT-4 Turbo在涉及復(fù)雜推理的場景雖然亦有提升空間,但已明顯領(lǐng)先于國內(nèi)的商業(yè)模型和開源模型。國內(nèi)大模型要整體趕超GPT-4 Turbo等國際頂尖的大模型,在復(fù)雜推理、可靠地解決復(fù)雜問題等方面,仍需下大功夫。
復(fù)雜推理會如何影響大模型的能力?上海人工智能實驗室領(lǐng)軍科學(xué)家林達華對第一財經(jīng)介紹,這關(guān)系到落地應(yīng)用時大模型的可靠性,例如在金融這樣的場景下不能在數(shù)字上有差錯,會對數(shù)學(xué)上的可靠性有較高的要求。另外隨著大模型進入商用,若要分析一家公司的財報,甚至是工業(yè)領(lǐng)域要去分析一些技術(shù)文檔,這時數(shù)學(xué)方面的計算能力就會成為一個壁壘。
“現(xiàn)在很多大模型的應(yīng)用場景是客服、聊天等等,在聊天場景一本正經(jīng)胡說八道影響不太大,但它很難在非常嚴(yán)肅的商業(yè)場合去落地。”林達華表示。
在與GPT-4 Turbo的比較中,國內(nèi)大模型也有一些優(yōu)勢,如在主觀評測中,國內(nèi)模型在中文場景下相比海外模型具有性能優(yōu)勢,在中文語言理解、中文知識和中文創(chuàng)作上,國內(nèi)商業(yè)模型相比GPT-4 Turbo具有極強的競爭力,甚至部分模型實現(xiàn)了部分維度上對GPT-4 Turbo的超越。
作為大模型的評測體系,OpenCompass于2023年7月推出,是Meta官方推薦的四個能力評測工具之一,且是其中唯一由中國機構(gòu)開發(fā)的評測工具。林達華介紹,評測體系借鑒的是高考的經(jīng)驗,評測時這些模型題目并未公開,會避免一些模型對著題目“刷題”從而存在作弊現(xiàn)象,最后高考成績某種意義上是相對較公允的評價。到榜單發(fā)布時,會將這一期榜單的題目公開,這樣相關(guān)各方可以驗證評測的分?jǐn)?shù)。
林達華認為,關(guān)于評測,排名可能并不是最需要關(guān)注的,在榜單上一時的排名高或低并不能真正反映大模型的能力,評測的真正價值是幫助機構(gòu)和企業(yè)發(fā)現(xiàn)自家大模型進一步需要努力的方向。