日前,權(quán)威研究機(jī)構(gòu)弗若斯特沙利文(Frost & Sullivan, 簡稱“沙利文”)聯(lián)合頭豹研究院發(fā)布《2024年中國大模型行研能力年中評測》,結(jié)果顯示:在16個主流大模型中,商湯“日日新”以8.923分(總分)再度位列榜首,并在報告撰寫和基礎(chǔ)能力兩大子榜中排名第一。
相較于《2023年中國大模型行研能力評測報告》,此次參與評測的主流大模型從12家增至16家,在保持三大能力維度(報告撰寫、行業(yè)理解、基礎(chǔ)能力)的基礎(chǔ)上,測試題目從1800道增至3540道,商湯“日日新“在蟬聯(lián)第一的同時,總分從7.73提升到8.923。
20+資深分析師參與打分:日常使用大模型辦公,還是日日新撰寫報告最好用
值得注意的是,本次大模型行研能力測試覆蓋了3540道題目,由20位資深研究分析師和10個中外裁判大模型共同參與評測。
這些分析師大多擁有超過16個月的使用大模型進(jìn)行日常辦公的經(jīng)驗(yàn),在評測中,報告撰寫這一核心能力維度就覆蓋了20篇不同行業(yè)報告撰寫,涵蓋分析師長期跟蹤報告問題累積超3000道題。
在“報告撰寫”能力(覆蓋8個子能力模塊)中,商湯“日日新”排名第一,充分體現(xiàn)辦公實(shí)際應(yīng)用場景中的領(lǐng)先性。
沙利文及頭豹行企研究的8-D模塊化大模型提問框架已轉(zhuǎn)化為一個評估工具,通過對十六個模型的定向提問,深入檢驗(yàn)并評估模型報告的撰寫質(zhì)量與有效性。
圖:大模型報告撰寫能力評測總榜TOP5
沙利文認(rèn)為,位列第一的商湯“日日新”在研究報告內(nèi)容質(zhì)量綜合產(chǎn)出優(yōu)秀,大模型具備從基礎(chǔ)信息中提煉出深層邏輯關(guān)系的強(qiáng)大能力。
其中,商湯“日日新”在邏輯推理層的三個細(xì)分維度中表現(xiàn)最為突出:
產(chǎn)業(yè)鏈分析:作為高階難度撰寫模塊,得益于其優(yōu)秀的知識儲備能力以及邏輯推理歸納能力,“日日新”在這一模塊表現(xiàn)優(yōu)秀;
特征分析:這一模塊挑戰(zhàn)在于綜合處理海量數(shù)據(jù)、提煉具有深度的代表性見解以及展現(xiàn)獨(dú)創(chuàng)性,“日日新”在此模塊中表現(xiàn)優(yōu)異;
競爭格局:這是最具挑戰(zhàn)性的模塊之一,挑戰(zhàn)在于準(zhǔn)確篩選行業(yè)參與者,并歸納推演市場競爭態(tài)勢的形成原因及未來趨勢,“日日新”在企業(yè)篩選以及未來變化推演能力較強(qiáng)。
商湯“日日新”加持基礎(chǔ)能力,為千行百業(yè)研究注入“新質(zhì)生產(chǎn)力”
同時,大模型優(yōu)秀的基礎(chǔ)能力能夠顯著提升分析師在研報撰寫過程中使用模型的流暢性,并增加其使用粘性。
在“行研基礎(chǔ)”能力板塊的表現(xiàn)中,商湯“日日新”綜合表現(xiàn)第一。
圖:大模型基礎(chǔ)能力評測總榜TOP5
這得益于商湯“日日新”大模型體系的持續(xù)迭代和能力維度的長期耕耘。自去年4月首次發(fā)布,商湯“日日新SenseNova”大模型體系已正式推出多個大版本迭代。在今年7月“日日新5.5”體系迎來多項(xiàng)升級,綜合性能較“日日新5.0”平均提升30%,在數(shù)學(xué)推理、英文能力和指令跟隨等能力明顯增強(qiáng),交互效果和多項(xiàng)核心指標(biāo)實(shí)現(xiàn)對標(biāo)GPT-4o。
通過不斷地實(shí)踐與落地,商湯“日日新”也對各行各業(yè)中進(jìn)行了深刻的行業(yè)積累,這為其提供了行業(yè)深度洞察與理解能力。在沙利文報告中,商湯“日日新”在“行業(yè)理解”能力也表現(xiàn)突出。
商湯“日日新”在面對各行業(yè)下的趨勢研判、信息歸納和市場認(rèn)知方面表現(xiàn)了較強(qiáng)的能力,其中在電商零售業(yè)、電信業(yè)、泛娛樂業(yè)、房地產(chǎn)業(yè)、教育業(yè)、運(yùn)輸業(yè)、制造業(yè)這些關(guān)鍵領(lǐng)域排名第一。
辦公與內(nèi)容創(chuàng)作是當(dāng)下大模型最火熱的應(yīng)用場景,并且也是能夠直接體現(xiàn)大模型生產(chǎn)力水平的能力,商湯“日日新”此次蟬聯(lián)第一,正是為行研領(lǐng)域提供“新質(zhì)生產(chǎn)力”。未來,商湯科技還將不斷把大模型的能力轉(zhuǎn)換為在各行各業(yè)的實(shí)際落地,推動生成式AI的規(guī);瘧(yīng)用。