展會信息港展會大全

多位資深分析師實(shí)測16家大模型:用AI寫研報,還是商湯日日新最好用!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-29 15:11:37   瀏覽:1940次  

導(dǎo)讀:日前,權(quán)威研究機(jī)構(gòu)弗若斯特沙利文(Frost Sullivan, 簡稱沙利文)聯(lián)合頭豹研究院發(fā)布《2024年中國大模型行研能力年中評測》,結(jié)果顯示:在16個主流大模型中,商湯日日新以8.923分(總分)再度位列榜首,并在報告撰寫和基礎(chǔ)能力兩大子榜中排名第一。 相較于...

多位資深分析師實(shí)測16家大模型:用AI寫研報,還是商湯日日新最好用!

日前,權(quán)威研究機(jī)構(gòu)弗若斯特沙利文(Frost & Sullivan, 簡稱“沙利文”)聯(lián)合頭豹研究院發(fā)布《2024年中國大模型行研能力年中評測》,結(jié)果顯示:在16個主流大模型中,商湯“日日新”以8.923分(總分)再度位列榜首,并在報告撰寫和基礎(chǔ)能力兩大子榜中排名第一。

相較于《2023年中國大模型行研能力評測報告》,此次參與評測的主流大模型從12家增至16家,在保持三大能力維度(報告撰寫、行業(yè)理解、基礎(chǔ)能力)的基礎(chǔ)上,測試題目從1800道增至3540道,商湯“日日新“在蟬聯(lián)第一的同時,總分從7.73提升到8.923。

多位資深分析師實(shí)測16家大模型:用AI寫研報,還是商湯日日新最好用!

20+資深分析師參與打分:日常使用大模型辦公,還是日日新撰寫報告最好用

值得注意的是,本次大模型行研能力測試覆蓋了3540道題目,由20位資深研究分析師和10個中外裁判大模型共同參與評測。

這些分析師大多擁有超過16個月的使用大模型進(jìn)行日常辦公的經(jīng)驗(yàn),在評測中,報告撰寫這一核心能力維度就覆蓋了20篇不同行業(yè)報告撰寫,涵蓋分析師長期跟蹤報告問題累積超3000道題。

在“報告撰寫”能力(覆蓋8個子能力模塊)中,商湯“日日新”排名第一,充分體現(xiàn)辦公實(shí)際應(yīng)用場景中的領(lǐng)先性。

沙利文及頭豹行企研究的8-D模塊化大模型提問框架已轉(zhuǎn)化為一個評估工具,通過對十六個模型的定向提問,深入檢驗(yàn)并評估模型報告的撰寫質(zhì)量與有效性。

多位資深分析師實(shí)測16家大模型:用AI寫研報,還是商湯日日新最好用!

圖:大模型報告撰寫能力評測總榜TOP5

沙利文認(rèn)為,位列第一的商湯“日日新”在研究報告內(nèi)容質(zhì)量綜合產(chǎn)出優(yōu)秀,大模型具備從基礎(chǔ)信息中提煉出深層邏輯關(guān)系的強(qiáng)大能力。

其中,商湯“日日新”在邏輯推理層的三個細(xì)分維度中表現(xiàn)最為突出:

產(chǎn)業(yè)鏈分析:作為高階難度撰寫模塊,得益于其優(yōu)秀的知識儲備能力以及邏輯推理歸納能力,“日日新”在這一模塊表現(xiàn)優(yōu)秀;

特征分析:這一模塊挑戰(zhàn)在于綜合處理海量數(shù)據(jù)、提煉具有深度的代表性見解以及展現(xiàn)獨(dú)創(chuàng)性,“日日新”在此模塊中表現(xiàn)優(yōu)異;

競爭格局:這是最具挑戰(zhàn)性的模塊之一,挑戰(zhàn)在于準(zhǔn)確篩選行業(yè)參與者,并歸納推演市場競爭態(tài)勢的形成原因及未來趨勢,“日日新”在企業(yè)篩選以及未來變化推演能力較強(qiáng)。

商湯“日日新”加持基礎(chǔ)能力,為千行百業(yè)研究注入“新質(zhì)生產(chǎn)力”

同時,大模型優(yōu)秀的基礎(chǔ)能力能夠顯著提升分析師在研報撰寫過程中使用模型的流暢性,并增加其使用粘性。

在“行研基礎(chǔ)”能力板塊的表現(xiàn)中,商湯“日日新”綜合表現(xiàn)第一。

多位資深分析師實(shí)測16家大模型:用AI寫研報,還是商湯日日新最好用!

圖:大模型基礎(chǔ)能力評測總榜TOP5

這得益于商湯“日日新”大模型體系的持續(xù)迭代和能力維度的長期耕耘。自去年4月首次發(fā)布,商湯“日日新SenseNova”大模型體系已正式推出多個大版本迭代。在今年7月“日日新5.5”體系迎來多項(xiàng)升級,綜合性能較“日日新5.0”平均提升30%,在數(shù)學(xué)推理、英文能力和指令跟隨等能力明顯增強(qiáng),交互效果和多項(xiàng)核心指標(biāo)實(shí)現(xiàn)對標(biāo)GPT-4o。

通過不斷地實(shí)踐與落地,商湯“日日新”也對各行各業(yè)中進(jìn)行了深刻的行業(yè)積累,這為其提供了行業(yè)深度洞察與理解能力。在沙利文報告中,商湯“日日新”在“行業(yè)理解”能力也表現(xiàn)突出。

商湯“日日新”在面對各行業(yè)下的趨勢研判、信息歸納和市場認(rèn)知方面表現(xiàn)了較強(qiáng)的能力,其中在電商零售業(yè)、電信業(yè)、泛娛樂業(yè)、房地產(chǎn)業(yè)、教育業(yè)、運(yùn)輸業(yè)、制造業(yè)這些關(guān)鍵領(lǐng)域排名第一。

辦公與內(nèi)容創(chuàng)作是當(dāng)下大模型最火熱的應(yīng)用場景,并且也是能夠直接體現(xiàn)大模型生產(chǎn)力水平的能力,商湯“日日新”此次蟬聯(lián)第一,正是為行研領(lǐng)域提供“新質(zhì)生產(chǎn)力”。未來,商湯科技還將不斷把大模型的能力轉(zhuǎn)換為在各行各業(yè)的實(shí)際落地,推動生成式AI的規(guī);瘧(yīng)用。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港