《科創(chuàng)板日?qǐng)?bào)》2月23日訊(記者 黃心怡)2025全球開(kāi)發(fā)者先鋒大會(huì)“共筑金融新生態(tài):AI 大模型落地應(yīng)用與實(shí)踐“分論壇今日在上海徐匯西安藝術(shù)中心舉行。
上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院和滴水湖高級(jí)金融學(xué)院聯(lián)聘教授、博導(dǎo),數(shù)據(jù)科學(xué)與統(tǒng)計(jì)研究院副院長(zhǎng)張立文發(fā)表了題為“中國(guó)金融領(lǐng)域大模型評(píng)測(cè)體系的探索”的演講。
大模型的浪潮對(duì)于金融行業(yè)而言也引起一場(chǎng)重大的變革,整個(gè)金融產(chǎn)業(yè)的業(yè)態(tài)或都將為之重塑。一時(shí)間,金融領(lǐng)域大模型也紛紛崛起。何種金融大模型能夠真正賦能到金融機(jī)構(gòu)乃至金融行業(yè),它們應(yīng)具備怎樣的能力?
為此,上海財(cái)經(jīng)大學(xué)提出了國(guó)內(nèi)財(cái)經(jīng)類院校首個(gè)金融大模型評(píng)測(cè)體系FinEval,從第三方視角公正客觀評(píng)測(cè),填補(bǔ)了中國(guó)金融領(lǐng)域評(píng)估基準(zhǔn)的空白。同時(shí),上海財(cái)經(jīng)大學(xué)在金融大模型的其他領(lǐng)域,如金融大模型的部署微調(diào),金融業(yè)務(wù)結(jié)合以及更垂類金融場(chǎng)景如ESG大模型都有持續(xù)深入的研究。
在上海市委金融辦、市經(jīng)信委的指導(dǎo)下,上海財(cái)經(jīng)大學(xué)、上海人工智能實(shí)驗(yàn)室、上海庫(kù)帕思科技有限公司共同發(fā)布《金融大模型應(yīng)用評(píng)測(cè)報(bào)告(2024)》。
模型基礎(chǔ)能力方面,參評(píng)模型平均得分為59.8分;排名前三的模型分別為:阿里巴巴的Qwen2.5-72B-Instruct(70.3分)Anthropic的Claude-3.5-Sonnet-20240620(68.9分)、階躍星辰/財(cái)躍星辰的Step-2-16k(65.7分)
金融安全與價(jià)值對(duì)齊能力方面,參評(píng)模型平均得分為92.8 分;排名前三的模型分別為:階躍星辰/財(cái)躍星辰的Step-2-16k(98.8 分)、智譜的 GLM-4-plus(96.3 分)、阿里巴巴的 Qwen2.5-72B-Instruct(95.9 分);得分最低的模型為字節(jié)跳動(dòng)的 Doubao-pro-32k(86.9 分)。
金融風(fēng)險(xiǎn)控制能力方面,參評(píng)模型平均得分77.1分;排名前三的模型為Anthropic的Claude-3.5-Sonnet-20240620(84.1分)、階躍星辰/財(cái)躍星辰的Step-2-16k(83.3分)、零一萬(wàn)物的 Yi-Lightning(79.6 分 )。
據(jù)悉,金融大模型評(píng)測(cè)報(bào)告將以每年1-2次頻率公開(kāi)發(fā)布,以助力金融科技在智能化、專業(yè)化、精細(xì)化方向上的進(jìn)一步突破與發(fā)展持續(xù)拓展以金融業(yè)務(wù)為核心的評(píng)測(cè)框架。
在此框架下,上海財(cái)經(jīng)大學(xué)重點(diǎn)推進(jìn)了兩項(xiàng)重點(diǎn)工作:一是推出國(guó)內(nèi)首個(gè)金融多模態(tài)評(píng)估基準(zhǔn)VisFinEval;二是開(kāi)發(fā)面向復(fù)雜金融推理任務(wù)的大模型Fin-R1。
VisFinEval 作為評(píng)測(cè)體系的重要組成部分,聚焦金融多模態(tài)場(chǎng)景的深度評(píng)估需求。該基準(zhǔn)基于財(cái)報(bào)、研報(bào)及財(cái)經(jīng)網(wǎng)站中的八類通用金融圖表(如K線圖、財(cái)報(bào)、金融關(guān)系圖譜等),構(gòu)建了覆蓋基礎(chǔ)場(chǎng)景、復(fù)雜場(chǎng)景與極端挑戰(zhàn)場(chǎng)景的三級(jí)評(píng)估標(biāo)準(zhǔn),總題量達(dá)1.5萬(wàn)+。其創(chuàng)新性在于提出“圖文一致性”檢測(cè)機(jī)制,以量化多模態(tài)大模型的文本信息丟失問(wèn)題,并延伸至極限推理能力測(cè)試(如多模態(tài)長(zhǎng)指令評(píng)估、復(fù)雜計(jì)算等),為大模型在金融圖表解讀、多模態(tài)決策等場(chǎng)景的應(yīng)用能力提供了系統(tǒng)性評(píng)估依據(jù)。Fin-R1 是上海財(cái)經(jīng)大學(xué)基于DeepSeek技術(shù)路線開(kāi)發(fā)的垂直領(lǐng)域大模型。
在前期實(shí)驗(yàn)中,F(xiàn)in-R1-Zero已展現(xiàn)出初步的推理能力,然而,該版本存在中英文混雜輸出及效果未達(dá)預(yù)期的局限性。為此,團(tuán)隊(duì)提出數(shù)據(jù)合成管道與兩階段訓(xùn)練方法:基于高質(zhì)量金融數(shù)據(jù)和多模型蒸餾技術(shù)構(gòu)建中英文混合數(shù)據(jù)集,并通過(guò)監(jiān)督微調(diào)(SFT)增強(qiáng)長(zhǎng)思維鏈能力,結(jié)合強(qiáng)化學(xué)習(xí)(RL)提升自發(fā)推理能力。訓(xùn)練初期,模型已能生成包含多步驟復(fù)雜邏輯的“Aha Moment”輸出,初步驗(yàn)證技術(shù)可行性。
未來(lái)計(jì)劃中,團(tuán)隊(duì)將聚焦自動(dòng)化數(shù)據(jù)構(gòu)建、模型訓(xùn)練與評(píng)測(cè)的一體化生態(tài)建設(shè),并開(kāi)源代碼與數(shù)據(jù)集;同時(shí),也會(huì)持續(xù)探索優(yōu)化金融推理效果,逐步拓展至風(fēng)險(xiǎn)評(píng)估、投資策略生成等場(chǎng)景,推動(dòng)技術(shù)向產(chǎn)業(yè)應(yīng)用的深度轉(zhuǎn)化。
對(duì)于大模型在金融業(yè)的落地思考,張立文認(rèn)為,高質(zhì)量的語(yǔ)料體系十分關(guān)鍵,大模型專業(yè)能力依賴于海量、高質(zhì)量、高時(shí)效訓(xùn)練數(shù)據(jù)。金融領(lǐng)域的數(shù)據(jù)具有高度的專業(yè)性和復(fù)雜性,包括大量的專業(yè)術(shù)語(yǔ)、復(fù)雜的交易記錄、政策法規(guī)文本等。強(qiáng)大的AI中臺(tái)為整個(gè)組織提供標(biāo)準(zhǔn)化、模塊化的AI服務(wù),從而加快AI技術(shù)的應(yīng)用和創(chuàng)新。
張立文稱,雖然積極探索生成式大模型金融應(yīng)用,但距離規(guī)模應(yīng)用仍較遙遠(yuǎn),需要持續(xù)增強(qiáng)模型的可控生成、專業(yè)性!敖鹑诖竽P偷拈_(kāi)發(fā)和應(yīng)用需在保障數(shù)據(jù)安全、用戶隱私和滿足監(jiān)管要求的同時(shí),實(shí)現(xiàn)金融數(shù)據(jù)的高效處理和分析。”
(財(cái)聯(lián)社記者 黃心怡)