久久久久久精品一级毛片大道,榴莲榴莲榴莲网站进入,人妻少妇精品久久久久久

智源公布大模型“成績單”：國產(chǎn)多模態(tài)提速，GPT-4o視覺語言模型第一

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 06:44:00 瀏覽：245次

導讀：AI未來指北特約作者蘇揚編輯鄭可君智源研究院（以下簡稱智源）于12月19日公布了最新一期FlagEval大模型評測榜單，結(jié)果顯示語言模型的能力趨于穩(wěn)定，國產(chǎn)多模態(tài)模型能力則在快速進化。FlagEval是智源2023年6月上公布的大模型評測體系，目前已覆蓋800+開源、閉源模型以及90多個評測數(shù)據(jù)集和200萬條評測題目。此次評測覆蓋國內(nèi)外100余個開源、閉源的語言、視覺語言、文生圖、文 ......

AI未來指北特約作者蘇揚

編輯鄭可君

智源研究院（以下簡稱智源）于12月19日公布了最新一期FlagEval大模型評測榜單，結(jié)果顯示語言模型的能力趨于穩(wěn)定，國產(chǎn)多模態(tài)模型能力則在快速進化。

FlagEval是智源2023年6月上公布的大模型評測體系，目前已覆蓋800+開源、閉源模型以及90多個評測數(shù)據(jù)集和200萬條評測題目。此次評測覆蓋國內(nèi)外100余個開源、閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型。

智源公布大模型“成績單”：國產(chǎn)多模態(tài)提速，GPT-4o視覺語言模型第一

林詠華現(xiàn)場介紹FlagEval新一期評測覆蓋的大模型類別

語言模型評測覆蓋國內(nèi)外40多個模型，主客觀評測總計2.2萬道題目，字節(jié)Doubao-pro-32k-preview和OpenAI o1 mini-2024-09-12分別在主觀（含價值觀）、客觀（不含價值觀）評測中排行第一。

智源研究院副院長、總工程師林詠華強調(diào)，語言模型主觀評測僅評測對話模型，重點考察模型的中文能力，“語言模型，針對一般中文場景的開放式問答或者生成任務(wù)，模型能力已趨于飽和穩(wěn)定，但是復雜場景任務(wù)上的表現(xiàn)，國內(nèi)頭部語言模型仍然與國際一流水平存在顯著差距�！�

視覺語言多模態(tài)模型（以文字、圖片等多模態(tài)信息輸入，以文本輸出）評測，總計采用了2.5萬道題目，涉及40個模型，OpenAI GPT-4o-2024-11-20位列第一。

該項評測下排名前5的模型當中，開源模型僅有阿里巴巴Qwen2-VL-72B-Instruct一家。“開源模型數(shù)量大增，但商業(yè)機構(gòu)的閉源模型發(fā)展速度超過開源模型。”林詠華說。

林詠華在演講中透露，“較好的開源模型在圖文理解任務(wù)上，正在縮小與頭部閉源模型的能力差距，而長尾視覺知識與文字識別，以及復雜圖文數(shù)據(jù)分析能力仍有提升空間�！�

文生圖、文生視頻多模態(tài)模型評測當中，騰訊Hunyuan Image與快手可靈1.5（高品質(zhì)）分別位居第一，兩項評測排名前5均為閉源模型。

林詠華表示，“互聯(lián)網(wǎng)大廠，尤其短視頻大廠，得益于海量高質(zhì)數(shù)據(jù)，在文生圖、文生視頻上進步明顯，且第一梯隊模型能力接近�！�

智源公布大模型“成績單”：國產(chǎn)多模態(tài)提速，GPT-4o視覺語言模型第一

對于文生圖模型，林詠華表示今年上半年參評的模型普遍無法生成正確的中文文字，此次頭部模型已經(jīng)具備該能力，但她也強調(diào)復雜場景，復雜數(shù)量關(guān)系等生成上仍然存在問題�！�（參評模型）普遍存在復雜場景人物變形的情況，針對常識或知識性推理任務(wù)，大于3的數(shù)量關(guān)系依然無法處理，涉及中國文化和古詩詞理解的場景對于模型而言是不小的挑戰(zhàn)�！�

而對于文生視頻模型，林詠華強調(diào)：“畫質(zhì)提升、動態(tài)性強，轉(zhuǎn)場流暢，但普遍存在大幅度動作變形、無法理解物理規(guī)律、穿模等問題。”

林詠華表示，“因為采用的是無監(jiān)督學習，所以（我們）不只是發(fā)布評測結(jié)果，也是對模型能力的探索�！�

在林詠華看來，語言模型已經(jīng)從基礎(chǔ)能力攀升，進入復雜應(yīng)用落地的階段，而多模態(tài)模型的能力明顯比上半年優(yōu)秀，但目前仍然處于能力攀升階段。

為了確保評測的客觀公正，智源表示目前已經(jīng)就FlagEval的評測方法與工具與全國10余家高校和機構(gòu)合作，為規(guī)避數(shù)據(jù)集泄露風險以及數(shù)據(jù)集飽和度問題，本次評測吸納了近期發(fā)布的數(shù)據(jù)集并持續(xù)動態(tài)更新評測數(shù)據(jù)，替換了98%的題目，并提升了題目的難度。

智源強調(diào)稱開源模型均采用模型發(fā)布方推薦的推理代碼及運行環(huán)境，同時采用統(tǒng)一通用的提示詞。在文生視頻主觀能力、語音大模型能力等評測專項當中，都引入了專家評估團隊，且所有人工評測均為多人評價擬合的結(jié)果，主觀評測每題至少3人閱卷，文生視頻則至少有7人閱卷。

盡管在客觀、公正上做了大量前置準備，林詠華也不否認目前評測存在的局限性，包括范圍局限、時間局限、數(shù)據(jù)局限等，“中文評測數(shù)據(jù)的廣度、多樣性都不如英文，全球?qū)W界和開源社區(qū)發(fā)布的大量數(shù)據(jù)集都還是英文�！�

公開資料顯示，類似FlagEval的大模型評測體系還包括上海人工智能實驗室的司南（OpenCompass 2.0）、信通院的“方升”、HuggingFace上的Open LLM LeaderBoard等。

以司南為例，在今年1月下旬亮相時對外稱其試圖將模型在知識、語言、理解、推理和考試等五大能力維度的表現(xiàn)進行量化，其2023年度大模型評測榜單顯示，GPT-4 Turbo從150多個模型當中脫穎而出，在各項評測中均獲最佳表現(xiàn)。

評測體系琳瑯滿目，統(tǒng)一的必要性就成了需要關(guān)注的問題，對此林詠華持正面態(tài)度，她認為（統(tǒng)一）的確會避免很多重復的工作，但也強調(diào)不同機構(gòu)之間在標準、技術(shù)上很難對齊，“智源也在組織統(tǒng)一標準的事情，我們也是IEEE大模型評測小組成員，目前聯(lián)動了30多家相關(guān)企業(yè)，但這個標準在全球執(zhí)行，難度還是挺大的�！�

智源公布大模型“成績單”：國產(chǎn)多模態(tài)提速，GPT-4o視覺語言模型第一
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 06:44:00 瀏覽：245次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

智源公布大模型“成績單”：國產(chǎn)多模態(tài)提速，GPT-4o視覺語言模型第一 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 06:44:00 瀏覽：245次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

智源公布大模型“成績單”：國產(chǎn)多模態(tài)提速，GPT-4o視覺語言模型第一
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 06:44:00 瀏覽：245次