圖片系A(chǔ)I生成
3月16日,文心大模型兩周年之際,百度如約發(fā)布了國(guó)內(nèi)首個(gè)原生多模態(tài)大模型文心4.5,以及深度思考模型X1。與以往不同,百度本次沒有選擇召開發(fā)布會(huì),而是直接宣布模型在文心一言官網(wǎng)上線,免費(fèi)向用戶開放,文心大模型4.5也面向企業(yè)用戶和開發(fā)者開放,在百度智能云千帆大模型平臺(tái)即可調(diào)用API。據(jù)悉,文心大模型4.5、X1也將陸續(xù)上線百度搜索、文小言APP等產(chǎn)品。
價(jià)格方面,文心大模型4.5的API調(diào)用輸入價(jià)格為0.004元/千tokens,輸出0.016元/千tokens,約為GPT4.5價(jià)格的1%;文心大模型X1定價(jià)為輸入0.002元/千tokens,輸出0.008元/千tokens,即將在千帆平臺(tái)上線。
盡管4.5文心大模型是一個(gè)中間版本,是基于4.0版本的強(qiáng)化,但是通常而言,官方會(huì)出面做發(fā)布并解讀產(chǎn)品、技術(shù)亮點(diǎn),OpenAI在日前也舉辦了GPT4.5的線上發(fā)布會(huì),本次百度的策略更顯特殊。
行業(yè)氣氛有些微妙,百度可能比以往任何時(shí)刻都需要再度證明自己。
百度糾偏,想要繼續(xù)站在舞臺(tái)中央
如果說(shuō)DeepSeek的到來(lái),給全球所有大模型公司都提了個(gè)醒,那么百度則通過一系列的動(dòng)作,展示了應(yīng)該如何留在大模型的牌桌上。
原來(lái)的百度是有些“偶像包袱”的。自O(shè)penAI發(fā)布ChatGPT以來(lái),百度是更早推出同類大模型產(chǎn)品的國(guó)內(nèi)廠商,All in AI的戰(zhàn)略也被視為具備前瞻性,憑借超前的眼光、技術(shù)儲(chǔ)備等資源,百度被視作“中國(guó)OpenAI”。
科技行業(yè)不缺少新敘事,其魅力就在于不可預(yù)知性,大模型行業(yè)領(lǐng)先優(yōu)勢(shì)可能只能維持半年,當(dāng)巨頭們紛紛下重注投入生成式AI,行業(yè)又達(dá)成一個(gè)新觀點(diǎn),“大模型是巨頭企業(yè)的游戲”,可隨后DeepSeek開源、低成本的大模型引起了新的風(fēng)潮,包括OpenAI、百度等在內(nèi)的全球所有AI企業(yè)發(fā)現(xiàn),大模型的未來(lái)言之尚早。
就像百度創(chuàng)始人李彥宏此前所說(shuō),“創(chuàng)新不能被計(jì)劃,你不知道創(chuàng)新何時(shí)到來(lái),你所能做的就是營(yíng)造一個(gè)有利于創(chuàng)新的環(huán)境。”百度此前的成功在于建立了一個(gè)適合創(chuàng)新的環(huán)境,但是如今的百度需要甩掉“偶像包袱”,用實(shí)際行動(dòng)證明自己還有留在牌桌的籌碼。
好的一面是,李彥宏不惜推翻自己此前的判斷,快速又堅(jiān)決地推動(dòng)了一系列動(dòng)作,文心一言完全免費(fèi)、文心4.5將在6月30日正式開源,百度核心業(yè)務(wù)搜索接入DeepSeek等。
據(jù)悉,在本次文心4.5和X1大模型發(fā)布之后,百度后續(xù)還會(huì)有文心4.5系列模型,以及下半年更先進(jìn)的下一代模型5.0版本。
即便與兩年前的自己對(duì)比,百度都有了明顯提速,有百度內(nèi)部人士表示,無(wú)論是文心4.5全面免費(fèi),還是PC和移動(dòng)雙端直接上現(xiàn)貨,百度管理層幾乎實(shí)在半天之內(nèi)就做出決策。
但這也不意味著百度完全失去了自己的節(jié)奏,文心4.5主打的原生多模態(tài),X1主打的多功能調(diào)用,研發(fā)儲(chǔ)備都需要數(shù)月甚至一年,證明百度只是加快了自己的節(jié)奏,而不是失去了對(duì)技術(shù)的嗅覺。
長(zhǎng)遠(yuǎn)來(lái)看,百度可能有一些預(yù)判失誤,比如跟隨OpenAI的過早商業(yè)化決策失誤,但這不影響一些大模型產(chǎn)業(yè)的基本邏輯,更前沿的大模型仍在路上,生態(tài)的重要性繼續(xù)提高。
人工智能時(shí)代的技術(shù)棧,芯片層、框架層、模型層和應(yīng)用層協(xié)同優(yōu)化,才能大幅提升效率,百度從昆侖芯到飛槳深度學(xué)習(xí)框架,再到文心預(yù)訓(xùn)練大模型,各個(gè)層面都有布局,從而降低成本,提高創(chuàng)新效率。
回到本次發(fā)布,為何百度選擇“一言不發(fā)”,而是產(chǎn)品全量上線?上述百度內(nèi)部人士表示,“發(fā)言不如發(fā)產(chǎn)品,現(xiàn)在百度說(shuō)什么外界可能都覺得不對(duì),最簡(jiǎn)單粗暴的方法就是用產(chǎn)品說(shuō)話,4.5是升級(jí),但比5.0重要性差很多,大家更有危機(jī)感了,戰(zhàn)略調(diào)整、技術(shù)迭代的效果需要一段時(shí)間顯現(xiàn)!
作為百度重新證明自己的階段產(chǎn)品,原生多模態(tài)大模型文心4.5,以及深度思考模型X1,透露出百度哪些動(dòng)向?
文心4.5更聰明了,原生多模態(tài)才是重點(diǎn)
文心大模型4.5有兩個(gè)關(guān)鍵詞,國(guó)內(nèi)首個(gè)萬(wàn)億級(jí)參數(shù)的原生多模態(tài)大模型,Scaling Law告訴我們,參數(shù)越大模型智能越強(qiáng),但是參數(shù)量到了一定級(jí)別,模型智能的提升收益大幅下降。
文心4.5的策略是通過多個(gè)模態(tài)聯(lián)合建模實(shí)現(xiàn)協(xié)同優(yōu)化,具備更精進(jìn)的語(yǔ)言能力,理解、生成、邏輯、記憶能力全面提升,并且去幻覺、邏輯推理、代碼能力顯著提升。
文心大模型4.5的多項(xiàng)基準(zhǔn)測(cè)試成績(jī)優(yōu)于GPT4.5、DeepSeek-V3等,并在平均分上以79.6分高于GPT4.5的79.14。
其中需要格外強(qiáng)調(diào)的是“原生多模態(tài)”,李彥宏此前在人民網(wǎng)上發(fā)文有所預(yù)告,原生多模態(tài)大模型,打破之前先訓(xùn)練單模態(tài)模型再拼接的方式,通過統(tǒng)一架構(gòu)實(shí)現(xiàn)文本、圖像、音頻、視頻等多模態(tài)數(shù)據(jù)的原生級(jí)融合,實(shí)現(xiàn)對(duì)復(fù)雜世界的統(tǒng)一理解,這是邁向通用人工智能(AGI)的重要一步。
簡(jiǎn)單來(lái)說(shuō),原生多模態(tài)大語(yǔ)言模型是從訓(xùn)練階段開始,模型就利用大量不同模態(tài)的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,不僅可以在輸入和輸出端實(shí)現(xiàn)多模態(tài),而且還具備強(qiáng)大的多模態(tài)推理能力以及跨模態(tài)遷移能力。
微軟早些時(shí)間提到,基于多模態(tài)數(shù)據(jù)原生訓(xùn)練的每一種單模態(tài)能力,都應(yīng)該超越只在單模態(tài)數(shù)據(jù)上訓(xùn)練的模型的性能。更重要的是,在不同模態(tài)數(shù)據(jù)學(xué)習(xí)的過程中,模型應(yīng)該能夠涌現(xiàn)出新的能力。
從行業(yè)維度看,GPT-4尚不是原生多模態(tài)大模型,它的多模態(tài)能力是模型轉(zhuǎn)化實(shí)現(xiàn),比如通過語(yǔ)音識(shí)別模型將語(yǔ)音轉(zhuǎn)換為文字,或者通過圖像識(shí)別模型提取圖像內(nèi)容,然后利用GPT-4的大型語(yǔ)言模型生成回答。回答完畢后,系統(tǒng)決定是向用戶返回一張圖片、一段文字,還是通過語(yǔ)音合成技術(shù)返回一段語(yǔ)音輸出,直到GPT-4o,OpenAI顯現(xiàn)出原生多模態(tài)的能力。
谷歌在模型能力整理滯后GPT的情況下,押注原生多模態(tài)更早,在預(yù)訓(xùn)練階段的多模態(tài)數(shù)據(jù)統(tǒng)一輸入,將文本/語(yǔ)/圖像/視頻的數(shù)據(jù)統(tǒng)一輸入到一個(gè)預(yù)訓(xùn)練模型,然后利用額外的多模態(tài)數(shù)據(jù)對(duì)其進(jìn)行微調(diào)以進(jìn)一步提高其有效性。
百度文心4.5也實(shí)現(xiàn)了一系列創(chuàng)新,例如多模態(tài)異構(gòu)專家擴(kuò)展技術(shù),能根據(jù)模態(tài)特點(diǎn)構(gòu)建模態(tài)異構(gòu)專家,結(jié)合自適應(yīng)模態(tài)感知損失函數(shù),解決不同模態(tài)梯度不均衡問題,提升多模態(tài)融合能力。
其他如FlashMask 動(dòng)態(tài)注意力掩碼技術(shù),有效提升長(zhǎng)序列建模能力和訓(xùn)練效率,優(yōu)化長(zhǎng)文處理能力和多輪交互表現(xiàn);時(shí)空維度表征壓縮技術(shù),大幅提升多模態(tài)數(shù)據(jù)訓(xùn)練效率,增強(qiáng)了從長(zhǎng)視頻中吸取世界知識(shí)的能力;基于知識(shí)點(diǎn)的大規(guī)模數(shù)據(jù)構(gòu)建技術(shù),可構(gòu)建高知識(shí)密度預(yù)訓(xùn)練數(shù)據(jù),提升模型學(xué)習(xí)效率,大幅降低模型幻覺;以及基于自反饋的Post-training技術(shù),提升強(qiáng)化學(xué)習(xí)穩(wěn)定性和魯棒性,大幅提升預(yù)訓(xùn)練模型對(duì)齊人類意圖能力。
文心4.5的能力也可以從圖片和視頻理解,、圖片生成、RAG測(cè)試、邏輯測(cè)試、文本創(chuàng)作等方面體現(xiàn)。文心4.5支持上傳文檔、圖片、音頻和視頻文件,兼容常見的格式,目前在文件大小上有所限制,例如單個(gè)視頻文件大小不超過20M,可能與效率和成本有關(guān)。
鈦媒體App實(shí)測(cè)了一些應(yīng)用場(chǎng)景,上傳視頻并要求文心4.5介紹視頻內(nèi)容,以及要求文心4.5給出視頻的文字版,都能夠給出準(zhǔn)確回答。以及上傳電影《肖申克的救贖》片段,溫馨4.5亦能識(shí)別電影片段,并給出可能的電影情節(jié)。當(dāng)然了,如果文心4.5給出合適的配樂,它也能根據(jù)視頻的調(diào)性給出建議,說(shuō)明了其跨模態(tài)的輸出能力。
深度思考X1,AI Agent的雛形
文心X1由百度2023年10月發(fā)布的慢思考技術(shù)發(fā)展而來(lái),具備更強(qiáng)的理解、規(guī)劃、反思、進(jìn)化能力,并同樣支持多模態(tài)。
以電車難題為例,深度思考的文心X1給出了一個(gè)詳細(xì)的回答,最終選擇了拉下操縱桿,將列車切換到另一條軌道,它的結(jié)論是:在封閉條件下,基于功利主義最大化生存數(shù)量的原則,選擇犧牲1人拯救5人。但需警惕此類邏輯被濫用,并持續(xù)反思其倫理邊界。
文心X1 是能力更全面的深度思考模型,在觀點(diǎn)輸出上更為直接,“端水”現(xiàn)象有所減少,針對(duì)復(fù)雜問題,能夠結(jié)合聯(lián)網(wǎng)搜索最新信息,詳細(xì)拆解給出全面的回復(fù),譬如規(guī)劃旅游項(xiàng)目,可行性更高且更符合要求。
鈦媒體APP了解到,其采用了遞進(jìn)式強(qiáng)化學(xué)習(xí)訓(xùn)練方法,且基于思維鏈和行動(dòng)鏈端到端訓(xùn)練,同時(shí)建立了統(tǒng)一的評(píng)估系統(tǒng),融合多種類型的獎(jiǎng)勵(lì)機(jī)制,在中文知識(shí)問答、文學(xué)創(chuàng)作、文稿寫作、日常對(duì)話、邏輯推理、復(fù)雜計(jì)算及工具調(diào)用等方面表現(xiàn)不錯(cuò)。
其中,多工具調(diào)用能力值得關(guān)注,也是文心X1的特色之一。目前,X1已支持高級(jí)搜索、文檔問答、圖片理解、AI繪圖、代碼解釋器、網(wǎng)頁(yè)鏈接讀取、TreeMind樹圖、百度學(xué)術(shù)檢索、商業(yè)信息查詢、加盟信息查詢、詞云生成等多款工具,對(duì)于大模型應(yīng)用落地是一個(gè)利好。
X1也證明了一件事,大模型本身能力的進(jìn)化,實(shí)際上會(huì)淘汰掉一部分Agent,如果Agent能夠被大模型原生替代,那就說(shuō)明這部分Agent的價(jià)值太淺,在此領(lǐng)域創(chuàng)業(yè)注定失敗。
前不久爆火并陷入爭(zhēng)議的Manus等產(chǎn)品,在未來(lái)一段時(shí)間就將面臨類似的煩惱,Manus的成功并并非大模型原創(chuàng)性突破,而是對(duì)現(xiàn)有技術(shù)的工程化整合,如Claude模型、Computer Use、MCP協(xié)議等,其核心創(chuàng)新在于將虛擬機(jī)環(huán)境與多智能體協(xié)同架構(gòu)結(jié)合,使Agent能夠像人類一樣操作計(jì)算機(jī)完成復(fù)雜任務(wù)。
這也透露出百度另一個(gè)方向,篤定AI Agent。李彥宏也提到,推理大模型涌現(xiàn)出讓人驚嘆的深度思考能力,它將推動(dòng)人工智能的一個(gè)重要應(yīng)用方向,即“AI智能體”的落地,2025年可能會(huì)成為AI智能體爆發(fā)的元年。