Skywork o1與4o已正式上線web與App端。
作者|栗子
“雖然超級應(yīng)用尚未出現(xiàn),但AI的實際滲透率已經(jīng)不低,并且將在2025年繼續(xù)井噴式增長!
新年第一天,李彥宏就以百度全員信的方式說出了自己對2025年AI發(fā)展趨勢的判斷。
盡管Scaling Law在部分層面已經(jīng)放緩,但AI必然依舊是2025年科技的主旋律之一,超級AI原生應(yīng)用依舊是賽道上各位玩家所追求的目標(biāo)。
經(jīng)歷過2023與2024年的“百模大戰(zhàn)”探索之后,以“AI六小龍”為代表的各位玩家逐漸走上了不同的技術(shù)路線:智譜專注于Agent的研發(fā)與應(yīng)用;MiniMax致力于多模態(tài)大模型;百川智能專注于自然語言處理;月之暗面不斷提升AI助手的交互能力;階躍星辰持續(xù)優(yōu)化算法和算力;零一萬物則專注于探索超大模型的知識遷移。
但在六小龍之外,有一家實力不容小覷的AI公司一直非常低調(diào),那就是昆侖萬維。
去年11月28日,昆侖萬維創(chuàng)始人周亞輝的一條朋友圈在網(wǎng)絡(luò)上瘋傳。周亞輝不僅認可字節(jié)在AI上的戰(zhàn)略布局,并且給昆侖萬維在過去一年的AI戰(zhàn)略也打出滿分,原因是足夠差異化,找到了小而大美的發(fā)展空間。
周亞輝所言非虛。
就在周亞輝發(fā)布朋友圈的前幾天,昆侖萬維先后發(fā)布了天工大模型4.0中的推理模型“o1”(Skywork o1)和端到端語音模型“4o”(Skywork 4o)及實時語音對話助手“Skyo”。
其中,Skywork o1是國內(nèi)首款具備中文復(fù)雜思考推理能力的系列模型,比智譜在12月31日宣布上線的類o1推理模型GLM-Zero-Preview早問世一個多月。
目前,這兩款模型和語音產(chǎn)品正式在Web端與App端全面上線,直接可用。它們所展現(xiàn)的強大能力仿佛在向外界傳遞一個有力的聲音:
這一次,不再低調(diào)的昆侖萬維,在2025開年之際給大模型帶來了新驚喜。
1.不只是升級,更是AI革新
最受期待的必然是天工大模型4.0的Skywork o1推理模型。
去年9月,OpenAI第一次向世界展現(xiàn)了推理模型o1的強大。盡管當(dāng)時的o1僅有o1-preview和o1-mini兩個版本,但在物理、化學(xué)、數(shù)學(xué)、邏輯等多個維度的基準(zhǔn)測試中,水平都已超過了GPT-4o模型。隨后在12月,OpenAI發(fā)布了正式版o1模型。
與其他模型相比,o1的最大特點是,它能通過類似人類的推理過程來逐步分析問題,直至得出正確結(jié)論。
對比OpenAI,昆侖萬維的Skywork o1模型更側(cè)重于中文支持和推理速度,在中文邏輯和推理類問題上表現(xiàn)更加突出。
先上一個簡單的雞兔同籠問題。Skywork o1用最常規(guī)的二元一次方程輕松解答。
但雞兔同籠對于AI來說可能太簡單了,看不出來Skywork o1的推理與運算能力,再來一個數(shù)學(xué)經(jīng)典的德梅齊里亞克的砝碼問題。
span style="font-size:18px">Skywork o1只用了52秒就給出了正確答案。
再上點強度,給它出一道邏輯推理題。
我們發(fā)現(xiàn),Skywork o1可以根據(jù)題面給出自己的答案,并呈現(xiàn)了完整的思考過程。只是回答稍微有點瑕疵(因為嚴(yán)格按照題面要求,甲乙二人是不能做出“指路”這個動作的)。我們再稍微要求它一下。
很快,Skywork o1給出了更為標(biāo)準(zhǔn)的答案。
別小看這道看似簡單的邏輯推理題。它把智譜前些天剛剛上線的GLM-Zero-Preview直接整不會了。
對比之下,Skywork o1在中文邏輯推理和計算方面的表現(xiàn)確實更加優(yōu)異。
總結(jié)下來,相較于此前(長文本任務(wù))大模型,無論是常識推理問題、邏輯推理問題、數(shù)學(xué)推理問題、倫理決策問題、還是“弱智”(類似腦筋急轉(zhuǎn)彎)邏輯陷阱問題等,Skywork o1都處理的游刃有余。
再來看天工大模型4.0中的端到端語音模型Skywork 4o。
同樣是在去年,OpenAI在5月的發(fā)布會上展示了4o多模態(tài)模型。觀眾們對它最深的印象就是可以像打電話一樣和該模型進行流暢的語音交互,而不會像siri一樣感覺自己在和一個語音助手對話。
在最新的天工App里,Skywork 4o是作為實時語音對話助手“Skyo”來實現(xiàn)的,目前在iOS與安卓系統(tǒng)上已全面上線。
Skyo的交互界面也同樣是熟悉的語音電話,聲音默認是男聲,聽上去像是個20~30歲有一定社會經(jīng)驗的職場人,后續(xù)版本還將支持修改和自定義。在整體的測試中,Skyo能夠在1秒內(nèi)回復(fù)用戶的問題。并且它的回答基本都是準(zhǔn)確的,沒有出現(xiàn)對話類大模型經(jīng)常會遇到的幻覺問題。
不難發(fā)現(xiàn),無論是o1還是4o,都能夠?qū)τ脩舻膯栴}進行流暢的回應(yīng)并給出正確答案,尤其是Skywork o1,給用戶帶來了完全不輸OpenAI的使用感受,甚至還有驚喜。
作為國內(nèi)首款具備中文邏輯推理能力的模型,顯然,Skywork o1的率先上線意味著中國人工智能領(lǐng)域的重要突破,填補了國內(nèi)在這一領(lǐng)域的空白。
不夸張的說,天工大模型4.0所帶來的o1與4o不只是產(chǎn)品能力的升級,更是市場所期待的AI革新。
2.時間與技術(shù)的雙重領(lǐng)先
Skywork o1與Skywork 4o之所以能夠率先推出并取得同類產(chǎn)品領(lǐng)先的實際效果反饋,離不開它在技術(shù)層面的優(yōu)勢。
不同于現(xiàn)有的復(fù)現(xiàn)OpenAI o1模型的工作,Skywork o1真正讓模型擁有了思考和反思帶來的推理能力的提升。進階版復(fù)雜人類思考能力的解鎖無疑會成為大模型在垂類領(lǐng)域發(fā)展的強大助推器,對于醫(yī)療、金融等專業(yè)領(lǐng)域意義重大。
在去年11月發(fā)布的產(chǎn)品介紹中,昆侖萬維介紹了Skywork o1的天工三個階段自研的訓(xùn)練方案:
推理反思能力訓(xùn)練:通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考,反思和驗證數(shù)據(jù)。通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對基座模型進行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。
推理能力強化學(xué)習(xí):團隊研發(fā)了最新的適配分步推理強化的Skywork o1 Process Reward Model(PRM)。實驗證明Skywork-PRM可有效的捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對最終答案的影響。結(jié)合自研分步推理強化算法進一步加強模型推理和思考能力。
推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實現(xiàn)和公開。Q*算法落地也大大提升了模型線上推理能力。
自研的訓(xùn)練方案之下,Skywork o1獲得了同級別領(lǐng)先的模型能力。
標(biāo)準(zhǔn)數(shù)學(xué)基準(zhǔn)測試結(jié)果
代碼基準(zhǔn)測試結(jié)果
典型邏輯運算推理測試結(jié)果
從這幾個結(jié)果不難發(fā)現(xiàn),與目前市面上其他幾家主流大模型相比,Skywork o1的能力顯著優(yōu)于常規(guī)通用大模型,表現(xiàn)僅次于o1-mini。
需要指出的是,除了昆侖萬維之外,智譜(GLM-Zero-Preview)和Kimi(k1視覺思考模型)目前也已經(jīng)發(fā)布了o1推理模型。
只不過在前面的測試中,GLM-Zero-Preview在一個看似簡單的推理問題上栽了跟頭。而Kimi在經(jīng)典的“愛因斯坦的邏輯題”上,不僅分了兩次才回答完,而且給出的答案也并不正確。
作為國內(nèi)率先發(fā)布的o1模型,昆侖萬維基于Llama 3.1 8B的開源模型訓(xùn)練了Skywork o1 Open。該模型在同生態(tài)位開源模型中評測指標(biāo)大幅提升達到SOTA水平,并解鎖了許多輕量級模型無法解決的復(fù)雜數(shù)學(xué)任務(wù),幫助國內(nèi)開源社區(qū)加速復(fù)現(xiàn)o1的進程。
而在4o模型方面,不同于o1模型,由于4o模型亮相更早,所以國內(nèi)也已有不少公司在去年發(fā)布了類似的模型。例如智譜和階躍星辰都已經(jīng)發(fā)布了GLM-4-Voice和Step-1o-Audio模型。
智譜的GLM-4-Voice模型上線App的時間較早,并且也同樣在模型中加入了多模態(tài)能力,可以直接在語音對話過程中切換成視頻模型來識別屏幕中的物體。但在測試過程中筆者發(fā)現(xiàn),識別會受光線和物體本身的影響,偶爾會出現(xiàn)識別不出或錯誤的情況,并且語音交流偶爾也會出現(xiàn)中斷。
相對而言,昆侖萬維的Skywork 4o更專注于語音的模型能力建設(shè);诶鋈f維自身長期在語音和音樂大模型方面的經(jīng)驗,以及大量語音數(shù)據(jù)積累,自研端到端鏈路,讓Skywork 4o在高強度對話交互中仍能保持穩(wěn)定性和流暢性。
Skyo利用超過百萬小時的語音數(shù)據(jù)進行了大模型預(yù)訓(xùn)練,學(xué)習(xí)到了真實世界各種場景、不同風(fēng)格的說話表達方式,在回復(fù)時的語速、語調(diào)、情感方面不再干巴巴,變得更加自然、更加多變、更有人情味。
也得益于端到端建模,Skyo能夠像人類一樣,能聽懂用戶的語音,并提供了高質(zhì)量交互能力(包括極低延遲、實時打斷)自然、流暢的互動體驗,用戶也能快速獲得智能的語音回應(yīng)。
上圖為Skyo所采用的語音對話框架,專為全雙工端到端語音對話設(shè)計,方便用戶通過自然的對話方式與智能系統(tǒng)交流。整個框架可以分為以下幾步:
語音輸入(Speech Query)與語音編碼(Speech Encoder):用戶通過語音表達自己的問題或請求,這些語音被系統(tǒng)接收,作為對話的起點。系統(tǒng)利用語音編碼器將接收到的語音信號轉(zhuǎn)換為語義表示。
適配轉(zhuǎn)換(Adapter):語音的語義表示通過適配模塊的模態(tài)對齊被調(diào)整為大語言模型(LLM)能夠理解的格式,為語音與文本語義的無縫對接提供支持。
大語言模型(LLM):經(jīng)過適配的語音信息被輸入到核心智能模型(LLM),模型通過多模態(tài)的處理能力理解語音意圖,并生成相應(yīng)的解決方案或回答。
語音輸出(Speech Token):系統(tǒng)支持直接輸出語音令牌(Speech Token),通過擴散模型將這些令牌還原為真實語音,實現(xiàn)從語音輸入到語音輸出的端到端交互。
更重要的是,基于天工AI的大模型技術(shù)能力和AI搜索功能,Skyo能克服大模型幻覺問題,在對話中回復(fù)真實內(nèi)容。
而上述這些Skywork o1與4o的能力,用戶都已經(jīng)可以在天工大模型4.0的web端或App端免費體驗到。
3.小而大美昆侖萬維的生態(tài)位
2024年以來,昆侖萬維的天工AI持續(xù)進化,陸續(xù)發(fā)布了“天工2.0”“天工3.0”,以及近期的“天工大模型4.0”Skywork 4o和Skywork o1。
在「甲子光年」看來,這一過程不僅是昆侖萬維構(gòu)建AI技術(shù)棧的必經(jīng)路線,更是昆侖萬維貫徹“All in AGI 與 AIGC” 戰(zhàn)略的重要舉措。因為在這一過程中,昆侖萬維基于天工大模型能力推出了一系列性能較為強大的模型產(chǎn)品,逐步完成在AI搜索、AI音樂、AI社交、AI視頻等領(lǐng)域的布局。
對于昆侖萬維的AI戰(zhàn)略,周亞輝在朋友圈上給出了滿分的評價。他認為昆侖萬維找到了屬于自己“小而大美”的空間。而這種空間背后,代表著差異化與垂直化。
與國內(nèi)很多AI新銳公司和巨頭公司不同,在發(fā)展AI這件事上,昆侖萬維并沒有選擇在大模型和應(yīng)用層全面鋪開,而是深耕垂直領(lǐng)域,打造屬于自己的生態(tài)位。
從PC時代到AI時代,昆侖萬維的優(yōu)勢是基于其多年在游戲、搜索、社交娛樂等等業(yè)務(wù)的積累。無論在訓(xùn)練數(shù)據(jù)還是在產(chǎn)品洞察上,昆侖萬維都有著更深的認識,從而打造差異化的產(chǎn)品優(yōu)勢。
事實上,通過前文我們對Skywork o1與4o的實際測試,這種差異化與垂直化打法,已經(jīng)開始讓昆侖萬維在產(chǎn)品能力上實現(xiàn)領(lǐng)跑,甚至給用戶們帶來了不遜于OpenAI等全球頂級的產(chǎn)品體驗。
此外,在探索商業(yè)化賽道上,昆侖萬維也選擇聚焦于AI搜索、AI社交、AI游戲、AI短劇等細分市場,憑借多年積累的業(yè)務(wù)經(jīng)驗和數(shù)據(jù)壁壘,推出更具競爭力的AI產(chǎn)品和服務(wù)。
一直以來,外界對昆侖萬維的認知都是“低調(diào)干大事”。
例如2023年8月,昆侖萬維就推出了國內(nèi)第一個AI搜索引擎天工AI搜索。昆侖萬維的AI能力在過去很長一段時間里都被人低估。
但如今,昆侖萬維向外界展示出在AI技術(shù)上卓越的創(chuàng)新能力,從天工1.0到天工4.0,模型的語義理解、邏輯推理等能力顯著提升。
特別是Skywork o1,昆侖萬維通過自研訓(xùn)練方案等,進一步提升了模型的輸出質(zhì)量和推理能力。這種技術(shù)上的突破,為昆侖萬維在專業(yè)領(lǐng)域如學(xué)術(shù)、金融等提供了強大的技術(shù)支持,同時也為其在AI領(lǐng)域的持續(xù)發(fā)展奠定了堅實的基礎(chǔ)。
而此次Skywork o1和4o的全量上線,不僅展現(xiàn)了昆侖萬維“All in AGI 與 AIGC”的戰(zhàn)略方向,補足了完整的AI技術(shù)棧,更提升了其在人工智能領(lǐng)域的競爭力,為通用人工智能的發(fā)展貢獻了力量。
「甲子光年」認為,昆侖萬維在AI戰(zhàn)略上的差異化與垂直化,是其能夠激烈的市場競爭中立足的根本原因。通過深耕垂直領(lǐng)域和技術(shù)創(chuàng)新,昆侖萬維不僅在特定市場中積累了豐富的經(jīng)驗和用戶基礎(chǔ),還構(gòu)建起了強大的技術(shù)壁壘和競爭優(yōu)勢。這種獨特的戰(zhàn)略定位和發(fā)展路徑,為昆侖萬維在AI時代的發(fā)展提供了廣闊的空間和無限的可能。
還是那句話,今天以后,“小而大美”的昆侖萬維不再低調(diào)。