MiniMax,選擇用開源「震撼」一下全球同行。
作者 | Li Yuan編輯| 鄭玄
大模型時代已經正式邁入第三年;厥走^去的兩年,不禁令人感慨。每年都有基座大模型架構已經塵埃落定的聲音,然而每年,技術都在飛快地迭代創(chuàng)新,突破人們想象。2024 年,OpenAI 的推理模型,通過對模型架構的創(chuàng)新,用 RL 的方法延續(xù) Scaling Law,讓大模型的智力水平持續(xù)進展;而中國公司也并沒有落后,價格屠夫 DeepSeek 通過 MLA 的架構創(chuàng)新,讓推理成本直接降低了一個數(shù)量級。2025 年開年,令人欣喜的是,我們看到了一向在人們印象中是「低調做產品」的 MiniMax 公司,也加入了開源行列,將最先進的底層技術直接與社區(qū)和行業(yè)分享。1 月 15 日,大模型公司 MiniMax 正式發(fā)布了 MiniMax-01 系列模型。它包括基礎語言大模型 MiniMax-Text-01,和在其上集成了一個輕量級 ViT 模型而開發(fā)的視覺多模態(tài)大模型 MiniMax-VL-01。
開源界面|圖片來源:GitHub「卷」起來的大模型公司,令人樂見。開源會提升創(chuàng)新效率,越來越好的基座模型之上,才搭建越來越有用的應用,進入千家萬戶,幫人們解放生產力。這是 MiniMax 第一次發(fā)布開源模型,一出手就是一個炸裂模型架構創(chuàng)新:新模型采用了 MiniMax 獨有的 Lightening Attention 機制,借鑒了 Linear Attention(線性注意力)機制,是全球第一次將 Linear Attention 機制引入到商業(yè)化規(guī)模的模型當中。效果也是立竿見影,模型上下文長度直接達到了頂尖模型的 20-32 倍水平,推理時的上下文窗口能達到 400 萬 token。模型效果立刻在海外上引起了關注。
X 用戶感嘆 MiniMax-Text-01 可以在 400 萬 token 上實現(xiàn)完美的海底撈針 | 圖片來源:X
另一個來自中國公司的強大模型,在學術測試集上表現(xiàn)優(yōu)越|圖片來源:X模型的上下文窗口,指的是模型在生成每個新 token 時,實際參考的前面內容的范圍。就像是模型能夠一次性從書架上取下的書籍數(shù)量。模型的上下文窗口越大,模型生成時可以參考的信息量就越多,表現(xiàn)也就更加智能。站在 2025 年年初的時間點,長上下文窗口還有一個新的意義:為模型的 Agent 能力,打下堅實基礎。業(yè)界公認,2025 年,Agent 能力將是 AI 屆「卷生卷死」的重點,連 OpenAI 都在本周內推出了 Tasks,一個 AI Agent 的雛型。在 2025 年,我們很有可能看到越來越多真正「全自動的」AI,在我們的生活中起作用。甚至不同「全自動的」的 AI 共同協(xié)作,幫我們處理事務。而這對基座模型的能力,有極大的考驗。而長上下文是 Agent 能力實現(xiàn)的必要條件?雌饋恚2025 年,基座大模型之戰(zhàn)仍未結束;中國公司發(fā)力,也才剛剛開始。01
Linear Attention 架構的第一次大規(guī)模使用此次 MiniMax 開源的模型,最大的創(chuàng)新點,在于使用了 MiniMax 獨有的 Lightening Attention 機制,這是一種線性注意力。在傳統(tǒng)的 Transformer 架構中,最「燒」算力和顯存的部分往往是自注意力(Self-Attention)機制。原因在于,標準的自注意力需要對所有的詞(Token)兩兩計算注意力分數(shù),計算量隨著序列長度 n 的增長是平方級(O(n))。如果用通俗的語言來形容,類似于你在舉辦一場聯(lián)誼會,人很多。如果每個人都要兩兩打招呼,溝通成本會隨著人數(shù)增加而急劇上升,每個人都得重復無數(shù)次「握手」。這帶來了一系列的問題其中一個就是,聯(lián)誼會的人數(shù),也就是模型的上下文的窗口,很難無限擴展。硬要擴展,對于算力的需求就非常高。為了應對這一挑戰(zhàn),傳統(tǒng)上,研究人員提出了各種方法來降低注意力機制的計算復雜度,包括稀疏注意力、Linear Attention(線性注意力)、長卷積、狀態(tài)空間模型和線性 RNN 等方式。此次 MiniMax 開源的模型,就是借用了其中的 Linear Attention(線性注意力)的方式。Linear Attention 的思路就像給會場安排了幾位「速配助理」。每個人先把自己的關鍵信息交給助理,比如「希望認識什么樣的人、擅長什么」。助理整理這些信息后,直接告訴每個人最適合交談的對象。這樣,大家不必一個個自我介紹,整個匹配過程更高效,溝通成本大幅降低。不過,Linear Attention 之前雖然在理論上有所創(chuàng)新,但在商業(yè)規(guī)模模型中的采用有限。而 MiniMax 團隊則第一次驗證了 Linear Attention 機制在商業(yè)規(guī)模的大模型之上的可行性。這意味著一項技術從實驗室走向真實世界。MiniMax 團隊使了一個傳統(tǒng)的 Linear Attention 的變種,被 MiniMax 團隊稱為 Lightning Attention。Lightning Attention 解決了現(xiàn)有 Linear Attention 機制計算效率中的主要瓶頸:因果累積求和操作的緩慢,使用新穎的分塊技術,有效規(guī)避了累加和操作。在一些特定任務,如檢索和長距離依賴建模上,Lightning Attention 的性能表現(xiàn)可能不如 Softmax 注意力強。MiniMax 團隊又引入了混合注意力機制解決這一問題:在最終的模型架構中,在 Transformer 的每 8 層中,有 7 層使用 Lightning Attention,高效處理局部關系;而剩下 1 層保留傳統(tǒng)的 Softmax 注意力,確保能夠捕捉關鍵的全局上下文。這樣的架構創(chuàng)新,效果十分驚艷。MiniMax-01 系列模型參數(shù)量高達 4560 億,其中單次激活 459 億。在主流模型目前的上下文窗口長度仍然在 128k 左右的時候,MiniMax-01 系列模型能夠在 100 萬 token 的上下文窗口上進行訓練,推理的時候上下文窗口可以外推到 400 萬 tokens,是 GPT-4o 的 32 倍,Claude-3.5-Sonnet 的 20 倍。在面向現(xiàn)實情景,進行長上下文多任務進行深入的理解和推理的第三方測評 LongBench v2 的最新結果中,MiniMax-Text-01 僅次于 OpenAI 的 o1-preview 和人類,位列第三。
模型在 LongBench v2 上的評測表現(xiàn) | 圖片來源:GitHub LongBench在模型的基礎表現(xiàn)上,MiniMax-01 系列模型也在標準學術基準測試中可與頂級閉源模型相媲美。不僅如此,在模型上下文長度逐漸變長的過程中,模型的表現(xiàn)下降也最平緩部分模型雖然宣布上下文窗口長度較長,但真正使用起來,在長上下文情況下,效果并不好。
MiniMax-01 系列模型可與頂級閉源模型相媲美 | 圖片來源:MiniMax 論文MiniMax 團隊對比了在 CSR(常識推理)、NIAH(大海撈針)和 SCROLLS 等基準測試上,在同樣的計算資源下,用采用了 7/8Lightning Attention 和 1/8 的 Softmax 的混合注意力模型可以放更多參數(shù)、處理更多數(shù)據(jù),并且訓練效果還比只用 Softmax 注意力的模型更好,損失更低。
基準測試上混合 Lightning Attention 的架構表現(xiàn)更好 | 圖片來源:MiniMax 論文02
為 Agent 時代爆發(fā)的前夜做準備自 2024 年開始,長上下文一直是模型迭代的一個重要方向。在這個領域,國外的 Google、Anthropic,國內的 Kimi,都是堅定的投入者。2024 年年末,DeepMind 的 CEO Demis Hassabis 曾表示,在內部測試中,Google Gemini 正在向無限上下文窗口發(fā)起沖擊;蛟S有人會困惑,此次 MiniMax 發(fā)布的 MiniMax-01 系列模型,上下文窗口長度已經達到 400 萬 token,如果按照兩個 token 約等于一個中文漢字的計算方式,已經約等于 200 萬字的上下文窗口。人類需要和 AI 聊出這么多的上下文嗎?答案是,盯住長上下文的各家公司,可能盯住的并不是目前的一問一答的問答 AI 場景,而是背后的 Agent 時代。無論是單 Agent 所需的持續(xù)記憶,還是多 Agent 協(xié)作所帶來的通信,長鏈路的任務都需要越來越長的上下文。長上下文,在多種 Agent 應用場景中,將具有極大的意義。在搜索場景中,這可能意味著用戶可以一次性看到更多答案的綜合,直接獲得更精準的回答。未來的效率工具中,這可能意味著用戶擁有了無限的工作記憶。在無數(shù)版本的修改之后,當甲方讓你還是用第 1 版的文章結構和第三版的小標題的時候,你可以無痛回復「好的」,然后讓 AI 一鍵生成兩個版本的融合。未來的學習工具中,這可能意味著用戶可以直接具有更大的知識庫。直接上傳一本教材,就能讓 AI 根據(jù)其中的內容,進行教學。而在和 AI 助理的對話中,它將像聰明的人類助理一樣,真正記住你之前說過的話,并在你需要的時候「記起來」。MiniMax 團隊的論文當中的一個場景就很能說明問題。模型被要求從最多 1889 條歷史交互(英文基準)或 2053 條歷史交互(中文基準)中精確檢索出用戶的一條歷史互動用戶重復要求 AI 寫關于企鵝的詩歌,同時進行了多輪不相關的對話,而在最后,要求 AI 提供第一次寫的關于企鵝的詩。而 MiniMax-01 仍然很好地完成了這一任務。
長上下文的任務表現(xiàn) | 圖片來源:MiniMax 論文對于 Agent 來說,另一個重要能力,則是視覺理解MiniMax 此次同系列也發(fā)布了 MiniMax-VL-01。這是一個同樣采用了線性注意力架構、以及擁有 400w token 上下文窗口的視覺多模態(tài)大模型。在 2024 年 Rayban-Meta 眼鏡爆火之后,今年的智能硬件的一大看點在于 AI 眼鏡能否真正讓 AI 成為人們的隨身助手。而能成為隨身 AI,AI 必須的能力就是長上下文記住你的所有生活場景,才能在隨后為你提供個性化的提醒和建議。這樣的記憶將是「真記憶」,與 ChatGPT 目前的記憶功能所能提供的簡易效果完全不同。要真正實現(xiàn)隨身的 AI Agent,跨模態(tài)理解、無限上下文窗口都是基礎能力。論文最后,MiniMax 表示未來將在線性注意力這一路徑上做到極致,嘗試完全取消 Softmax 注意力層,最終實現(xiàn)無限的長上下文窗口。03
基座模型創(chuàng)新未死,中國公司大有可為值得注意的是,這次是 MiniMax 公司,第一次推出開源模型。此次的大模型命名的 MiniMax-01 系列,在 MiniMax 的內部序列中,原本是 abab-8 系列模型。MiniMax 在上一代 abab-7 模型中,已經實現(xiàn)了線性注意力和 MOE 的架構,而在 abab-8 中,取得了更好的效果。此次,MiniMax 選擇在這個時間點,將模型開源出來,并以這個節(jié)點為開始,重新命名模型 MiniMax-01。這似乎代表著 MiniMax 的公司哲學的一種改變。在過往,MiniMax 公司給外界一向的印象是:業(yè)務很穩(wěn)定,做事很低調。從星野、Talkie 到海螺 AI,MiniMax 有自己忠實的一波用戶群體。在去年的公開發(fā)布中,MiniMax 曾經表示每天已經有 3 萬億文本 token 的調用,在國內 AI 公司中名列前茅。這些應用背后的 AI 技術則一直較為神秘,在此之前主要用于支持公司本身的業(yè)務。這次開源,似乎是一個轉折,是 MiniMax 第一次對外高調展示技術實力。MiniMax 方面表示,模型可以在 8 個 GPU 單卡、640GB 內存上,就能夠實現(xiàn)對 100 萬 token 進行單節(jié)點推理。希望此次開源幫助其他人開發(fā)能夠突破當前模型的局限。回顧過往,自 OpenAI 推出 ChatGPT、Meta 發(fā)布 Llama 系列開源模型以來,一直有聲音表示基座模型的創(chuàng)新已趨于終結,或僅有少數(shù)國際科技巨頭具備未來模型架構創(chuàng)新的能力。最近兩次中國公司的開源動作,告訴我們并非如此。2024 年,DeepSeek 憑借其突破性的 MLA 架構,震撼了全球 AI 行業(yè),證明了中國企業(yè)的技術創(chuàng)造力。2025 年年初,MiniMax 再次以其全新的 Lightning Attention 架構刷新了行業(yè)認知,驗證了一條此前非共識的技術路徑。中國 AI 公司不僅具備工程化和商業(yè)化的能力,更有能力推動底層技術創(chuàng)新。新的一年,不論是 AI 應用的普及,還是技術金字塔尖的攻堅,我們可以對中國 AI 公司有更多的期待。*頭圖來源:視覺中國本文為極客公園原創(chuàng)文章,轉載請聯(lián)系極客君微信 geekparkGO極客一問你如何看待開源這件事?