在過去幾年,Transformer 架構(gòu)主導(dǎo)了生成式人工智能的發(fā)展,并推動(dòng)了 ChatGPT 等大型語言模型的成功。然而,隨著模型規(guī)模的不斷擴(kuò)張,這一技術(shù)逐漸暴露出難以忽視的瓶頸:對(duì)海量計(jì)算資源和數(shù)據(jù)的依賴使其訓(xùn)練和推理成本愈發(fā)高昂,同時(shí)在長(zhǎng)序列建模、實(shí)時(shí)性需求以及設(shè)備部署的靈活性方面也存在顯著不足。
這些限制促使學(xué)術(shù)界和產(chǎn)業(yè)界開始尋求其他技術(shù)路徑,以突破這些困境。而一家來自 MIT 的初創(chuàng)企業(yè) Liquid AI 就提出了一種全新的液體基礎(chǔ)模型(Liquid Foundation Model, LFM),通過其創(chuàng)新性的架構(gòu)設(shè)計(jì),提供了一種更高效、更輕量化的生成式 AI 解決方案。
(來源:Liquid AI)
近日,該公司宣布完成 2.5 億美元 A 輪融資,由芯片巨頭 AMD 領(lǐng)投。據(jù)彭博社報(bào)道,此輪融資后 Liquid AI 估值已超過 20 億美元。
Liquid AI 的液體基礎(chǔ)模型借鑒了線蟲(Caenorhabditis elegans)神經(jīng)系統(tǒng)的特點(diǎn)。線蟲的神經(jīng)元數(shù)量?jī)H為 302 個(gè),卻能夠完成復(fù)雜的感知和行為任務(wù),其神經(jīng)連接模式和動(dòng)態(tài)特性成為 Liquid AI 設(shè)計(jì)新型 AI 模型的靈感來源。這一模型核心采用“液體神經(jīng)網(wǎng)絡(luò)”(Liquid Neural Network)的架構(gòu),利用動(dòng)態(tài)權(quán)重更新機(jī)制和基于非線性微分方程的連續(xù)時(shí)間建模,突破了傳統(tǒng) Transformer 架構(gòu)的局限性。
液體基礎(chǔ)模型在設(shè)計(jì)上的一大創(chuàng)新是其動(dòng)態(tài)權(quán)重更新機(jī)制。在傳統(tǒng) Transformer 中,權(quán)重在訓(xùn)練完成后保持固定,模型對(duì)數(shù)據(jù)變化的適應(yīng)性有限。而 LFM 則能夠根據(jù)輸入數(shù)據(jù)實(shí)時(shí)調(diào)整網(wǎng)絡(luò)參數(shù),從而在處理復(fù)雜、多變的數(shù)據(jù)環(huán)境時(shí)表現(xiàn)更加靈活。
此外,LFM 采用了基于非線性微分方程的神經(jīng)建模方法,通過模擬神經(jīng)元的連續(xù)時(shí)間動(dòng)態(tài)行為,使模型不僅能夠捕捉短期特征,還可以在長(zhǎng)序列建模中展現(xiàn)卓越的性能。這種動(dòng)態(tài)建模的特點(diǎn),使得 LFM 在長(zhǎng)時(shí)間尺度依賴的任務(wù)中表現(xiàn)優(yōu)異,而 Transformer 架構(gòu)則往往由于自注意力機(jī)制的高計(jì)算復(fù)雜度而受限。
實(shí)驗(yàn)結(jié)果顯示,Liquid AI 首次發(fā)布的三種不同規(guī)模和用途的模型在多個(gè)基準(zhǔn)測(cè)試上都表現(xiàn)出色。例如,經(jīng)過微調(diào)的 LFM-1B 模型在多個(gè)自然語言處理任務(wù)中超越了傳統(tǒng)的同等規(guī)模模型,成為該參數(shù)規(guī)模的新標(biāo)桿。同時(shí),與更大規(guī)模的模型相比,LFMs 在推理效率和存儲(chǔ)需求上具有較大優(yōu)勢(shì),這為其在低資源場(chǎng)景下的廣泛部署提供了可能。
(來源:Liquid AI)
為了進(jìn)一步提升液體基礎(chǔ)模型的性能和適用性,Liquid AI 還開發(fā)了一套名為定制架構(gòu)合成”(Synthesis of Tailored Architectures via Targeted Evolution, STAR)的優(yōu)化框架。STAR 通過模擬自然選擇的過程,對(duì)液體基礎(chǔ)模型的神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行自動(dòng)化優(yōu)化。
這一框架以進(jìn)化算法為核心,生成多個(gè)候選模型,并基于特定任務(wù)的目標(biāo)函數(shù)對(duì)其性能進(jìn)行評(píng)估。表現(xiàn)優(yōu)異的模型被“選中”,其架構(gòu)特征(例如神經(jīng)元連接模式和層次結(jié)構(gòu))被用來生成下一代候選模型。經(jīng)過多輪迭代,STAR 能夠自動(dòng)生成滿足任務(wù)需求的最優(yōu)架構(gòu),從而提升了模型的適配性和效率。
(來源:Liquid AI)
STAR 不僅充分利用了液體基礎(chǔ)模型的動(dòng)態(tài)權(quán)重更新和非線性建模特性,還針對(duì)不同任務(wù)的特定需求進(jìn)行了精細(xì)化優(yōu)化。例如,對(duì)于需要處理長(zhǎng)序列依賴的任務(wù),STAR 通過調(diào)整網(wǎng)絡(luò)深度和神經(jīng)元之間的動(dòng)態(tài)連接模式,生成更適合該任務(wù)的架構(gòu)。這種高度針對(duì)性的優(yōu)化方式,使得液體基礎(chǔ)模型在長(zhǎng)時(shí)間序列建模中不僅減少了內(nèi)存占用和推理時(shí)間,還實(shí)現(xiàn)了卓越的性能。
實(shí)驗(yàn)數(shù)據(jù)顯示,STAR 方法自動(dòng)合成的模型架構(gòu),其性能始終優(yōu)于高度優(yōu)化的 Transformer++ 和混合模型。
例如,在優(yōu)化質(zhì)量和緩存大小時(shí),STAR 演化架構(gòu)與混合模型相比實(shí)現(xiàn)了高達(dá) 37% 的緩存大小減少,與 Transformers 相比則減少了 90%。盡管效率有所提高,但 STAR 生成的模型仍保持甚至超過了同類模型的預(yù)測(cè)性能。
類似地,在優(yōu)化模型質(zhì)量和大小時(shí),STAR 將參數(shù)數(shù)量減少了多達(dá) 13%,同時(shí)仍仍提高了標(biāo)準(zhǔn)基準(zhǔn)測(cè)試的性能。
(來源:Liquid AI)
這種自動(dòng)生成針對(duì)特定需求優(yōu)化的定制架構(gòu)的方法,對(duì)于滿足對(duì)高效且高質(zhì)量的模型的需求意義重大,有助于推動(dòng)生成式 AI 在各種實(shí)際場(chǎng)景中的部署和應(yīng)用。
Liquid AI 的技術(shù)已經(jīng)被用于基因數(shù)據(jù)分析、金融欺詐檢測(cè)以及自動(dòng)駕駛等領(lǐng)域,同時(shí)也為消費(fèi)電子和邊緣計(jì)算提供了解決方案。其靈活性和輕量化特性正引起產(chǎn)業(yè)界的關(guān)注,Shopify 的首席技術(shù)官 Mikhail Parakhin 在社交媒體上表示:“Liquid AI 在非 Transformer 架構(gòu)的嘗試中堪稱領(lǐng)跑者!
此次 Liquid AI 獲得由 AMD 領(lǐng)投的 2.5 億美元融資,將進(jìn)一步推動(dòng)其技術(shù)研發(fā)和市場(chǎng)化進(jìn)程。據(jù) Liquid AI 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Ramin Hasani 透露,這筆資金將被用于擴(kuò)大技術(shù)團(tuán)隊(duì)規(guī)模,并加速模型的行業(yè)落地。AMD 高級(jí)副總裁 Mathew Hein 稱:“我們只是從根本上相信,人工智能領(lǐng)域仍有大量創(chuàng)新在繼續(xù),并推動(dòng)模型向前發(fā)展!
參考資料:
1.https://www.liquid.ai/liquid-foundation-models
2.https://www.liquid.ai/research/automated-architecture-synthesis-via-targeted-evolution
3.https://www.bloomberg.com/news/articles/2024-12-13/liquid-ai-raising-250-million-to-build-ai-inspired-by-worm-brains
4.https://venturebeat.com/ai/liquid-ais-new-star-model-architecture-outshines-transformer-efficiency/