DeepAI CEO Kevin Baragona
過去一年,大模型行業(yè)幾乎每個月都在發(fā)生變化。
按照李開復(fù)的說法,從GPT-4、Turbo、4o到o1,大模型的推理成本一年下降了10倍左右。整個行業(yè)在以1年10倍的速度,實現(xiàn)推理速度變快和推理成本下降。但另一方面,由于世界上數(shù)據(jù)總量有限,基礎(chǔ)大模型Scaling Law法則也開始面臨挑戰(zhàn)隨著算力不斷疊加,大模型向前推進(jìn)的速度反而變得越來越緩慢。
12月6日,2024T-EDGE創(chuàng)新大會暨鈦媒體財經(jīng)年會在北京市大興區(qū)舉辦,大會現(xiàn)場,DeepAI CEO Kevin Baragona針對于這一行業(yè)困境,給出了他的最新看法。
公開資料顯示,DeepAI是一家美國領(lǐng)先的生成式AI供應(yīng)商之一。該公司旗下主要的AI工具,包括文生圖、文生視頻、音樂創(chuàng)作和開發(fā)人員 API等。該公司的使命是讓個人創(chuàng)作者和企業(yè)都能使用先進(jìn)的AI功能,使他們能夠?qū)⑷斯ぶ悄苡糜诟鞣N創(chuàng)意和實用應(yīng)用。
“過去,AI是一個讓人很羞愧的詞,因為在長達(dá)數(shù)十年的時間里,AI都沒有任何特別的進(jìn)展,AI開發(fā)者就像小丑一樣。但在2024年,我們已經(jīng)處于AI的黃金時代,每個月都會看到巨大的進(jìn)展!
Kevin Baragona表示,推動這一切發(fā)生的最大動力,是計算成本的大幅下降。對于整個AI來說,已經(jīng)沒有秘密可言!澳阒恍枰粩嗟刭徺I算力和數(shù)據(jù),然后進(jìn)行大規(guī)模的實驗,AI的性能就能實現(xiàn)不斷優(yōu)化!
但是,隨著算力和數(shù)據(jù)的不斷增加,AI行業(yè)開始發(fā)現(xiàn)一個問題大語言模型進(jìn)展開始變得越來越緩慢。
“大語言模型的進(jìn)展,是已經(jīng)到達(dá)頂峰了或者已經(jīng)停止了嗎?我認(rèn)為可能還沒有停止,但確實是有所放緩!
Kevin Baragona稱,“放緩“的最本質(zhì)原因就是,現(xiàn)實世界的數(shù)據(jù)總歸是有限的,現(xiàn)在可以用于大模型訓(xùn)練的數(shù)據(jù),確實已經(jīng)快用完了。所以,人類需要尋找新的架構(gòu)來替代之前的架構(gòu)。
按照Kevin Baragona的說法,DeepAI找到的可行性路徑,就是回到模型架構(gòu)本身的優(yōu)化上,去優(yōu)化模型的推理架構(gòu)。在這一路徑下,大模型一開始的推理時間、數(shù)據(jù)訓(xùn)練和測試時間的都會更長,但是模型對于數(shù)據(jù)量的要求會大幅降低。隨著推理模型各個步驟的優(yōu)化,推理速度將會加快,AI性能也會變得更強(qiáng)。
“在全新的架構(gòu)下,算力將會變得越來越廉價,但AI性能可能達(dá)到難以想象的結(jié)果!盞evin Baragona總結(jié)道,大模型競爭的本質(zhì),已經(jīng)從算力競爭變成了效率競爭。
以下是Kevin Baragona演講的部分摘錄,略經(jīng)編輯:
大家好,我是 Kevin,我創(chuàng)立了一家名為 DeepAI 的生成式人工智能公司,公司坐落于美國加利福尼亞州。在人工智能領(lǐng)域,我們是美國領(lǐng)先的生成式 AI 供應(yīng)商之一,我們提供了諸如聊天機(jī)器人、圖像生成器、視頻生成器等一系列非常出色的工具。目前,我們在美國已經(jīng)取得了相當(dāng)不錯的市場份額,并且我們滿懷熱情,期望能夠持續(xù)拓展業(yè)務(wù),為廣大用戶帶來更多令人驚喜的產(chǎn)品。
可以毫不夸張地說,如今的 2024 年,我們正處于人工智能的黃金時期。在這個時代,每年甚至每個月,我們都能目睹人工智能領(lǐng)域以驚人的速度取得令人難以置信的進(jìn)步,這無疑是一個令人振奮且充滿無限可能的時代。然而,回首過往,人工智能的發(fā)展之路并非一帆風(fēng)順,我們經(jīng)歷了漫長的探索與積累,才得以抵達(dá)今天的高度。
就拿圖像生成技術(shù)來說,當(dāng)我們公司剛剛起步時,那時候的圖像生成效果與現(xiàn)在相比簡直是天壤之別。當(dāng)時,我們或許是世界上率先推出圖像生成器的公司之一,用戶在輸入一段文字提示后,得到的圖像往往是模糊不清、缺乏連貫性的。盡管如此,我依然對這項技術(shù)滿懷熱忱,甚至可以說,我長期以來一直對圖像生成器抱有濃厚的興趣與癡迷。
而到了今天,當(dāng)我們再次輸入相同的文字提示時,所生成的圖像質(zhì)量已經(jīng)有了質(zhì)的飛躍,幾乎能夠達(dá)到攝影作品般的清晰度與真實性。不僅如此,我們還能夠借助人工智能生成許多現(xiàn)實中并不存在的奇幻圖像。就像我所展示的這個例子,輸入特定的提示后,人工智能能夠根據(jù)訓(xùn)練數(shù)據(jù)中關(guān)于城堡、卡通人物以及茶杯等元素的理解,創(chuàng)造出從未有人要求過的“城堡泡茶”的獨特圖像。
這一過程充分體現(xiàn)了人工智能的泛化能力,它能夠深入理解訓(xùn)練數(shù)據(jù)背后的真實含義,并以創(chuàng)新的方式將這些元素組合起來,從而生成全新的、富有創(chuàng)意的圖像。從技術(shù)層面來看,這無疑是人工智能強(qiáng)大實力的有力證明,也可以說是人工智能領(lǐng)域一直追求的目標(biāo)之一,宛如探索過程中的“圣杯”。
從最初的靜態(tài)圖像開始,我們利用圖像轉(zhuǎn)視頻模型,成功地讓圖像動了起來。雖然這個視頻看起來可能有些許不連貫、略顯怪異,但它卻生動地展示了在 2024 年,人工智能在圖像與視頻處理領(lǐng)域所取得的巨大突破與可能性,即使到了現(xiàn)在,我每次看到這樣的成果,依然會感到無比興奮。這一切都是我們借助公司自主研發(fā)的視頻生成器產(chǎn)品實現(xiàn)的。
然而,回顧人工智能的發(fā)展歷程,它并非一直如此風(fēng)光無限。曾經(jīng),人工智能領(lǐng)域經(jīng)歷了一段漫長而艱難的“寒冬期”,在那長達(dá)數(shù)十年的時間里,整個行業(yè)幾乎陷入了停滯狀態(tài),幾乎沒有取得任何實質(zhì)性的進(jìn)展,這無疑是一段令人倍感沮喪的歷史時期。
在那個時候,神經(jīng)網(wǎng)絡(luò)以及深度學(xué)習(xí)技術(shù)并未得到廣泛認(rèn)可,甚至還飽受詬病,被人們視為一種不太可靠、難以實現(xiàn)預(yù)期效果的技術(shù)。當(dāng)時,從事深度學(xué)習(xí)研究的人員常常被外界調(diào)侃為一群只會盲目疊加層數(shù)、不切實際的“小丑”,這也從側(cè)面反映出當(dāng)時整個行業(yè)所面臨的困境與外界對其的不信任。
記憶中,上一次出現(xiàn)具有重大影響力的通用問答機(jī)器還要追溯到 2009 年推出的 Wolfram Alpha。據(jù)我所知,這款產(chǎn)品主要采用的是基于規(guī)則的傳統(tǒng)方法,并未涉及機(jī)器學(xué)習(xí)技術(shù),它的運行機(jī)制依賴于預(yù)先設(shè)定的規(guī)則與算法,無法像現(xiàn)代人工智能那樣自主地從數(shù)據(jù)中學(xué)習(xí)與進(jìn)化。因此,盡管經(jīng)過了多年的發(fā)展,它在功能與性能上并未取得顯著的提升與突破,這也凸顯出傳統(tǒng)規(guī)則驅(qū)動方法相較于現(xiàn)代數(shù)據(jù)驅(qū)動的人工智能方法所存在的局限性。
大約在 2020 年左右,我明顯感覺到行業(yè)的風(fēng)向開始發(fā)生轉(zhuǎn)變,深度學(xué)習(xí)技術(shù)逐漸得到了大多數(shù)人的認(rèn)可與接受,人們不再像過去那樣對其持懷疑與嘲諷的態(tài)度。這一轉(zhuǎn)變在很大程度上可能與 GPT - 3 的發(fā)布密切相關(guān),它的出現(xiàn)讓人們真正意識到深度學(xué)習(xí)技術(shù)所蘊含的巨大潛力與應(yīng)用前景。
那么,究竟是什么因素推動了人工智能在近年來的迅猛發(fā)展呢?其實,其中最為關(guān)鍵的因素并非某一項重大的數(shù)學(xué)突破,而是計算成本的大幅降低。
隨著時間的推移,計算成本下降了多個數(shù)量級,這使得我們能夠在人工智能研究與開發(fā)過程中投入更多的計算資源,從而推動模型的訓(xùn)練與優(yōu)化。
以英偉達(dá)(Nvidia)為例,它之所以在人工智能領(lǐng)域取得巨大成功,并非僅僅因為其制造出了性能最為強(qiáng)大的計算機(jī)芯片,更為重要的是,它能夠以相對較低的成本提供高效的矩陣乘法運算能力,這使得它在計算資源市場中占據(jù)了重要地位,成為眾多人工智能研究與開發(fā)人員的首選供應(yīng)商。
如今,計算資源已經(jīng)如同石油等大宗商品一樣,可以在專門的市場和交易所中進(jìn)行買賣交易,人們能夠像交易期貨合約一樣靈活地購買和出售計算資源,這為人工智能的發(fā)展提供了更加便捷、高效的資源配置方式。
然而,在過去的兩年里,人工智能領(lǐng)域又出現(xiàn)了一些新的變化與趨勢。隨著人工智能技術(shù)的日益強(qiáng)大與普及,它也引發(fā)了廣泛的社會關(guān)注與討論,其中不乏一些關(guān)于人工智能潛在危險性的擔(dān)憂與爭議。如今,人工智能已經(jīng)成為一個極具敏感性的話題,許多人在談?wù)撊斯ぶ悄軙r,往往會強(qiáng)調(diào)其可能帶來的各種風(fēng)險與挑戰(zhàn),呼吁對其進(jìn)行嚴(yán)格的監(jiān)管與限制。
但與此同時,各個國家和企業(yè)又都在競相投入大量資源,力爭在人工智能領(lǐng)域占據(jù)領(lǐng)先地位,這種矛盾的心態(tài)在行業(yè)內(nèi)普遍存在。在這種背景下,人工智能領(lǐng)域的研究與開發(fā)也變得更加保密,許多公司和研究機(jī)構(gòu)都對其核心技術(shù)與研究成果采取了嚴(yán)格的保密措施。
但實際上,我想告訴大家的是,人工智能背后的核心數(shù)學(xué)原理與技術(shù)框架并非神秘莫測,許多關(guān)鍵技術(shù)已經(jīng)廣為人知。在當(dāng)前的人工智能發(fā)展中,真正的“秘密武器”在于能夠?qū)⒑A康挠嬎阗Y源(這往往需要耗費巨額資金)與龐大的數(shù)據(jù)集進(jìn)行有效整合,從而訓(xùn)練出功能強(qiáng)大的人工智能模型。這就像是一場資源與數(shù)據(jù)的“煉金術(shù)”,通過巧妙地調(diào)配與運用,最終實現(xiàn)人工智能模型性能的飛躍。
在大規(guī)模模型訓(xùn)練過程中,每一次訓(xùn)練運行都可以看作是一次充滿挑戰(zhàn)與不確定性的實驗。為了降低這種風(fēng)險,研究人員在加利福尼亞州的舊金山等地開展了一系列深入研究,并逐漸總結(jié)出了一些所謂的“縮放定律”。這些定律試圖通過對計算資源、數(shù)據(jù)量等因素與模型性能之間關(guān)系的分析,來預(yù)測模型在不同訓(xùn)練條件下的表現(xiàn)。
然而,需要指出的是,這些“縮放定律”目前還不能被視為嚴(yán)謹(jǐn)?shù)目茖W(xué)理論,它們更多地是基于大量實驗數(shù)據(jù)擬合出來經(jīng)驗性規(guī)律。盡管如此,它們?nèi)匀粸槲覀冊谀P陀?xùn)練過程中的資源配置與優(yōu)化提供了有價值的參考依據(jù)。
另外,在過去五年中,還有一些非常有趣且實用的技術(shù)創(chuàng)新值得一提,比如超參數(shù)遷移技術(shù)和張量程序技術(shù)。超參數(shù)遷移技術(shù)允許研究人員先在小規(guī)模模型上進(jìn)行各種實驗與參數(shù)調(diào)整,然后將這些經(jīng)過驗證的配置直接應(yīng)用于大規(guī)模模型的訓(xùn)練中,從而大大提高了訓(xùn)練效率與成功率。
張量程序技術(shù)則為模型的高效計算與優(yōu)化提供了新的思路與方法。以 Gemini 和 GPT - 4 等大型模型的訓(xùn)練為例,雖然相關(guān)研究團(tuán)隊在技術(shù)細(xì)節(jié)上往往保持高度保密,但他們也在一定程度上暗示了超參數(shù)遷移技術(shù)在其模型訓(xùn)練過程中發(fā)揮了重要作用。
隨著技術(shù)的不斷發(fā)展與普及,如今的人工智能模型正逐漸走向商品化。越來越多的開源模型涌現(xiàn)出來,這些模型在質(zhì)量與功能上都表現(xiàn)出色,為廣大開發(fā)者和用戶提供了更多的選擇。這也意味著,對于那些希望在產(chǎn)品中應(yīng)用人工智能技術(shù)的用戶來說,他們需要像在傳統(tǒng)商品市場中一樣,進(jìn)行仔細(xì)的比較與篩選。因為不同的模型雖然在功能上可能相似,但在成本、性能、適用場景等方面往往存在較大差異,只有通過深入了解與比較,才能選擇出最適合自己需求的模型,從而實現(xiàn)產(chǎn)品的優(yōu)化與創(chuàng)新。
最近,人工智能領(lǐng)域出現(xiàn)了一個備受關(guān)注的問題:大型語言模型的發(fā)展是否已經(jīng)開始進(jìn)入停滯期或者平臺期?從實際情況來看,雖然它們并沒有完全停止前進(jìn)的腳步,但不可否認(rèn)的是,其發(fā)展速度確實有所放緩。當(dāng)我們向從事人工智能研究的專業(yè)人士詢問原因時,他們普遍認(rèn)為,最主要的瓶頸在于數(shù)據(jù)資源的匱乏。隨著互聯(lián)網(wǎng)數(shù)據(jù)的不斷挖掘與利用,我們已經(jīng)逐漸接近了現(xiàn)有數(shù)據(jù)資源的極限,難以獲取足夠的新數(shù)據(jù)來支持模型的進(jìn)一步優(yōu)化與拓展。
在這種情況下,一些人可能會想到通過研發(fā)全新的模型架構(gòu)來突破當(dāng)前的困境,例如嘗試取代目前廣泛應(yīng)用的 Transformer 架構(gòu)。然而,在我看來,這種方法的可行性并不高。因為從本質(zhì)上講,機(jī)器學(xué)習(xí)的核心在于通過數(shù)據(jù)來擬合模型,只要數(shù)據(jù)量足夠豐富、計算資源充足,不同的架構(gòu)在性能上的差異并不會太大。
事實上,目前的研究也表明,只要給予足夠的訓(xùn)練數(shù)據(jù)與計算資源,許多新型架構(gòu)與 Transformer 架構(gòu)在最終的表現(xiàn)上并沒有顯著的區(qū)別。因此,單純地寄希望于新架構(gòu)的出現(xiàn)來實現(xiàn)重大突破可能并不現(xiàn)實。
那么,既然數(shù)據(jù)資源已經(jīng)成為制約發(fā)展的關(guān)鍵因素,我們該如何應(yīng)對呢?一種可能的思路是,重新審視我們對人工智能模型的期望與定位。在過去,我們往往致力于將盡可能多的人類知識壓縮到一個龐大的模型中,使其成為一個無所不知的“知識寶庫”。然而,對于許多人工智能從業(yè)者來說,真正的“圣杯”級目標(biāo)是讓模型具備強(qiáng)大的推理能力,能夠靈活地應(yīng)用所學(xué)知識解決各種新問題。令人驚喜的是,在現(xiàn)有的模型訓(xùn)練過程中,我們已經(jīng)發(fā)現(xiàn)模型在一定程度上具備了推理能力,盡管這并非其最初設(shè)計的核心目標(biāo)。
為了進(jìn)一步提升模型的推理能力,近年來人們開始嘗試專門針對推理任務(wù)進(jìn)行模型訓(xùn)練,例如今年出現(xiàn)的 o1 模型就是這方面的一個典型代表。與傳統(tǒng)的模型訓(xùn)練不同,這些推理模型并不需要大量額外的網(wǎng)絡(luò)文本數(shù)據(jù),而是通過對模型進(jìn)行精細(xì)的微調(diào),使其專注于推理步驟的優(yōu)化與學(xué)習(xí)。
具體來說,我們可以通過生成專門用于推理訓(xùn)練的數(shù)據(jù)集,或者在推理過程中多次運行模型等方式,來增加模型在測試階段(推理階段)的計算量與數(shù)據(jù)處理能力。這種方法被稱為新縮放定律,它揭示了推理模型的準(zhǔn)確率與測試階段計算量之間存在著緊密的聯(lián)系。通過增加推理時長(即模型在推理過程中花費的時間)或者并行運行模型的次數(shù)等方式,我們能夠顯著提高推理模型的準(zhǔn)確率與性能。這一發(fā)現(xiàn)無疑為人工智能領(lǐng)域的發(fā)展開辟了新的方向,讓我們看到了實現(xiàn)更強(qiáng)大推理能力的希望與可能。
展望未來,盡管目前人工智能與人類大腦相比,在效率等方面仍然存在著巨大的差距,但我堅信,隨著技術(shù)的不斷進(jìn)步與創(chuàng)新,這種差距將會逐漸縮小。在模型訓(xùn)練方面,只要我們能夠持續(xù)挖掘新的數(shù)據(jù)資源,不斷優(yōu)化計算資源的利用效率,更大規(guī)模、更強(qiáng)大的模型必將不斷涌現(xiàn)。
同時,隨著科技的發(fā)展,計算成本預(yù)計還將繼續(xù)大幅下降,每瓦特的計算性能也將得到顯著提升,這將為人工智能的發(fā)展提供更加廣闊的空間與無限的可能。在這個充滿機(jī)遇與挑戰(zhàn)的時代,我認(rèn)為我們應(yīng)該充分發(fā)揮想象力,勇于探索人工智能領(lǐng)域的未知邊界,去創(chuàng)造更多令人驚嘆的成果與應(yīng)用。
以上就是我今天演講的全部內(nèi)容,非常感謝大家的聆聽。