12月4日消息,亞馬遜云計(jì)算部門(mén)AWS在年度re:Invent大會(huì)上宣布了多項(xiàng)重大技術(shù)突破,包括新一代人工智能訓(xùn)練芯片Trainium3、新型服務(wù)器Ultraserver,以及與人工智能初創(chuàng)公司Anthropic合作的Project Rainier計(jì)劃。
在當(dāng)天的活動(dòng)中,AWS發(fā)布了其Trainium系列芯片的第三代產(chǎn)品--Trainium3,該芯片預(yù)計(jì)將在明年上市,速度是現(xiàn)有Trainium2芯片的兩倍,同時(shí)能效提高了40%。Trainium3是AWS首款采用3納米半導(dǎo)體制造工藝技術(shù)的芯片。去年發(fā)布的Trainium2芯片現(xiàn)已全面上市,性能是上一代的四倍,特別針對(duì)大型語(yǔ)言模型訓(xùn)練進(jìn)行了優(yōu)化。
AWS首席執(zhí)行官馬特加爾曼(Matt Garman)表示:“目前,在GPU領(lǐng)域,英偉達(dá)幾乎是唯一的選擇。我們相信,客戶(hù)會(huì)歡迎有更多的選擇。”更新定制芯片是亞馬遜人工智能戰(zhàn)略的關(guān)鍵部分,這不僅能夠降低其商業(yè)客戶(hù)使用人工智能的成本,還能增強(qiáng)公司對(duì)供應(yīng)鏈的控制力。這也可能會(huì)減少AWS對(duì)英偉達(dá)的依賴(lài),盡管英偉達(dá)是AWS最親密的合作伙伴之一,AWS在其云平臺(tái)上為客戶(hù)提供了租用英偉達(dá)GPU的服務(wù)。
根據(jù)市場(chǎng)調(diào)研公司IDC的統(tǒng)計(jì)數(shù)據(jù),2024年全球人工智能芯片市場(chǎng)的規(guī)模估計(jì)為1175億美元,預(yù)計(jì)到2027年底將增長(zhǎng)至1933億美元。IDC指出,英偉達(dá)目前占據(jù)了全球人工智能芯片市場(chǎng)約95%的份額。除了亞馬遜,還有許多公司也在爭(zhēng)奪英偉達(dá)的市場(chǎng)份額,包括Groq、Cerebras Systems和SambaNova Systems等人工智能芯片初創(chuàng)公司。亞馬遜的服務(wù)競(jìng)爭(zhēng)對(duì)手微軟和谷歌也在開(kāi)發(fā)自己的人工智能芯片,以減少對(duì)英偉達(dá)的依賴(lài)。
AWS周二還發(fā)布了新型服務(wù)器Ultraserver。它是一種全新的EC2(亞馬遜彈性計(jì)算云)產(chǎn)品,使用超快的NeuronLink互連,把四臺(tái)采用了16顆Trainium2芯片的服務(wù)器連接在一起形成一臺(tái)巨型服務(wù)器,可擴(kuò)展至83.2千萬(wàn)億次浮點(diǎn)運(yùn)算/秒的峰值計(jì)算能力,將單個(gè)實(shí)例的計(jì)算、內(nèi)存和聯(lián)網(wǎng)能力提高四倍,從而能夠訓(xùn)練和部署世界上最大的模型。
此外,人工智能創(chuàng)業(yè)公司Anthropic的聯(lián)合創(chuàng)始人、首席計(jì)算官湯姆布朗(Tom Brown)在活動(dòng)中宣布了與亞馬遜合作的“雷尼爾計(jì)劃”(Project Rainier)。該計(jì)劃的核心內(nèi)容是,Anthropic未來(lái)將使用一個(gè)擁有數(shù)十萬(wàn)顆亞馬遜自研芯片的算力集群。其芯片數(shù)量將是Anthropic現(xiàn)有算力集群的五倍以上。不過(guò)布朗并沒(méi)有在大會(huì)上說(shuō)明,該算力集群將在何時(shí)投入使用。此外,布朗也沒(méi)有詳細(xì)說(shuō)明該集群CPU芯片、高端的人工智能訓(xùn)練芯片、入門(mén)人工智能推理芯片的占比情況。
AWS負(fù)責(zé)計(jì)算和網(wǎng)絡(luò)服務(wù)的副總裁戴夫布朗(Dave Brown)表示,該算力集群將設(shè)在美國(guó),預(yù)計(jì)到2025年建成時(shí),將成為全球最大的人工智能模型算力集群之一。
越大越好
隨著人工智能模型和數(shù)據(jù)集的規(guī)模日益擴(kuò)大,驅(qū)動(dòng)這些模型的芯片和芯片集群也在不斷升級(jí)?萍季揞^們不僅在增加從英偉達(dá)購(gòu)買(mǎi)的芯片數(shù)量,或設(shè)計(jì)自己的芯片;他們還在嘗試將盡可能多的芯片集成在一起。AWS表示,該集群的規(guī)模是Anthropic當(dāng)前訓(xùn)練集群的五倍。相比之下,埃隆馬斯克(Elon Musk)的人工智能初創(chuàng)公司xAI最近開(kāi)發(fā)出一臺(tái)名為Colossus的超級(jí)計(jì)算機(jī),整合了10萬(wàn)顆英偉達(dá)Hopper芯片。
人工智能編碼初創(chuàng)公司Poolside的聯(lián)合創(chuàng)始人、首席技術(shù)官艾索康特(Eiso Kant)表示,與在英偉達(dá)的GPU上運(yùn)行其他人工智能模型相比,該公司大約節(jié)省了40%的成本。但一個(gè)缺點(diǎn)是,初創(chuàng)公司需要花費(fèi)更多的工程師時(shí)間來(lái)使亞馬遜相關(guān)的芯片軟件工作。不過(guò)康特也表示,亞馬遜直接通過(guò)臺(tái)積電代工制造其芯片,并將其放入自己的數(shù)據(jù)中心,這使得它成為人工智能初創(chuàng)公司的“安全賭注”。他表示,初創(chuàng)公司的投資布局至關(guān)重要,因?yàn)榧词故?個(gè)月的硬件延遲也可能意味著其業(yè)務(wù)的終結(jié)。
蘋(píng)果的機(jī)器學(xué)習(xí)和人工智能高級(jí)總監(jiān)貝努瓦杜潘(Benoit Dupin)在周二的演講中表示,這家智能手機(jī)巨頭正在測(cè)試Trainium2芯片,并預(yù)計(jì)將節(jié)省約50%的成本。
無(wú)形的計(jì)算層
Annapurna Labs的“靜音實(shí)驗(yàn)室”中的一臺(tái)新的Trainium2 Ultraserver;一名工程師正在測(cè)試新的Trainium2 Ultraserver的單元。
對(duì)于大多數(shù)企業(yè)而言,選擇支持英偉達(dá)還是亞馬遜并不是迫在眉睫的問(wèn)題,分析師們指出。這是因?yàn)榇笮推髽I(yè)更關(guān)注的是:市場(chǎng)趨勢(shì)對(duì)亞馬遜是有利的,因?yàn)樗⒉恍枰蛻?hù)深入了解技術(shù)細(xì)節(jié)。亞馬遜能夠與云數(shù)據(jù)公司如Databricks合作,將Trainium芯片置于幕后,而大多數(shù)企業(yè)不會(huì)察覺(jué)到任何差異,因?yàn)橛?jì)算服務(wù)本應(yīng)正常運(yùn)行理想情況下,成本應(yīng)逐漸降低。
市場(chǎng)調(diào)研公司Gartner的分析師奇拉格德卡特(Chirag Dekate)表示,亞馬遜、谷歌和微軟正在制造自己的AI芯片,因?yàn)樗麄冋J(rèn)識(shí)到定制設(shè)計(jì)可以節(jié)省時(shí)間和成本,同時(shí)提升性能。他們定制硬件以提供特定的并行功能,這可能會(huì)超越更通用的GPU的性能。
金融服務(wù)和研究公司Redburn Atlantic的分析師亞歷克斯海斯?fàn)枺ˋlex Haissl)指出,AWS在人工智能的某些不太顯眼的領(lǐng)域擁有“被低估”的優(yōu)勢(shì),包括網(wǎng)絡(luò)、加速器和Bedrock平臺(tái),后者是企業(yè)使用人工智能模型的平臺(tái)。
然而,亞馬遜領(lǐng)導(dǎo)層對(duì)于AWS芯片野心的實(shí)現(xiàn)程度,保持理性冷靜態(tài)度至少目前是這樣。“我認(rèn)為在很長(zhǎng)一段時(shí)間內(nèi),大多數(shù)工作負(fù)載可能仍將依賴(lài)英偉達(dá),因?yàn)樗鼈冋紦?jù)了當(dāng)前99%的工作負(fù)載,所以這種局面可能不會(huì)改變,”AWS首席執(zhí)行官加爾曼表示!暗,我們希望Trainium能夠在市場(chǎng)中占據(jù)一席之地,成為許多工作負(fù)載的優(yōu)質(zhì)選擇盡管不是所有工作負(fù)載!保ǹ萍夹侣勌丶s編譯無(wú)忌)