主動收縮傳統(tǒng) AI 業(yè)務,商湯錨定生成式 AI。
在大模型浪潮去年席卷全球后,2014 年就成立的中國老牌 AI 公司商湯科技的最新年報變化明顯:
商湯將原本的 4 個主營業(yè)務智慧城市、智慧商業(yè)、智慧生活和智能汽車,重新劃分為 3 大板塊“傳統(tǒng) AI” 業(yè)務(智慧商業(yè)、智慧生活、智慧城市構(gòu)成)、“智能汽車業(yè)務” 和 “生成式 AI 業(yè)務” 。
商湯對這些業(yè)務態(tài)度分明:收縮傳統(tǒng) AI 業(yè)務,集中資源投入生成式 AI 業(yè)務。
這是商湯成立以來的最大一次轉(zhuǎn)型,它已部分反映在業(yè)績上:據(jù)今年 3 月底發(fā)布的 2023 年年報,商湯生成式 AI 業(yè)務去年的總收入達 12 億元人民幣,營收占比為 35%,而過去曾占商湯收入大頭的智慧城市業(yè)務占比已降至 10% 以內(nèi)。
一位商湯管理層預測:今年或明年,商湯生成式 AI 的營收占比例將超 50%。
綜合市場信息,商湯的 12 億元營收在中國大模型和整個生成式 AI 市場處于領(lǐng)先位置。
更快的商業(yè)化進度與商湯的前幾年的非共識判斷與提前布局有關(guān)。
早在 2019 年,商湯就開始開發(fā)參數(shù)規(guī)模超出行業(yè)的視覺大模型,2020 年又開始開發(fā)大語言模型,是中國最早做大模型的公司之一。
更考驗決心的是商湯 2020 年啟動的 “大裝置”,這是商湯自建的算力基礎(chǔ)設(shè)施,需要大筆投入。當時商湯正在籌備上市,有較大財務壓力,但仍選擇投資。
據(jù)了解,2023 年初時,商湯大裝置就已有 2.7 萬張 GPU,目前則上升至 4.5 萬張 GPU,算力較去年翻倍。
在新一輪 AI 熱潮前,商湯過去的這些嘗試尚處于早期商業(yè)化階段。
在前不久舉辦的商湯年會上,商湯科技董事長兼 CEO 徐立談到了商湯過去的沉浮,他認為商湯有能力抓住新機會。
“借用《繁花》里的一句話,大暑之后必有大寒,大寒之后也必有大暑。” 徐立回憶,商湯成立之初,沒人相信中國公司能把人臉識別做到全球第一,而是有大量數(shù)據(jù)、人才和資源的 Google 和 Facebook 等大型科技公司更易成功。但到 2021 年,商湯的人臉識別等計算機視覺技術(shù)在全球各項比賽中拿下了 70 多個冠軍,推翻了大公司更有機會做好這項技術(shù)的主流判斷。
“這是商湯打破共識,形成反共識,再逐步塑造共識的過程。” 徐立認為,在生成式 AI 時代,商湯也能復現(xiàn)類似的過程。至少在算力層面,商湯已先走了一步。
從計算機視覺看到的 “Scaling Laws”
“更大的模型有更好效果” 是大語言模型能力提升的關(guān)鍵指引。大多數(shù)公司都把 OpenAI 在 2020 年發(fā)布的 “Scaling Laws” 論文視作這一洞察的源頭。OpenAI 的研究者在論文中提到,算力、數(shù)據(jù)量和參數(shù)是影響模型性能的重要變量。他們也用實踐證明,用更多數(shù)據(jù)和算力訓練參數(shù)更大的模型,效果通常更好。
一位商湯研發(fā)高管告訴《晚點 LatePost》,他們在 2017 年研發(fā)視覺大模型時也感知到了同樣的趨勢,只不過這來自計算機視覺領(lǐng)域的實踐。
商湯當時想做更大的模型與業(yè)務需求有關(guān)。那些年,阻礙 AI 技術(shù)規(guī)模化應用的瓶頸是:用相同的模型,無法滿足客戶的多樣需求,服務不同場景時,得重新訓練單獨的模型,耗時耗力,成本也高。
許多公司選擇提高單一模型的開發(fā)效率;而商湯的解決方法是:訓練更大的模型,一次解決多個場景中的問題,到了部署環(huán)節(jié),再針對特定場景精簡模型,以節(jié)省模型運行時的算力。
沿著這個思路,商湯在 2019 年發(fā)布了參數(shù)達到 10 億的視覺大模型。那時視覺模型鮮有如此大的參數(shù),特斯拉的自動駕駛模型的參數(shù)量大概是 1 億。
與商湯自己的老模型相比,更大的新模型效果確實更好,能解決的問題更多。比如同一個模型不僅可以識別出圖像中的人,還能識別出汽車等物體,并能準確勾勒圖片中不同的物體輪廓,即用同一個模型,就完成了人物、物體識別和圖像分割等多個視覺任務。
之后幾年,商湯又訓練了參數(shù) 30 億、100 億的視覺大模型,底層架構(gòu)也過渡到了現(xiàn)在主流的 Transformer,并在 2022 年發(fā)布了參數(shù)達到 320 億的視覺大模型。
這些實踐也讓商湯也看到了語言與圖像融合的趨勢。原本訓練計算機視覺模型,需要靠人工標注數(shù)據(jù)。而訓練更大模型需要的數(shù)據(jù)量達到的數(shù)億,甚至數(shù)十億,此時無法再靠人去一個個標注數(shù)據(jù),更高效的方法是搜集帶有文字描述的圖片,經(jīng)過清洗后訓練模型,語言處理能力由此成了訓練更強的視覺模型的必要條件。
OpenAI 在 2020 年發(fā)布 GPT-3,讓業(yè)界看到了大語言模型的潛力,商湯彼時也加大投入研究大語言模型,并著手積累相關(guān)訓練數(shù)據(jù)。到 2022 年 11 月底 ChatGPT 引起關(guān)注時,商湯已有了不少儲備。
2023 年 4 月,商湯發(fā)布 “日日新大模型” 系列,是中國最早發(fā)布大語言模型的公司之一。同時,商湯還發(fā)布了一組生成式 AI 應用,其中有大語言模型支持的聊天機器人產(chǎn)品 “商量”,多模態(tài)模型支持的文生圖應用 “秒畫”,還有那會兒關(guān)注度沒那么高的視頻生成和文生 3D 模型的相關(guān)產(chǎn)品。
之后一年,商湯的大模型更新了 3 個版本。今年 2 月發(fā)布日日新大模型 4.0 時,商湯稱,其大語言模型的 “綜合整體評測成績水平比肩 GPT-4”。
據(jù)商湯財報,4 月下旬,商湯會發(fā)布能力達到 GPT-4 Turbo 水平的日日新大模型系列,其中的視覺等多模態(tài)能力將對標 GPT-4V。
GPT-4 Turbo 是 OpenAI 在 2023 年 3 月發(fā)布的 GPT-4 強化版,它有更強的語言處理和編程能力;GPT-4V 則是 OpenAI 在 GPT-4 基礎(chǔ)上融合視覺處理能力的多模態(tài)模型。
提升模型本身的性能之外,商湯也在通過其它工程手段優(yōu)化模型的最終表現(xiàn),讓它更實用。
比如商湯使用了檢索增強生成(RAG)技術(shù),來提升大模型處理數(shù)據(jù)、回答問題的能力,增加模型的金融知識儲備,降低錯誤信息生成的概率。這幫助商湯談下了中國銀行、招商銀行、中國工商銀行和上海銀行等金融客戶。
大模型已能解決越來越多問題,但是隨著技術(shù)發(fā)展,商湯認為模型并非越大越好。為了更好適應端側(cè)場景,商湯還訓練了一系列不同規(guī)格的小模型,它們能在汽車、筆記本電腦和手機等移動設(shè)備上運行。商湯已與早期客戶小米、榮耀等手機品牌達成了共同探索更多端側(cè)應用的合作。
徐立認為,商湯過去為手機、汽車廠商提供計算機視覺模型的經(jīng)驗,也可以遷移到大模型領(lǐng)域。
在終端部署模型的難點是:手機等設(shè)備上算力有限,需要用更小的算力實現(xiàn)模型效果,這涉及一系列技術(shù)與工程化技巧。商湯之前就服務過大多數(shù)頭部安卓手機廠商,汽車客戶則有本田和廣汽埃安等,其模型已運營在超 20 億臺手機和上百萬輛汽車上。
“中國最大的商業(yè)化場景就是各個終端。” 徐立說。
商湯在財報中提到,2023 年,商湯已經(jīng)談下數(shù)十家訂單金額超過千萬人民幣的生成式 AI 客戶。
一位商湯人士稱,現(xiàn)在商湯的大模型業(yè)務還處于商業(yè)化早期階段。他認為,大模型的商業(yè)化與模型能力息息相關(guān),等到商湯發(fā)布能力更強的基礎(chǔ)模型后,相關(guān)收入會迅速增長。
頂著虧損建設(shè) “大裝置”
過去一年,算力成為整個 AI 行業(yè)最緊俏的資源。埃隆馬斯克(Elon Musk)感嘆英偉達先進的 GPU “比毒品還難買”。英偉達的股價一年之間漲了 3 倍多,成為市值最高的芯片公司。
從 GPU 采購量來看,商湯大裝置的算力規(guī)模跟字節(jié)跳動的火山引擎、阿里云等云計算公司有一定差距。但在算力緊缺的 2023 年,商湯靠著 “大裝置 + 大模型” 吸引了各行業(yè)的多家客戶,有金融領(lǐng)域的太平洋保險和招商銀行等;頭部互聯(lián)網(wǎng)公司如京東、小米、金山和微博等;大模型和生成式 AI 創(chuàng)業(yè)公司 HiDream.AI、瀾舟科技和 Tiamat 等;還有清華大學和人民大學等學術(shù)機構(gòu)。
徐立把 “大裝置” 視為商湯打破業(yè)內(nèi)共識、重建共識的最新案例。
2017 年訓練出來 1000 層的視覺神經(jīng)網(wǎng)絡 SenseNet 后,商湯的研究人員就開始著手建設(shè)大裝置的原型系統(tǒng)。等訓練出 10 億參數(shù)視覺大模型后,商湯在 2020 年 7 月決定投入 56 億元建設(shè)大裝置,是商湯當年營收的 1.6 倍。
投入大量資金建設(shè)算力中心,對當時還在虧損的商湯來說是一個挑戰(zhàn)。2020 年下半年,商湯遞交了港股招股書,大規(guī)模的資金投入可能影響其在資本市場的表現(xiàn)。
“公司里大部分人都不理解,商湯作為 AI 公司,為什么要做重資產(chǎn)的基礎(chǔ)設(shè)施。” 徐立在年會上說,“有些大廠也認為針對 AI 提供算力服務的市場太小,不值得投入大量研發(fā)資源。”
即使到現(xiàn)在,作為 AI 公司是否應該自建算力設(shè)施也沒有形成共識。據(jù)了解,國內(nèi)大模型創(chuàng)業(yè)公司中,有的公司選擇全部租賃 GPU,不持有資產(chǎn),有的則大部分倚靠自建算力,少量租用外部 GPU。
徐立自己的邏輯是,做更通用的模型需要更大的算力支持。幾年前他接受采訪時說,大裝置可以讓 AI 的商業(yè)化不再依靠密集的人力。
當時最普遍的 AI 商業(yè)化方法是根據(jù)項目定制解決方案,如做一個手機人臉解鎖算法,需要上百人的團隊,換一個場景又得上百人進來。而有了專門為 AI 定制的、更強的算力中心,他們可以更高效地訓練通用大模型,從而解決落地過程中不斷出現(xiàn)的細分場景。
商湯的大裝置在 2021 年底投入使用,除了少量高校等科研機構(gòu),大裝置那時并未給商湯帶來太多外部新客戶,直到 ChatGPT 出現(xiàn)。
盡管如此,商湯 2020 年以來一直在持續(xù)購買更多 GPU,擴大大裝置算力規(guī)模。商湯大裝置的整體算力目前已達到 1.2 萬 petaFLOPS(每秒千兆億次浮點運算),是建成時的 4 倍。
據(jù)商湯介紹,他們現(xiàn)在已可以互聯(lián)超過一萬張 GPU ,保持 90% 加速率(衡量多卡互聯(lián)訓練大模型效率的指標,理想狀態(tài)是 100%),并持續(xù)訓練 30 多天不中斷這是訓練上千億參數(shù)甚至更大模型的必備能力。商湯稱,他們也在優(yōu)化大模型推理環(huán)節(jié),一年內(nèi)把性價比提升了 3 倍。
一位商湯人士說,商湯會持續(xù)采購華為騰、寒武紀等 10 多家中國公司的 AI 芯片,以更多元的芯片擴充大裝置算力。
從傳統(tǒng) AI 到生成式 AI
商湯在去年啟動成立以來最大轉(zhuǎn)型:重點投入生成式 AI,主動收縮為商湯貢獻絕大部分收入的傳統(tǒng) AI 業(yè)務。
傳統(tǒng) AI 是商湯原來的智慧城市、智慧商業(yè)和智慧生活等非生成式 AI 業(yè)務,2023 年的收入占比從前一年的 82% 下降到了 54%。
商湯在財報中特意提到,智慧城市業(yè)務在收入中的占比已不到 10%:“公司對其依賴大幅降低”。
徐立稱,接下來商湯的智慧城市和智慧商業(yè)會重點聚焦有現(xiàn)金流、利潤率更高的領(lǐng)域。
商湯智能汽車業(yè)務始于 2016 年,主要是基于計算機視覺技術(shù)開發(fā)包括高級輔助駕駛和智能座艙等解決方案,客戶已有廣汽埃安、哪吒汽車等。它們把商湯的方案用到了多個車型上。過去一年,商湯智能汽車業(yè)務的收入增長 31% 到 3.8 億元。
傳統(tǒng) AI 業(yè)務收縮,生成式 AI 成為商湯當前的最重要業(yè)務。
一位商湯人士說,雖然許多客戶會提前付款,等著用商湯的大裝置。但商湯依然會預留相當比例的算力,用來訓練自己的大模型。
“如果只是租賃算力,商湯可能就只能從生成式 AI 浪潮中獲得一小部分收入,而且沒有競爭力。” 一位商湯高管說,最適合商湯的業(yè)務模式是借算力優(yōu)勢,延伸業(yè)務范圍,比如提供模型訓練和推理服務,以及用更低的成本訓練出行業(yè)領(lǐng)先的大模型。
商湯以算力為基礎(chǔ)向生成式 AI 轉(zhuǎn)型也面臨著重要挑戰(zhàn)。比如算力中心屬于重資產(chǎn)業(yè)務,需要考慮折舊,會拉低商湯的利潤率。
商湯的轉(zhuǎn)型還在繼續(xù)。商湯在財報中寫道:2024 年,商湯會繼續(xù)調(diào)整業(yè)務,改善現(xiàn)金流、減少虧損這是它過去 10 年一直面臨的難題,也是中國 AI 企業(yè)普遍的待解之題。
題圖來源:由商湯秒畫生成。