文 | 首席商業(yè)評論
就在OpenAI舉行連續(xù)12天的發(fā)布會(huì)時(shí),谷歌震撼性地發(fā)布了量子芯片Willow,震驚世界,其聲稱在一個(gè)標(biāo)準(zhǔn)基準(zhǔn)計(jì)算任務(wù),Willow用時(shí)不到5分鐘(300秒)神速完成。
而原來世界上最快超算Frontier要完成同樣任務(wù),則需要10億億億年,也就是10,000,000,000,000,000,000,000,000年。這是一個(gè)天文數(shù)字,甚至超過了宇宙的年齡(138億年)!
不過大家也不用恐慌量子計(jì)算會(huì)馬上顛覆一切,原來量子計(jì)算的挑戰(zhàn)主要是精確度,簡單理解就是,計(jì)算快,但誤差也高,如今終于克服了近30年的糾錯(cuò)問題,芯片的計(jì)算誤差也呈指數(shù)級(jí)下降,有很大進(jìn)步了,但離真正的概念中的量子計(jì)算機(jī)還有一段距離。
芯片的發(fā)布無疑在硅谷引發(fā)了一場科技海嘯,還在發(fā)布會(huì)中的OpenAI CEO 山姆奧特曼第一時(shí)間送上祝賀。谷歌CEO劈柴對此回應(yīng):量子計(jì)算+AI的多重宇宙即將帶來,也恭喜o1大模型發(fā)布!
此外,劈柴還和馬斯克聯(lián)動(dòng)了起來,他說未來可以借助星艦在外太空搞一個(gè)量子計(jì)算集群。馬斯克回復(fù)說這是有可能的,并提到了要實(shí)現(xiàn)卡爾達(dá)舍夫第二型文明所需的能源。
如果說量子計(jì)算機(jī)還有點(diǎn)遙遠(yuǎn),但AI大模型的更新是離我們很近的,我們來看看OpenAI連續(xù)幾天的發(fā)布會(huì)到底發(fā)布了什么?OpenAI未來是要徹底商業(yè)化運(yùn)作了嗎?
意外但不夠驚艷的發(fā)布會(huì):
01 模型仍然是常規(guī)更新
OpenAI好像很久都沒有大動(dòng)作了,距離Sora的第一次亮相已經(jīng)過去了294天,距離ChatGPT語音版發(fā)布已經(jīng)過去了205天,o1前瞻版的發(fā)布也已經(jīng)是九月的事了。不是說好的AI元年嗎?怎么熱度反倒是倒過來的?
今年上半年Claude 3.5 Sonnet 儼然已經(jīng)成為目前評價(jià)最好的模型、谷歌正式上架 Veo 視頻生成模型,還有剛發(fā)布的 Genie 2 世界模型,以及李飛飛的世界模型都走上臺(tái)前獲得了不低的關(guān)注度。
OpenAI這個(gè)時(shí)候自然需要“反擊”,來證明自己“AI一哥”的身份,OpenAI不是老了只是大招還在后面。
Sam Altman指出新版o1在處理復(fù)雜問題時(shí)的重大錯(cuò)誤率降低了34%,而且能根據(jù)題目的難易程度調(diào)節(jié)處理時(shí)間,困難的題可能做幾分鐘,但簡單題目僅需幾秒。這使得用戶等待時(shí)間下降超過50%。Sam Altman緊接著給出了它的表現(xiàn)數(shù)據(jù)。o1在國際數(shù)學(xué)奧林匹克預(yù)選賽題目(AIME 2024)中拿到了83%的正確率,把GPT-4o那可憐巴巴的13%甩得連尾燈都看不見了,比起o1 -preview的56.7%也提升了將近一半!
如下圖所示,o1 Pro 僅用時(shí) 6 分 48 秒就成功解答了 2006 年國際數(shù)學(xué)奧林匹克競賽(IMO)的第三題當(dāng)年公認(rèn)難度最高的題目。
2006 年全球約 500 名 19 歲以下的頂尖數(shù)學(xué)學(xué)生中,僅有 28 人能夠完全解答此題……他們擁有 4 個(gè)半小時(shí)的時(shí)間來攻克……而 6 名美國隊(duì)成員中無一人能夠解決這個(gè)問題……網(wǎng)友們嘗試使用其他所有模型(包括 o1)來解決這個(gè)問題,結(jié)果 o1 Pro 是唯一一個(gè)大語言模型給出了正確答案,也是目前推理最強(qiáng)的大語言模型。
ChatGPT Pro 訂閱計(jì)劃將允許用戶無限制訪問 o1、o1-mini、GPT-4o 以及高級(jí)語音模式,還包括一個(gè)僅供 Pro 用戶使用的 o1 版本,也就是o1 pro 模式。但200美元一個(gè)月的價(jià)格也足以勸退大部分普通用戶,有業(yè)內(nèi)人士指出想過很漲價(jià)但沒想到會(huì)漲這么多,如果你提不出專業(yè)的問題和具體且特別的需求,買這個(gè)會(huì)員就是在浪費(fèi)錢。
不斷細(xì)分的GPT模型往好處說是為了更好滿足不同需求的用戶,但經(jīng)歷過國內(nèi)互聯(lián)網(wǎng)手機(jī)和車圈大戰(zhàn)的人,應(yīng)該能很快明白這是什么意思。更多產(chǎn)品對應(yīng)具體需求這不假,但本質(zhì)上是在爭取已經(jīng)存量化的細(xì)分市場,以至于要出各種不同名頭的產(chǎn)品。這并非不行,但這跟OpenAI宣稱的未來是屬于AI的世界,距離恐怕有點(diǎn)遠(yuǎn)。
02 Sora Turbo正式上線
在OpenAI 12天發(fā)布會(huì)的第三天,終于放出了一個(gè)像樣的大招。OpenAI 在 X 平臺(tái)表示,自 2 月份以來,他們一直在構(gòu)建 Sora Turbo,后者是一個(gè)速度明顯更快的模型版本,今天也將其作為獨(dú)立產(chǎn)品向Plus 和 Pro 用戶開放。
在 Sora Turbo「Library」中,用戶可以保存自己喜歡或有用的提示詞,以便未來使用。并且保存的提示詞可以按需查看或修改,對于需要重復(fù)創(chuàng)作相似內(nèi)容的用戶,無疑能大大提高效率。在工作流方面,Sora 的編輯功能是區(qū)別于其它競品的重要亮點(diǎn)。比如說,在 Remix 功能中,用戶可以利用純自然語言提示詞對視頻進(jìn)行編輯,并通過簡單的「strength(強(qiáng)度)」選項(xiàng)和滑塊來控制生成的變化程度。
在技術(shù)規(guī)格上,Sora Turbo支持 5-20 秒的視頻生成,并兼容 1:1、9:16 等主流寬高比。相比早期版本,現(xiàn)在的生成速度有了顯著提升。
有趣的是,由于 Sora Turbo熱度太高,大批用戶涌入體驗(yàn)網(wǎng)站,導(dǎo)致該網(wǎng)站一度崩潰,停止注冊登錄。不給力的服務(wù)也讓 Altman 連連在 X 平臺(tái)安撫用戶:由于需求超出預(yù)期,我們將不得不間歇性地關(guān)閉新用戶注冊,并且生成內(nèi)容的速度會(huì)在一段時(shí)間內(nèi)減慢。我們正在全力以赴!
生成視頻貴這是行業(yè)內(nèi)的普遍共識(shí),但沒想到這次Sora Turbo貴的超乎想象,連兩百美元的會(huì)員都不能自由生成。對于訂閱用戶而言,20 美元的 ChatGPT Plus 計(jì)劃提供 50 個(gè)優(yōu)先視頻額度(1000 積分),支持最高 720p 分辨率和 5 秒時(shí)長。而200 美元的 ChatGPT Pro 計(jì)劃則提供最多 500個(gè)優(yōu)先視頻(10000 個(gè)積分),支持最高 1080p 分辨率、20 秒時(shí)長、5 個(gè)并發(fā)生成和無水印輸出。
雖然官方博客中提到,Sora Turbo用了一種新的擴(kuò)散模型,它通過從一段看起來像靜態(tài)噪聲的基礎(chǔ)視頻開始,逐步去除噪聲并轉(zhuǎn)變?yōu)樽罱K的視頻。通過同時(shí)處理多個(gè)幀,模型成功解決了一個(gè)難題:即使目標(biāo)暫時(shí)脫離視野,也能確保其在視頻中始終保持一致。
比如畫面中門的開向各開各的
但生成視頻共有的一些毛病他還是有的,在物理模擬方面,模型對物體運(yùn)動(dòng)的理解還不夠深入,常常出現(xiàn)動(dòng)作不自然、物體突然消失等問題。特別是在處理帶有腿部運(yùn)動(dòng)的對象時(shí),經(jīng)常出現(xiàn)前后腿位置混亂的情況,導(dǎo)致動(dòng)作看起來不自然。
又或者,某些視頻生成結(jié)果看起來像是慢動(dòng)作,而視頻的其他部分則以正常速度播放,肉眼很容易察覺這種「別扭」。簡言之,Sora 還是沒能解決老毛病,缺乏對物理世界規(guī)律的理解。另外,Sora 沒能解決文字生成的問題,導(dǎo)致經(jīng)常出現(xiàn)文字混亂的現(xiàn)象。
筆者認(rèn)為這次Sora Turbo最大更新恐怕是對產(chǎn)權(quán)的明晰,官方博客中寫道,未經(jīng)他人許可使用他人肖像,并禁止描繪真實(shí)未成年人;禁止創(chuàng)建非法內(nèi)容或侵犯知識(shí)產(chǎn)權(quán)的內(nèi)容;禁止生成有害內(nèi)容,例如未經(jīng)同意的親密影像、用于欺凌、騷擾或誹謗的內(nèi)容,或旨在傳播暴力、仇恨或使他人痛苦的內(nèi)容;創(chuàng)建并傳播用于欺詐、詐騙或誤導(dǎo)他人的內(nèi)容。
所有 Sora Turbo生成的視頻都帶有 C2PA 元數(shù)據(jù),這些元數(shù)據(jù)能夠標(biāo)識(shí)視頻的來源,從而提高透明度,并可用于驗(yàn)證其來源。這些動(dòng)作或許可以應(yīng)對一些新聞媒體和藝術(shù)家對OpenAI的侵權(quán)起訴,可能有助于AI視頻和內(nèi)容快速走向商業(yè)化。
03 OpenAI也要把商業(yè)化放在第一位了
正如我們這次的標(biāo)題所言O(shè)penAI最新發(fā)布會(huì),很意外、很昂貴、很著急。論技術(shù)力OpenAI仍然是行業(yè)第一這沒有問題,但技術(shù)和美好的愿景并不足以解決所有問題,能夠正常商業(yè)運(yùn)作且有盈利可能的產(chǎn)品才能活得更久。
OpenAI在接受FT財(cái)經(jīng)網(wǎng)采訪時(shí)表示,他們制定了明年沖擊 10 億活躍用戶的目標(biāo),現(xiàn)在 ChatGPT 的周活在 2.5 億左右;完全不線性的增長預(yù)期,建立在和蘋果的合作上,iPhone 的全球活躍設(shè)備超過 20 億臺(tái),這會(huì)是成為搭便車的最好機(jī)會(huì);OpenAI 給投資者畫大餅時(shí)也表示,達(dá)到 10 億活躍用戶,才能拿到和 Meta、Google 上同一張牌桌的入場券;OpenAI 今年的收入突破了 40 億美金,但同時(shí)創(chuàng)造了 50 億美金以上的成本,虧損壓力難以忽視;API 業(yè)務(wù)對收入貢獻(xiàn)很大,但利潤很低,來自 C 端用戶的直接訂閱才是最賺錢的,這也是 OpenAI 對提高活躍用戶規(guī)模興趣甚高的原因。
OpenAI 首席財(cái)務(wù)官 Sarah Friar 在接受《金融時(shí)報(bào)》采訪時(shí)表示:"到 2025 年,我們將從一家服務(wù)數(shù)百萬用戶的研究實(shí)驗(yàn)室,發(fā)展成為服務(wù)全球數(shù)十億消費(fèi)者的科技巨頭。"這家成立九年的創(chuàng)業(yè)公司正在向全球科技巨頭轉(zhuǎn)型,為公司創(chuàng)始人兼 CEO Sam Altman 所描繪的"智能時(shí)代"做好準(zhǔn)備。
OpenAI從非盈利組織轉(zhuǎn)向盈利的大公司幾乎是可以確定的事,改變世界很美好但在這之前他們要先活下來。
不過OpenAI的大餅真的能這么順利實(shí)現(xiàn)嗎?
OpenAI 新任政策主管 Chris Lehane 透露,公司計(jì)劃在美國中西部和西南部地區(qū)建設(shè)數(shù)據(jù)中心集群,以支持未來發(fā)展。這一自建 AI 基礎(chǔ)設(shè)施的戰(zhàn)略,與 Google 和 Amazon 等科技巨頭的做法如出一轍。Lehane 指出,在 AI 競爭中,"芯片、數(shù)據(jù)和能源"是取得成功的三大關(guān)鍵要素。但問題在于OpenAI并不比這些大公司在芯片、數(shù)據(jù)和能源上擁有太多優(yōu)勢。
iPhone用戶雖然全球有20億活躍設(shè)備,但支持AI功能的只有最近兩年的產(chǎn)品,AI本地化是蘋果一直倡導(dǎo)的,未必會(huì)支持用戶去購買功能更為復(fù)雜成本更高01模型或者Sora Turbo。而且蘋果自家AI也一直在追趕,能用自己的未來肯定會(huì)用自己的,搭便車可沒想象中那么容易。
OpenAI對AGI五個(gè)階段定義如下:1)L1:聊天機(jī)器人(Chatbots),具備對話能力的AI;2)L2:推理者(Reasoners),具備人類的推理水平能解決很多復(fù)雜難題;3)L3:智能體(Agents),不只是推理,還能執(zhí)行全自動(dòng)化業(yè)務(wù)的智能體;4)L4:創(chuàng)新者(Innovators),能協(xié)助人類完成新發(fā)明的AI;5)L5:組織(Organizations),可以自動(dòng)執(zhí)行組織全部業(yè)務(wù)的AI。
據(jù)新浪科技,2024年中旬,OpenAI評估自己處于L1階段,而這次超長發(fā)布會(huì)后,筆者認(rèn)為OpenAI有望在此次發(fā)布會(huì)后進(jìn)入L2階段和L3初級(jí)階段,01模型的推理能力已經(jīng)毋庸置疑,智能體(Agents)也有望在這次發(fā)布會(huì)出現(xiàn)。
Agent可幫忙尋找營銷線索、推送潛在客戶、進(jìn)行初期產(chǎn)品溝通等,帶來實(shí)際收入,所以大家愿意買單。Agent的核心是大模型的推理能力(鏈?zhǔn)酵评、多步推理能力),它能把?fù)雜事情拆解成多步,若多步推理能力不足,AI成功率很低。國內(nèi)已經(jīng)有大模型在推送Agent服務(wù),或許OpenAI這次能提供不一樣的東西。
寫在最后
目前OpenAI模型的真正使用者更多是專業(yè)開發(fā)者和領(lǐng)域?qū)<已芯繂T,普通大眾用于聊天不需要這么大算力需求。而專業(yè)人士對人類科技進(jìn)步和生產(chǎn)力提升有很大幫助,也會(huì)反推大家能力提升。所以這個(gè)時(shí)候,就不要談生成式AI是偽需求了。
但AI也走過了早期教育市場的階段,需要回答如何在性能、效果、成本之間實(shí)現(xiàn)平衡了。Agent算是眼下不多的AI熱點(diǎn),但從算力上來講,Agent模式的成本開支較大,是GPU的5到10倍左右,算力消耗大,是AI應(yīng)用的瓶頸之一。有時(shí)候或許要做的不是另辟蹊徑,而是先在成本上合理性可靠性,再來談商業(yè)化的事。