文 | 烏鴉智能說
本文編譯自播客節(jié)目Generative Now Podcast。在本期節(jié)目中,長期創(chuàng)業(yè)者和創(chuàng)業(yè)投資人Elad Gil,前Greylock總合伙人、Conviction創(chuàng)始人Sarah Guo和Lightspeed合伙人Michael Mignano共同審視AI投資的廣闊世界。
Elad Gil是硅谷知名的Solo VC 投資人,參與投資了Perpleixty 、Character.ai、Mistral、Harvy 以及 Pika 等知名 AI 初創(chuàng)公司。去年11月, Elad Gil完成了第三支基金募集,也是迄今為止規(guī)模最大的基金總計超10億美元;據(jù)悉,這支基金從 54 位 LPs 那里獲得了近11 億美元的承諾,相比 2021 年關(guān)閉的 6.2 億美元基金規(guī)模擴大了 77%。
在訪談中,Gil表示新型模型公司仍然有可能出現(xiàn),部分基礎(chǔ)模型將被通用模型采用,而另一些則需要在訓(xùn)練數(shù)據(jù)集和架構(gòu)方面進行微調(diào)。此外,Gil還提到,AI公司應(yīng)該更關(guān)注專注于客戶需求,而不是將注意力集中在模型構(gòu)建上。
以下為本文目錄,建議結(jié)合要點進行針對性閱讀:
01 AI將迎來五個人力資本浪潮02新型模型公司仍然有可能出現(xiàn)03下一波應(yīng)用浪潮會是什么樣子?04誰會贏得AI:B端還是C端05提供AI服務(wù) VS 使用AI服務(wù),誰將是頭號贏家06垂直整合的模型07聊天界面,會成為主要的交互方式嗎08硬件 x AI09Web3,將是驗證真實性的途徑10AI監(jiān)管將走向何方
01 AI將迎來五個人力資本浪潮
Michael Mignano:你們都是聰慧老練的投資者,有預(yù)見到2023年AI投資領(lǐng)域會是這樣嗎?
Sarah Guo:我們做了一個長期的賭注。我們在2022年10月創(chuàng)立了Conviction,隨后在11月就出現(xiàn)了ChatGPT時刻,用戶的反應(yīng)還是很出乎我的意料的.我本以為這樣的時刻會出現(xiàn)得更晚一些。而且我們看到人工智能飛速發(fā)展乃至遇到了擴展的瓶頸,Transformer模型變得越來越有效,長期存在的開放性問題也得到了解決……這一切都令人激動。我本以為這會是一個比較緩慢的推進過程,我會有更多的時間組建基金,但我想現(xiàn)在的這種速度令所有人驚訝。
PS:Samsara是一家總部位于美國舊金山的傳感器數(shù)據(jù)平臺,為客戶提供大量追蹤服務(wù)所需的物聯(lián)網(wǎng)傳感器硬件和軟件產(chǎn)品
Anduril Industries 是一家國防產(chǎn)品公司,其產(chǎn)品是由AI驅(qū)動的開放操作系統(tǒng)Lattice OS,該系統(tǒng)將自動化感知和指揮控制能力與開放、模塊化和可擴展的硬件組件連接起來,為防務(wù)任務(wù)提供自動化解決方案。
Elad Gil:我從20多年前谷歌時期就開始從事人工智能領(lǐng)域的工作,當時我正在研究早期的機器學(xué)習(xí),也就是深度學(xué)習(xí)之前的時代。后來深度學(xué)習(xí)興起,我在過去10年里投資了很多公司,但絕大部分都沒有取得成功。當然也有一些公司利用了人工智能作為輔助或賦能的手段,從而發(fā)展壯大,比如我投資初期的Samsara和Anduril等公司。
對我來說,真正的轉(zhuǎn)折點是GPT-3的出現(xiàn),因為它比GPT-2有了質(zhì)的飛躍。GPT-3發(fā)布時,我在播客中表達了我的興奮之情,甚至主動聯(lián)系了他們,想要合作探討。后來我們確實就加密貨幣、人工智能等幾個主題與Chris Dixon和Scalar Capital合作過。
當GPT-3出現(xiàn)時,人工智能領(lǐng)域又向前躍進了一大步。從那時起,我開始大量投資并接觸研究人員。有些人主動聯(lián)系我,比如我以前就認識的Character.AI的Noam,他說想創(chuàng)立一家公司;還有Perplexity公司的Aravind,我們開始經(jīng)常聚會,討論潛在的創(chuàng)業(yè)機會。
簡而言之,技術(shù)在短時間內(nèi)實現(xiàn)了巨大飛躍,但當時幾乎沒有人真正關(guān)注它。這簡直就像是一個黃金時代,聚集了眾多有趣的想法和人才,但幾乎無人問津,這讓人非常興奮。
Michael Mignano:Sarah,你之前提到通過觀察事物的發(fā)展趨勢,幾乎可以預(yù)見這種突破性進展的到來,盡管你沒有預(yù)計它會發(fā)生在ChatGPT問世的那一刻,F(xiàn)在,當展望未來時,感覺我們似乎處于發(fā)展曲線的中間階段。你們認為人工智能的發(fā)展是會在不久的將來就趨于平緩,還是在可預(yù)見的未來我們將一直保持直線上升的軌跡?
Sarah Guo:我不想過多重復(fù)加密貨幣投資者的觀點,但我確實感覺我們目前處于人工智能發(fā)展的非常早期階段,未來我們將獲得堆疊式的能力提升。
投資時機非常重要。如果時機稍早或稍晚都無關(guān)緊要,關(guān)鍵是要有獨特且極具創(chuàng)新性的見解。在技術(shù)變革期間,即使進入較晚,只要有足夠獨特和聰明的見解,也是可以的。
更重要的一點是,作為投資者,你必須通過足夠的實踐和嘗試,無論是作為創(chuàng)始人還是投資者,來了解我們距離人工智能成熟發(fā)展還有多遠。我之前在Greylock工作了十年,投資了一些上一代的機器學(xué)習(xí)公司,可能有些為時過早。
事實上,今天最引人注目的那些創(chuàng)始人都研究人工智能很長時間了,比如你們都認識的來自Weights & Biases的Lukas,他之前嘗試過一次,但當時進場太早,沒有取得成功。
就我個人而言,大約三四年前,我投資了Base10,而今年它終于開始真正落地運作。我們也在Inflection公司下了重注,這個公司的名字選得很貼切。除了OpenAI之外,Inflection是最早一批專注于基礎(chǔ)模型的公司之一。
也許從規(guī)模成本的角度來看,推動大型語言模型繼續(xù)突破現(xiàn)有水平變得更加困難,下一組訓(xùn)練數(shù)據(jù)的來源也不太明朗。但隨著越來越多的人關(guān)注人工智能,生態(tài)系統(tǒng)得到更大規(guī)模的支持和資金投入,人工智能發(fā)展將有更強的復(fù)合效應(yīng)。所以我認為我們現(xiàn)在處于人工智能發(fā)展的相當早期階段。
Elad Gil:我認為人工智能仍有大量增長空間。ChatGPT對大多數(shù)人來說是一個發(fā)令槍,包括我們,因為目前基本上還沒有真正的企業(yè)級大規(guī)模部署應(yīng)用。所以這將是一個大浪潮。
總的來說,我認為將會有五個人力資本浪潮 。
Aravind Srinivas,Perplexity創(chuàng)始人
第一浪潮是原生人工智能建設(shè)者,他們一直在研究大型語言模型和基礎(chǔ)模型,希望做出應(yīng)用程序。這就是Noam創(chuàng)辦Character.AI的原因,他是Transformer原作之一。還有來自Perplexity的Aravind等人,他們都曾在谷歌、OpenAI或Facebook等公司工作。
第二波是一群極客,我也將自己歸入這一陣營。他們是經(jīng)驗豐富的開發(fā)人員和基礎(chǔ)設(shè)施人員。他們中的一些人早期就開始創(chuàng)辦公司,比如Sarah提到的Base10,但也有一些公司成立較晚,比如Together等,它們現(xiàn)在為這些模型提供支持服務(wù)。我們經(jīng)歷了一個基礎(chǔ)設(shè)施浪潮,現(xiàn)在仍在持續(xù),同時涌現(xiàn)出像Braintrust這樣的工具公司。
第三浪潮將是ToB應(yīng)用程序開發(fā)者。我認為很多在一年多前聽說過ChatGPT的人,可能六個月前就已經(jīng)辭去了工作,花了幾個月的時間思考,現(xiàn)在正在開始創(chuàng)業(yè)。所以我們會看到一波企業(yè)級應(yīng)用程序浪潮。隨后的第四浪潮將在ToC應(yīng)用領(lǐng)域出現(xiàn)。第五個浪潮將出現(xiàn)在企業(yè)級的實際大規(guī)模部署應(yīng)用方面。
所以我認為這將是一波接一波的人潮,他們在時間上有所錯開,具有不同的技術(shù)能力,專注于產(chǎn)品或工程思維等等。當然也有一些夾在中間的人,比如Harvey團隊就是一個很好的例子。但總的來說,我認為這就是人工智能發(fā)展的大致軌跡。
02 新型模型公司仍然有可能出現(xiàn)
Michael Mignano:目前大型模型的機遇是否已經(jīng)盡現(xiàn),比如2023年那些投向Anthropic、Inflection或OpenAI等公司的巨額融資?這種機遇之窗對于初創(chuàng)公司而言,是否已經(jīng)基本關(guān)閉了?如果是這樣,2024年大部分資金將投向哪些領(lǐng)域呢?
Sarah Guo:風投資本往往追隨先例,但是一些真正創(chuàng)新型的公司往往史無前例,在發(fā)展上無法預(yù)測。人們最初并不熱衷于投資基礎(chǔ)模型公司,直到ChatGPT的飛速增長引起了廣泛關(guān)注。
我認為不同模態(tài)的模型或模型應(yīng)用領(lǐng)域存在機會,比如視頻領(lǐng)域、生物技術(shù)、臨床醫(yī)學(xué)等。我認為我的基金將大部分投資于應(yīng)用方向,但目前還投資了一些基礎(chǔ)模型公司。
Elad Gil:我非常認同未來會出現(xiàn)新型模型公司的觀點,F(xiàn)今模型類型琳瑯滿目,涵蓋語言模型、語音模型、圖像/視頻/音頻擴散模型、代碼模型、生物、物理、材料科學(xué)、數(shù)學(xué)等領(lǐng)域。部分基礎(chǔ)模型將被通用模型采用,而另一些則需要在訓(xùn)練數(shù)據(jù)集和架構(gòu)方面進行微調(diào)。例如,AlphaFold并非單純基于Transformer的模型,而是采用了混合架構(gòu),盡管Transformer也在其開發(fā)中發(fā)揮了重要作用。
一些模型將會應(yīng)用到科學(xué)、機器人、醫(yī)學(xué)等領(lǐng)域。從資金角度來看,大部分投資可能會流向模型公司,因為它們資金需求更大。但從公司數(shù)量的角度來看,我預(yù)計明年我們將看到更多的應(yīng)用程序開發(fā)公司,而不是基礎(chǔ)模型公司。
03 下一波應(yīng)用浪潮是什么樣?
Michael Mignano:下一波應(yīng)用浪潮會是什么樣子?當我們談?wù)搼?yīng)用程序時,可以是傳統(tǒng)意義上的桌面應(yīng)用、移動應(yīng)用,也可以是ChatGPT這樣的大型語言模型應(yīng)用,后者是否會成為一個全新的可投資公司和產(chǎn)品領(lǐng)域?
Elad Gil:我認為在ToB和ToC領(lǐng)域都會有一些大型語言模型的應(yīng)用。我和我的小團隊做了一件事,就是將所有服務(wù)領(lǐng)域按照可被AIGC解決的程度進行了分類,并研究了每個垂直行業(yè)的人力資源支出情況。
例如,如果看整個軟件支出,根據(jù)我正在撰寫的一篇博客,在美國軟件支出總體約5000億美元,同時服務(wù)行業(yè)的人力資源支出約3.5萬億美元,這些都是我們認為可以通過生成式人工智能來解決的領(lǐng)域。即使只有5%到10%被轉(zhuǎn)化為新的商業(yè)模式,其市場規(guī)模和市值也相當于再復(fù)制了整個現(xiàn)有軟件產(chǎn)業(yè)。這包括法律服務(wù)等行業(yè),可能還有2-3家公司需要建立。各行各業(yè)都有不同的服務(wù)機會。我認為隨著GPT級別模型的不斷升級,每一個新的能力階段都將為初創(chuàng)公司開啟新的服務(wù)市常
GPT-4或許開啟了法律服務(wù)領(lǐng)域,而GPT-3尚未能做到;GPT-5可能會開啟另一個全新的領(lǐng)域,GPT-6、GPT-7又會各自開啟不同的領(lǐng)域。所以我認為,隨著模型能力的不斷攀升,對于初創(chuàng)公司來說,可進入或可利用的市場也會持續(xù)擴大。
與此同時,還有消費者層面的應(yīng)用。我團隊的David在上個季度進行了一個實驗,讓十幾個斯坦福學(xué)生以消遣的方式構(gòu)建ToC應(yīng)用。這純粹是為了好玩,沒有任何經(jīng)濟安排,我只是每周與他們會面,討論他們正在做的事情、見解、想法或認識的人等。
最終孵化出幾個不同的應(yīng)用程序,并舉辦了一個Demo Day。大家提出了一些非常有趣的思路,比如AIGC在消費者應(yīng)用領(lǐng)域可以做些什么。我認為消費者應(yīng)用在人工智能領(lǐng)域仍然是一個非常薄弱的環(huán)節(jié)。
總的來說,在整個初創(chuàng)世界,對消費者領(lǐng)域的關(guān)注度已經(jīng)很低了。差不多就是那些30多歲的創(chuàng)始人了,他們已被視為"古董"。但我認為在社交、消費等領(lǐng)域,利用人工智能做一些真正有趣的事情,仍有很大的空間。
04 誰會贏得AI:B端還是C端?
Michael Mignano:OpenAI據(jù)說大部分16億美元收入來自C端,而Midjourney據(jù)報道也有數(shù)億美元收入,顯然也是一家ToC的公司。這是否意味著AI公司的機會可能更多地存在于消費領(lǐng)域?
此外,您提到的那種為整個行業(yè)提供AI動力的ToB公司,比如人們以前認為 OpenAI會扮演的角色,也許其實現(xiàn)難度會更大。你們對此怎么看?
Sarah Guo:我認為,無論是Figma、Canva還是其他任何廣泛定義的生產(chǎn)力公司(例如涉及寫作、圖形設(shè)計、用戶體驗設(shè)計、視頻制作的工具),都將成為一個非常大的類別。這與“人力資本五代布局”中提到的“專業(yè)消費者”概念有關(guān),我認為這個概念將在未來快速發(fā)展。
AI應(yīng)用浪潮的核心在于,軟件可以做一些以前需要雇傭人力才能完成的工作。這開辟了全新的市場,例如以前需要外包給代理機構(gòu)的工作,現(xiàn)在可以直接控制和操作。我認為這對于軟件行業(yè)來說非常令人興奮。
在ToB開發(fā)方面,我認為會有更多的應(yīng)用層公司探索開發(fā)新的端到端應(yīng)用工具或新的工作流。企業(yè)可能會花很長時間去部署采用,但它們是具備這樣的意愿的。
05 提供AI服務(wù) VS 使用AI服務(wù),誰將是頭號贏家?
Michael Mignano:你可以看到一些小企業(yè)在AI幫助下變得非常非常大,非常非常成功,而無需雇用那么多人。你也可以看到新的初創(chuàng)公司正在為中小型企業(yè)構(gòu)建AI業(yè)務(wù)和產(chǎn)品。你認為哪一個機會更大?是利用人工智能做大事的小公司,還是幫助小公司AI化運作的工具和服務(wù)?
Elad Gil:我想避免夸大AI的影響力。那種認為AI會讓每個公司只留一人、所有應(yīng)用瞬間用AI重建的觀點,我認為還需要很長時間才能實現(xiàn)。雖然AI能顯著提高某些工作的效率,但大多數(shù)情況下仍然需要人類參與。例如Harvey是一個優(yōu)秀的法律工具,但不會在明年取代法律職業(yè),而是成為法律專業(yè)人士的強力幫手。隨著時間的推移,法律服務(wù)所需的團隊規(guī);蛟S會減小,但這個過程會很緩慢。
極端情況下,或許會出現(xiàn)由AI自動開發(fā)軟件的情況,甚至可能會有人質(zhì)疑創(chuàng)始人存在的必要性。但我認為人類總是傾向于高估AI對自身工作的影響,覺得除了自己的工作以外,所有領(lǐng)域都可以被AI取代。這種想法未免有些夸張。
Sarah Guo:我是Seek公司的投資者,該公司致力于自動化數(shù)據(jù)分析工作。他們開發(fā)了一款產(chǎn)品,可以讓人用自然語言向公司的結(jié)構(gòu)化數(shù)據(jù)源(如Snowflake、數(shù)據(jù)倉庫或數(shù)據(jù)庫)提問,并獲得準確答案。這不僅涉及自然語言轉(zhuǎn)SQL的問題,而是更復(fù)雜的挑戰(zhàn)。
有趣的是,他們獲得最成功案例的地方是中小企業(yè)和大型客戶,但同時也遇到了一部分分析師群體抵觸自動化。這些人對只需少量培訓(xùn)就能完成70%或80%工作的說法并不心動,認為這反而會增加他們的工作負擔。然而,對于他們的老板來說,這可能極具吸引力。
我認為銷售策略和組織內(nèi)部激勵措施都很重要。例如,小型企業(yè)通常不愿承擔過多非核心職能,他們更喜歡專注于自己喜愛的工作,而不必處理營銷、資產(chǎn)創(chuàng)建等其他事務(wù)。因此向這類客戶銷售更簡單。
總而言之,我認為經(jīng)濟因素和能力的民主化最終會戰(zhàn)勝自動化帶來的抵觸情緒。不過,值得注意的是,2023年和2022年底,我第一次看到創(chuàng)業(yè)者在人員配置方面如此注重效率。例如,我們最近投資了一位連續(xù)創(chuàng)業(yè)者,他正在研究如何用最少的人力實現(xiàn)1億美金收入,這與2019年的創(chuàng)業(yè)心態(tài)截然不同。
Elad Gil:真正的小公司(5人左右)非常忙碌,只會購買3-4個必需品,例如工資、醫(yī)療保險、稅務(wù)等(Rippling、Gusto、HubSpot等公司的出現(xiàn)就是證明)。因此,小公司并不是大多數(shù)產(chǎn)品的理想市常雖然AI可能帶來一些針對小公司的工具,但我認為目前夸大了AI對人力資本的替代作用。
隨著技術(shù)發(fā)展,這種影響會逐漸擴大,但也會有一些垂直領(lǐng)域受到的沖擊比預(yù)期更大。Midjourney就是一個例子,它在某些類型的工作上取代了人力,同時也拓展了市常隨著語言模型和擴散模型不斷發(fā)展,類似的例子會越來越多出現(xiàn)。不過,目前其他領(lǐng)域的資本效率問題可能被夸大了。
06 提供AI服務(wù) VS 使用AI服務(wù),誰將是頭號贏家?
Michael Mignano:兩位認為擁有自研基礎(chǔ)模型是否為AI公司的終極優(yōu)勢?
Sarah Guo:從當前的研究來看,對于足夠大量獨特數(shù)據(jù)進行微調(diào)和預(yù)訓(xùn)練之間的界限開始變得模糊,假設(shè)你從某個有用和重要的開源基礎(chǔ)模型開始。我認為將會有應(yīng)用層面的公司從某個具有自身護城河的基礎(chǔ)模型出發(fā),以不同的方式發(fā)展。
Elad Gil:我認為,第一波創(chuàng)始人都是希望為各種公司(包括不需要這些模型的公司)開發(fā)自己的模型的研究人員。因此,在前一波中,每家公司都籌集了2000萬至5000萬美元資金,我認為其中有一半的公司將難以取得成功,部分原因是他們將注意力集中在模型構(gòu)建上,而不是客戶需求上,本應(yīng)該專注于客戶。
當然也有一些公司很好地整合了模型,比如Anthropic。我認為,當OpenAI推出ChatGPT時,包括OpenAI自己在內(nèi),沒有人認為它會如此成功。它只是一個研究預(yù)覽,卻瘋狂般流行起來,因為它是如此了不起的創(chuàng)新。
我確實認為,第一波人將構(gòu)建自己的模型。我想會有一部分人會繼續(xù)這樣做,因為擴散模型訓(xùn)練和構(gòu)建的成本明顯低于這些非常大的語言模型。所以在圖像、視頻和音頻方面,我們可能會繼續(xù)看到這種趨勢?梢詮臄U散模型開始,進行微調(diào),最終決定隨著時間的推移訓(xùn)練自己的模型,你會看到很多團隊采取這樣的演進路徑。
而對于大語言模型,最終將在通用性、規(guī)模和性能之間展開較量,人們將在這些曲線上做出不同的權(quán)衡。在某些情況下我將使用GPT-6,因為它能為我提供強大的邏輯推理能力、可泛化的知識和完成各種任務(wù)的能力。而在其他情況下,我只需要一些小型的、高性能的東西,我可以添加一些RAG或其他東西就可以使用了。
很多應(yīng)用層公司不需要自己定制的從底層構(gòu)建的模型。而在機器人技術(shù)、科學(xué)及其不同領(lǐng)域、物理學(xué)和材料等方面,您可能會看到更多垂直整合模型的公司,這很大程度上取決于所在領(lǐng)域的特點。所以我認為,情況會有所分化。
Michael Mignano:的確。近來每周都有新的模型發(fā)布基準測試結(jié)果,聲稱自己比其他所有模型都更出色,然后一周后又有另一家公司做出類似主張。這種現(xiàn)象幾乎讓人感覺,所有模型都在朝著同一個方向收斂,我們正經(jīng)歷這種技術(shù)的商品化趨勢。因此,最重要的問題可能仍然是客戶采納度、留存率,以及回歸到最基本的問題是什么造就了一款偉大的產(chǎn)品。這是否也是你們兩位的看法?
Sarah Guo:我想談?wù)勀鷦偛盘岬降幕鶞蕼y試。目前流行的基準測試并不能真實反映模型在實際應(yīng)用中的性能,例如代碼生成模型的基準測試往往是學(xué)術(shù)研究式的,無法模擬真實開發(fā)環(huán)境的復(fù)雜性。真正衡量模型價值的方法應(yīng)該是用戶測試和實際部署,觀察用戶的使用反饋和模型帶來的實際收益。
07 聊天界面,會成為主要交互方式嗎?
Michael Mignano:我認為,所有這一切都是基于這樣一個假設(shè),那就是通過文字聊天界面與應(yīng)用程序互動,是人們希望體驗下一波應(yīng)用程序的方式。我們可以看到ChatGPT變得非常流行,這可能正是人們期待的。
另一方面,計算機發(fā)展歷史表明,人們不僅僅希望與聊天界面互動,這就是我們有圖形用戶界面、按鈕和鼠標的原因。你們兩個對此有何看法?你們認為在交互界面上與程序聊天對話是一種足夠支持全新的一批應(yīng)用存在的方式嗎?Sarah,你怎么看?
Sarah Guo:聊天界面作為應(yīng)用程序的交互方式已經(jīng)得到驗證,比如AI女友應(yīng)用的成功案例。這表明聊天界面有作為新型應(yīng)用交互方式的潛力。聊天界面是否能演變成一個操作系統(tǒng)平臺,還有待觀察。多模態(tài)界面更有可能,純聊天界面不太現(xiàn)實。
聊天界面作為自然交互方式的優(yōu)勢在于人人都會用,并且現(xiàn)在的AI技術(shù)使計算機開始理解人的意圖了。這為打造某個消費類或生產(chǎn)力工具類Killer App奠定了基矗從一個成功的旗艦應(yīng)用出發(fā),逐步衍生出一個應(yīng)用生態(tài),甚至操作系統(tǒng)平臺的可能性是存在的?刂朴布拖到y(tǒng)的一方也更有主導(dǎo)權(quán)。我對聊天界面成為主導(dǎo)交互模式保持開放態(tài)度,但它不會是唯一的交互方式。
Elad Gil:我認為會有一系列交互界面,聊天界面、多模態(tài)界面等等。GPT-3作為一個有趣的API沒有得到足夠討論,你可以用它來處理圖片和OCR,然后以不同方式使用圖片。所以我認為這對各種企業(yè)應(yīng)用、國防應(yīng)用、建筑、芯片設(shè)計都大有用處。極端情況下,未來幾年或者十年后,代理程序可能代表個人、企業(yè)進行高度自動化交互。我們自身參與的直接交互或?qū)p少。所以我認為這些會不斷發(fā)展,關(guān)鍵在于基礎(chǔ)技術(shù)能力。
從根本上說,現(xiàn)在就有一些真實奏效、用戶喜歡的交互方式,人們通常喜歡對這些進行修改、迭代,想出完全不同的范式。而事實上,人與人之間的對話交互通常都很順暢,沒有理由認為人機交互就不會這樣。
如果你還記得20世紀90年代,人們剛剛推出首批個人數(shù)字助理和智能手機原型,一直想通過手寫識別。因為他們認為人們會手寫一切。但現(xiàn)在我們只是鍵入一切。然而人們錯誤地認為大家不喜歡打字,必須手寫一切。于是他們設(shè)計了一種叫做Graffiti的語言,你必須用特定方式寫l、a、r等。因為當時機器沒有智能化到能夠識別手寫。在某種意義上這很愚蠢,在當時被認為是人機交互界面的重大突破,但現(xiàn)在它毫無用處。所以我認為在這類事物上人們常常過度思考。打字和語音交互的效果就很好。
Sarah Guo:判斷一種交互方式是否可行,需要從“是否為用戶提供便利”和“技術(shù)上是否可實現(xiàn)”兩個維度考量。舉例來說,銷售代表更新CRM記錄是一件枯燥無味的事情。如果能自動完成、減少操作步驟,用戶當然會歡迎。
雖然聊天界面可能不是萬能解決方案,但它可以簡化任務(wù),讓人們更愿意使用。例如,有人認為聊天界面很愚蠢,但他們真正擔心的可能是沒有其他數(shù)據(jù)源支持,或者缺乏多模態(tài)交互。如果聊天界面可以理解用戶的意圖,預(yù)測他們的下一步行動,并且結(jié)合其他信息,例如日程安排、會議內(nèi)容等,那么它就變得更加實用。
多模態(tài)AI助手可以創(chuàng)造非常強大的體驗。例如,在預(yù)訂旅行時,我可以通過與助手交談來選擇目的地,但我也可能想要查看預(yù)訂內(nèi)容,或者瀏覽附近景點的信息。所以多模態(tài)交互非常重要。
08 硬件 x AI
Michael Mignano:說到界面,最近我們看到很多硬件產(chǎn)品與AI結(jié)合。你們?nèi)绾慰创@種趨勢?你們認為AI會催生新的硬件產(chǎn)品嗎?或者現(xiàn)有硬件也能通過AI實現(xiàn)新的體驗?你們?nèi)绾慰创鼳I和硬件的未來結(jié)合?
Elad Gil:我在這領(lǐng)域投資已經(jīng)很久了。舉例來說,Samsara是一家非上市的農(nóng)業(yè)管理公司,他們在拖拉機等車輛上安裝硬件,為車隊提供服務(wù)。我還從Anduril公司的早期就參與了投資,這家公司專注于國防硬件與 AI、機器視覺和機器學(xué)習(xí)的結(jié)合。Square在剛開始的時候也主要是一個硬件設(shè)備。我投資他們的時候,他們還生產(chǎn)連接手機的小型讀卡器,用于刷信用卡。
所以,在某些情況下,硬件與AI的結(jié)合的確是一種強有力的能力提升方式,尤其是在與物理世界交互時,像Samsara和Anduril做的那樣。但在沒有硬件支持的情況下,我認為很多消費級應(yīng)用最終會融入現(xiàn)有的平臺。當然,也存在一些例外,比如睡眠監(jiān)測設(shè)備,它不完全依賴于手機的功能。
不過,我認為需要全新的功能,而不是僅僅做得更好。因此,短期內(nèi),我認為這些都是非常酷的實驗,我很期待它們的發(fā)展,但很多早期的迭代實際上最終會在設(shè)備本身上進行。獨立設(shè)備的功能可能會受到限制,除非它們像Anduril、Samsara、Square或其他一些公司那樣,服務(wù)于非常特定的物理功能需求。我覺得這樣才是有意義的。
不知道你還記得嗎,曾經(jīng)有個說法,會涌現(xiàn)出許多圍繞AirPods建立的企業(yè),甚至?xí)霈F(xiàn)專門的“AirPods 公司”。但事實證明,這很難做到。問題在于,真正的功能增益是什么?你能從中創(chuàng)造什么價值?我個人覺得,有些事情有時是媒體炒作,最終并沒有太大成果。就好像當年Instagram剛出現(xiàn)時,也有好幾家不同的照片上傳應(yīng)用公司,但只有Instagram真正做到了極致。所以,我不禁懷疑,其中一部分會不會只是炒作浪潮,雖然可能為未來埋下一些有趣的種子,但最終不會真正轉(zhuǎn)化為有價值的產(chǎn)品。
Michael Mignano:Sarah,如果你也同意這個觀點,那么我們接下來可以討論一下,AI如何在現(xiàn)有硬件平臺上創(chuàng)造全新的用戶體驗。以Uber為例,如果沒有 GPS,它就不可能存在,即使當時的手機上有各種應(yīng)用。同樣,Instagram也是相機技術(shù)發(fā)展的結(jié)果,才得以誕生。那么,隨著AI的發(fā)展,我們是否會在現(xiàn)有平臺上看到全新的應(yīng)用類型,這些應(yīng)用只有借助AI的力量才能實現(xiàn)?這些應(yīng)用又會是什么樣的呢?
Sarah Guo:我認為這些新應(yīng)用的出現(xiàn)既是必然的,也難以準確預(yù)測具體形式。就像CRM的例子一樣,人們因為看到過不成熟的版本而對技術(shù)失去信心,導(dǎo)致很難想象未來會是什么樣子。比如跨應(yīng)用操作,如今的相關(guān)指令并不完善。
從用戶的角度來看,另一個問題是,新硬件是否應(yīng)該為用戶服務(wù),還是僅僅為了訓(xùn)練模型而收集設(shè)備數(shù)據(jù)?如果想要創(chuàng)造新的體驗,是否真的需要新硬件?當然,如果提供給用戶新的硬件功能,并擁有現(xiàn)成的用戶基礎(chǔ),那么肯定會催生新的應(yīng)用。但這也是個先有雞還是先有蛋的問題,關(guān)鍵在于找到Killer App。
您提到的一些例子,例如電池管理、傳感器、權(quán)限管理以及上下文智能,可以幫助實現(xiàn)更好的體驗,這的確是支持新硬件的一個重要論據(jù)。眼鏡、聽覺設(shè)備等可能成為未來的新形態(tài),關(guān)鍵在于如何以新的或現(xiàn)有的形式獲取數(shù)據(jù)和信息。但是,現(xiàn)有的生態(tài)系統(tǒng)能否支持這些新的應(yīng)用和硬件也是一個難題。總而言之,這是一個非常復(fù)雜的問題。
Elad Gil:我想再分享兩個例子,我認為它們非常值得關(guān)注。第一個是機器人領(lǐng)域。最近幾周,關(guān)于機器人研究的論文層出不窮,其中一些將機器人技術(shù)與標準深度學(xué)習(xí)方法結(jié)合,令人興奮。我認為,將更多標準深度學(xué)習(xí)技術(shù)應(yīng)用于機器人領(lǐng)域,將大大提升其能力。第二個領(lǐng)域是自動駕駛。它同樣融合了機器人、硬件等多方面技術(shù)。我相信,隨著我們將基礎(chǔ)模型應(yīng)用于這些物理世界領(lǐng)域,并開發(fā)專門的硬件,這些領(lǐng)域?qū)⑷〉蔑@著發(fā)展。不過,消費類硬件設(shè)備當下還并不具備發(fā)展之勢。
09 Web3會是驗證真實性的途徑嗎?
Michael Mignano:最近,許多公司和個人都在討論Web3的Killer App之一可能與AI和內(nèi)容真實性密切相關(guān)。例如,投資人Fred Wilson和Scott Banister都曾提及過這個觀點。隨著像Pika、Midjourney等公司不斷推出生成各種媒體形式的模型,這些模型全部基于其他原始媒體進行訓(xùn)練。未來,我們需要一種方法來追蹤這些內(nèi)容的真實性和來源,以建立一個公平的權(quán)利結(jié)構(gòu)。Web3可能成為實現(xiàn)這一目標的途徑。那么,您二位如何看待這一點?你們認為Web3和AI有哪些潛在機遇?
Sarah Guo:從可用性角度來看,要讓那些擁有IP的創(chuàng)作者和企業(yè)利用Crypto技術(shù)去進行內(nèi)容溯源距離實際應(yīng)用還有一定的距離,但從技術(shù)可行性上來看,這似乎是一個可實現(xiàn)的解決方案。
Elad Gil:我一直認為,區(qū)塊鏈將成為一種身份認證形式,不僅可以用于內(nèi)容溯源,還可以用于驗證代理的身份和資格。如果一個代理聲稱代表你,你怎么知道它確實代表了一個特定的個體?它能否以安全的方式部分展示該個體的數(shù)據(jù)或某些方面的信息?這可能是你的醫(yī)療數(shù)據(jù),可能是關(guān)于你是誰的某些方面。這是一個我長期以來一直感興趣的領(lǐng)域。我曾在播客中采訪過Illia Polosukhin,他是Transformer論文的最后一名作者。我還在加拿大與他進行了一次閑聊。我認為這些概念真的很有意思,但它們的發(fā)展可能需要一段時間。
從內(nèi)容溯源角度來說,我認為情況會略復(fù)雜一些。比如,假設(shè)你的數(shù)據(jù)集中已經(jīng)包含了大量類似梵高風格的衍生藝術(shù)作品。即便你從數(shù)據(jù)集中移除所有原始的梵高作品,由于數(shù)據(jù)集中仍保留了足夠多“梵高風格”的訊號,模型訓(xùn)練的結(jié)果依舊不會受很大影響。
而且,這些衍生作品從版權(quán)或使用許可的角度來說也不構(gòu)成任何侵權(quán)。我認為在討論內(nèi)容來源和證明方面,人們沒有充分考慮這些情況。事實上,你可以移除所有知名藝術(shù)家的原創(chuàng)作品,但這對模型的訓(xùn)練影響不大,因為這種風格的作品已經(jīng)“內(nèi)化”到數(shù)據(jù)集中。在圖像生成方面,我認為它比人們想象的要復(fù)雜得多,在某種程度上也更難去保護某些藝術(shù)家,因為他們風格的衍生創(chuàng)作已經(jīng)廣泛存在。
10 AI監(jiān)管將走向何方?
Michael Mignano:美國國會已經(jīng)開始討論AI訓(xùn)練的合法性問題。雖然我們都不是該領(lǐng)域的專家,但我們可以談?wù)勎覀儗@個問題的看法。從理論上講,我認為AI訓(xùn)練是合理的,因為它是機器學(xué)習(xí)的一種方式。我們?nèi)祟愐彩峭ㄟ^閱讀、學(xué)習(xí)和模仿來進行創(chuàng)作的,為什么機器不能這樣做呢?您二位認為AI訓(xùn)練的合法性將會如何演變?
Sarah Guo:這是一個政治性問題,所以它取決于哪一派是當權(quán)者。但是,我認為只要對模型的輸出設(shè)置一系列的保障措施,那么AI訓(xùn)練是合理使用的觀點就站得住腳。
我認為人們會在應(yīng)用層面和經(jīng)過驗證的輸出能力層面上去參與這些斗爭。這是正確的著手點。正如Elad所說,基于區(qū)塊鏈的技術(shù)的另一個核心用例是低成本地實現(xiàn)微交易。這方面仍有工作要做。Ilia說的一件事仍然讓我記憶深刻,那就是模型訓(xùn)練繼續(xù)進步的障礙之一是收集我們還沒有的數(shù)據(jù),并讓人們貢獻這些數(shù)據(jù)。對此,有抵御濫用的數(shù)據(jù)貢獻、標記和交易系統(tǒng)將非常有價值,這聽起來像是一個身份和信譽系統(tǒng)。如果能解決這個問題,我認為它會非常有價值。