人類正在迎來人工智能領(lǐng)域的爆炸式更新,技術(shù)向未知拓展的每一步,幾乎都引起驚人的關(guān)注度。
在人工智能邊界擴(kuò)張的過程中,重要賽道的技術(shù)路線創(chuàng)新與分歧并存。技術(shù)先鋒者的判斷和選擇,影響著眾多跟隨者的腳步。
過去一年,機(jī)器之心獨家率先將月之暗面、生數(shù)科技、愛詩科技、無問芯穹等優(yōu)秀公司介紹給大家,為他們在互聯(lián)網(wǎng)世界留下了第一份 “萬字訪談底稿”。在技術(shù)路線尚未收斂的階段,我們看到了到真正擁有信念、勇氣以及系統(tǒng)化認(rèn)知的 AI 創(chuàng)業(yè)者的引領(lǐng)力量。
因此,我們推出 “AI Pioneers” 的專欄,希望繼續(xù)尋找和紀(jì)錄 AGI 時代人工智能各細(xì)分賽道具有領(lǐng)袖氣質(zhì)的創(chuàng)業(yè)者,介紹 AI 賽道最出眾、高潛的創(chuàng)業(yè)公司,分享他們在 AI 領(lǐng)域最前沿、鮮明的認(rèn)知。
作者:姜菁玲
機(jī)器之心報道
具身智能已經(jīng)成為人工智能領(lǐng)域最值得期待的一大賽道之一。現(xiàn)在,智能機(jī)器人已經(jīng)可以自主實現(xiàn)咖啡拉花、搬箱子、疊被子,甚至能夠像人與人一樣通過自然語言交互,理解人類的意圖并做出調(diào)整。
國內(nèi)外眾多科技公司正在推動機(jī)器人變得更加 “智能”,希望它最終可以完成各種任務(wù),能與環(huán)境交互感知,擁有自主規(guī)劃、決策、行動、執(zhí)行能力。
但以終為始,什么樣的路徑才有可能推動具身智能產(chǎn)品抵達(dá)如此高度的智能?
近期,機(jī)器之心對清華系具身智能公司「星海圖」進(jìn)行了訪問。
星海圖 CEO 高繼揚提出了他們的路徑想法:對現(xiàn)階段的具身智能產(chǎn)品而言,代表智能的 “大腦” 比代表執(zhí)行的 “身體” 更為重要。如果要抵達(dá)具身智能的終局,需要針對具體場景推出合適的產(chǎn)品,完成商業(yè)閉環(huán),從而得到更多來自物理世界的數(shù)據(jù),最終不斷提高機(jī)器人的 “智能” 程度。
這個說法主要區(qū)別于行業(yè)中存在的兩種其他觀點:1、機(jī)器人的 “身體” 比 “大腦” 重要;2、應(yīng)該盡可能直接做一個完整的人形機(jī)器人,用它應(yīng)對大部分場景需求。
需要解釋一下的是,到目前為止,在行業(yè)內(nèi)人形機(jī)器人仍是一個模糊、寬泛的概念,對它最狹義的定義是完全模仿人類的模樣的機(jī)器人 有雙足、雙腿、軀干、頭肩、雙臂、靈巧手。
星海圖認(rèn)為,在具身智能產(chǎn)品設(shè)計中,并非所有人類構(gòu)型都具備通用性和效率,比如雖然 “雙臂” 和 “軀干” 具備,但 “雙足” 結(jié)構(gòu)并不具備。因此,他們提出,應(yīng)該從具體的需求出發(fā),針對場景去做滿足需求的高自由度關(guān)節(jié)型機(jī)器人,完整人形有時是不必要的。
同時,這樣高度場景化的產(chǎn)品策略,可以機(jī)器人盡快實現(xiàn)商業(yè)化落地,盡快地從物理世界拿到更多數(shù)據(jù),實現(xiàn)飛輪效應(yīng),更高效率地提升機(jī)器人的 “智能” 水平。
星海圖提出了他們的 “一腦多形” 的愿景,他們認(rèn)為,未來,具身智能產(chǎn)品能夠?qū)崿F(xiàn)用一個智能去匹配不同場景下需要的各種形態(tài)的機(jī)器人,而完整人形只是其中的一個可能。
星海圖成立于 2023 年 5 月,四位聯(lián)合創(chuàng)始人中,三位出身于清華大學(xué),除 CEO 高繼揚畢業(yè)于清華大學(xué)電子系,聯(lián)合創(chuàng)始人還包括清華大學(xué)交叉信息學(xué)院助理教授、MARS Lab 主任趙行,以及清華大學(xué)交叉信息學(xué)院助理教授、清華大學(xué)具身智能實驗室主任許華哲。
星海圖 CEO 高繼揚曾以 3.5 年時間完成美國南加洲大學(xué)計算機(jī)視覺博士學(xué)業(yè),成為 USC IRIS Lab35 歷史中最短畢業(yè)用時者。博士畢業(yè)后,高繼揚先后在自動駕駛公司 Waymo 與 Momenta 工作。星海圖另一位聯(lián)合創(chuàng)始人李天威同樣來自 Momenta 公司。
目前,星海圖已完成千萬級美元的融資,參與投資的機(jī)構(gòu)包括 IDG 資本、無限基金 SEE Fund、BV 百度風(fēng)投、金沙江創(chuàng)投、七熹投資。
1. 從自動駕駛到具身智能
機(jī)器之心:你個人的職業(yè)經(jīng)歷主要在自動駕駛領(lǐng)域,為什么在去年會想要開始在具身智能領(lǐng)域創(chuàng)業(yè)?
高繼揚:我讀博士是做計算機(jī)視覺的,然后畢業(yè)之后在 Google 的無人車公司 Waymo 工作兩年多,后來回國在 Momenta 干了大概 2 年。
我覺得,其實對于我們這一批人來說是一個自然而然的選擇?赡軐τ谕饨绲娜藖碚f,好像自動駕駛和具身智能是兩件事,但其實是一件事。
我博士畢業(yè)以后,想做的是 “AI + 機(jī)器人”。而車其實也是機(jī)器人的一種,可以理解為自動駕駛是具身智能在公開道路上的一個應(yīng)用而已。以特斯拉為代表的自動駕駛公司所做的這一套 FSD 的自動駕駛技術(shù)架構(gòu)方案,其實跟未來具身智能會用到的技術(shù)架構(gòu)基本上是一致的。
然后對于創(chuàng)業(yè)這件事,其實我早就計劃好了。應(yīng)該是我大學(xué)的時候就想,一直琢磨到底干啥,就是屬于我這一代人的機(jī)會到底是什么。我上大學(xué)那會兒 11~15 年是移動互聯(lián)網(wǎng)最風(fēng)生水起的那段時間,當(dāng)時看著互聯(lián)網(wǎng)巨頭覺得很牛逼,但也明顯地感覺到互聯(lián)網(wǎng)不是我這一代人的機(jī)會。
直到大四的時候開始接觸到 AI 深度學(xué)習(xí),我覺得這個東西特別好、有前途,而且我自己也很感興趣,覺得這是能夠徹底改變世界的,因為它跟互聯(lián)網(wǎng)不一樣,互聯(lián)網(wǎng)是改變了生產(chǎn)關(guān)系,而 AI 讓生產(chǎn)力再次得到提高。
所以后來就去做這個方向的博士研究。Waymo 和 Momenta 的兩段經(jīng)歷讓我覺得自己為創(chuàng)業(yè)的準(zhǔn)備基本已經(jīng)做好了,第一有足夠的技術(shù)積累,然后產(chǎn)品怎么做,團(tuán)隊怎么管理,都有一定的經(jīng)驗了。我覺得就在那個時間點,內(nèi)部環(huán)境和外部都 OK 了。23 年 5 月我就提了離職,6 月底正式離職,然后 8 月初開始融資,11 月份首輪融資就完成了。
機(jī)器之心:離開 Waymo 和 Momenta 的原因分別是什么?
高繼揚:我很感謝 Waymo 教了我很多東西,比如用 AI 做機(jī)器人的大框架、思維方式、工程體系。不過 Waymo 當(dāng)時在做的 L4 級別的自動駕駛有一個很大的問題 也就是 AI 產(chǎn)品的失效成本問題,這也是我們后來決定創(chuàng)業(yè)的商業(yè)根基。
我們認(rèn)為,任何一個以 AI 作為核心驅(qū)動力的產(chǎn)品或商業(yè)模式背后都是 4 個要素的循環(huán),商業(yè)價值、數(shù)據(jù)規(guī)模與質(zhì)量、智能程度、產(chǎn)品力。這 4 個要素能夠循環(huán)起來,這個產(chǎn)品就能夠產(chǎn)生運營剩余。什么叫運營剩余?就是它單次失效的成本小于兩次失效之間的收益,這個就算有剩余了。
簡單來說就是要有用。舉一個具體例子,比如 Robotaxi,假設(shè)它失效一次,我們給他算算成本是多少。如果發(fā)生碰撞,大概損失的量級會在 10 萬人民幣浮動。按現(xiàn)在網(wǎng)約車司機(jī)大約一公里賺 1 塊錢去計算。如果說自動駕駛要 “有用”,那意味著這個車需要能夠連續(xù)無事故地開大于 10 萬公里,才能把兩次 “失效” 下的收益做正。
這個失效成本太大了,這也是為什么 Robotaxi 自動駕駛搞這么多年搞不成的原因。這也是我 2020 年下半年離開 Waymo 準(zhǔn)備回國的一個主要原因,我覺得它的商業(yè)模式和 AI 的發(fā)展規(guī)律是背道而馳的,因為產(chǎn)品的失效成本控制不下來。
后來我加入了 Momenta 去做量產(chǎn),我覺得量產(chǎn)可以控制整個產(chǎn)品的失效成本。因為 Momenta 是 L2 模式,Waymo 是 L4,從法律的角度來講,L2 的責(zé)任在人,L4 的責(zé)任在車,所以兩者的失效成本是不一樣的。
后來我在 Momenta 先后負(fù)責(zé)了感知規(guī)劃控定位,包括整個的泊車系統(tǒng)、行車系統(tǒng)。這個過程里,我覺得確實是解決了失效成本的阻礙了,但是它又有新的問題,數(shù)據(jù)自主權(quán)。
一個 AI 公司的發(fā)展需要依靠數(shù)據(jù),沒有數(shù)據(jù)就沒有智能,但數(shù)據(jù)的獲取成本和渠道是非常重要的兩點。這個方面上,目前模式下的自動駕駛軟件供應(yīng)商其實是不太有利的。你去跟車廠去合作,在過程里面數(shù)據(jù)能不能回來,這里邊有一點博弈的關(guān)系。
所以這也是為什么我們做具身智能,我們強調(diào)的兩個基本原則:第一個就是特別關(guān)注產(chǎn)品失效成本,因為這是你商業(yè)模式能成立的前提。第二個就特別關(guān)注數(shù)據(jù)的獲取成本,因為數(shù)據(jù)獲取成本如果居高不下的話,(AI)轉(zhuǎn)不起來對吧?
然后在這個基礎(chǔ)之上,我們要軟硬件一體。AI 永遠(yuǎn)是核心競爭力,將 AI 核心能力搭載在一個硬件產(chǎn)品上面交付給使用者,直接向終端的使用者建立閉環(huán)商業(yè)閉環(huán),我們才有可能掌握數(shù)據(jù)自主權(quán)。
所以這也是過去這兩段經(jīng)歷給我的啟發(fā),就是要關(guān)注失效成本和數(shù)據(jù)成本。你看 ChatGPT 為什么能成,因為它的失效成本僅僅只是浪費了用戶 20 秒時間,失效成本很低,同時它的數(shù)據(jù)成本也是低的,大量的數(shù)據(jù)都是來自互聯(lián)網(wǎng)。這兩點也是我們在做具身智能場景選擇和產(chǎn)品設(shè)計的底層邏輯。
2. 一腦多形,人形不是唯一答案
機(jī)器之心:基于上面兩種原則,你們首先選擇的場景和產(chǎn)品是什么?
高繼揚:具體的場景和產(chǎn)品我們會在下半年正式去介紹。但我們的目標(biāo)是明確的,是端到端地去提供某些藍(lán)領(lǐng)勞動力崗位的供給。
什么叫端到端?我們拆解任意一個崗位,它都由多個任務(wù)去構(gòu)成,比如說做奶茶的,它會包括打奶昔、搖晃制作、遞給客人、跟客人做溝通等一系列任務(wù)。
那一個具身智能型的機(jī)器人產(chǎn)品有商業(yè)價值,是因為他把這個崗位給完整的替代掉了。在商業(yè)社會里面,人是崗位的勞動力供給,崗位是任務(wù)的集合體。所以在這個里面我們就強調(diào)的是,瞄準(zhǔn)這個現(xiàn)實世界商業(yè)社會當(dāng)中的崗位,然后做能夠去端到端替代的機(jī)器人產(chǎn)品。
我們做具身智能不去創(chuàng)造 PMF(Product Market Fit,產(chǎn)品市場匹配),因為 PMF 遍地都是。對于藍(lán)領(lǐng)崗位,我們端到端的任務(wù)替代率越高,我的商業(yè)價值就越大。未來的具身智能體與人類融合后構(gòu)成的世界,肯定會創(chuàng)造出新的工作流程和配合方式,不僅僅是對現(xiàn)有工種的替代,這個新世界的豐富性可能超過了我們所有人的想象。
機(jī)器之心:具體打算怎么切入?
高繼揚:相對于靠腦力吃飯的 “白領(lǐng)”,藍(lán)領(lǐng)更多依靠通過體力勞動改變物理世界,比如服務(wù)員、外賣員、工廠里面的工人。藍(lán)領(lǐng)的工種很多,范疇很大。
至于第一步選什么工種去做,這里面有很多要素去考慮。在現(xiàn)在的商業(yè)化上,我們不會直接去懟狹義的人形機(jī)器人,當(dāng)然它會是具身智能未來的重要形態(tài)之一。
如果說為什么國內(nèi)很多公司在做人形機(jī)器人,我認(rèn)為他們在 follow 一個基本邏輯,那就是因為 Elon Musk 在做。但你問他們?yōu)槭裁刺厮估,為什么馬斯克做,最后基本說不出來一個一二三。這個就意義不大。
這里面有一個很基本的點,很多人形機(jī)器人公司忽略了特斯拉的起點和終點。特斯拉的起點是什么?第一它不缺錢,第二,它在智能車上面迭代出了完整的智能系統(tǒng),剛才我說的自動駕駛是具身智能的一個應(yīng)用,它現(xiàn)在通過這一個應(yīng)用把大腦總結(jié)迭代出了一部分,這個重要基礎(chǔ)是別的公司不具備的。
而我們?nèi)タ催@個基礎(chǔ)要迭代出來需要花多少錢?10 億美金,F(xiàn)在我就不具體點名國內(nèi)這些融的最猛的具身智能公司融到 10 億美金了嗎是吧?這個就是沒有特斯拉的起點。
然后第二個就是沒有特斯拉的終點。(現(xiàn)在這些機(jī)器人)在工廠里邊做線束裝配等等,這些應(yīng)用會是特斯拉做人形機(jī)器人的終點嗎?不,只是它的路徑而已。它的終點是,馬斯克為了要實現(xiàn)火星移民,最終要把機(jī)器人放到火星這種完全陌生的環(huán)境里,人形是最有通用性的,這沒問題。
可是我們面對的世界是什么?我們面對的世界是經(jīng)過人類改造的世界,是人這個靈長類動物的基因在大自然環(huán)境下強化學(xué)習(xí)的結(jié)果,對吧?如果機(jī)器人在咱們這個世界里邊再強化學(xué)習(xí)一遍,還會是一樣的結(jié)果嗎?我覺得畫一個大大的問號。
機(jī)器之心:你的意思是,其實不需要(完整)人形就可以做那些事情?
高繼揚:對,還是回到需求。人之所以有 “人” 這個形是為了開始適配大自然的環(huán)境,可以去改造大自然。但我們現(xiàn)在面對的環(huán)境已經(jīng)是人類改造過的社會環(huán)境。在這個社會環(huán)境里的一系列的需求,我們應(yīng)該去思考什么形可以滿足它。事實上,只要它有足夠大的商業(yè)價值,算法進(jìn)入了工程階段我們就可以去做它。
我們認(rèn)為,如果是圍繞需求去做產(chǎn)品設(shè)計的話,那最終的本體應(yīng)該是一個高自由度的關(guān)節(jié)機(jī)器人,人形可能是其中一種,但不會是唯一一種。
也就是說,具身智能的未來應(yīng)該是 “一腦多形” 的,可能最終會出現(xiàn)的形式是,一個通用具身智能基礎(chǔ)模型,然后能夠適配到不同構(gòu)型的身體上,可以對應(yīng)解決現(xiàn)實世界的各種需求場景。
而在這個路徑往前走的過程里面,對于具身智能公司來說,本體不應(yīng)該是目的,而是手段。
機(jī)器之心:你們認(rèn)為其實有價值的具身智能可能有很多形。選擇 “先不懟人形” 的理由是什么?
高繼揚:這里邊涉及一個更基礎(chǔ)的問題要去分析:構(gòu)成具身智能產(chǎn)品的兩個部分,機(jī)電系統(tǒng)和智能系統(tǒng),什么是更重要的?有些公司在這個點上可能還在爭論,但我們的結(jié)論很清晰,就是智能系統(tǒng)。
人形機(jī)器人在沒有智能的情況下,它就是一堆鐵疙瘩。而假設(shè)智能的部分由人代替,一個人去遙控機(jī)械臂,我們可以做非常多任務(wù)。因此,具身智能產(chǎn)品的關(guān)鍵不在硬件而在于智能。
而如何產(chǎn)生智能,核心就是又回到咱們剛才說的把 4 要素循環(huán),然后運營剩余時效成本就這一套。對,所以關(guān)鍵就是要選好你的商業(yè)閉環(huán)場景。通過足夠便宜的本體,實現(xiàn)良好的商業(yè)閉環(huán),然后降低數(shù)據(jù)獲取成本,推動算法進(jìn)入規(guī)模化階段,實現(xiàn)智能的提升。
但你會發(fā)現(xiàn)狹義的人形機(jī)器人是不符合這個鏈路的,它是一個死循環(huán)。如果你直接去做人形,很現(xiàn)實的問題馬上就來了,因為人形成本高,意味著我進(jìn)入商業(yè)場景的門檻就高,對吧?大家付不起。那么,沒有商業(yè)閉環(huán)就沒有數(shù)據(jù)閉環(huán),所以就沒有智能。
我們需要找到一條破解這個死循環(huán)的路徑。人形機(jī)器人未來大概率會真的進(jìn)入到人類社會,但是這個是目標(biāo),我們現(xiàn)在要關(guān)注的是這個路徑應(yīng)該長成什么樣,如何實現(xiàn)這個目標(biāo)。所以這就是為什么剛才我說,對于一個具身智能公司來說,形是手段,而目的應(yīng)該是發(fā)展智能。
機(jī)器之心:之后可能會去做人形機(jī)器人嗎?
高繼揚:如果說,我們看任何行為它是手段,它不是目的。既然是手段,我們就要審時度勢了。未來當(dāng)機(jī)電系統(tǒng)的足夠成熟,智能系統(tǒng)已經(jīng)非常的發(fā)達(dá)了,我覺得人形可能是一個還蠻不錯的選擇。但是當(dāng)機(jī)電系統(tǒng)不夠成熟的時候,它的邊際成本還沒有降下來的時候,2024 年這個時候可能它就不是一個正確答案。
3. 商業(yè)閉環(huán)驅(qū)動智能發(fā)展
機(jī)器之心:那你們的答案是什么?在 2024 年。
高繼揚:我們會認(rèn)為,具身智能需要為人服務(wù)、跟人生活在一起,最終要超過人,這是具身智能發(fā)展的主旋律。在無人的環(huán)境里我們不需要智能,需要的是自動化。
那商業(yè)是什么,就是有用的打敗無用的,高效地打敗低效的,謙虛的打敗驕傲的。我們要思考的就是,在這個地方我們到底有沒有需求,滿足需求的最好方法是什么。我們很多問題都會有答案。
機(jī)器之心:具體一點呢?
高繼揚:我們初步的答案會是針對元場景研發(fā)的具有移動能力的操作型機(jī)器人(Mobile Manipulator)。機(jī)器人分為移動和操作兩個維度,如果把動作看作一個平面,那這就是一個 X 軸一個 Y 軸。拆完之后,你會發(fā)現(xiàn)大量的問題還是科學(xué)問題,只有少部分問題是工程問題,我們做產(chǎn)品的話,我們不能帶著科學(xué)假設(shè)去做產(chǎn)品設(shè)計,這會是有巨大風(fēng)險的。
機(jī)器之心:什么是科學(xué)問題,什么是工程問題?
高繼揚:工程問題是前面這個路徑已經(jīng)很清晰了,我就往前干往前走,我一定有結(jié)果,這叫工程問題。科學(xué)問題是什么?現(xiàn)在我面前有 5 條路,可能還有第 6 條路我不知道,哪條路能幫我走到終局我也不清楚,我得先試一試搞一搞看一看,這就叫科學(xué)問題。
我們不能在有科學(xué)問題的情況下,把這種納入產(chǎn)品設(shè)計的過程里面,這對于一個初創(chuàng)公司來說會是一個巨大的成本巨大化,風(fēng)險非常大,這是在賭,賭你不知道你會贏還是輸。在認(rèn)知不清晰的情況下,這不是一個好的選擇。
機(jī)器之心:好的選擇是什么?
高繼揚:好的選擇是我的產(chǎn)品一定是有技術(shù)空間和商業(yè)空間的可行性。
第一、技術(shù)上,所有的算法要素要進(jìn)入工程階段,不能帶著科學(xué)的問題做產(chǎn)品策劃。
第二、商業(yè)上存在巨大的需求空間,能夠完全端到端去替代某一個藍(lán)領(lǐng)崗位。你不要跟我說這 30% 機(jī)器做,那 70% 人做,這種到了商業(yè)社會都搞不通了。第三個,就是成本三年左右的時間進(jìn)入到可控階段,跟人能對比。第四,能夠支持最大化去在物理世界采集數(shù)據(jù)用來數(shù)字化。
ChatGPT 能做出來,是因為他們花了 20 年的時間,通過互聯(lián)網(wǎng)把人的知識數(shù)字化了,但是對于具身智能行業(yè),我們對于物理世界的數(shù)字化,還沒有人在做。
所以我們說,具身智能,它是物理世界的數(shù)字化和智能化交替進(jìn)行協(xié)同發(fā)展的一個過程,這跟大語言模型還不太一樣。以剛才這 4 條因素,就是我們?nèi)プ霎a(chǎn)品選擇和定位設(shè)計時候的關(guān)鍵 4 條。如果說你用這 4 條去卡一下的話,會發(fā)現(xiàn)現(xiàn)在大量的市面上的這些公司都會可能有這樣那樣的問題。
機(jī)器之心:跟大語言模型的智能相比,機(jī)器人的智能區(qū)別是什么?
高繼揚:不太一樣,大語言模型的智能是說機(jī)器人的理解能力,具身智能解決的是機(jī)器人的執(zhí)行問題。一個是理解,一個是執(zhí)行,執(zhí)行是眼睛,移動是操作,理解的話更多是邏輯思維。
我們看大語言模型和具身智能的關(guān)系,第一個大語言模型會這個在具身智能在邏輯層的推理理解面起到很大的幫助。同時具身智能也會是未來多模態(tài)大語言模型最重要的數(shù)據(jù)入口,因為互聯(lián)網(wǎng)上的數(shù)據(jù)就這么多,真正的數(shù)據(jù)還得來自物理世界。
機(jī)器之心:具身智能的 L0 到 L3 分別是怎么樣的?
高繼揚:如果是對操作分級的話,我們一個基本的分級就是從操作的觀測、操作的對象和操作結(jié)果去看。操作觀測有沒有遮擋(比如從抽屜拿一個東西出來,是有遮擋的)、操作對象是否是柔性對象,操作結(jié)果的精度夠不夠。在這三個維度做累加,去構(gòu)成 0-3 的級別。
比如,L0 級別的,是簡單的拿東西、放東西。L1 級別,疊衣服,因為它是一個柔性對象,(對機(jī)器人)有一定的精度要求,但精度可能沒有那么高。L2 級別,可能是畫油畫、捏橡皮泥;L3 最后集大成的場景比如是通用烹飪,從切菜、到炒,到裝盤,機(jī)器人需要面臨過程中的環(huán)境劇烈變化。炒完之后把它裝到盤子里,最后用筷子嘗。現(xiàn)在還是 L1 級別。
機(jī)器之心:目前整體上行業(yè)的水平還在什么階段?在移動和操作兩個維度呢?
高繼揚:L1 附近。移動方面,機(jī)器人已經(jīng)基本解決了對困難地形的通過和復(fù)雜場景規(guī)劃方面的問題,通用移動這件事已經(jīng)馬上要來了。意思是,即使前面的路再亂再復(fù)雜,可能又是臺階又是水坑,機(jī)器人都能邁的過去。
但是操作這個里邊有大量問題沒解決。它是一個階梯式上升的過程。在階梯式上升的步驟里面,我們需要設(shè)計不同的商業(yè)閉環(huán),推動它一步一步向上走。通過商業(yè)閉環(huán),去做數(shù)據(jù)閉環(huán),有了數(shù)據(jù)閉環(huán),去發(fā)展智能。有了 L0 級別的智能,再往 L1 和 L2 級別的往上走。
機(jī)器之心:你們的第一個商業(yè)閉環(huán)設(shè)計在哪里?
高繼揚:我們會在今年下半年做披露。我們認(rèn)為現(xiàn)在已經(jīng)是一個被新技術(shù)打開了新的供需關(guān)系的局面,而創(chuàng)業(yè)公司所競爭的,也并不是技術(shù)制高點,而是新技術(shù)打開的新供需關(guān)系。而技術(shù)只有在有供需關(guān)系的時候,它才是一個有價值的東西,不然它就是實驗室 demo。
具身智能也需要落地,回到剛才的邏輯,具身智能需要數(shù)據(jù),數(shù)據(jù)需要商業(yè),商業(yè)需要落地。每天在實驗室里搞 demo 的人,公司是不可能走到底的,因為它違背了 AI 的兩個基本規(guī)律,第一個數(shù)據(jù)獲取的成本夠不夠低,第二個產(chǎn)品失效的成本夠不夠低。如果這兩個基本規(guī)律你沒有滿足,你永遠(yuǎn)不會有突破,永遠(yuǎn)是一個實驗室。
機(jī)器之心:你說到需要落地。而人形機(jī)器人有些產(chǎn)品能做出來,但是沒有辦法落地,因為它的邊際成本太高了。你們場景下機(jī)器人的邊際成本是怎樣的?
高繼揚:我只能先宏觀的來說。首先邊際成本初期看有兩部分,就是這個場景下的失效成本和硬件成本,但最終看的只有一部分,也就是只會有硬件的邊際成本。因為具身智能的關(guān)鍵就在于通用泛化,通用和泛化在經(jīng)濟(jì)上的表達(dá)就是邊際成本無限期限于 0。
所以這就是說按這個東西需要一個過程,我們在這個過程里面要保證的是什么?發(fā)展的過程當(dāng)中,數(shù)據(jù)和智能的這部分邊際成本要有效的做累積,轉(zhuǎn)化到我們研發(fā)的固定成本上面去,然后最終我們剩下的就是場景下硬件的邊際成本。
另外的方面,產(chǎn)品的成本一定程度上還取決于在場景里創(chuàng)造的價值。如果說客戶能為這個場景付 100 元,那么我 80 元的成本就是低的,如果這場景我只能付 10 塊錢,我 20 塊錢都嫌高。
所以硬件的成本還取決于在場景里面創(chuàng)造的價值。在這方面,中國市場有一個獨特的挑戰(zhàn),那就是人工太便宜。所以對于具身智能公司來說,出?赡苁潜仨毜。
機(jī)器之心:現(xiàn)在你們覺得具身智能賽道它的技術(shù)路線是分散的還是收斂的?
高繼揚:挺分散的。因為腦、形、還有產(chǎn)品商業(yè)化其實它不是割裂的,它是一個融合在一起的東西。腦要和形配合,腦加形才是產(chǎn)品。然后適配什么樣的場景,如果處理好失效成本,數(shù)據(jù)獲取成本這些東西。所以我覺得這個事最后能做成,它不是單點的,一定是這些東西你都想清楚了,然后找到一個好的目標(biāo)才可以。
但是大家現(xiàn)在對于這個事兒可能就是說認(rèn)知不一樣,形成的路徑也不一樣,做的產(chǎn)品也不一樣,所以你很難講說大家現(xiàn)在有收斂的結(jié)果。
機(jī)器之心:對于具身智能落地的場景,以及什么樣的技術(shù)路徑去匹配這樣的場景,這些問題都沒有一個比較共識的答案?
高繼揚:如果有共識的話也不需要創(chuàng)業(yè)了,大公司就搞了,是吧?創(chuàng)業(yè)其實就是說因為有非共識,大家的觀點不一樣是吧?然后同時正確的觀點又掌握在少數(shù)人手里邊,這就是機(jī)會。
4. 相信的場
機(jī)器之心:成立至今,一腦多形的路線想法,有沒有遇到一些挑戰(zhàn)?
高繼揚:我們這個路線肯定是有挑戰(zhàn)的。因為跟特斯拉不一樣,跟主流的人形機(jī)器人不一樣。不過,這其實既是我們的挑戰(zhàn)也是我們的機(jī)會。如果我們能夠重新在這個市場上幫助大家建立一些認(rèn)知,我們會收獲一批相信這個路線的人,這些也會變成我們做這件事的很好助力。
如果我們開始去講類似的故事,用我們團(tuán)隊背景去講其他人講過的故事去融錢,也肯定能融到。但我覺得我沒有辦法做到我不相信的東西。我之所以能一遍遍地講,就是因為這些東西是我所相信的,即使別人不相信,我也要一遍一遍的去講。
機(jī)器之心:現(xiàn)在技術(shù)迭代這么快,你對自己選擇的技術(shù)方向和戰(zhàn)略有沒有過懷疑?
高繼揚:我覺得對于新東西,尤其是對于自己之前沒認(rèn)識到的邊界以外的東西,肯定得保持開放心態(tài)。然后要把新東西還是要放回到你建立的框架里面。
最怕的是什么,沒有框架。這樣的話,他給我來一句我就信了,另外一個人又給我來一句我又信了。那這個人肯定就不適合做一個 CEO,也不適合去創(chuàng)業(yè)。
所以我覺得最關(guān)鍵的是有框架,然后這個這個框架的建立要從過去的實踐過程當(dāng)中總結(jié)規(guī)律,同時又要對新的事物新的信息保持開放。
對于豐富框架這件事來說,所有個人的認(rèn)知都是有限的,我覺得這也是我們這個團(tuán)隊很有優(yōu)勢的一點,因為團(tuán)隊很全面。我們團(tuán)隊一起共同思考和面對這些新信息,用邏輯去推演,不斷建立起我們自己的框架。并且,在實踐的過程中所遇到的問題,我們也用自己的框架去檢驗它。我們目前覺得還是 OK 的。
機(jī)器之心:你這半年多以來你覺得進(jìn)展相對順利嗎?最大的問題是什么問題?
高繼揚:我覺得還行。最大問題我覺得就是說真正的問題不是我已經(jīng)意識到的,而是我還沒有意識到的問題,可能視野之外的問題是比較大的問題。我相信,只要問題進(jìn)入視野之內(nèi),只要我們用正確的方法,去開始解決這個問題,慢慢地這個問題都會變校
比如,怎么做融資,怎么在商業(yè)上做 BD?赡芪沂羌夹g(shù)工程師出身,我會認(rèn)為,當(dāng)你認(rèn)識到這個問題之后,解決方法基本都是類似的 拆解加測量,比如去看這 1 個大問題怎么去拆解成 5 個小問題,然后每個小問題都去測量一下,然后這 5 個小問題都在變好,那么大問題一定就在變好。
所以當(dāng)問題已經(jīng)成為問題的時候,反倒不是問題,但危險的是那些你覺得挺好,但其實他有問題的地方才是真問題。
機(jī)器之心:聽下來的話,你們創(chuàng)始團(tuán)隊組建的過程是蠻順利的。
高繼揚:比較順利,主要我覺得還是大家都有共同的夢想。我們的團(tuán)隊過去都互相認(rèn)識、互相合作過,互相信任,并且大家年齡相仿,價值觀也是一樣的。
具身智能發(fā)展最重要就是人才。人對了方向才能對,方向?qū)α,有正確的有足夠的資源,我們才能在正確的方向上去迭代。
所以有的機(jī)構(gòu)投資人也好,或者是媒體也好,經(jīng)常喜歡去看說某一個什么又突然搞了一個大新聞。但其實 AI 里面不會存在魔法,都是在正確的方向上高速迭代,然后累積出來的東西就是曾國藩的 6 個字,“結(jié)硬寨打呆仗”,這是我們做 AI 最大的感受。
機(jī)器之心:如果說如果沒有魔法,“在正確的方向上高速迭代” 是一個成功公式的話,失敗的原因也有可能就是沒有找到正確的路線和迭代速度過慢。
高繼揚:對,就是你的方向不對。你沒有把握住 AI 的基本規(guī)律,那是你有沒有關(guān)注你的產(chǎn)品的失效成本,你有沒有關(guān)注你這個數(shù)據(jù)的獲取成本,你不關(guān)注這些你方向很有可能是錯的。
機(jī)器之心:你們看看現(xiàn)在的競爭情況是怎么樣的?
高繼揚:我覺得現(xiàn)在還沒什么競爭,大家都沒什么產(chǎn)品,談不上競爭,只有在資本市場存在一定競爭。但是我覺得這里邊這些公司各自的業(yè)務(wù)模式和商業(yè)上的策略都不一樣,然后咱不一個個評價了。只是說,我覺得大家都不一樣,即使在融資上有競爭也沒有非常的大。
投資是為了賺錢,那么只要我們這個模式能夠去說服大家,這是一個有希望的模式,那么對于投資人來講為什么不投?也不會說是,投了別人就不投你了,不存在這個情況。
機(jī)器之心:所以你覺得自己去說服投資人最重要的一個點是,現(xiàn)在的模式是可以大概率確保他們是可以賺錢的,是這個點嗎?
高繼揚:不是。我覺得是說本身具身智能這事一定短期不賺錢,這個賺錢是長周期的范疇上,我們能把事做成,因為你事做成了就會賺錢了。
我覺得這本質(zhì)上是一個相信的游戲 你相信還是不相信?然后相信有兩種相信,第一種相信叫做從規(guī)律出發(fā)選擇相信,第二種相信叫做因為別人相信,所以我相信。
我們很顯然是從規(guī)律出發(fā)做判斷,就相信做選擇,然后開始能夠吸引到被我們說服的投資人,也一定是基于規(guī)律出發(fā)的。
回到現(xiàn)實,我們一定會面臨的問題,就是我們剛才我講的這條路徑不是主流路徑,因為大家認(rèn)為主流路徑是人形機(jī)器人,是吧?在這個里面,我們要把這個事做成,就得讓更多的人相信。怎么讓更多的人相信,一方面靠吸引前期的相信規(guī)律的人先加入我們,第二個用現(xiàn)實的結(jié)果讓更多的人相信我們,相信是一個常在這個場里面人和人之間是會影響的,我們要去努力構(gòu)建這個常
機(jī)器之心:你覺得說接下來最重要的事情是什么?
高繼揚:以一年周期去看的話,最重要的事情就是要去影響更多的人加入我們的團(tuán)隊,獲取更多的資金支持,如果拉長周期的話,我覺得還是要堅持自己所相信的東西。