劃重點
012024具身智能大會于9月26-27日在上海召開,探討具身智能技術對千行百業(yè)的重塑和商業(yè)領域應用潛力。
02擎朗智能CTO唐旋來發(fā)表演講,認為移動服務機器人在商用服務場景面臨非結構化復雜環(huán)境、完全開放環(huán)境和全流程閉環(huán)等挑戰(zhàn)。
03他提出,應用大模型和具身智能技術可提升服務機器人的環(huán)境適應性、執(zhí)行任務效率和與人的交互能力。
04擎朗智能的業(yè)務覆蓋全球600多個城市及地區(qū),海外營收占比超過50%,已在酒店和快餐行業(yè)實現(xiàn)具身智能服務機器人的落地。
05未來,擎朗智能致力于讓服務機器人更好地陪伴人、服務人,讓人們的生活變更好。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
具身智能作為AI技術的重要分支,正逐步從抽象理論邁向物理現(xiàn)實,實現(xiàn)了物理世界與數(shù)字世界彼此的感知與鏈接,讓AI在物理世界中有所作為。36氪長期專注探討AI領域的產(chǎn)業(yè)革命和創(chuàng)新趨勢,針對具身智能領域的突破性變革,以“讓AI通向物理世界”為主題,邀請了重磅研究學者和企業(yè)嘉賓,共同見證人工智能技術從數(shù)字世界走向物理世界。
2024年9月26日-27日,為期兩日的「2024具身智能大會」在上海盛大召開。大會以具身智能為核心,構建了從認知-發(fā)展-應用-未來為內(nèi)容的議題體系,來自工程院、人工智能研究院等專家學者及業(yè)內(nèi)從業(yè)者,以及來自知名科技巨頭公司的行業(yè)大咖嘉賓,共同深入探究了具身智能技術對千行百業(yè)的重塑,并研判具身智能在商業(yè)領域應用潛力。同時,大會首日隆重發(fā)布36 氪「2024 具身智能創(chuàng)新應用案例」,為更多企業(yè)在該領域的發(fā)展應用提供寶貴參考,助推具身智能產(chǎn)業(yè)蓬勃發(fā)展。本次大會還特設「具身智能案例路演show」環(huán)節(jié),諸多行業(yè)優(yōu)質(zhì)企業(yè)集體亮相,立體展示了具身智能行業(yè)的蓬勃新生力量。
在大會“具身智能在千行百業(yè)的應用場景落地”環(huán)節(jié),擎朗智能CTO唐旋來發(fā)表了以“具身智能服務機器人的產(chǎn)業(yè)化探索與實踐“為主題的演講。他認為移動服務機器人在商用服務場景運行下的挑戰(zhàn)有三點,一是非結構化復雜環(huán)境。在商用服務環(huán)境中,機器人所處的運行環(huán)境是持續(xù)變化的。環(huán)境布局和里面的人流量都是動態(tài)變化的,這就要求服務機器人提升自身的智能性,去適應環(huán)境的變化。二是完全開放的環(huán)境。商用服務行業(yè)是完全開放的,機器人與人是處在一個共同環(huán)境中的,需要跟人形成高度自由博弈, 來安全高效完成任務。三是機器人執(zhí)行任務時需要完成整個流程的閉環(huán),需要像人一樣完成很多復雜的任務。
唐旋來還認為,在具身智能服用機器人的產(chǎn)業(yè)化落地及普及過程中,應用大模型和具身智能技術可以帶來兩點基礎能力的提升。第一,大模型帶來了更加泛化的推理能力,讓機器人具備更強大的大腦和學習能力;第二,隨著VLA、機械臂、運動控制技術等的快速發(fā)展,機器人可以具備更強的身體、運動和操作能力。擎朗智能的判斷是在商用服務場景,移動底盤+機械臂的技術方案是具身智能商用服務機器人目前最有可能率先產(chǎn)品化的形態(tài)架構。
目前,擎朗智能的業(yè)務覆蓋全球600多個城市及地區(qū),海外營收占比超過50%。在海外特殊環(huán)境場景下,擎朗智能為酒店機器人增加雙臂,通過模型訓練讓它學習抓娶按電梯等等,來完成服務流程閉環(huán)?蛻舨恍枰獙频戥h(huán)境做任何改造,擎朗服務機器人均可以快速提供服務。此外,在快餐行業(yè)的應用場景中,擎朗智能通過具身智能訓練,讓擎朗服務機器人可以自主學習如何收集和回收餐具,減輕服務員的工作負擔。
總的來說,擎朗智能是希望做到讓服務機器人更好地陪伴人、服務人,讓人們的生活變更好。
以下為演講實錄,經(jīng)36氪編輯整理:
大家好,我來自擎朗智能的產(chǎn)研負責人,今天將結合大模型、人形機器人、具身智能,從技術發(fā)展和產(chǎn)業(yè)落地的角度來分享我們在具身智能服務業(yè)怎樣落地,怎樣做商業(yè)化。
擎朗智能十多年來一直在致力于推動商用服務機器人的普及。我們的愿景是致力于在2050年構建一個擁有“100億零1臺”機器人的世界。根據(jù)聯(lián)合國預測,2050年全球人口將達到100億,而我們希望做到比這個人口數(shù)量再多1臺。
首先,我們來談一談做商用服務場景。商用服務場景就是我們?nèi)粘I畹膱鼍,比如餐廳,酒店,商場,醫(yī)院等。這樣的場景具備什么樣的特點,對機器人有什么樣的挑戰(zhàn)呢?我們認為,在商用服務場景運行的移動服務機器人需要面臨以下三個挑戰(zhàn):
1.非結構化復雜環(huán)境
在商用服務環(huán)境中,機器人所處的運行環(huán)境是持續(xù)變化的。這個變化體現(xiàn)在空間和時間兩個維度,從空間上來說,不同的商用服務場所,環(huán)境的差異很大,比如不同類型的餐廳、不同地區(qū)的餐廳,它們的布局和環(huán)境差異很大;從時間上來說,商用環(huán)境的內(nèi)部布局是不斷在動態(tài)變化的,不同時間的人流情況會變,這往往是無法預測的一些變化。這就要求服務機器人提升自身的智能性,去適應和應對環(huán)境的不斷變化,因為你不可能去改變外部環(huán)境。
2.完全開放的環(huán)境
商用服務行業(yè)是完全開放的,機器人與人是處在一個共同環(huán)境中的。目前機器人與人之間并沒有明確的交互規(guī)則,這就會極其考驗機器人的智能水平。我們來做個對比:自動駕駛汽車在高速上可以依賴車道線、紅綠燈、斑馬線等規(guī)則來導航;可服務機器人卻在完全自由的狀態(tài)下與人互動,沒有任何規(guī)則,是跟人之間的高度自由博弈。比如,當一個人在側面挨著機器人運行時,機器人就需要去預判這個人的意圖,他也許下一步橫穿到你面前,也許一直跟著你走,也許下一步就走開了,這個時候怎么解決問題?保險起見,跑慢一點比較安全,但比如,餐廳用餐高峰期,一方面用餐需求增高,希望機器人的配送速度要快一些,但也由于人流量增多,也需要機器人保證安全。又要跑得快又要跑得安全,這就處于機器人不斷需要跟人群博弈的過程。
3.全流程閉環(huán)
機器人執(zhí)行任務時需要完成整個流程的閉環(huán)。比如在餐廳中,配送不僅僅是從廚房到桌邊的簡單過程,而是包括了從廚房到送餐桌的全流程。對于酒店服務機器人來說,它需要能夠自主搭乘電梯、通知顧客,并完成配送任務。這個閉環(huán)需要持續(xù)的信息交互和決策,才能形成完整的服務閉環(huán)流程。
擎朗智能CTO唐旋來
如今,擎朗已經(jīng)構建了完整的技術鏈路,自研從感知、決策到執(zhí)行的具身智能全鏈路技術。
我們在這里面看到的具身智能機器人的技術框架,它跟人是非常類似的,包含感知,執(zhí)行,決策三個部分。首先它必須要有感知,相當于我們的五官,怎樣從各個維度識別環(huán)境的信息,這是多模態(tài)的,你的模態(tài)越多,拿到的信息越完備。第二是我們需要思考決策,拿到信息以后怎樣處理、過濾,然后形成思考框架,做出決策;最終是執(zhí)行,執(zhí)行就是機器人軀體的控制與運動體系決策。
值得一提的是,與目前大模型和自動駕駛技術相比,因為網(wǎng)絡等基礎設施的原因,商用服務機器人在很多場景中無法依賴強大的后臺算力,特別是在海外市場,在脫離網(wǎng)絡和后臺的情況下,如何在復雜環(huán)境中繼續(xù)做智能決策,這往往需要機器人依賴自身的決策來進行判斷。
擎朗智能在服務機器人行業(yè)做了14年,也一直在思考,在大模型、人形機器人技術興起的過程中,我們該如何應用大模型和具身智能技術,助力推進具身智能服用機器人的產(chǎn)業(yè)化落地及普及。目前我們總結下來在商用服務場景,服務機器人需要以下幾個方面的提升:
1.環(huán)境的適應性需提高。因為全球的商用服務場景太多,差異性也太大,而且商用服務環(huán)境變化太頻繁,機器人需要更多模態(tài)的感知和數(shù)據(jù),才能夠快速去適應這個不斷變化的復雜環(huán)境。
2.機器人如何在復雜環(huán)境中提高執(zhí)行任務的效率,比如配送機器人在用餐高峰期時,環(huán)境更擁擠,但需要它配送得更快。
3.機器人與人的交互能力提升,比如語音、動作等一系列的多模態(tài)交互。舉個例子,我們在海外的時候,有一個問題是機器人與人語音交互時,怎樣自由切換語種。比如說第一個客人說的英語,下一個客人說的卻是德語。
4.關于物理操作方面,輪式機器人往往缺乏手或臂的操作能力,在端到端的服務閉環(huán)上還有所欠缺,我們需要作出相應的改善和迭代。
所以大模型和具身智能的發(fā)展帶來兩點基礎能力的提升:
第一,具身智能大腦:大模型帶來了更加泛化的推理能力,讓機器人具備更強大的大腦和學習能力。通過大量的學習和訓練,會讓機器人對環(huán)境感知,任務理解,任務拆解等層面有更強的理解和推理能力;
第二,具身智能小腦:隨著VLA技術,機械臂技術,運動控制技術的快速發(fā)展,讓機器人具備更強的身體,有更強的運動和操作能力,這樣就可以像人一樣去完成很多復雜的任務。
結合在商用服務場景的大量移動機器人產(chǎn)品落地經(jīng)驗,我們認為在商用服務場景,移動底盤+機械臂的技術方案是具身智能商用服務機器人目前最有可能率先產(chǎn)品化的形態(tài)架構。擎朗已經(jīng)落地了數(shù)萬臺的移動服務機器人,解決了輪式底盤在室內(nèi)穩(wěn)定運行的問題,當我們賦予機器人上肢后,通過大模型和具身智能的訓練,我們可以讓機器人做更多復雜的任務,創(chuàng)造更多價值。
擎朗智能的業(yè)務覆蓋全球600多個城市及地區(qū),并在阿聯(lián)酋迪拜、德國、韓國、荷蘭、加拿大、美國、日本、中國香港等地設有子公司/辦公室,目前海外營收占比超過50%,但在海外市場的擴展過程中,挑戰(zhàn)必不可少,比如,海外電梯改造的法規(guī)難題,比如我們在酒店的貨柜搭配機器人,機器人怎樣做到像人一樣將貨品取出來?
結合這些場景,我們?yōu)榫频隀C器人賦予雙臂,通過模型訓練讓它學習抓娶按電梯等等,來完成服務流程閉環(huán)。這樣,當這款機器人到達酒店的時候,客戶不需要對酒店環(huán)境做任何改造,開箱即用,無論是國內(nèi)還是海外,擎朗服務機器人都可以快速提供服務。
我們看這個視頻,機器人像人一樣按電梯,進出電梯,不需要對環(huán)境做任何改變。在這個過程中,機器人需要跟人一樣,完全根據(jù)自身的感知和決策,去完成這個任務。機器人要進入這個電梯,它需要觀察電梯的按鈕在哪里,離自己有多遠,怎么按;按完電梯之后,它需要觀察電梯到?jīng)]到,哪個電梯先到,電梯門什么時候開,機器人跟進出電梯的人怎么交互等。這一整套的流程都需要處理,當然還需要面對很多意外的情況,比如人把電梯門擋住了,或者人把機器擠住了,這些情境都需要機器人去判斷并執(zhí)行相應的處理動作。
此外,我們在與快餐行業(yè)合作時,發(fā)現(xiàn)機器人在收集餐盤的場景中也有巨大的潛力。通過具身智能訓練,機器人可以自主學習如何收集和回收餐具,從而減輕服務員的工作負擔。左邊的視頻是我們訓練(如下圖),大家可以看到我們通過遙控操作訓練機器人,訓練如何用機械臂將這些東西抓過來,然后去端起來這個餐具。我們想這一步完成之后,機器人就可以自己到桌邊把這些東西收走,把盤子放到指定回收的地方。
對于未來,邁向人與機器人共存的世界,這是一個必然趨勢,當然也充滿驚喜與奇妙。無論是怎樣的具身智能機器人,無論我們通過大模型賦予它怎樣的思考能力,或者是賦予它像人一樣靈活執(zhí)行的能力。我們最終還是希望做到讓服務機器人更好地陪伴人、服務人,讓人們的生活變更好。這是我們這代AI機器人工作者渴望達成的目標。