作者|黃楠
編輯|袁斯來
硬氪獲悉,星動紀元近日發(fā)布端到端原生機器人大模型ERA-42,其與自研的五指靈巧手星動XHAND1相結(jié)合,首次實現(xiàn)僅憑一個具身大模型,即可驅(qū)動五指靈巧手運用多種工具,完成超過100項復雜精細的操作任務(wù);包括拿起螺釘并用鉆緊固、用錘子敲打釘子、扶正水杯并倒水等。
基于ERA-42,星動XHAND1能用不同工具完成多種靈巧操作新任務(wù)
在通用性和靈巧操作能力方面,ERA-42無需任何預編程技能,具備強泛化與自適應(yīng)能力,基于少量數(shù)據(jù)收集,可在不到2小時即可學會新任務(wù),并持續(xù)快速學習更多新技能。
基于ERA-42,星動XHAND1可完成100多種精細化、智能化的五指靈巧手操作任務(wù)
星動紀元指出,具身大模型作為開啟通用具身智能體的密鑰,需要具備以下三個要素。第一,統(tǒng)一一個模型泛化多種任務(wù)和環(huán)境;通過構(gòu)建一個統(tǒng)一的原生模型,融合視覺、語言、觸覺和身體姿態(tài)等全模態(tài)信息,實現(xiàn)對不同任務(wù)和環(huán)境的泛化能力。
第二是端到端,從接收全模態(tài)數(shù)據(jù),到生成最終輸出如決策、動作等,通過一個簡潔的神經(jīng)網(wǎng)絡(luò)鏈路完成。該過程無需人為設(shè)計特征、預編程或干預處理步驟,使得具身智能體能夠?qū)崟r適應(yīng)不同任務(wù)和環(huán)境,顯著提升靈活性與開發(fā)效率。
第三是Scaling up(規(guī);试S模型通過持續(xù)的數(shù)據(jù)積累實現(xiàn)自我完善,使得具身大模型在數(shù)據(jù)量指數(shù)級增長的同時,不僅提升性能,還能在未知任務(wù)中展現(xiàn)卓越的自適應(yīng)和泛化能力。例如Physical Intelligence (簡稱PI)發(fā)布的π0模型就具備上述要素,是典型的真正意義上的端到端具身大模型。
基于端到端算法,星動紀元采用了大規(guī)模視頻數(shù)據(jù)學習策略,涵蓋無標注的視頻數(shù)據(jù)、公開各類形態(tài)機器人的數(shù)據(jù)、人類活動數(shù)據(jù)以及遙操作數(shù)據(jù)等,在上述數(shù)據(jù)使用基礎(chǔ)上學習行動結(jié)果,可有效降低數(shù)據(jù)收集成本。
星動紀元探索融合世界模型的原生機器人大模型
此外,星動紀元團隊已將世界模型融入原生機器人大模型中,使得模型不僅具備行動能力,還具備了對物理世界的理解能力,能夠?qū)ξ磥硇袆榆壽E進行預測,并迅速響應(yīng)外部干擾,在任務(wù)執(zhí)行過程中持續(xù)自適應(yīng)優(yōu)化行為,直至任務(wù)完成,提升機器人執(zhí)行任務(wù)的高效性和準確性。
在實際應(yīng)用中,相比傳統(tǒng)的夾爪機器人,基于ERA-42能力的五指靈巧手星動XHAND1能使用多種工具,完成更通用、靈巧性更強、復雜度更高的操作任務(wù)。例如,通過簡單的彩色方塊抓取數(shù)據(jù)訓練后,ERA-42就能成功實現(xiàn)從未見過的多樣化物體的抓取泛化。
基于ERA-42,五指靈巧手星動XHAND1相比夾爪能使用更多不同工具執(zhí)行更靈巧操作
面對單任務(wù)或長序列任務(wù)時,ERA-42展現(xiàn)了強大的抗干擾能力。測試顯示,隨著模型規(guī)模的擴大,任務(wù)成功率也明顯提升,初步體現(xiàn)了和大語言模型訓練中類似的“Scaling效應(yīng)”。
硬件方面,為構(gòu)建通用具身智能體,星動紀元推出了為AI定義的全新硬件平臺。以星動XHAND1為例,它共有12個主動自由度,并采用純電驅(qū)方式實現(xiàn)全自主五指關(guān)節(jié)驅(qū)動。每個手指配備有一個高分辨率觸覺陣列傳感器,可提供精確的三維力觸覺和溫度信息。
依托ERA-42,星動紀元通用人形機器人執(zhí)行任務(wù)的通用性和泛化性將大幅提升,結(jié)合此前發(fā)布的在復雜多樣的地形上穩(wěn)定行走和奔跑的運動性能,配合上下肢協(xié)同作業(yè)能力,潛在應(yīng)用場景也將更加多元化,真正實現(xiàn)原生的通用具身智能體的產(chǎn)業(yè)化落地。
星動XHAND1