編者按:
從 ChatGPT 開始,整個(gè)世界都為生成式 AI 瘋狂不已,當(dāng)大模型開始有能力「像人一樣思考」,那么造一臺(tái)真正智能的機(jī)器的時(shí)代,是否也已經(jīng)到來。
從伊隆馬斯克的特斯拉,再到 OpenAI、微軟和亞馬遜,幾乎所有 AI 巨頭都對(duì)人形機(jī)器人行業(yè)押下重注。
不過,具身智能在真正進(jìn)入千萬家庭之前,他們的第一個(gè)真正的應(yīng)用場(chǎng)景,反而可能是工廠讓工業(yè)機(jī)器人因?yàn)?AI 而具備更高的智能,才可能是具身智能發(fā)展起來的根本。而人們頭腦中想象的人形機(jī)器人,可能并不是具身智能工業(yè)機(jī)器人的最佳形態(tài)。
為此,微億智造科技有限公司 CTO 趙何博士、上海捷勃特機(jī)器人有限公司 CTO 賀巖,前者主攻工業(yè) AI+機(jī)器人智能控制,后者是專業(yè)的工業(yè)機(jī)器人研發(fā)及制造商,兩位深耕在 AI 和機(jī)器人領(lǐng)域的專家,從機(jī)器人智能的歷史出發(fā),撰文論述為什么具身智能工業(yè)機(jī)器人的時(shí)代,已經(jīng)到來。
01「你好,具身智能」
具身智能 :「探索-利用」的學(xué)習(xí)范式
具身智能理論根源于「具身認(rèn)知」(Embodied Recognition),包括人類在內(nèi)的一切智能體的認(rèn)知能力是由智能體自身結(jié)構(gòu)決定的,并在此基礎(chǔ)上構(gòu)建自己的世界模型。而這種認(rèn)知又直接影響智能體的高級(jí)心理活動(dòng),諸如:推理,決策等。
從認(rèn)知產(chǎn)生的機(jī)制到智能體決策依賴的世界模型,均受制于智能體具體的物質(zhì)形態(tài)。具身智能理論挑戰(zhàn)了包括笛卡爾二元論在內(nèi)的諸多認(rèn)知理論,建立起了將「身」與「智」統(tǒng)一的理論框架,將智能體和周圍環(huán)境看作一個(gè)系統(tǒng),通過「軀體」與外界環(huán)境進(jìn)行互動(dòng),再從外界對(duì)智能體的動(dòng)作產(chǎn)生的反饋獲取信息,建立對(duì)環(huán)境的認(rèn)知。整個(gè)認(rèn)知過程遵循「探索-利用」(exploration-exploitation)的范式。
具身智能理論強(qiáng)調(diào)了智能體與環(huán)境之間的強(qiáng)關(guān)聯(lián),「智能」本質(zhì)上是這兩個(gè)實(shí)體的總和。以建立這個(gè)總和為共同目的,具身智能體必須具有一些最基本的通用能力。包括:
空間認(rèn)知能力
空間認(rèn)知能力是這個(gè)世界里智能體的基本能力之一,這個(gè)過程其實(shí)是智能體對(duì)外部物理世界的實(shí)體先進(jìn)行「解構(gòu)」,然后用抽象的幾何模型在心理層面對(duì)外部世界進(jìn)行「建構(gòu)」的過程。
移動(dòng)導(dǎo)航能力
如果空間認(rèn)知能力是智能體對(duì)宏觀世界的抽象,那么移動(dòng)導(dǎo)航能力則是智能體對(duì)自身所處的微觀環(huán)境的適應(yīng)。通過「探索-利用」的學(xué)習(xí)范式發(fā)現(xiàn)知識(shí),積累經(jīng)驗(yàn),提高智能,在自然進(jìn)化中勝出。
具身智能
硬件為「智能」而生
長期以來,人工智能的發(fā)展主要致力于如何在通用的硬件上實(shí)現(xiàn)更好的智能,而沒有充分考慮如何以智能需求為導(dǎo)向驅(qū)動(dòng)新型硬件的開發(fā)。也許,將「硬件為智能而生」提升到具身智能發(fā)展應(yīng)秉持的原則高度并不為過。從近些年的行業(yè)發(fā)展來看,這種趨勢(shì)其實(shí)已經(jīng)初見端倪?梢灶A(yù)見,具身智能的發(fā)展會(huì)將這一原則擴(kuò)散到所有硬件的設(shè)計(jì)生產(chǎn)中,促使應(yīng)用從「自發(fā)」走向「自覺」。
以具身智能為共同理論基礎(chǔ)的硬件,它們?cè)诨竟δ艿囊笊洗嬖诠残,歸納起來表現(xiàn):在多模態(tài)的環(huán)境認(rèn)知及通過語言、視覺方式的交互能力;智能的任務(wù)學(xué)習(xí)和理解能力,并基于內(nèi)部世界模型把任務(wù)轉(zhuǎn)化成內(nèi)部結(jié)構(gòu)化表示;在自身軟硬件系統(tǒng)上,實(shí)現(xiàn)高度自主的智能決策能力,以應(yīng)對(duì)全新、突發(fā)的情況;智能高效的單任務(wù)執(zhí)行能力,基本不需要、或僅偶爾需要非常少量的人工干預(yù);以及智能的多任務(wù)切換能力。
具身智能理論明確了智能與軀體之間的耦合,論述了智能體和環(huán)境之間的關(guān)系。因此,在設(shè)計(jì)具身智能產(chǎn)品時(shí),不能把它從任務(wù)環(huán)境中剝離出來孤立地考慮。
02 你好,具身智能工業(yè)機(jī)器人
早期工業(yè)機(jī)器人主要用于重復(fù)性、單一性的任務(wù)。隨著新技術(shù)的發(fā)展,逐漸實(shí)現(xiàn)自動(dòng)化,能執(zhí)行更復(fù)雜、精細(xì)的任務(wù)。然而發(fā)展到今天,工業(yè)機(jī)器人正遭遇技術(shù)發(fā)展瓶頸,面臨成本、復(fù)雜性、靈活性和人機(jī)協(xié)作等困難和挑戰(zhàn)。
與此同時(shí)人工智能技術(shù)迅猛發(fā)展,深度學(xué)習(xí)技術(shù)在語音及圖像識(shí)別、自然語言處理等任務(wù)上取得了突破性的進(jìn)展。近兩年多模態(tài)大模型技術(shù)的發(fā)展,更是奠定了實(shí)現(xiàn)人機(jī)自然交互的技術(shù)基!溉斯ぶ悄+」成為積極探索的領(lǐng)域。
一邊是早已發(fā)展成熟、遭遇瓶頸、苦苦尋找新發(fā)展的行業(yè);一邊是如日中天、帶著變革、顛覆的光環(huán)急于尋找用武之地的新興技術(shù)。人類固有的敏感和直覺告訴我們,歷史到了一個(gè)迫切需要將兩者融合的時(shí)刻,結(jié)出最驚艷的果實(shí):你好,具身智能工業(yè)機(jī)器人!
以具身智能理論作為指導(dǎo),將成熟的工業(yè)機(jī)器人與新興的人工智能技術(shù)融合,誕生了「具身智能工業(yè)機(jī)器人」(Embodied Intelligent Industrial Robots, EIIR)。
EIIR 的本質(zhì):解放「人」超越「人」
EIIR 的生存環(huán)境就是工業(yè)生產(chǎn)環(huán)境。充分考察 EIIR 的生存環(huán)境可以幫助我們識(shí)別其應(yīng)該具有的形態(tài)。由此我們可以得出結(jié)論:人形機(jī)器人不是 EIIR 的形態(tài)。相對(duì)于自然環(huán)境,生產(chǎn)環(huán)境是一個(gè)閉合、簡單的環(huán)境。從邏輯上講,「人形」作為開放環(huán)境下的產(chǎn)物天然不會(huì)是閉合環(huán)境最佳的軀體形態(tài)。其次,生產(chǎn)環(huán)境是人為設(shè)計(jì)制造出來的,如果可以由機(jī)器自主完成而不需要人的參與,那么對(duì)應(yīng)的生產(chǎn)環(huán)境可以設(shè)計(jì)成對(duì)機(jī)器更加友好,而完全不用考慮人類體形的局限,從而讓生產(chǎn)過程更加高效可靠。
「人形」適配的是人的生存環(huán)境,而非工業(yè)的生產(chǎn)環(huán)境 | 來源:視覺中國
EIIR 需要替代的是人在生產(chǎn)過程中被異化后的投影,不是人的本質(zhì),更不是人的外形。進(jìn)一步,EIIR 還需要把替代的人類能力在生產(chǎn)環(huán)境中放大、強(qiáng)化,充分利用 EIIR 作為機(jī)器的同時(shí),發(fā)揮出超出人類的性能,使得將人類從生產(chǎn)活動(dòng)中解放出來成為可能和必要。相比精確的自動(dòng)化控制,EIIR 可以更好的實(shí)現(xiàn)真正的無人化生產(chǎn),正是因?yàn)椋?/p>
生產(chǎn)場(chǎng)景的不確定性
從定性角度來看,工業(yè)場(chǎng)景在宏觀上是閉合有界的。但在微觀層面,工業(yè)場(chǎng)景下也存在諸多不確定因素,是一個(gè)定量上開放的環(huán)境,這就需要有靈巧的智能能力來應(yīng)對(duì)這類不確定性。
生產(chǎn)環(huán)境閉合邊界不一
不同的生產(chǎn)任務(wù)都有與之對(duì)應(yīng)確定的生產(chǎn)環(huán)境,它們之間閉合的邊界是不一樣的。生產(chǎn)任務(wù)間切換的可能性是開放、近乎無限的,這就要求足夠高的智能水平或在少量人類幫助下,完成這種環(huán)境的切換和適應(yīng)。
標(biāo)準(zhǔn)產(chǎn)品具有標(biāo)準(zhǔn)智能
標(biāo)準(zhǔn)產(chǎn)品具有一定水平的標(biāo)準(zhǔn)智能,使得它在被部署到具體的生產(chǎn)場(chǎng)景時(shí),可以較低的時(shí)間、人力成本學(xué)會(huì)具體的生產(chǎn)任務(wù),盡可能適用不同的生產(chǎn)場(chǎng)景,使大規(guī)模應(yīng)用成為可能。
EIIR 的模樣:具象化的具身智能
如果對(duì) EIIR 的本質(zhì)沒有太多的疑問,不妨想象一下 EIIR 的模樣。具身智能理論認(rèn)為智能體由感知系統(tǒng)、運(yùn)動(dòng)系統(tǒng)和世界模型三部分組成,這個(gè)論述對(duì)于 EIIR 仍然適用。為了更好的說明,我們以微億智造的技術(shù)探索實(shí)踐為例,進(jìn)一步展開探討。微億智造作為工業(yè) AI 領(lǐng)域先行者,長期布局「視覺 AI+機(jī)器人智能控制」全棧技術(shù),深耕工業(yè)場(chǎng)景,持續(xù)技術(shù)創(chuàng)新。
感知系統(tǒng)多模態(tài)泛傳感器系統(tǒng)
通過合理選型、配置,輔以高效智能的數(shù)據(jù)算法,建立起比人類強(qiáng)大得多的感知系統(tǒng),無論是周邊環(huán)境還是 EIIR 自身,都將進(jìn)行連續(xù)、不間斷的狀態(tài)感知,為決策提供精準(zhǔn)的信息。如在工業(yè)檢測(cè)中挑戰(zhàn)最大的外觀缺陷檢測(cè)領(lǐng)域,微億智造樹立了機(jī)器感知的典范:識(shí)別和分析對(duì)象姿態(tài)和特征,自主生成檢測(cè)序列,以高精度的圖像傳感器來追蹤形態(tài)不定、位置不定的缺陷,實(shí)現(xiàn)柔性的、超越人類的缺陷檢測(cè)能力。并在此基礎(chǔ)上,基于動(dòng)力學(xué)原理進(jìn)行建模,通過信息反欄認(rèn)知」自身能力,并實(shí)時(shí)更新。
通過「感知系統(tǒng)」對(duì)環(huán)境及自身持續(xù)采樣,并基于聯(lián)合認(rèn)知進(jìn)行決策
運(yùn)動(dòng)系統(tǒng)閉環(huán)控制系統(tǒng)
打通、融合上下層系統(tǒng),實(shí)現(xiàn)狀態(tài)反饋和控制的聯(lián)合處理、合并計(jì)算,共同優(yōu)化、協(xié)作以滿足靈活、精準(zhǔn)、快速的要求。以「關(guān)節(jié)電機(jī)」為例,其「視覺伺服」系統(tǒng)由多個(gè)控制器、按層級(jí)嵌套組合而成,每一層都有自身需要優(yōu)化的控制指標(biāo)與對(duì)象。從整體到局部逐層細(xì)化,實(shí)現(xiàn)閉環(huán)控制。比如微億智造自研的整套多軸實(shí)時(shí)控制系統(tǒng),結(jié)合動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)算法,計(jì)算時(shí)間和狀態(tài)最優(yōu)的運(yùn)動(dòng)軌跡,并以毫秒級(jí)速度閉環(huán)運(yùn)動(dòng)控制,以 10 毫秒級(jí)別的速度使用圖像模型完成閉環(huán)運(yùn)動(dòng)的規(guī)劃。
通過「視覺伺服」實(shí)現(xiàn)感知系統(tǒng)與運(yùn)動(dòng)系統(tǒng)的閉環(huán)控制
世界模型對(duì)生產(chǎn)環(huán)境的總結(jié)和抽象
世界模型是智能體根據(jù)自身結(jié)構(gòu)特點(diǎn)構(gòu)建起來、用于解釋世界的認(rèn)知框架。它是動(dòng)態(tài)變化的,智能體與環(huán)境的每一次互動(dòng)都在不同程度上影響著它。而大模型技術(shù)結(jié)合工業(yè)數(shù)據(jù)又為世界模型提供了一個(gè)共享的基礎(chǔ)版本,故且稱之為「基礎(chǔ)世界模型」。當(dāng)然,這個(gè)「基礎(chǔ)世界模型」賦予了 EIIR 強(qiáng)大的理解能力,能夠通過人類習(xí)慣的模式與人類進(jìn)行信息交換。而人類訓(xùn)練 EIIR 的方式也發(fā)生了根本性變化,只需通過自然語言、圖片、視頻、動(dòng)作示教等,就可與 EIIR 建立起「示教-學(xué)習(xí)-反攔的互動(dòng)模式,通過多輪對(duì)話將知識(shí)進(jìn)行傳遞。這樣的持續(xù)學(xué)習(xí)會(huì)一直貫穿在 EIIR 整個(gè)生命周期里。
通過「基礎(chǔ)世界模型」建立「示教-學(xué)習(xí)-反攔的互動(dòng)模式
EIIR 的關(guān)鍵:智能化柔性適配
如何讓標(biāo)準(zhǔn)、通用的 EIIR 產(chǎn)品很快具備執(zhí)行具體生產(chǎn)任務(wù)的能力,或者如何把人類的專業(yè)技能輕便地轉(zhuǎn)移到 EIIR 上,核心在于通過「人機(jī)交互」實(shí)現(xiàn)「智能化柔性適配」。以 ChatGPT 為例,它第一次在人和機(jī)器之間建立起了一種高效的溝通方式,從根本上打破了人機(jī)交流的障礙,變革了人機(jī)交互范式。
而大模型加持下的 EIIR 將徹底逆轉(zhuǎn)人機(jī)關(guān)系。人類可以用自身習(xí)慣的方式與 EIIR 溝通,如自然語言、肢體語言、動(dòng)作、行為示范等,從根本上打破人與機(jī)器間的語義隔離。軟件方面,大模型的加持使得 EIIR 具備了快速學(xué)習(xí)的能力,保證了智能上的柔性。隨著芯片技術(shù)的發(fā)展,軟硬件的功能邊界將變得模糊,「軟件硬化」的趨勢(shì)將會(huì)越來越明顯。伴隨更強(qiáng)大的運(yùn)算能力及集成密度,EIIR 的算力密度也將實(shí)現(xiàn)質(zhì)的提升。機(jī)械構(gòu)型方面,新材料、新技術(shù)的廣泛應(yīng)用將為 EIIR 提供更多不同的外部形態(tài),甚至根據(jù)任務(wù)的要求實(shí)時(shí)調(diào)整機(jī)械結(jié)構(gòu)。這種能力最忠實(shí)地還原了具身智能理論的根本要求,實(shí)現(xiàn)了智能和機(jī)體最深程度的融合。
03 EIIR,未來已來
EIIR 的誕生和歷史使命就是接管人類社會(huì)物質(zhì)資料的生產(chǎn),為人類的發(fā)展提供持續(xù)的物質(zhì)支持,這也是它唯一的歷史歸宿。作為機(jī)器,隨著技術(shù)的進(jìn)步,EIIR 的發(fā)展勢(shì)必將循序漸進(jìn)。前期階段,它將長期和人類共處在同一生產(chǎn)環(huán)境下。伴隨技術(shù)的發(fā)展,其智能化程度會(huì)越來越高,越來越多時(shí)候?qū)⒉恍枰c人協(xié)作就可獨(dú)立完成任務(wù)。而發(fā)展的高級(jí)階段,將會(huì)實(shí)現(xiàn)真正的「無人工廠」。
到這個(gè)階段,工廠、產(chǎn)線的組織形式將完全不同于現(xiàn)在,而人類也將實(shí)現(xiàn)從使之異化的物質(zhì)生產(chǎn)中徹底解放出來。這對(duì)人類社會(huì)的發(fā)展所起的作用是無法估量的,將極大加快人類自我解放的步伐。誠然,這會(huì)是一個(gè)漫長的過程,但值得我們期待,值得我們努力,因?yàn)樗K將到來!