工控網(wǎng)首頁(yè)
>

新聞中心

>

業(yè)界動(dòng)態(tài)

>

突破Pick&Place,實(shí)現(xiàn)長(zhǎng)程任務(wù)泛化!首個(gè)端到端強(qiáng)化學(xué)習(xí)具身模型Psi R0,橫空出世

突破Pick&Place,實(shí)現(xiàn)長(zhǎng)程任務(wù)泛化!首個(gè)端到端強(qiáng)化學(xué)習(xí)具身模型Psi R0,橫空出世

2024/12/31 14:10:35

近日,靈初智能發(fā)布首個(gè)基于強(qiáng)化學(xué)習(xí)(RL)的端到端具身模型Psi R0。該模型支持雙靈巧手協(xié)同進(jìn)行復(fù)雜操作,將多個(gè)技能串聯(lián)混訓(xùn),生成具有推理能力的智能體,從而完成并閉環(huán)長(zhǎng)程靈巧操作任務(wù)。并且,Psi R0還可以實(shí)現(xiàn)跨物品、跨場(chǎng)景級(jí)別的泛化。

QQ20241231-141338.png

真實(shí)世界中,人類(lèi)生活近乎100%的場(chǎng)景涉及抓握、轉(zhuǎn)動(dòng)、捏取、觸摸等操作,而其中超過(guò) 90% 的操作屬于多技能融合的長(zhǎng)程任務(wù)。然而在當(dāng)下具身業(yè)界,多局限于Pick and Place操作的泛化,一旦任務(wù)復(fù)雜化、長(zhǎng)程化,泛化性和成功率則大大降低,無(wú)法兼顧——這也是具身智能只能存在于demo,遲遲無(wú)法在真實(shí)場(chǎng)景中落地的核心原因!機(jī)器人如何突破Pick and Place、脫離遙操作,擁有自主完成長(zhǎng)程靈巧操作的能力,實(shí)現(xiàn)真正類(lèi)人的場(chǎng)景級(jí)任務(wù)閉環(huán),仍是具身智能亟待攻克的難題。


RL是長(zhǎng)程靈巧操作實(shí)現(xiàn)任務(wù)閉環(huán)的唯一解

在真實(shí)世界中,機(jī)器人解決長(zhǎng)程任務(wù)必須通過(guò)Learning-based模式,目前主流技術(shù)路徑有兩種:模仿學(xué)習(xí)(IL)和強(qiáng)化學(xué)習(xí)(RL)。

純模仿學(xué)習(xí)的泛化能力受限于示范行為的多樣性和質(zhì)量。加之長(zhǎng)程任務(wù)步驟較多,更容易出現(xiàn)分布漂移問(wèn)題,使得 IL實(shí)現(xiàn)長(zhǎng)程任務(wù)的泛化性能較差,魯棒性也較弱。

基于RL的Psi R0 模型,使用海量仿真數(shù)據(jù)高效訓(xùn)練出雙手操作的智能體,并通過(guò)雙向訓(xùn)練框架串聯(lián)多技能,在業(yè)界率先完成開(kāi)放環(huán)境中的長(zhǎng)程任務(wù),具備較強(qiáng)的泛化能力與較高的魯棒性。這一技能訓(xùn)練框架從物體時(shí)空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標(biāo)函數(shù),從而解決獎(jiǎng)勵(lì)函數(shù)難設(shè)計(jì)的問(wèn)題。在后訓(xùn)練階段,通過(guò)少量高質(zhì)量真機(jī)數(shù)據(jù)對(duì)齊,進(jìn)一步提升長(zhǎng)程任務(wù)的成功率。除此之外,雙向訓(xùn)練框架中的轉(zhuǎn)移可行性函數(shù)發(fā)揮著重要作用,它能夠微調(diào)技能以提高串聯(lián)的成功率與泛化性,同時(shí)賦予模型自主切換技能的能力,使其在遭遇操作失敗時(shí)能夠迅速調(diào)整策略,確保高成功率。

QQ20241231-141411.png

真實(shí)世界中,人類(lèi)生活近乎100%的場(chǎng)景涉及抓握、轉(zhuǎn)動(dòng)、捏取、觸摸等操作,而其中超過(guò) 90% 的操作屬于多技能融合的長(zhǎng)程任務(wù)。然而在當(dāng)下具身業(yè)界,多局限于Pick and Place操作的泛化,一旦任務(wù)復(fù)雜化、長(zhǎng)程化,泛化性和成功率則大大降低,無(wú)法兼顧——這也是具身智能只能存在于demo,遲遲無(wú)法在真實(shí)場(chǎng)景中落地的核心原因!機(jī)器人如何突破Pick and Place、脫離遙操作,擁有自主完成長(zhǎng)程靈巧操作的能力,實(shí)現(xiàn)真正類(lèi)人的場(chǎng)景級(jí)任務(wù)閉環(huán),仍是具身智能亟待攻克的難題。


RL是長(zhǎng)程靈巧操作實(shí)現(xiàn)任務(wù)閉環(huán)的唯一解

在真實(shí)世界中,機(jī)器人解決長(zhǎng)程任務(wù)必須通過(guò)Learning-based模式,目前主流技術(shù)路徑有兩種:模仿學(xué)習(xí)(IL)和強(qiáng)化學(xué)習(xí)(RL)。

純模仿學(xué)習(xí)的泛化能力受限于示范行為的多樣性和質(zhì)量。加之長(zhǎng)程任務(wù)步驟較多,更容易出現(xiàn)分布漂移問(wèn)題,使得 IL實(shí)現(xiàn)長(zhǎng)程任務(wù)的泛化性能較差,魯棒性也較弱。

基于RL的Psi R0 模型,使用海量仿真數(shù)據(jù)高效訓(xùn)練出雙手操作的智能體,并通過(guò)雙向訓(xùn)練框架串聯(lián)多技能,在業(yè)界率先完成開(kāi)放環(huán)境中的長(zhǎng)程任務(wù),具備較強(qiáng)的泛化能力與較高的魯棒性。這一技能訓(xùn)練框架從物體時(shí)空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標(biāo)函數(shù),從而解決獎(jiǎng)勵(lì)函數(shù)難設(shè)計(jì)的問(wèn)題。在后訓(xùn)練階段,通過(guò)少量高質(zhì)量真機(jī)數(shù)據(jù)對(duì)齊,進(jìn)一步提升長(zhǎng)程任務(wù)的成功率。除此之外,雙向訓(xùn)練框架中的轉(zhuǎn)移可行性函數(shù)發(fā)揮著重要作用,它能夠微調(diào)技能以提高串聯(lián)的成功率與泛化性,同時(shí)賦予模型自主切換技能的能力,使其在遭遇操作失敗時(shí)能夠迅速調(diào)整策略,確保高成功率。

QQ20241231-141443.png

掃碼環(huán)節(jié)更是考驗(yàn)機(jī)器人的靈巧操作水平,需要雙手高度精細(xì)地協(xié)調(diào)彼此相對(duì)位置,以確保掃碼槍與商品條碼能夠精準(zhǔn)對(duì)齊,任何細(xì)微偏差都可能導(dǎo)致掃碼失敗。此時(shí),RL訓(xùn)練策略為雙手雙臂構(gòu)成的高自由度復(fù)雜系統(tǒng)提供了可靠的實(shí)時(shí)閉環(huán)控制,保障掃碼動(dòng)作精準(zhǔn)流暢地完成。

打包環(huán)節(jié),需要雙手協(xié)調(diào)完成對(duì)塑料袋的靈巧操作。在動(dòng)態(tài)打包的過(guò)程中,塑料袋的形狀會(huì)隨動(dòng)作變化,需要實(shí)時(shí)調(diào)整操作。為了提升機(jī)器人對(duì)柔性物體的操作適應(yīng)能力,Psi R0在仿真環(huán)境中模擬多種柔性物體的操作場(chǎng)景,同時(shí)結(jié)合真機(jī)數(shù)據(jù)進(jìn)行微調(diào)優(yōu)化。甚至在被打斷、干擾的情況下,也能自適應(yīng)調(diào)整策略,重新進(jìn)行打包動(dòng)作。

QQ20241231-141501.png

靈初智能Psi R0模型是具身智能遞歸性成長(zhǎng)的第一步。具身智能將遵從從簡(jiǎn)單到復(fù)雜、從保護(hù)到協(xié)同的漸進(jìn)式演進(jìn)。在早期,小腦是與真實(shí)世界交互的物理基礎(chǔ),其設(shè)計(jì)需結(jié)合領(lǐng)域知識(shí),滿(mǎn)足環(huán)境中的約束條件,同時(shí)具備容錯(cuò)性,支持大腦學(xué)習(xí)與優(yōu)化。Psi R0模型發(fā)揮RL算法探索的優(yōu)勢(shì),支持小腦的快速迭代,生成支持長(zhǎng)程靈巧操作的智能體。通過(guò)靈巧操作轉(zhuǎn)動(dòng)數(shù)據(jù)飛輪,實(shí)現(xiàn)從小腦Action到大腦Cognition的閉環(huán)回饋,驅(qū)動(dòng)大腦認(rèn)知能力優(yōu)化,模型持續(xù)迭代,形成小腦協(xié)同+大腦優(yōu)化的具身智能“神經(jīng)回路”,使端到端模型完成從簡(jiǎn)單到復(fù)雜、從保護(hù)到協(xié)同的漸進(jìn)式演進(jìn)。返回搜狐,查看更多


審核編輯(
唐楠
)
投訴建議

提交

查看更多評(píng)論