IT之家 12 月 30 日消息,靈初智能發布首個基于強化學習(RL)的端到端具身模型 Psi R0。
IT之家獲悉,該模型支持雙靈巧手協同進行復雜操作,將多個技能串聯混訓,生成具有推理能力的智能體,從而完成并閉環長程靈巧操作任務。并且,Psi R0 還可以實現跨物品、跨場景級別的泛化。
以電商場景為例,商品打包是典型的長程任務作業,需對上萬件商品進行抓取,掃碼,放置,塑料袋打結等多個操作。Psi R0 能夠使用雙靈巧手流暢地完成這一系列動作(官方稱此系列動作在客戶現場可以取代一個完整工位),成為首個基于強化學習訓練完成長程靈巧操作任務的具身機器人。
官方表示,基于 RL 的 Psi R0 模型,使用海量仿真數據訓練出雙手操作的智能體,并通過雙向訓練框架串聯多技能,在業界率先完成開放環境中的長程任務,具備較強的泛化能力與較高的魯棒性(robustness)。
這一技能訓練框架從物體時空軌跡抽象出關鍵信息以構建通用目標函數,從而解決獎勵函數難設計的問題。在后訓練階段,通過少量高質量真機數據對齊,進一步提升長程任務的成功率。
除此之外,雙向訓練框架中的轉移可行性函數發揮著重要作用,它能夠微調技能以提高串聯的成功率與泛化性,同時賦予模型自主切換技能的能力,使其在遭遇操作失敗時能夠迅速調整策略,確保高成功率。
標題:靈初智能發布首個基于強化學習的端到端具身模型Psi R0
地址:http://www.sme-os.com/bingxiang/24301.html