簡訊專欄
簡訊專欄
當(dāng)前位置:首頁  簡訊專欄
浙大控制學(xué)院陳積明、葉琦團隊在《Science Robotics》發(fā)表論文,突破像人一樣“看”與“觸”,一種策略解鎖多項靈巧手操作技能
時間:2026-01-29 來源:控制科學(xué)與工程學(xué)院 編輯: 訪問次數(shù):13

導(dǎo)讀:僅憑單目視覺和簡單的二值觸覺,機器人能否像人類一樣玩轉(zhuǎn)復(fù)雜的靈巧操作?浙江大學(xué)控制科學(xué)與工程學(xué)院陳積明、葉琦團隊與杭州電子科技大學(xué)合作者們在國家自然科學(xué)基金基礎(chǔ)科學(xué)中心自主智能無人系統(tǒng)項目支持下,提出了一種受神經(jīng)科學(xué)啟發(fā)的視觸覺預(yù)訓(xùn)練與在線多任務(wù)學(xué)習(xí)框架,讓靈巧手通過“觀察”人類視頻學(xué)會了多感官融合,僅用極低成本的傳感器便實現(xiàn)了高達(dá)85%的綜合操作成功率,并能泛化到削鉛筆、擰螺絲等未見過的任務(wù)中。該成果“Visual-Tactile Pretraining and Online Multitask Learning”已于2026年1月28日發(fā)表于國際頂級期刊《Science Robotics》。同期的《Science Robotics》發(fā)表了針對該成果的前沿聚焦評論文章——“Within arm’s reach: A path forward for robot dexterity”,深度解讀該工作并指出該工作提供了一個具有良好可擴展性的算法范式:有效的多模態(tài)傳感融合、大規(guī)模人類數(shù)據(jù)采集,以及嚴(yán)謹(jǐn)?shù)姆抡婕夹g(shù)。該成果和專題評論在《Science Robotics》官網(wǎng)首頁展示。



首頁鏈接:https://www.science.org/journal/scirobotics

論文鏈接:https://www.science.org/doi/10.1126/scirobotics.ady2869

聚焦評論:https://www.science.org/doi/10.1126/scirobotics.aee5782




人類的手之所以靈巧,不僅因為有復(fù)雜的骨骼肌肉系統(tǒng),更因為大腦能完美地融合視覺和觸覺。神經(jīng)科學(xué)研究表明,人腦頂下小葉(Inferior Parietal Lobule, IPL)中的神經(jīng)元負(fù)責(zé)整合這些多模態(tài)信息,讓我們在行動前就建立了對動作的表達(dá) 。受此啟發(fā),團隊提出了一種全新的學(xué)習(xí)框架——“Visual-Tactile Pretraining and Online Multitask Learning”。該研究通過模仿人類的學(xué)習(xí)范式(觀察與實踐),讓機器人僅通過單目RGB相機和低成本的二值觸覺傳感器,就掌握了包括轉(zhuǎn)瓶蓋、擰水龍頭、滑動滑塊等在內(nèi)的多種復(fù)雜技能,并表現(xiàn)出了驚人的泛化能力和“類人”的操作特性 。


01 挑戰(zhàn):靈巧操作的“維數(shù)詛咒”與“感知黑洞”

靈巧手操作一直是機器人領(lǐng)域的“皇冠明珠”,但也是著名的難題。

1.高維動作空間:多指靈巧手擁有20多個自由度,協(xié)調(diào)它們就像在指揮一支交響樂隊。

2.復(fù)雜的接觸動力學(xué):物體在手中的每一次微小滑動、滾動都涉及復(fù)雜的物理接觸,極難建模。

3.嚴(yán)重的感知遮擋:靈巧手在操作時,手指不可避免地會擋住相機視線,導(dǎo)致視覺信息缺失。

以往的方法依賴昂貴的高精度傳感器(如高分辨率觸覺陣列、多視角相機),或者依賴只能在仿真中獲取的“上帝視角”狀態(tài)信息,難以在現(xiàn)實世界的復(fù)雜場景中落地 。


02 核心創(chuàng)新:植入機器大腦的頂下小葉“IPL Token”


為了解決上述難題,研究團隊提出了一個分階段的學(xué)習(xí)框架:

第一階段:視觸覺表征預(yù)訓(xùn)練

機器人在這一階段像嬰兒一樣,通過“觀察”大量人類操作視頻來學(xué)習(xí)。研究者設(shè)計了一種基于掩碼自編碼器的網(wǎng)絡(luò),并創(chuàng)新性地引入了一個類似人腦頂下小葉神經(jīng)元的可學(xué)習(xí)的視覺和觸覺融合的“IPL Token”。

第二階段:在線多任務(wù)模仿學(xué)習(xí)

有了強大的感知表征后,團隊采用了一種在線迭代聚合專家策略的方法。該方法有效地解決了多任務(wù)學(xué)習(xí)中的“觀測漂移”問題,讓一個統(tǒng)一的神經(jīng)網(wǎng)絡(luò)能夠同時掌握轉(zhuǎn)瓶蓋、滑滑塊、重定向物體等多種技能 。


03 硬核實測:從仿真到真機,數(shù)據(jù)會說話

基于該方法學(xué)習(xí)的策略,團隊搭建了一套低成本感知(普通網(wǎng)絡(luò)攝像頭 + 自制壓阻式觸覺傳感器)的實物靈巧手操作系統(tǒng) 。

一、 一套策略,玩轉(zhuǎn)多變?nèi)蝿?wù)

不同于以往“一個任務(wù)訓(xùn)練一個模型”的定式,該研究僅訓(xùn)練了一個統(tǒng)一策略,即一個策略完成轉(zhuǎn)瓶蓋、擰水龍頭、滑滑塊、桌面/手內(nèi)重定向5項任務(wù)。

二、 強悍的泛化性:無懼未知物體

對于在訓(xùn)練中未見過的日常物體,包括形狀奇特的水果、透明塑料瓶、金屬把手等 ,甚至對于訓(xùn)練中從未見過的削鉛筆、擰松螺絲和抽薯片內(nèi)殼套任務(wù),該策略實現(xiàn)了驚人的零樣本或少樣本泛化。此外,在實驗中視覺和觸覺融合策略不僅表現(xiàn)為“更能做”,而且“做得更快”。

三、 極致的魯棒性:黑暗與干擾中依然精準(zhǔn)

  • 無懼光照變化:無論是在昏暗的側(cè)光下,還是強光直射的過曝光環(huán)境下,憑借觸覺信號的補充,機器人依然能精準(zhǔn)感知接觸狀態(tài),完成任務(wù)。

  • 傳感器普適性:即使更換了不同分辨率、不同原理的觸覺傳感器(如不同密度的壓阻陣列或氣壓傳感器),策略無需重新訓(xùn)練即可適應(yīng)。

四、視觸覺融合填補“虛實鴻溝”

仿真和真實物理視覺上的差異是在仿真訓(xùn)練下操作策略在實物部署面臨的重要難題。單模態(tài)策略從仿真遷移到真機中,成功率下跌20%以上,而視觸覺融合(VT)策略只下降不到5%,證明了多感官融合具有跨越虛實鴻溝的強大潛力。

五、“青出于藍(lán)”:學(xué)生策略超越專家

通常的蒸餾學(xué)習(xí)中,學(xué)生網(wǎng)絡(luò)往往不如專家網(wǎng)絡(luò)。但本研究發(fā)現(xiàn),基于VT預(yù)訓(xùn)練的統(tǒng)一學(xué)生策略,其表現(xiàn)竟然超越了專家策略。這說明多任務(wù)聯(lián)合訓(xùn)練讓模型學(xué)到了相似操作的物理交互規(guī)律,實現(xiàn)了“觸類旁通”。

六、像人類一樣“注視”關(guān)鍵區(qū)域

為什么這套方法這么強?可視化的接觸步態(tài)和注意力圖揭示了答案。

  • 類人行為:統(tǒng)計分析發(fā)現(xiàn),該策略產(chǎn)生的觸覺接觸模式與人類演示數(shù)據(jù)高度相似。這說明機器人不僅僅是在機械地執(zhí)行命令,而是通過預(yù)訓(xùn)練,“領(lǐng)悟”了人類操作中細(xì)膩的時序與節(jié)奏。

  • 意圖理解:學(xué)習(xí)到的“IPL Token”展示出了極強的可解釋性。它能夠自動忽略背景干擾,將注意力精準(zhǔn)地聚焦在手部與物體接觸的關(guān)鍵區(qū)域。


04 系列工作及未來展望

過去半年,陳積明教授和葉琦研究員團隊在機器人領(lǐng)域頂刊TRO, IJRR分別發(fā)表百萬級靈巧手抓取數(shù)據(jù)生成和高效靈巧手抓取策略學(xué)習(xí)成果。在此基礎(chǔ)上,團隊進一步突破需要手內(nèi)高度協(xié)同的復(fù)雜操作任務(wù)。這項工作通過引入受腦啟發(fā)和基于人類視頻的預(yù)訓(xùn)練,機器人可以在不依賴昂貴硬件的情況下,獲得通用的靈巧操作能力。這項技術(shù)為未來家用機器人、服務(wù)機器人等類人靈巧通用操作提供了一個新的研究思路——也許在不久的將來,你的機器人保姆就能用它靈巧的雙手,為你熟練地擰開罐頭、整理桌面,甚至削好一只鉛筆。