機(jī)器人在視頻demo里樣樣精通,現(xiàn)實(shí)里它到底能不能穩(wěn)定干活?這成了具身智能的新追問。機(jī)器人在理想場(chǎng)景中精準(zhǔn)抓取、靈巧疊放、絲滑搬運(yùn),每一幀都看起來近乎完美。但離開實(shí)驗(yàn)室和背景幕布,麻煩就來了。
要讓機(jī)器人從實(shí)驗(yàn)室邁向現(xiàn)實(shí)世界,僅憑個(gè)別場(chǎng)景的展示遠(yuǎn)遠(yuǎn)不夠,必須經(jīng)過大規(guī)模、多任務(wù)的真實(shí)評(píng)測(cè),才能回答是否具備應(yīng)用的泛化與穩(wěn)定性的核心問題。
誰都能說自己行,但卻缺少一套統(tǒng)一、開放且可復(fù)現(xiàn)的真機(jī)基準(zhǔn)體系,能夠公正比較不同方法的優(yōu)劣。這種缺失,使得機(jī)器人領(lǐng)域的技術(shù)進(jìn)步難以被標(biāo)準(zhǔn)化衡量,也讓落地可用的門檻始終模糊。
近日,全球首個(gè)大規(guī)模、多任務(wù)的在真實(shí)物理環(huán)境中由真實(shí)機(jī)器人執(zhí)行操作任務(wù)的基準(zhǔn)測(cè)試——RoboChallenge發(fā)布。該測(cè)試能夠克服真實(shí)環(huán)境下的性能驗(yàn)證、標(biāo)準(zhǔn)化測(cè)試條件、公開可訪問測(cè)試平臺(tái)等挑戰(zhàn),為視覺語言動(dòng)作模型(VLAs)在機(jī)器人的實(shí)際應(yīng)用提供更加可靠和可比較的評(píng)估標(biāo)準(zhǔn)。據(jù)悉,RoboChallenge由Dexmal原力靈機(jī)聯(lián)合Hugging Face共同發(fā)起。
01
仿真滿分、現(xiàn)實(shí)翻車,機(jī)器人需要真機(jī)大考
目前,基于仿真的機(jī)器人評(píng)測(cè)已經(jīng)取得了較大進(jìn)展,研究人員可以在數(shù)字孿生環(huán)境中,以極低成本反復(fù)訓(xùn)練、調(diào)整算法,并快速驗(yàn)證模型性能。但是仿真終歸是仿真,容易出現(xiàn)物理建模失真、和真實(shí)環(huán)境差距大、難以遷移至真實(shí)機(jī)體等問題,很難刻畫機(jī)器人在現(xiàn)實(shí)中的魯棒性與泛化能力。
想證明機(jī)器人真能在現(xiàn)實(shí)中穩(wěn)定工作,必須上真機(jī)測(cè)試。但當(dāng)前真機(jī)評(píng)測(cè)仍存在多個(gè)瓶頸,比如任務(wù)數(shù)量普遍太少,大部分評(píng)測(cè)或競(jìng)賽往往僅設(shè)置3-5個(gè)任務(wù),任務(wù)多聚焦于單一操作環(huán)節(jié),難以系統(tǒng)評(píng)估模型的跨場(chǎng)景泛化能力。
更大的問題在于評(píng)價(jià)機(jī)制單一。傳統(tǒng)評(píng)測(cè)通常采用“成功或失敗”的二值化標(biāo)準(zhǔn),只關(guān)注任務(wù)是否完成,卻忽略了執(zhí)行過程中的細(xì)節(jié)、效率與魯棒性。這樣的評(píng)價(jià)方式,不僅掩蓋了算法的進(jìn)步,也很難指導(dǎo)工程優(yōu)化。
而RoboChallenge的創(chuàng)新在于,它將不確定性、統(tǒng)計(jì)性與多元性納入同一體系。構(gòu)建起一套科學(xué)、透明、可復(fù)現(xiàn)的評(píng)測(cè)框架,使得研發(fā)人員在統(tǒng)一環(huán)境中驗(yàn)證對(duì)比機(jī)器人算法,實(shí)現(xiàn)從基礎(chǔ)任務(wù)到復(fù)雜現(xiàn)實(shí)應(yīng)用場(chǎng)景的全面覆蓋。
簡(jiǎn)單來說,RoboChallenge有以下三大亮點(diǎn):
高可靠性的硬件軟件系統(tǒng):用多款經(jīng)過工業(yè)驗(yàn)證的主流機(jī)機(jī)器人做底座,每臺(tái)配2–3臺(tái)RGB-D相機(jī),統(tǒng)一軟件棧實(shí)現(xiàn)協(xié)同控制;整套系統(tǒng)在真實(shí)任務(wù)里連續(xù)跑了數(shù)月,抗壓、穩(wěn)定,能長(zhǎng)時(shí)間運(yùn)行。
更科學(xué)的評(píng)估機(jī)制:采用端到端任務(wù)成功率與過程評(píng)分相結(jié)合的評(píng)估機(jī)制,精確測(cè)出模型代差;測(cè)試集所有任務(wù)均提供約1000條演示數(shù)據(jù),并已完成基線模型的任務(wù)級(jí)微調(diào)。
免費(fèi)開放、可擴(kuò)展:面向社區(qū)開放,支持用戶基于公開演示數(shù)據(jù)微調(diào)自有策略并參與評(píng)測(cè);發(fā)布任務(wù)中間數(shù)據(jù)與評(píng)測(cè)結(jié)果,推動(dòng)建立透明、公平的算法評(píng)估標(biāo)準(zhǔn),避免“黑箱式”評(píng)測(cè)。
02
零門檻測(cè)評(píng):集成多款主流機(jī)型,
沒有機(jī)器人也能做實(shí)驗(yàn)
RoboChallenge的硬件選型并未追求全面復(fù)雜、堆花活,而是聚焦在VLA算法的核心能力上。
首期采用配備夾爪的機(jī)械臂作為標(biāo)準(zhǔn)化平臺(tái),未來會(huì)支持更多執(zhí)行器類型。目前的機(jī)械臂雖在一定程度上限制了任務(wù)復(fù)雜度,卻能更精準(zhǔn)地驗(yàn)證算法在結(jié)構(gòu)化環(huán)境中的泛化性能。具體來看,包括四款經(jīng)過長(zhǎng)期驗(yàn)證的工業(yè)機(jī)械臂產(chǎn)品:UR5、Franka Panda、COBOT Magic Aloha及ARX-5。
它們的共性就在于高可靠性和學(xué)術(shù)通用性,既能同步輸出多視角RGB與對(duì)齊深度信息,以利于二維識(shí)別與三維推理需求,將來計(jì)劃集成力控或觸覺傳感器。另外,還能滿足7×24小時(shí)持續(xù)運(yùn)行。
更具突破性的是,RoboChallenge還通過云端化服務(wù)打造了一個(gè)遠(yuǎn)程真機(jī)實(shí)驗(yàn)室,用戶沒有機(jī)器人,一樣做實(shí)驗(yàn),打破機(jī)器人測(cè)試的硬件資源限制。這套遠(yuǎn)程系統(tǒng)的便捷性與精準(zhǔn)性,源于三大技術(shù)設(shè)計(jì):

無容器化服務(wù)架構(gòu):用戶無需提交Docker鏡像或完整模型文件,通過標(biāo)準(zhǔn)化API接口就能直接調(diào)用真機(jī);所有觀測(cè)數(shù)據(jù)(RGB圖像、深度信息、本體感知數(shù)據(jù))均附帶毫秒級(jí)時(shí)間戳,方便多模型集成與復(fù)雜算法驗(yàn)證。
雙向異步實(shí)現(xiàn)精準(zhǔn)控制:通過HTTP API,動(dòng)作指令的異步提交與圖像獲取可分離處理,用戶可自定義數(shù)據(jù)塊長(zhǎng)度與動(dòng)作持續(xù)時(shí)間,平臺(tái)還會(huì)實(shí)時(shí)反饋隊(duì)列狀態(tài),確保控制指令精準(zhǔn)同步;整個(gè)過程無需暴露本地接口,兼顧安全性與便捷性。
智能作業(yè)調(diào)度提升評(píng)測(cè)效率:平臺(tái)提供任務(wù)調(diào)度狀態(tài)查詢接口,用戶可提前預(yù)估測(cè)試運(yùn)行時(shí)間;同時(shí)支持模型預(yù)加載與多任務(wù)并行管理,避免因等待單任務(wù)完成浪費(fèi)時(shí)間,大幅提升評(píng)測(cè)效率。
為進(jìn)一步降低測(cè)試人員技術(shù)門檻、確保測(cè)試的穩(wěn)定性,RoboChallenge提出了“視覺輸入匹配”方法:從演示數(shù)據(jù)中抽取參考圖像,并實(shí)時(shí)疊加于測(cè)試畫面。測(cè)試人員通過調(diào)整物體位置使實(shí)時(shí)場(chǎng)景與參考圖像完全吻合,確保每次測(cè)試的初始狀態(tài)一致。
03
Table30:30個(gè)日常情境任務(wù),
全面測(cè)出模型到底幾斤幾兩
如果說硬件和遠(yuǎn)程機(jī)器人測(cè)試構(gòu)成了RoboChallenge的“骨架”,那么Table30就是其“靈魂”。
Table30是RoboChallenge的首套桌面操作基準(zhǔn)測(cè)試集,包含30個(gè)精心設(shè)計(jì)的日常情境任務(wù),由位置固定的雙手或單臂機(jī)器人執(zhí)行。Table不止是測(cè)試某項(xiàng)技能,而是系統(tǒng)性地考察模型在真實(shí)環(huán)境中的綜合表現(xiàn)。
Table30的情景任務(wù)由易到難,聚焦在家庭、工作、廚房等日常場(chǎng)景,覆蓋了從基礎(chǔ)操作到復(fù)雜組合的全過程,具體任務(wù)有插花、整理果籃、疊抹布、開關(guān)水龍頭等。

這些任務(wù)并非隨機(jī)選擇,而是圍繞機(jī)器人核心能力設(shè)計(jì),覆蓋了精確3D定位、遮擋與多視角、時(shí)間依賴、分階段與長(zhǎng)時(shí)程技能、物體識(shí)別、雙臂協(xié)同以及軟體物體操作等要素,能夠測(cè)試模型的多種能力,包括精準(zhǔn)定位抓取、理解物體間空間關(guān)系、多視角協(xié)同運(yùn)用、雙臂交替協(xié)作操作、雜亂環(huán)境中重復(fù)執(zhí)行技能、記憶多步驟任務(wù)階段。
具體點(diǎn)說,插花要精準(zhǔn)對(duì)位,疊抹布考驗(yàn)對(duì)軟體物體的操作精度,整理碗具要按照一定順序進(jìn)行擺放,開關(guān)水龍頭需要精準(zhǔn)力控。
Table30從四個(gè)關(guān)鍵維度構(gòu)建評(píng)估體系:VLA模型難點(diǎn)、機(jī)器人類型、任務(wù)場(chǎng)景環(huán)境和目標(biāo)物體屬性。強(qiáng)模型會(huì)在哪些維度拉開差距,薄弱環(huán)節(jié)又藏在哪些地方,跑完一輪,答案一目了然。
比如,研究團(tuán)隊(duì)測(cè)試了流行的四種VLA模型:π0、π0.5、CogACT、OpenVLA/OFT,發(fā)現(xiàn)不同模型之間存在顯著性能差距,π0.5模型(經(jīng)微調(diào))在成功率與進(jìn)度得分的所有分位點(diǎn)上均顯著優(yōu)于其他模型。進(jìn)一步分析其累積分布曲線可以發(fā)現(xiàn),各模型的任務(wù)難度分布斜率相近,表明任務(wù)集的難度分布較為均衡。
值得一提的是,即便僅使用約50個(gè)示范樣本并采用混合任務(wù)訓(xùn)練,π0.5仍能獲得較高表現(xiàn)。在部分任務(wù)上,該模型的表現(xiàn)甚至超越了單任務(wù)微調(diào)版本。不過,像時(shí)序理解與軟體物體操作等問題仍是當(dāng)前VLA模型的薄弱環(huán)節(jié)。

評(píng)測(cè)標(biāo)準(zhǔn)也不再只是任務(wù)成功與否,Table30通過引入“進(jìn)度得分”來更加細(xì)致地刻畫機(jī)器人行為。每個(gè)任務(wù)被分為若干階段,每個(gè)階段分配若干進(jìn)度點(diǎn)。完成某階段后模型獲得相應(yīng)得分;若階段被標(biāo)記為“非關(guān)鍵”,則即便未完成,任務(wù)仍可視為成功。結(jié)合成功率與進(jìn)度得分的雙指標(biāo)體系,平臺(tái)可以更精確地描繪模型的表現(xiàn)曲線,測(cè)出模型代差。
以打開抽屜任務(wù)為例,進(jìn)度得分能夠很好地揭示過程細(xì)節(jié):到達(dá)抽屜區(qū)域、抓手旋轉(zhuǎn)至把手方向、抽屜拉開、機(jī)械臂回到初始位置,每一個(gè)步驟都設(shè)置不同得分。就算模型未完全拉開抽屜,推進(jìn)了關(guān)鍵步驟也能得分,細(xì)微進(jìn)步不再被失敗掩蓋;哪怕兩個(gè)模型都成功了,進(jìn)度得分也會(huì)衡量出它們還有哪些細(xì)微差別。
為保障參與者體驗(yàn),RoboChallenge建立了一套標(biāo)準(zhǔn)化的提交模型至測(cè)試平臺(tái)的流程:
數(shù)據(jù)獲取:從Hugging Face平臺(tái)下載任務(wù)示范數(shù)據(jù)集,包含分開放置的視頻文件與JSON格式狀態(tài)數(shù)據(jù),可通過工具腳本轉(zhuǎn)換為L(zhǎng)eRobot格式;
訓(xùn)練模式:可選通用型或微調(diào)型模式,通用型需用提示詞區(qū)分任務(wù)并開展多任務(wù)聯(lián)合訓(xùn)練,微調(diào)型無特殊限制;基于同一基礎(chǔ)模型的多次提交可共享名稱,排名時(shí)合并為單一算法條目;
API對(duì)接:提供框架代碼演示“觀察-推理-停止”的完整交互邏輯,支持評(píng)估前的模型預(yù)熱與動(dòng)作隊(duì)列穩(wěn)定控制,還配套模擬測(cè)試功能,確保提交前模型能正常運(yùn)行;提交時(shí)需注明密鑰、任務(wù)集及模型名稱,多任務(wù)提交將按通用模型處理;
結(jié)果查詢:評(píng)估請(qǐng)求進(jìn)入人工調(diào)度隊(duì)列,因場(chǎng)景布置需數(shù)小時(shí)至數(shù)日;結(jié)果發(fā)布后,研究者可通過rerun.io查看器分析RRD 格式機(jī)器日志與視頻;平臺(tái)默認(rèn)公開結(jié)果以促進(jìn)交流,對(duì)評(píng)分存疑可申請(qǐng)重新計(jì)算。

04
結(jié)語:推動(dòng)構(gòu)建協(xié)同創(chuàng)新社區(qū),
未來將開放更多基準(zhǔn)測(cè)試
RoboChallenge的價(jià)值不止于提供一套評(píng)測(cè)標(biāo)準(zhǔn),它更像一座連接技術(shù)研發(fā)與現(xiàn)實(shí)落地的橋梁。通過免費(fèi)開放評(píng)測(cè)服務(wù)、公開任務(wù)演示數(shù)據(jù)與中間結(jié)果,它確保了研究的可復(fù)現(xiàn)性與透明度;未來,平臺(tái)還將通過舉辦挑戰(zhàn)賽、研討會(huì)、共享數(shù)據(jù)等方式推動(dòng)社區(qū)共建,鼓勵(lì)研究者參與任務(wù)設(shè)計(jì)與優(yōu)化,共同破解具身智能的核心難題。
Table30的出現(xiàn)只是一個(gè)起點(diǎn)。據(jù)了解,未來RoboChallenge會(huì)持續(xù)引入移動(dòng)機(jī)器人、靈巧操作裝置等更多硬件平臺(tái),拓展跨場(chǎng)景任務(wù)測(cè)試能力;評(píng)測(cè)維度將從視覺-動(dòng)作協(xié)調(diào)延伸至多模態(tài)感知、人機(jī)協(xié)作等方向,并計(jì)劃推出動(dòng)態(tài)環(huán)境適應(yīng)、長(zhǎng)期規(guī)劃等更具挑戰(zhàn)性的基準(zhǔn)測(cè)試。
當(dāng)機(jī)器人“會(huì)不會(huì)”變成“能不能長(zhǎng)期穩(wěn)定地做好”,研究就不再是少數(shù)人的比賽,而是與每個(gè)人相關(guān)的進(jìn)步。RoboChallenge 的出現(xiàn),將讓業(yè)界優(yōu)秀的機(jī)器人模型能更快被證明、被迭代、被落地,也讓機(jī)器人離我們的衣食住行更近一步