香蕉精品视频在线观看,欧美日韩调教,里番精品3d一二三区

機(jī)器人在視頻demo里樣樣精通，現(xiàn)實(shí)里它到底能不能穩(wěn)定干活？這成了具身智能的新追問。機(jī)器人在理想場(chǎng)景中精準(zhǔn)抓取、靈巧疊放、絲滑搬運(yùn)，每一幀都看起來近乎完美。但離開實(shí)驗(yàn)室和背景幕布，麻煩就來了。

要讓機(jī)器人從實(shí)驗(yàn)室邁向現(xiàn)實(shí)世界，僅憑個(gè)別場(chǎng)景的展示遠(yuǎn)遠(yuǎn)不夠，必須經(jīng)過大規(guī)模、多任務(wù)的真實(shí)評(píng)測(cè)，才能回答是否具備應(yīng)用的泛化與穩(wěn)定性的核心問題。

誰都能說自己行，但卻缺少一套統(tǒng)一、開放且可復(fù)現(xiàn)的真機(jī)基準(zhǔn)體系，能夠公正比較不同方法的優(yōu)劣。這種缺失，使得機(jī)器人領(lǐng)域的技術(shù)進(jìn)步難以被標(biāo)準(zhǔn)化衡量，也讓落地可用的門檻始終模糊。

近日，全球首個(gè)大規(guī)模、多任務(wù)的在真實(shí)物理環(huán)境中由真實(shí)機(jī)器人執(zhí)行操作任務(wù)的基準(zhǔn)測(cè)試——RoboChallenge發(fā)布。該測(cè)試能夠克服真實(shí)環(huán)境下的性能驗(yàn)證、標(biāo)準(zhǔn)化測(cè)試條件、公開可訪問測(cè)試平臺(tái)等挑戰(zhàn)，為視覺語言動(dòng)作模型（VLAs）在機(jī)器人的實(shí)際應(yīng)用提供更加可靠和可比較的評(píng)估標(biāo)準(zhǔn)。據(jù)悉，RoboChallenge由Dexmal原力靈機(jī)聯(lián)合Hugging Face共同發(fā)起。

仿真滿分、現(xiàn)實(shí)翻車，機(jī)器人需要真機(jī)大考

目前，基于仿真的機(jī)器人評(píng)測(cè)已經(jīng)取得了較大進(jìn)展，研究人員可以在數(shù)字孿生環(huán)境中，以極低成本反復(fù)訓(xùn)練、調(diào)整算法，并快速驗(yàn)證模型性能。但是仿真終歸是仿真，容易出現(xiàn)物理建模失真、和真實(shí)環(huán)境差距大、難以遷移至真實(shí)機(jī)體等問題，很難刻畫機(jī)器人在現(xiàn)實(shí)中的魯棒性與泛化能力。

想證明機(jī)器人真能在現(xiàn)實(shí)中穩(wěn)定工作，必須上真機(jī)測(cè)試。但當(dāng)前真機(jī)評(píng)測(cè)仍存在多個(gè)瓶頸，比如任務(wù)數(shù)量普遍太少，大部分評(píng)測(cè)或競(jìng)賽往往僅設(shè)置3-5個(gè)任務(wù)，任務(wù)多聚焦于單一操作環(huán)節(jié)，難以系統(tǒng)評(píng)估模型的跨場(chǎng)景泛化能力。

更大的問題在于評(píng)價(jià)機(jī)制單一。傳統(tǒng)評(píng)測(cè)通常采用“成功或失敗”的二值化標(biāo)準(zhǔn)，只關(guān)注任務(wù)是否完成，卻忽略了執(zhí)行過程中的細(xì)節(jié)、效率與魯棒性。這樣的評(píng)價(jià)方式，不僅掩蓋了算法的進(jìn)步，也很難指導(dǎo)工程優(yōu)化。

而RoboChallenge的創(chuàng)新在于，它將不確定性、統(tǒng)計(jì)性與多元性納入同一體系。構(gòu)建起一套科學(xué)、透明、可復(fù)現(xiàn)的評(píng)測(cè)框架，使得研發(fā)人員在統(tǒng)一環(huán)境中驗(yàn)證對(duì)比機(jī)器人算法，實(shí)現(xiàn)從基礎(chǔ)任務(wù)到復(fù)雜現(xiàn)實(shí)應(yīng)用場(chǎng)景的全面覆蓋。

簡(jiǎn)單來說，RoboChallenge有以下三大亮點(diǎn)：

高可靠性的硬件軟件系統(tǒng)：用多款經(jīng)過工業(yè)驗(yàn)證的主流機(jī)機(jī)器人做底座，每臺(tái)配2–3臺(tái)RGB-D相機(jī)，統(tǒng)一軟件棧實(shí)現(xiàn)協(xié)同控制；整套系統(tǒng)在真實(shí)任務(wù)里連續(xù)跑了數(shù)月，抗壓、穩(wěn)定，能長(zhǎng)時(shí)間運(yùn)行。

更科學(xué)的評(píng)估機(jī)制：采用端到端任務(wù)成功率與過程評(píng)分相結(jié)合的評(píng)估機(jī)制，精確測(cè)出模型代差；測(cè)試集所有任務(wù)均提供約1000條演示數(shù)據(jù)，并已完成基線模型的任務(wù)級(jí)微調(diào)。

免費(fèi)開放、可擴(kuò)展：面向社區(qū)開放，支持用戶基于公開演示數(shù)據(jù)微調(diào)自有策略并參與評(píng)測(cè)；發(fā)布任務(wù)中間數(shù)據(jù)與評(píng)測(cè)結(jié)果，推動(dòng)建立透明、公平的算法評(píng)估標(biāo)準(zhǔn)，避免“黑箱式”評(píng)測(cè)。

零門檻測(cè)評(píng)：集成多款主流機(jī)型，

沒有機(jī)器人也能做實(shí)驗(yàn)

RoboChallenge的硬件選型并未追求全面復(fù)雜、堆花活，而是聚焦在VLA算法的核心能力上。

首期采用配備夾爪的機(jī)械臂作為標(biāo)準(zhǔn)化平臺(tái)，未來會(huì)支持更多執(zhí)行器類型。目前的機(jī)械臂雖在一定程度上限制了任務(wù)復(fù)雜度，卻能更精準(zhǔn)地驗(yàn)證算法在結(jié)構(gòu)化環(huán)境中的泛化性能。具體來看，包括四款經(jīng)過長(zhǎng)期驗(yàn)證的工業(yè)機(jī)械臂產(chǎn)品：UR5、Franka Panda、COBOT Magic Aloha及ARX-5。

它們的共性就在于高可靠性和學(xué)術(shù)通用性，既能同步輸出多視角RGB與對(duì)齊深度信息，以利于二維識(shí)別與三維推理需求，將來計(jì)劃集成力控或觸覺傳感器。另外，還能滿足7×24小時(shí)持續(xù)運(yùn)行。

更具突破性的是，RoboChallenge還通過云端化服務(wù)打造了一個(gè)遠(yuǎn)程真機(jī)實(shí)驗(yàn)室，用戶沒有機(jī)器人，一樣做實(shí)驗(yàn)，打破機(jī)器人測(cè)試的硬件資源限制。這套遠(yuǎn)程系統(tǒng)的便捷性與精準(zhǔn)性，源于三大技術(shù)設(shè)計(jì)：

全球首個(gè)！RoboChalleng登場(chǎng)，開啟大規(guī)模機(jī)器人實(shí)體評(píng)測(cè)

無容器化服務(wù)架構(gòu)：用戶無需提交Docker鏡像或完整模型文件，通過標(biāo)準(zhǔn)化API接口就能直接調(diào)用真機(jī)；所有觀測(cè)數(shù)據(jù)（RGB圖像、深度信息、本體感知數(shù)據(jù)）均附帶毫秒級(jí)時(shí)間戳，方便多模型集成與復(fù)雜算法驗(yàn)證。

雙向異步實(shí)現(xiàn)精準(zhǔn)控制：通過HTTP API，動(dòng)作指令的異步提交與圖像獲取可分離處理，用戶可自定義數(shù)據(jù)塊長(zhǎng)度與動(dòng)作持續(xù)時(shí)間，平臺(tái)還會(huì)實(shí)時(shí)反饋隊(duì)列狀態(tài)，確保控制指令精準(zhǔn)同步；整個(gè)過程無需暴露本地接口，兼顧安全性與便捷性。

智能作業(yè)調(diào)度提升評(píng)測(cè)效率：平臺(tái)提供任務(wù)調(diào)度狀態(tài)查詢接口，用戶可提前預(yù)估測(cè)試運(yùn)行時(shí)間；同時(shí)支持模型預(yù)加載與多任務(wù)并行管理，避免因等待單任務(wù)完成浪費(fèi)時(shí)間，大幅提升評(píng)測(cè)效率。

為進(jìn)一步降低測(cè)試人員技術(shù)門檻、確保測(cè)試的穩(wěn)定性，RoboChallenge提出了“視覺輸入匹配”方法：從演示數(shù)據(jù)中抽取參考圖像，并實(shí)時(shí)疊加于測(cè)試畫面。測(cè)試人員通過調(diào)整物體位置使實(shí)時(shí)場(chǎng)景與參考圖像完全吻合，確保每次測(cè)試的初始狀態(tài)一致。

Table30：30個(gè)日常情境任務(wù)，

全面測(cè)出模型到底幾斤幾兩

如果說硬件和遠(yuǎn)程機(jī)器人測(cè)試構(gòu)成了RoboChallenge的“骨架”，那么Table30就是其“靈魂”。

Table30是RoboChallenge的首套桌面操作基準(zhǔn)測(cè)試集，包含30個(gè)精心設(shè)計(jì)的日常情境任務(wù)，由位置固定的雙手或單臂機(jī)器人執(zhí)行。Table不止是測(cè)試某項(xiàng)技能，而是系統(tǒng)性地考察模型在真實(shí)環(huán)境中的綜合表現(xiàn)。

Table30的情景任務(wù)由易到難，聚焦在家庭、工作、廚房等日常場(chǎng)景，覆蓋了從基礎(chǔ)操作到復(fù)雜組合的全過程，具體任務(wù)有插花、整理果籃、疊抹布、開關(guān)水龍頭等。

全球首個(gè)！RoboChalleng登場(chǎng)，開啟大規(guī)模機(jī)器人實(shí)體評(píng)測(cè)

這些任務(wù)并非隨機(jī)選擇，而是圍繞機(jī)器人核心能力設(shè)計(jì)，覆蓋了精確3D定位、遮擋與多視角、時(shí)間依賴、分階段與長(zhǎng)時(shí)程技能、物體識(shí)別、雙臂協(xié)同以及軟體物體操作等要素，能夠測(cè)試模型的多種能力，包括精準(zhǔn)定位抓取、理解物體間空間關(guān)系、多視角協(xié)同運(yùn)用、雙臂交替協(xié)作操作、雜亂環(huán)境中重復(fù)執(zhí)行技能、記憶多步驟任務(wù)階段。

具體點(diǎn)說，插花要精準(zhǔn)對(duì)位，疊抹布考驗(yàn)對(duì)軟體物體的操作精度，整理碗具要按照一定順序進(jìn)行擺放，開關(guān)水龍頭需要精準(zhǔn)力控。

Table30從四個(gè)關(guān)鍵維度構(gòu)建評(píng)估體系：VLA模型難點(diǎn)、機(jī)器人類型、任務(wù)場(chǎng)景環(huán)境和目標(biāo)物體屬性。強(qiáng)模型會(huì)在哪些維度拉開差距，薄弱環(huán)節(jié)又藏在哪些地方，跑完一輪，答案一目了然。

比如，研究團(tuán)隊(duì)測(cè)試了流行的四種VLA模型：π0、π0.5、CogACT、OpenVLA/OFT，發(fā)現(xiàn)不同模型之間存在顯著性能差距，π0.5模型（經(jīng)微調(diào)）在成功率與進(jìn)度得分的所有分位點(diǎn)上均顯著優(yōu)于其他模型。進(jìn)一步分析其累積分布曲線可以發(fā)現(xiàn)，各模型的任務(wù)難度分布斜率相近，表明任務(wù)集的難度分布較為均衡。

值得一提的是，即便僅使用約50個(gè)示范樣本并采用混合任務(wù)訓(xùn)練，π0.5仍能獲得較高表現(xiàn)。在部分任務(wù)上，該模型的表現(xiàn)甚至超越了單任務(wù)微調(diào)版本。不過，像時(shí)序理解與軟體物體操作等問題仍是當(dāng)前VLA模型的薄弱環(huán)節(jié)。

全球首個(gè)！RoboChalleng登場(chǎng)，開啟大規(guī)模機(jī)器人實(shí)體評(píng)測(cè)

評(píng)測(cè)標(biāo)準(zhǔn)也不再只是任務(wù)成功與否，Table30通過引入“進(jìn)度得分”來更加細(xì)致地刻畫機(jī)器人行為。每個(gè)任務(wù)被分為若干階段，每個(gè)階段分配若干進(jìn)度點(diǎn)。完成某階段后模型獲得相應(yīng)得分；若階段被標(biāo)記為“非關(guān)鍵”，則即便未完成，任務(wù)仍可視為成功。結(jié)合成功率與進(jìn)度得分的雙指標(biāo)體系，平臺(tái)可以更精確地描繪模型的表現(xiàn)曲線，測(cè)出模型代差。

以打開抽屜任務(wù)為例，進(jìn)度得分能夠很好地揭示過程細(xì)節(jié)：到達(dá)抽屜區(qū)域、抓手旋轉(zhuǎn)至把手方向、抽屜拉開、機(jī)械臂回到初始位置，每一個(gè)步驟都設(shè)置不同得分。就算模型未完全拉開抽屜，推進(jìn)了關(guān)鍵步驟也能得分，細(xì)微進(jìn)步不再被失敗掩蓋；哪怕兩個(gè)模型都成功了，進(jìn)度得分也會(huì)衡量出它們還有哪些細(xì)微差別。

為保障參與者體驗(yàn)，RoboChallenge建立了一套標(biāo)準(zhǔn)化的提交模型至測(cè)試平臺(tái)的流程：

數(shù)據(jù)獲取：從Hugging Face平臺(tái)下載任務(wù)示范數(shù)據(jù)集，包含分開放置的視頻文件與JSON格式狀態(tài)數(shù)據(jù)，可通過工具腳本轉(zhuǎn)換為L(zhǎng)eRobot格式；

訓(xùn)練模式：可選通用型或微調(diào)型模式，通用型需用提示詞區(qū)分任務(wù)并開展多任務(wù)聯(lián)合訓(xùn)練，微調(diào)型無特殊限制；基于同一基礎(chǔ)模型的多次提交可共享名稱，排名時(shí)合并為單一算法條目；

API對(duì)接：提供框架代碼演示“觀察-推理-停止”的完整交互邏輯，支持評(píng)估前的模型預(yù)熱與動(dòng)作隊(duì)列穩(wěn)定控制，還配套模擬測(cè)試功能，確保提交前模型能正常運(yùn)行；提交時(shí)需注明密鑰、任務(wù)集及模型名稱，多任務(wù)提交將按通用模型處理；

結(jié)果查詢：評(píng)估請(qǐng)求進(jìn)入人工調(diào)度隊(duì)列，因場(chǎng)景布置需數(shù)小時(shí)至數(shù)日；結(jié)果發(fā)布后，研究者可通過rerun.io查看器分析RRD 格式機(jī)器日志與視頻；平臺(tái)默認(rèn)公開結(jié)果以促進(jìn)交流，對(duì)評(píng)分存疑可申請(qǐng)重新計(jì)算。

全球首個(gè)！RoboChalleng登場(chǎng)，開啟大規(guī)模機(jī)器人實(shí)體評(píng)測(cè)

結(jié)語：推動(dòng)構(gòu)建協(xié)同創(chuàng)新社區(qū)，

未來將開放更多基準(zhǔn)測(cè)試

RoboChallenge的價(jià)值不止于提供一套評(píng)測(cè)標(biāo)準(zhǔn)，它更像一座連接技術(shù)研發(fā)與現(xiàn)實(shí)落地的橋梁。通過免費(fèi)開放評(píng)測(cè)服務(wù)、公開任務(wù)演示數(shù)據(jù)與中間結(jié)果，它確保了研究的可復(fù)現(xiàn)性與透明度；未來，平臺(tái)還將通過舉辦挑戰(zhàn)賽、研討會(huì)、共享數(shù)據(jù)等方式推動(dòng)社區(qū)共建，鼓勵(lì)研究者參與任務(wù)設(shè)計(jì)與優(yōu)化，共同破解具身智能的核心難題。

Table30的出現(xiàn)只是一個(gè)起點(diǎn)。據(jù)了解，未來RoboChallenge會(huì)持續(xù)引入移動(dòng)機(jī)器人、靈巧操作裝置等更多硬件平臺(tái)，拓展跨場(chǎng)景任務(wù)測(cè)試能力；評(píng)測(cè)維度將從視覺-動(dòng)作協(xié)調(diào)延伸至多模態(tài)感知、人機(jī)協(xié)作等方向，并計(jì)劃推出動(dòng)態(tài)環(huán)境適應(yīng)、長(zhǎng)期規(guī)劃等更具挑戰(zhàn)性的基準(zhǔn)測(cè)試。

當(dāng)機(jī)器人“會(huì)不會(huì)”變成“能不能長(zhǎng)期穩(wěn)定地做好”，研究就不再是少數(shù)人的比賽，而是與每個(gè)人相關(guān)的進(jìn)步。RoboChallenge 的出現(xiàn)，將讓業(yè)界優(yōu)秀的機(jī)器人模型能更快被證明、被迭代、被落地，也讓機(jī)器人離我們的衣食住行更近一步

全球首個(gè)！RoboChalleng登場(chǎng)，開啟大規(guī)模機(jī)器人實(shí)體評(píng)測(cè)

汽車熱點(diǎn)更多>>