2026-01-06 20:43:38
每經(jīng)記者|朱成祥 每經(jīng)編輯|黃博文
1月6日,智元在官方公眾號(hào)發(fā)布SOP(英文全稱為Scalable Online Post-training,指一套面向真實(shí)世界部署的在線后訓(xùn)練系統(tǒng))。
智元相關(guān)負(fù)責(zé)人告訴《每日經(jīng)濟(jì)新聞》記者,這是為了讓人形機(jī)器人在真實(shí)世界里持續(xù)進(jìn)化。
一直以來,人形機(jī)器人行業(yè)對(duì)選用何種類型數(shù)據(jù)進(jìn)行訓(xùn)練存在爭(zhēng)議。有廠商使用模擬仿真工具進(jìn)行訓(xùn)練,也有廠商選用真機(jī)進(jìn)行訓(xùn)練。后者的訓(xùn)練方式一度被業(yè)內(nèi)詬病,認(rèn)為缺乏真實(shí)場(chǎng)景的訓(xùn)練,即訓(xùn)練出來的人形機(jī)器人無法部署于真實(shí)場(chǎng)景。
簡(jiǎn)而言之,使用實(shí)驗(yàn)室中真機(jī)收集的數(shù)據(jù)進(jìn)行訓(xùn)練,人形機(jī)器人看似都能完成被布置的任務(wù),但在實(shí)際使用中往往“手足無措”。
此次智元發(fā)布SOP框架,或有助于其補(bǔ)足關(guān)于真實(shí)場(chǎng)景的數(shù)據(jù)。
智元表示,現(xiàn)有VLA(視覺、語言、動(dòng)作)預(yù)訓(xùn)練模型已經(jīng)提供了強(qiáng)大的通用性。然而,真實(shí)世界的部署受困于更高的任務(wù)專精度要求,以及離線數(shù)據(jù)采集方式的邊際效益遞減,往往需要通過后訓(xùn)練獲得更高的任務(wù)成功率。遺憾的是,當(dāng)前主流的VLA后訓(xùn)練方法仍受離線、單機(jī)、串行采集等因素制約,難以支撐高效、持續(xù)的真實(shí)世界學(xué)習(xí)。這些限制并非源自具體算法,而是來自學(xué)習(xí)范式本身。
因此,智元推出SOP框架的核心目標(biāo)是讓機(jī)器人在真實(shí)世界中實(shí)現(xiàn)分布式、持續(xù)的在線學(xué)習(xí)。
關(guān)于SOP框架的效果,智元表示,SOP讓多任務(wù)通才的性能普遍提升。
此外,在預(yù)訓(xùn)練出現(xiàn)邊際效應(yīng)遞減的背景下,SOP將有助于突破VLA的性能瓶頸。智元表示,SOP在三小時(shí)的在軌經(jīng)驗(yàn)下就獲得了約30%的性能提升,而80小時(shí)額外人類專家數(shù)據(jù)只帶來了4%的提升。
封面圖片來源:圖片來源:每經(jīng)原創(chuàng)
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP