每日經(jīng)濟新聞 2025-06-06 21:19:20
6月6日,第七屆北京智源大會開幕,本次大會關(guān)鍵詞從“大語言模型”躍升為“具身智能”與“機器人2.0”。宇樹科技CEO王興興等成為大會焦點。面壁智能CEO李大海表示,大模型技術(shù)成熟推動產(chǎn)業(yè)關(guān)注重心轉(zhuǎn)移。智源研究院院長王仲遠稱,人工智能正加速從數(shù)字世界走向物理世界。與會者還就機器人賽事價值、具身智能產(chǎn)業(yè)化關(guān)鍵、機器人形態(tài)及VLA模型等議題展開探討。
每經(jīng)記者|可楊 每經(jīng)編輯|陳俊杰
早早就沒了位置,人墻圍了一層又一層,宇樹機器人、天工機器人一登場,就調(diào)動了全場氣氛。
6月6日,由北京智源人工智能研究院主辦的“AI春晚”——第七屆北京智源大會(以下簡稱智源大會)正式開幕。
大模型熱潮進入第三年,智源大會的關(guān)鍵詞已經(jīng)從“大語言模型”躍升為“具身智能”與“機器人2.0”。
作為產(chǎn)業(yè)風向標,在智源大會上,OpenAI創(chuàng)始人山姆·奧特曼以及“深度學習之父”辛頓曾發(fā)表演講;月之暗面創(chuàng)始人楊植麟曾經(jīng)歷人墻圍堵,熱度遠超如今首個沖向IPO的智譜AI;而今,大會上的“明星”是宇樹科技創(chuàng)始人、CEO(首席執(zhí)行官)王興興。
變化的背后,AI(人工智能)正加速邁入“干實事”的新階段:從機器人表演走向?qū)嶋H應(yīng)用,從模型訓練走向產(chǎn)業(yè)閉環(huán)。物理世界的復(fù)雜性、數(shù)據(jù)采集的現(xiàn)實需求、人與機器的自然交互,正在共同推動具身智能成為AI發(fā)展的下一個技術(shù)高地。
具身智能會客廳對話現(xiàn)場 主辦者供圖
結(jié)束開幕式上的“智源具身智能會客廳”圓桌對話后,宇樹科技CEO王興興在現(xiàn)場安保引導(dǎo)下離場,想要上前與其交流的觀眾被隔絕在人墻外。
這或許是吸取了去年的“教訓”,彼時的明星公司是月之暗面,楊植麟在下場后幾度被人墻圍住無法脫身。
如果以2022年末ChatGPT的發(fā)布作為節(jié)點,三屆智源大會,不僅見證了大模型時代AI技術(shù)的跨越式發(fā)展,也折射出人工智能產(chǎn)業(yè)關(guān)注重心的變動軌跡。
2023年,AI領(lǐng)域風頭無兩的是OpenAI所引領(lǐng)的生成式大語言模型熱潮,當年大會的高光時刻是OpenAI的代表人物山姆·奧特曼(Sam Altman)與“深度學習之父”辛頓(Geoffrey Hinton)的亮相。
2024年,以月之暗面、百度、智譜AI為代表的國產(chǎn)大模型廠商迅速崛起,在語言模型與多模態(tài)模型領(lǐng)域競逐成“主角”,開發(fā)出Kimi的月之暗面?zhèn)涫茏放酢?/p>
2025年,具身智能集中搶鏡,機器人、跨模態(tài)系統(tǒng)、物理智能等成為主論壇的重要議題。變化背后,是技術(shù)路線的演進和應(yīng)用價值的再認識。
面壁智能CEO兼聯(lián)合創(chuàng)始人李大海在接受《每日經(jīng)濟新聞》記者采訪時表示,技術(shù)的發(fā)展是非線性的。大模型本質(zhì)上是一項基礎(chǔ)性技術(shù),未來一定是非常重要的底層基礎(chǔ)設(shè)施。隨著這項技術(shù)逐步成熟,產(chǎn)業(yè)關(guān)注的重心自然也開始從底層模型向其之上的具體應(yīng)用轉(zhuǎn)移,這種關(guān)注點的遷移是合理且必然的。
同時,李大海認為,大模型“奇點”正在到來,其身處其中有非常強烈的感受,當前大模型在訓練過程中,已經(jīng)能夠利用自身的特性,反哺訓練過程,實現(xiàn)大模型訓練的加速,形成“用大模型訓練大模型”的良性循環(huán)。“整個技術(shù)的發(fā)展在加速,(所以)才有外面能看到的整個行業(yè)的變化越來越大(的情況)。”
“人工智能正加速從數(shù)字世界走向物理世界,這是我們對整個大的技術(shù)發(fā)展趨勢的判斷。”智源研究院院長王仲遠受訪時表示。
在2024年的智源大會開幕式上,月之暗面、百川智能、智譜AI與面壁智能四家國產(chǎn)大模型公司曾罕見同臺,展開通往通用人工智能(AGI)之路的對話。而2025年,圓桌環(huán)節(jié)的對話主角,從大模型轉(zhuǎn)向了具身智能。
開年以來,具身智能成為人工智能領(lǐng)域最熱的關(guān)鍵詞,伴隨而來的,是形態(tài)各異的機器人頻繁亮相各種公眾賽事:從春節(jié)晚會上的舞蹈表演,到格斗競技場上的人形對抗賽;從物流分揀的真實場景模擬,到即將在北京舉辦的“世界人形機器人運動會”。
眼下風靡的機器人比賽,是驗證技術(shù)的試驗場,還是秀肌肉的“秀場”?
對此,王興興認為,當前機器人賽事的價值在于讓大眾“看到機器人已經(jīng)發(fā)展到什么階段了”。他坦言,盡管人形機器人還不能“真正進入家庭干活”,但通過格斗、跳舞等全身動作訓練,一方面可以展示當前AI控制系統(tǒng)的水平,另一方面,跳舞和格斗,其實是機器人全身動作的一部分。“我們的目標一直是希望通過AI技術(shù)讓機器人能做各種全身動作,來實現(xiàn)終極目標,去真正解放人類生產(chǎn)力。”
王興興進一步解釋道,這種展示不僅有助于訓練和驗證模型能力,也開始體現(xiàn)出一定的商業(yè)價值。今年上半年,人形機器人租賃市場就比較火爆,王興興認為,這也是一種產(chǎn)業(yè)價值的體現(xiàn)。
北京人形機器人創(chuàng)新中心總經(jīng)理熊友軍也表示,接下來的“世界人形機器人運動會”,不僅包括格斗等競技類項目,還將引入短跑、接力、足球、舞蹈等來自人類場景的形式。同時,賽事中還包含多個真實生活和工業(yè)場景,如工廠的物流搬運、醫(yī)院的醫(yī)藥分揀、酒店的服務(wù)應(yīng)用等。
熊友軍表示,這些比賽場景來自具體的企業(yè)提出的真實場景需求,和機器人即將走入現(xiàn)實的生活密切相關(guān)。“這是一個很好的訓練場,對提升機器的技術(shù)有很大幫助,也是潛在客戶了解和跟機器人企業(yè)溝通的橋梁。”
盡管表演與賽事火熱,但具身智能產(chǎn)業(yè)化真正的關(guān)鍵仍是“干活”能力的打造。對此,銀河通用創(chuàng)始人王鶴指出,當前行業(yè)已經(jīng)有許多炫酷技能,但需要反思的是,如果在真實環(huán)境下無法保證成功率,這些技能的產(chǎn)業(yè)價值就非常有限。
王鶴介紹,銀河通用與智源研究院的聯(lián)合團隊正在重點攻關(guān)“通用移動抓取”任務(wù),即通過導(dǎo)航與抓取組合,讓機器人在貨架等實際工作場景中完成復(fù)雜動作。王鶴透露,銀河通用的機器人已經(jīng)在北京值守7家24小時無人藥店,由人形機器人完成取藥和對接騎手的任務(wù)。他進一步強調(diào),希望賽事和應(yīng)用場景能進一步打通,用賽事去引領(lǐng)有價值的、可落地的技能。
人形機器人現(xiàn)場展示格斗 主辦方供圖
在AI模型“上天入地”的浪潮中,被稱為“AI+機器人”終極形態(tài)的具身智能,正成為產(chǎn)業(yè)界和學術(shù)界同時瞄準的下一個技術(shù)制高點。
“其實我一直不堅持一定要做(成)人形(機器人)。”在談到人形機器人是否是具身智能唯一形態(tài)時,王興興表示,從工程實踐角度出發(fā),宇樹科技早期做機器狗,轉(zhuǎn)向人形機器人屬于“順理成章”。在一些場景中,用輪式底盤替代腿部同樣非常實用。
“但為什么大家現(xiàn)在喜歡用人形,尤其上半身保留人的樣子?核心是因為現(xiàn)在AI大部分還是依賴人來做數(shù)據(jù)采集。”王興興解釋說,人形機器人上半身動作和人類一致,可以讓AI采集數(shù)據(jù)、訓練模型都更加方便,“包括我們機器人跳舞或者做一些格斗和別的比賽,說實在的,如果你做成別的樣子就沒辦法做這個事情”。
不過王興興也明確指出,未來隨著AGI的誕生,機器人的形態(tài)將會“千奇百怪”,比現(xiàn)在要多非常多倍,甚至多100倍都有可能。但在當前階段,人形形態(tài)仍在數(shù)據(jù)采集、模型訓練和落地效率上具備“實用主義”的優(yōu)勢。
與王興興偏向技術(shù)現(xiàn)實主義的觀點不同,熊友軍更看重人形在未來市場中的地位。他認為,雖然從技術(shù)上講,具身智能載體可以多種多樣,但“人形機器人是具身智能發(fā)展、研究的最佳載體”。他指出,未來具身智能的最大應(yīng)用場景不是工業(yè),而是家庭和商用服務(wù),“今天工廠場景只是‘開胃小菜’”。
熊友軍認為,人形機器人更容易被人接受。它們會成為生活中的伙伴、朋友,甚至像現(xiàn)在很多年輕人所說的——可能是愛人。這種人機交互的自然程度是其他形態(tài)難以比擬的。他還補充道,人形機器人適配人類環(huán)境的成本更低,如果不是人形,就可能需要為機器人改造環(huán)境。這在實際部署中會帶來額外成本。熊友軍表示,長期來看,人形仍是具身智能最具發(fā)展?jié)摿Φ男螒B(tài)。
展區(qū)機器狗 主辦方供圖
在形態(tài)問題的背后,具身智能的“智能”來源何處,是另一個爭議核心。自動駕駛中,VLA(視覺語言動作模型)已成為主流解決方案,但面對具身智能中復(fù)雜度更高的任務(wù)環(huán)境,VLA能否“泛化”仍待驗證。
王鶴認為,自動駕駛的經(jīng)驗已初步證明了“端到端”方案有更好的擴展性,不依賴無窮無盡的規(guī)則,而是通過數(shù)據(jù)去驅(qū)動模型。他表示,VLA的意義在于,通過視覺觀測和自然語言指令,直接輸出動作決策,中間不再需要其他環(huán)節(jié)。這種路徑可以讓模型更充分地吸收數(shù)據(jù)背后的知識,發(fā)揮出最大的性能,而不受制于模塊化方案。
不過,王鶴也直言,目前VLA是具身智能研究的熱點,只是針對VLA究竟要突破什么,行業(yè)同樣有不同觀點。比如,有人希望把人類能做的所有事情都整合到VLA中,形成一個基座模型。王鶴認為這太著急了。他指出,人類認知不是只有視覺和語言,還包括力覺、觸覺、嗅覺、味覺、溫覺、聽覺??“所以VLA只能是一個起點,要想真正做到人類級別的具身智能,只能不斷融合新的模態(tài)。”
王鶴認為,目前VLA最適合的任務(wù)是移動、抓取和放置。這些以視覺為主,加上末端的觸覺或力覺傳感器即可執(zhí)行,這類任務(wù)在工業(yè)和服務(wù)場景中已經(jīng)足夠廣泛,如果能先將這類VLA模型做扎實,“將會是具身智能真正第一次高潮的到來”。
穹徹智能聯(lián)合創(chuàng)始?、上海交通?學教授、上海創(chuàng)智學院副院?盧策吾則補充,VLA模型“確實集合了機器人幾件要干的事”——Vision(視覺)理解世界,Language(語言)與人類溝通,Action(動作)改變世界。但他也指出VLA當前存在很大的限制。具身智能面對的物理世界比無人駕駛復(fù)雜得多,無人車只需在兩個維度做決策,且場景相對固定,而通用具身智能的場景是開放且有接觸的,空間更大、不確定性更多。因此,要做到通用,就要壓縮它的“不確定性”,并不停地在兼容框架中增加更多額外信息,在端到端的模型里壓縮它的空間。
此外,他強調(diào)對物理世界理解能力的增強也是“壓縮任務(wù)空間”的關(guān)鍵。穹徹團隊在其第二代“機器人大腦”中,加入了“數(shù)字基因”“仿真數(shù)據(jù)資產(chǎn)”等模塊,希望通過仿真產(chǎn)生大量數(shù)據(jù),減少真實世界中訓練對樣本量的依賴。盧策吾認為,找到更聰明的方式理解世界,把它們?nèi)诤系絍LA里,才可能真正推動通用智能的拐點出現(xiàn)。
從人形機器人的路徑分歧,到VLA模型的能力邊界,在具身智能這條路上,數(shù)據(jù)仍是燃料,形態(tài)仍有博弈。但最終,理解世界并與之交互的能力,或許才是決定智能生命形態(tài)的關(guān)鍵點。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP