6月7日,為期 2 天的第七屆北京智源大會圓滿落下帷幕。本次大會邀請到了4位圖靈獎得主、30余位AI企業(yè)創(chuàng)始人&CEO、100余位全球青年科學家、200余位人工智能頂尖學者和產業(yè)專家,設置20個論壇共計180余場報告,覆蓋多模態(tài)、深度推理、下一代AI路徑、Agent智能體、具身智能、AI4S、AI產業(yè)、AI安全、AI開源等關鍵議題,除了專題論壇外還設置了Tech Tutorial特色活動,并首次和聯(lián)合Pytorch舉辦Pytorch Day China。此外,大會現(xiàn)場搭建了智源AI科研成果互動體驗展臺,集中呈現(xiàn)了具身智能、腦科學、數(shù)字心臟等前沿科研成果的應用場景,吸引大量參會者駐足體驗、深度互動,現(xiàn)場氣氛熱烈。
過去一年,具身智能領域迎來爆發(fā)式增長,成為人工智能與機器人技術融合的核心賽道。
本屆智源大會的“具身智能”濃度拉滿,開幕式的具身會客廳環(huán)節(jié),不僅有宇樹、天工、銀河通用三大明星機器人現(xiàn)場炫技,還有Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman與宇樹科技創(chuàng)始人王興興,銀河通用創(chuàng)始人兼CTO、北京大學助理教授、智源具身智能研究中心主任王鶴,穹徹智能聯(lián)合創(chuàng)始人、上海交通大學教授盧策吾,北京人形機器人創(chuàng)新中心總經理熊友軍、智源研究院院長王仲遠隔空共話具身智能的現(xiàn)狀與未來。
此外,今年首次將具身智能升級為全天的分論壇,并加入人形機器人的主題,可見智能與機器人本體互相促進的技術演進趨勢。
具身智能與人形機器人分論壇邀請到了來自清華大學、北京大學、北京郵電大學、上海人工智能實驗室知名高校和研究機構的學者專家以及眾擎機器人、千尋智能、北京人形機器人創(chuàng)新中心等具身公司的創(chuàng)始人與CTO分享前沿研究與產業(yè)實踐。
在具身智能的技術路線與底層邏輯層面,清華大學教授,IEEE/CAAI/CAA Fellow、 國家杰出青年基金獲得者孫富春指出,世界模型是全要素模型,空間智能是其向視覺空間的投影,強調觸覺糾偏高于視覺糾偏,需構建包含物理屬性等的沉浸式數(shù)字物理系統(tǒng)。
而清華大學研究員、機器人控制實驗室主任趙明國提出類腦算法可替代傳統(tǒng)控制器,人形機器人發(fā)展需從運動控制向視覺決策等升級,人類進化的底層運動智能具有啟示意義。
在具身智能的數(shù)據(jù)瓶頸突破路徑上,銀河通用創(chuàng)始人及CTO、北京大學助理教授、智源具身智能研究中心主任王鶴主張采用合成數(shù)據(jù)為主的具身大模型訓練范式,通過數(shù)十億級高質量仿真數(shù)據(jù)預訓練的具身端到端大模型,在采集少量真機數(shù)據(jù)快速對齊后,可快速掌握新需求,并可將技能直接泛化到相同任務但從未見過的物品上,目前銀河通用具身大模型機器人Galbot已在零售、工業(yè)等場景逐步規(guī)模化落地。
上海人工智能實驗室青年科學家、具身智能中心負責人龐江淼也認為,合成數(shù)據(jù)有助于本體和場景泛化,但持續(xù)壓低真實數(shù)據(jù)采集數(shù)量,提升合成數(shù)據(jù)的質量,直到全合成數(shù)據(jù)能夠達成零樣本泛化,需要一定時間。
北京大學副教授、BeingBeyond創(chuàng)始人盧宗青提出利用互聯(lián)網(wǎng)視頻預訓練姿態(tài)生成模型,學習人類運動先驗,解決人形機器人數(shù)據(jù)稀缺問題。
清華大學交叉信息研究院助理教授、千尋智能聯(lián)合創(chuàng)始人高陽指出,機器人數(shù)據(jù)采集成本高(需遙操作 + 物理交互),且難以用語言描述(如游泳),形成“無智能-少機器人-少數(shù)據(jù)”的惡性循環(huán),可利用互聯(lián)網(wǎng)視頻數(shù)據(jù),通過跟蹤視頻中物體運動預訓練模型,再遷移到機器人遙操作數(shù)據(jù)微調,結合強化學習,解決仿真與現(xiàn)實差距。
北京人形機器人創(chuàng)新中心有限公司CTO、IEEE Fellow、ACM杰出科學家、中國電子學會會士唐劍認為,虛實結合是具身智能的正確打開方式,世界模型能夠模擬物理規(guī)律,生成虛擬數(shù)據(jù),預測環(huán)境變化,形成閉環(huán)反饋。
在具身智能的通用泛化能力構建方面,智源具身多模態(tài)大模型中心負責人,北京大學計算機學院助理教授仉尚航認為,構建具身快慢系統(tǒng)是具身智能從 “單一任務 / 本體” 邁向 “通用泛化”的關鍵路徑,分別以“大腦(推理)+ 小腦(控制)”的分層快慢系統(tǒng)和VLA端到端快慢系統(tǒng)兩條技術路線,解決跨本體(如機械臂、人形機器人)與場景的泛化性問題。她詳細介紹了RoboBrain 2.0, RoboOS 2.0, HybridVLA, Fast-in-Slow等最新工作。
北京郵電大學教授方斌指出,視觸覺感知是具身智能從“感知”邁向“精準操作”的核心環(huán)節(jié),需通過傳感器創(chuàng)新、仿真數(shù)據(jù)增強與多模態(tài)融合,解決動態(tài)環(huán)境下的操作穩(wěn)定性與泛化性難題。
在具身智能的商業(yè)化落地進程中,眾擎機器人 創(chuàng)始人、董事長趙同陽指出,當前人形機器人的基礎能力還不足,還無法穩(wěn)定從 A 點走到 B 點、上下電梯,需要先解決全地形適應、穩(wěn)定行走,再進一步發(fā)展抓取、服務等上層應用,從而突破行業(yè)瓶頸。
在圓桌討論環(huán)節(jié),與會嘉賓們指出當前具身智能與人形機器人的發(fā)展存在數(shù)據(jù)質量與數(shù)量不足、學術研究與產業(yè)落地錯位、人形機器人移動操作難度大等問題;解決方案上,需融合互聯(lián)網(wǎng)視頻、遙操作、仿真等多源數(shù)據(jù),推動硬件接口標準化,以系統(tǒng)化視角構建“大腦+小腦”分層框架,同時平衡技術創(chuàng)新與工程化驗證,從而推動具身智能從實驗室走向場景落地。
智源研究院理事長黃鐵軍在閉幕致辭中表示,智源持續(xù)布局類腦等方向的研究,意在構造精細完整的物理智能體,從原子到器官打造媲美人類的物理智能體。他帶領團隊開發(fā)的脈沖視覺芯片,功能類似人眼,速度比人眼快千倍,就是為具身智能準備的“超級電眼”。2024年底登上Nature子刊封面的智源線蟲,實現(xiàn)秀麗線蟲神經系統(tǒng)、身體與環(huán)境的閉環(huán)仿真,能夠自主覓食,逼真詮釋了具身理念。5-10年,具身智能有望代替人類從事不愿干、危險的勞動,但這并非具身智能的終極目標。人類從地球演化出來,只適合在地球生存,生理上不適合移民到其他星球。2045 年具身智能有望全面超越人類,代表人類走向星際,“我們的目標是星辰大海!我們的使命偉大而光榮!”