2025年6月6日,第七屆“北京智源大會”在中關(guān)村展示中心開幕。
北京智源大會是智源研究院主辦的“AI內(nèi)行學(xué)術(shù)盛會”,以“全球視野、思想碰撞、前沿引領(lǐng)”為特色,匯聚海內(nèi)外研究者分享研究成果、探尋前沿知識、交流實踐經(jīng)驗。2025北京智源大會邀請到了圖靈獎得主、深度學(xué)習(xí)代表人物Yoshua Bengio,圖靈獎得主、強(qiáng)化學(xué)習(xí)之父Richard S. Sutton,圖靈獎得主Joseph Sifakis、姚期智,Google、DeepMind、Meta、Mila、Physical Intelligence、MIT、斯坦福、UC Berkeley、Linux基金會等國際明星機(jī)構(gòu)與技術(shù)團(tuán)隊代表,華為、百度、字節(jié)跳動、騰訊、阿里等互聯(lián)網(wǎng)大廠以及智譜、宇樹科技、生數(shù)科技、面壁等30余位AI公司創(chuàng)始人、CEO,同時,大會還匯聚了100余位全球青年科學(xué)家、200余位人工智能頂尖學(xué)者和產(chǎn)業(yè)專家,圍繞多模態(tài)、深度推理、下一代AI路徑、Agent智能體、具身智能、AI4S、AI產(chǎn)業(yè)、AI安全、AI開源展開精彩演講和前瞻性對話。
開幕式由智源研究院理事長黃鐵軍主持。
智源研究院院長王仲遠(yuǎn)做2025研究進(jìn)展報告,發(fā)布智源研究院在大模型前沿技術(shù)路徑的探索成果和開源生態(tài)建設(shè)的最新動態(tài)。
在通用人工智能的探索之路上,智源研究院以”悟道”系列大模型為起點,開啟了中國的大模型時代。
2021年3月推出的悟道1.0,作為中國首個超大規(guī)模信息智能模型,填補(bǔ)了中文超大預(yù)訓(xùn)練模型生態(tài)的空白;同年6月發(fā)布的悟道2.0,以1.75萬億參數(shù)規(guī)模登頂全球最大預(yù)訓(xùn)練模型,在知識推理、多語言生成等9項核心任務(wù)上實現(xiàn)國際領(lǐng)先;2023年全面開源的悟道3.0,在通用視覺與多模態(tài)的六大技術(shù)維度取得突破性進(jìn)展。
大語言模型和多模態(tài)模型的發(fā)展,進(jìn)一步推動機(jī)器人從1.0時代邁向2.0時代。目前,大模型與機(jī)器本體深度耦合驅(qū)動以具身智能為核心的機(jī)器人2.0時代,正在加速數(shù)字世界與物理世界融合。
智源“悟界”系列大模型:解碼生命本質(zhì) 驅(qū)動機(jī)器智能 拓展AI與物理交互邊界
在2025北京智源大會上,繼“悟道”系列大模型之后,智源研究院推出“悟界”系列大模型,其中,“悟道”的“道”代表智源對大語言模型系統(tǒng)化方法和路徑的探索,“悟界”的“界”代表虛實世界邊界的不斷突破?!拔蚪纭毕盗写竽P统休d的是智源對人工智能從數(shù)字世界邁向物理世界的技術(shù)趨勢的判斷。
“悟界”大模型系列,包括原生多模態(tài)世界模型Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2。
Emu3作為原生多模態(tài)統(tǒng)一架構(gòu)讓大模型具備理解和推理世界的能力,Brainμ基于Emu3架構(gòu),引入腦信號這一新的模態(tài)數(shù)據(jù),實現(xiàn)了單一模型完成多種神經(jīng)科學(xué)任務(wù)的大一統(tǒng)。多模態(tài)與腦科學(xué)模型未來可成為人機(jī)交互具身場景下的基礎(chǔ)模型。RoboOS 2.0與RoboBrain 2.0在初代版本基礎(chǔ)上,原有性能大幅提升,并新增多機(jī)協(xié)作規(guī)劃與物理常識驅(qū)動的空間推理能力。OpenComplex2可在原子分辨率層面捕捉分子相互作用及平衡構(gòu)象,探索微觀構(gòu)象波動與宏觀生物功能的跨尺度關(guān)聯(lián)。
從微觀生命體到具身智能體,’悟界’系列大模型試圖揭示生命機(jī)理本質(zhì)規(guī)律,構(gòu)建人工智能與物理世界交互基座。
1.原生多模態(tài)世界模型Emu3
原生多模態(tài)世界模型Emu3基于下一個token預(yù)測范式統(tǒng)一多模態(tài)學(xué)習(xí),無需擴(kuò)散模型或組合式架構(gòu)的復(fù)雜性,通過研發(fā)新型視覺tokenizer將圖像/視頻編碼為與文本同構(gòu)的離散符號序列,構(gòu)建模態(tài)無關(guān)的統(tǒng)一表征空間,實現(xiàn)文本、圖像、視頻的任意組合理解與生成。Emu3支持多模態(tài)輸入、多模態(tài)輸出的端到端映射,驗證了自回歸框架在多模態(tài)領(lǐng)域的普適性與先進(jìn)性,為跨模態(tài)交互提供了強(qiáng)大的技術(shù)基座。
2.腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ
基于Emu3的底層架構(gòu),將fMRI、EEG、雙光子等神經(jīng)科學(xué)與腦醫(yī)學(xué)相關(guān)的腦信號統(tǒng)一token化,利用預(yù)訓(xùn)練模型多模態(tài)對齊的優(yōu)勢,可以實現(xiàn)多模態(tài)腦信號與文本、圖像等模態(tài)的多向映射,并實現(xiàn)跨任務(wù)、跨模態(tài)、跨個體的統(tǒng)一通用建模,以單一模型完成多種神經(jīng)科學(xué)的下游任務(wù)。
Brainμ整合了神經(jīng)科學(xué)領(lǐng)域多個大型公開數(shù)據(jù)集和多個合作實驗室的高質(zhì)量神經(jīng)科學(xué)數(shù)據(jù),完成了超過100萬單位的神經(jīng)信號預(yù)訓(xùn)練,模型可以支持神經(jīng)科學(xué)領(lǐng)域從基礎(chǔ)研究到臨床研究和腦機(jī)接口應(yīng)用的不同方向,有望成為腦科學(xué)的 “AlphaFold”模型。
作為神經(jīng)科學(xué)領(lǐng)域跨任務(wù)、跨模態(tài)、跨個體的基礎(chǔ)通用模型,Brainμ可同步處理多類編解碼任務(wù),兼容多物種動物模型(包括小鼠 狨猴 獼猴)與人類數(shù)據(jù),實現(xiàn)科學(xué)數(shù)據(jù)注釋、交互式科學(xué)結(jié)論解讀、大腦感覺信號重建及模擬刺激信號生成。在自動化睡眠分型、感官信號重建與多種腦疾病診斷等任務(wù)中,作為單一模型其性能顯著超越現(xiàn)有的專有模型,刷新SOTA表現(xiàn)。作為整合大規(guī)模多模態(tài)數(shù)據(jù)的基礎(chǔ)通用模型,Brainμ也可以支持拓展腦機(jī)接口應(yīng)用,在與腦機(jī)接口企業(yè)強(qiáng)腦科技BrainCO的合作中,Brainμ實現(xiàn)了首次在便攜式消費級腦電系統(tǒng)上重建感覺信號,展現(xiàn)了模型支持拓展腦機(jī)接口應(yīng)用能力的潛力。
智源正在與國內(nèi)前沿的基礎(chǔ)神經(jīng)科學(xué)實驗室、腦疾病研究團(tuán)隊和腦機(jī)接口團(tuán)隊深入合作,包括北京生命科學(xué)研究所、清華大學(xué)、北京大學(xué)、復(fù)旦大學(xué)與強(qiáng)腦科技BrainCO,拓展Brainμ的科學(xué)與工業(yè)應(yīng)用。
3.跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0
跨本體具身大小腦協(xié)作框架RoboOS 2.0是全球首個基于具身智能SaaS平臺、支持無服務(wù)器一站式輕量化機(jī)器人本體部署的開源框架。同時,RoboOS 2.0也是全球首個支持MCP的跨本體具身大小腦協(xié)作框架,旨在構(gòu)建具身智能領(lǐng)域的“應(yīng)用商店”生態(tài)。
在該框架下,可一鍵下載并部署來自全球開發(fā)者創(chuàng)建的相同型號機(jī)器人本體的小腦技能,完成大小腦的無縫整合。RoboOS 2.0實現(xiàn)了小腦技能的免適配注冊機(jī)制,顯著降低開發(fā)門檻,典型場景下,相關(guān)代碼量僅為傳統(tǒng)手動注冊方式的1/10。
相較于1.0,RoboOS 2.0對端到端推理鏈路進(jìn)行了系統(tǒng)級優(yōu)化,整體性能提升達(dá)30%,全鏈路平均響應(yīng)時延低至3ms以下,端云通信效率提升27倍。在功能層面,新增了多本體時空記憶場景圖(Scene Graph)共享機(jī)制,支持動態(tài)環(huán)境下的實時感知與建模;同時引入多粒度任務(wù)監(jiān)控模塊,實現(xiàn)任務(wù)閉環(huán)反饋,有效提升機(jī)器人任務(wù)執(zhí)行的穩(wěn)定性與成功率。
RoboBrain2.0官網(wǎng):https://superrobobrain.github.io
具身大腦RoboBrain 2.0是目前全球最強(qiáng)的開源具身大腦大模型,在多項空間推理與任務(wù)規(guī)劃指標(biāo)上超越主流大模型。
在任務(wù)規(guī)劃方面,RoboBrain 2.0相比于RoboBrain 1.0的基于Prompt的多機(jī)任務(wù)規(guī)劃機(jī)制和初級空間理解能力,進(jìn)一步擴(kuò)展了基于多本體-環(huán)境動態(tài)建模的多機(jī)協(xié)同規(guī)劃能力,可實時構(gòu)建包含本體定位的場景圖(Scene Graph),并自動完成跨本體的任務(wù)規(guī)劃。實驗數(shù)據(jù)顯示,RoboBrain 2.0的任務(wù)規(guī)劃準(zhǔn)確率相較RoboBrain 1.0實現(xiàn)了74%的效果提升。
在空間智能方面,RoboBrain 2.0在原有可操作區(qū)域(Affordance)感知與操作軌跡(Trajectory)生成能力的基礎(chǔ)上,實現(xiàn)了17%的性能提升。同時,RoboBrain 2.0增加了空間推理能力(Spatial Referring),既包含機(jī)器人對相對空間位置(如前后、左右、遠(yuǎn)近)及絕對距離的基礎(chǔ)感知與理解能力,也實現(xiàn)了對復(fù)雜空間的多步推理能力。
此外,RoboBrain 2.0還新增了閉環(huán)反饋以及具身智能的深度思考能力。閉環(huán)反饋使機(jī)器人能夠根據(jù)當(dāng)前環(huán)境感知和任務(wù)狀態(tài),實時調(diào)整任務(wù)規(guī)劃與操作策略,以應(yīng)對復(fù)雜環(huán)境中的突發(fā)變化和擾動;深度思考能力則支持機(jī)器人對復(fù)雜任務(wù)進(jìn)行推理分解,進(jìn)一步提升整體執(zhí)行準(zhǔn)確率與任務(wù)完成的可靠性。
RoboOS 2.0與RoboBrain 2.0已全面開源,包括框架代碼、模型權(quán)重、數(shù)據(jù)集與評測基準(zhǔn),以助力推動具身智能研究和產(chǎn)業(yè)應(yīng)用的發(fā)展。目前,智源研究院已與全球20多家具身智能企業(yè)建立戰(zhàn)略合作關(guān)系,共同打造開放繁榮、協(xié)同共生的具身智能生態(tài)體系。
4.全原子微觀生命模型OpenComplex 2
全原子微觀生命模型OpenComplex2實現(xiàn)了生物分子研究從靜態(tài)結(jié)構(gòu)預(yù)測到動態(tài)構(gòu)象分布建模的重大突破。該模型能夠表征生物分子系統(tǒng)的連續(xù)演化能量景觀(Energy Landscape),并通過融合擴(kuò)散生成式建模與生物實驗數(shù)據(jù),在原子分辨率層面捕捉分子相互作用及平衡構(gòu)象分布,為探索微觀構(gòu)象波動與宏觀生物功能的跨尺度關(guān)聯(lián)提供了全新的研究視角。
OpenComplex2基于FloydNetwork圖擴(kuò)散框架以及多尺度原子精度表示兩大關(guān)鍵技術(shù)創(chuàng)新,有效突破了生物分子在功能活動中可及的動態(tài)構(gòu)象分布預(yù)測的瓶頸,從而能夠建模生物分子系統(tǒng)中各種原子組分之間復(fù)雜的依賴關(guān)系,且無需對構(gòu)象空間施加先驗約束,更加真實地還原生物分子的構(gòu)象多樣性和動態(tài)特性,此外,還能同時捕捉原子級、殘基級和基序級(motif level)的相關(guān)性,從而在建模過程中兼顧關(guān)鍵的局部結(jié)構(gòu)細(xì)節(jié)與全局構(gòu)象變化,為揭示生物功能提供更加全面的結(jié)構(gòu)基礎(chǔ)。
OpenComplex2模型在生物分子動態(tài)特性預(yù)測、柔性系統(tǒng)及超大型復(fù)合物建模、生物分子相互作用精細(xì)化分析等關(guān)鍵任務(wù)中性能卓越,突破了靜態(tài)結(jié)構(gòu)預(yù)測的瓶頸。2024年,在第16屆蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估競賽CASP16(Critical Assessment of protein Structure Prediction)中,OpenComplex2成功預(yù)測了蛋白質(zhì)T1200/T1300的空間構(gòu)象分布(定性上與實驗數(shù)據(jù)一致),成為23支參賽隊伍中唯一取得該突破的團(tuán)隊。
OpenComplex2為原子級結(jié)構(gòu)生物學(xué)提供了一種全新的建模工具,通過統(tǒng)一框架解碼生物分子系統(tǒng)的動態(tài)作用機(jī)制,將加速從基礎(chǔ)分子機(jī)制研究到藥物設(shè)計等下游應(yīng)用的發(fā)展。基于人工智能精準(zhǔn)預(yù)測與高通量實驗驗證平臺的結(jié)合,OpenComplex2將有望顯著縮短生物醫(yī)藥研發(fā)周期,降低研發(fā)成本,提升科研成果轉(zhuǎn)化率,助力生物醫(yī)藥產(chǎn)業(yè)的高質(zhì)量創(chuàng)新發(fā)展。
持續(xù)打造大模型開源技術(shù)體系共建開放合作的技術(shù)未來
智源作為非營利科研機(jī)構(gòu),一直堅持開源開放的原則,智源打造的覆蓋模型、算法、數(shù)據(jù)、評測、系統(tǒng)的大模型開源技術(shù)體系FlagOpen,截至目前,已開源約200個模型和160個數(shù)據(jù)集,其中,模型全球總下載量超6.4億次,開源數(shù)據(jù)集下載量近113萬次,開源項目代碼下載量超140萬次,為人工智能技術(shù)普惠與開源社區(qū)繁榮做出持續(xù)貢獻(xiàn)。
其中,開源、統(tǒng)一的 AI 系統(tǒng)軟件棧 FlagOS進(jìn)一步升級,新增統(tǒng)一編譯器FlagTree、統(tǒng)一通信庫FlagCX、自動發(fā)版平臺工具FlagRelease等重要板塊,全面覆蓋統(tǒng)一生態(tài)技術(shù)需求;實現(xiàn)對11家國內(nèi)外廠商的18款異構(gòu)AI硬件的統(tǒng)一支持;FlagGems的算子平均性能已優(yōu)于國際主流算子,并行訓(xùn)推框架FlagScale與人工優(yōu)化相比,實現(xiàn)了最高23%的自動并行加速。升級后的FlagOS已支持DeepSeek、通義千問等更多開源大模型實現(xiàn)跨硬件平臺運行,為開發(fā)者提供更多選擇,推動 AI 技術(shù)的普及和多元發(fā)展。
FlagOpen開源地址:https://github.com/FlagOpen
在開源模型方面,通用向量模型BGE系列已發(fā)展為門類齊全、體系完備的生態(tài)系統(tǒng)。最初BGE聚焦文本相關(guān)場景,先后推出面向中英文應(yīng)用的BGE-v1模型,以及支持多語言場景的BGE-M3模型,在中英文及多語言向量建模能力上取得重大突破,廣受開源社區(qū)好評。自2025年起,BGE進(jìn)一步拓展至文本以外的應(yīng)用領(lǐng)域,并于近期集中發(fā)布了BGE-code-v1、BGE-VL-v1.5和BGE-VL-screenshot三款模型,分別在代碼檢索、多模態(tài)檢索以及富文本多模態(tài)檢索任務(wù)中取得了領(lǐng)先表現(xiàn)。目前,BGE模型已廣泛應(yīng)用于人工智能產(chǎn)業(yè),被百度、騰訊、華為、阿里巴巴、微軟、亞馬遜等知名企業(yè)商業(yè)化集成。2024年10月,BGE成為中國首個登頂 Hugging Face月度下載排行榜榜首的開源模型。截止2024年12月,BGE模型是2023年所有發(fā)布模型的全球下載量冠軍。
小時級開源輕量長視頻理解模型Video-XL-1,于2024年10月發(fā)布,首次實現(xiàn)了單GPU處理2048幀視頻的能力。與同期輕量級開源模型相比,Video-XL-1在MLVU、VideoMME等主流長視頻評測基準(zhǔn)上取得了領(lǐng)先。近期推出的Video-XL-2,效果更佳、長度更長、速度更快,不僅進(jìn)一步提升了輕量開源模型長視頻理解的最佳效果,同時實現(xiàn)了單GPU處理萬幀視頻的能力,并且在推理效率上大幅領(lǐng)先同類別競品模型,編碼 2048 幀視頻僅需 12 秒,顯著加速長視頻理解流程。目前,Video-XL-2 的模型權(quán)重已全面向社區(qū)開放。未來,該模型有望在影視內(nèi)容分析、異常行為監(jiān)測等多個實際場景中展現(xiàn)重要應(yīng)用價值。
開源全能視覺生成模型OmniGen,采用極簡架構(gòu),僅由大模型基座和VAE模塊構(gòu)成,大幅降低了開發(fā)和部署成本。OmniGen通過廣泛的指令學(xué)習(xí),實現(xiàn)了視覺生成能力的高度集成。用戶僅需通過提示詞描述任務(wù)需求,便可一站式完成各類視覺生成任務(wù),極大簡化了操作流程。OmniGen展現(xiàn)出顯著的涌現(xiàn)能力,能夠通過提示詞的靈活組合,生成多樣化、定制化的視覺內(nèi)容。自發(fā)布以來,OmniGen在技術(shù)社區(qū)引發(fā)廣泛關(guān)注,相關(guān)話題在Twitter、YouTube、YC Hacker News等平臺累計瀏覽量突破百萬,GitHub Star數(shù)超過4,000,并催生出一系列視覺生成類的創(chuàng)業(yè)產(chǎn)品。
國際巨頭尖峰對話熱議AI未來發(fā)展路徑
2025北京智源大會開幕式上,圖靈獎得主Yoshua Bengio、Richard Sutton,Linux基金會執(zhí)行董事Jim Zemlin,Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman分別做主題報告。
Yoshua Bengio以《Avoiding catastrophic risks from uncontrolled AI agency》為題指出,當(dāng)前 AI 在規(guī)劃、推理等領(lǐng)域呈指數(shù)級進(jìn)步,部分前沿模型已顯現(xiàn)自我保護(hù)、欺騙性對齊、篡改系統(tǒng)等類生物主體行為,若形成 “智能 + 自主目標(biāo) + 行動能力” 組合將引發(fā)失控風(fēng)險,甚至可能威脅人類生存。他強(qiáng)調(diào),盡管 AI 造成傷害需同時具備能力與意圖,但前者已可預(yù)見,必須以預(yù)防原則優(yōu)先解決意圖對齊問題。為此,他提出雙重解決方案:一是研發(fā)以無私科學(xué)家為原型的非代理性、可信賴人工智能系統(tǒng),專注于理解世界而非自主行動;二是推動全球協(xié)同治理,建立國際監(jiān)管框架與技術(shù)驗證機(jī)制,遏制各國因競爭導(dǎo)致的安全標(biāo)準(zhǔn)缺位,避免將 AGI 設(shè)計為人類競爭者,呼吁在 AGI 可能于 5 年內(nèi)達(dá)到人類水平的緊迫時間窗口內(nèi),通過技術(shù)創(chuàng)新與全球協(xié)作筑牢安全防線。
Yoshua Bengio與北京大學(xué)助理教授、智源大模型安全研究院中心主任楊耀東就AI安全議題進(jìn)行對話。
Richard Sutton在《Welcome to the Era of Experience》的主題報告中表示,AI 正從依賴人類靜態(tài)數(shù)據(jù)的 “人類數(shù)據(jù)時代” 邁入通過互動與經(jīng)驗學(xué)習(xí)的 “體驗時代”,強(qiáng)調(diào)智能體需像人類和動物一樣從動態(tài)交互中生成新知識,強(qiáng)化學(xué)習(xí)是實現(xiàn)這一目標(biāo)的核心路徑,而大語言模型時代已接近尾聲,通用人工智能需要更強(qiáng)大的持續(xù)學(xué)習(xí)算法。他認(rèn)為,智能體天然具有多元目標(biāo),如同自然界生物,關(guān)鍵在于通過分散合作而非集中控制實現(xiàn)安全協(xié)同 —— 人類社會的進(jìn)步源于分權(quán)化合作,集中控制 AI 的呼吁本質(zhì)是源于恐懼的 “危險策略”,可能引發(fā)類似人類沖突的問題。Sutton 倡導(dǎo)以去中心化合作替代中心化控制,通過信任、協(xié)調(diào)和市場機(jī)制引導(dǎo) AI 與人類共生,抵制因恐懼催生的限制措施,認(rèn)為這一路徑更可持續(xù),且能避免戰(zhàn)爭、腐敗等風(fēng)險,最終實現(xiàn) AI 與人類社會的互利共贏。
Richard Sutton與清華人工智能研究院副院長、生數(shù)科技創(chuàng)始人兼首席科學(xué)家、智源首席科學(xué)家朱軍就強(qiáng)化學(xué)習(xí)等議題進(jìn)行對話。
Linux基金會執(zhí)行董事Jim Zemlin在演講中談到,2025 年是開源 AI 元年,開源正成為全球 AI 創(chuàng)新核心驅(qū)動力。中國企業(yè),如DeepSeek發(fā)布開源大模型,引發(fā)技術(shù)生態(tài)變革,印證開源打破壟斷、加速迭代的作用。哈佛商學(xué)院數(shù)據(jù)顯示,全球開源軟件經(jīng)濟(jì)價值達(dá) 9 萬億美元,可幫助開發(fā)者節(jié)約 70% 開發(fā)成本。開源治理是平衡競爭與協(xié)同的核心機(jī)制。開源不僅是代碼共享,更需全球協(xié)作。他強(qiáng)調(diào),開源是技術(shù)普惠的唯一路徑,通過全球協(xié)作確保 AI 創(chuàng)新由全人類共享。
智源研究院副院長兼總工程師林詠華主持Fireside Chat,Linux基金會執(zhí)行董事Jim Zemlin 與LAION工程負(fù)責(zé)人兼創(chuàng)始人Richard Vencu就全球AI開源與合作展開深度對話,嘉賓普遍認(rèn)為,開源是 AI 發(fā)展的核心,數(shù)據(jù)集共享是關(guān)鍵基礎(chǔ),全球合作至關(guān)重要,應(yīng)當(dāng)鼓勵開發(fā)者從提交代碼等小事參與開源,共同推動 AI 創(chuàng)新。
Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman做《Building physical ntelligence》主題報告,他認(rèn)為具身智能的發(fā)展,VLA模型是關(guān)鍵突破,可讓機(jī)器人通過互聯(lián)網(wǎng)數(shù)據(jù)學(xué)習(xí),無需體驗每個場景,還能與其他機(jī)器人連接獲取數(shù)據(jù)。Physical Intelligence研發(fā)了通用機(jī)器人基礎(chǔ)模型π0,經(jīng)預(yù)訓(xùn)練和后期高質(zhì)量數(shù)據(jù)培訓(xùn),使機(jī)器人能完成如打開洗衣機(jī)、疊衣服等復(fù)雜任務(wù),在陌生環(huán)境下任務(wù)完成率達(dá) 80%-90%。目前雖已展示物理智能潛力,但在泛化能力、穩(wěn)定性等方面仍有挑戰(zhàn),未來希望實現(xiàn)機(jī)器人 100% 穩(wěn)定完成任務(wù),推動物理智能的進(jìn)一步發(fā)展。
在智源具身智能會客廳中,銀河通用的具身大模型機(jī)器人Galbot登臺展示了端到端VLA大模型在商業(yè)零售場景的落地應(yīng)用,《CMG世界機(jī)器人大賽·系列賽》機(jī)甲格斗擂臺賽“AI策算師”冠軍機(jī)器人宇樹G1登臺展示了敏捷帥氣的“組合拳”,全球首個人形機(jī)器人半程馬拉松冠軍天工2.0也參與了現(xiàn)場互動,完成“水果擺盤”的精細(xì)化服務(wù)任務(wù),獲得滿堂喝彩。
在對具身智能發(fā)展?jié)M懷期待的氛圍中,智源研究院王仲遠(yuǎn)與Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman,宇樹科技創(chuàng)始人王興興,銀河通用創(chuàng)始人兼CTO、北京大學(xué)助理教授、智源具身智能研究中心主任王鶴,穹徹智能聯(lián)合創(chuàng)始人、上海交通大學(xué)教授盧策吾,北京人形機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍,就具身智能的不同技術(shù)路線、商業(yè)化路徑探索、典型應(yīng)用場景拓展、產(chǎn)業(yè)生態(tài)構(gòu)建等議題展開深度討論。嘉賓認(rèn)為,短期內(nèi)人形機(jī)器人因數(shù)據(jù)采集、人機(jī)交互和環(huán)境適應(yīng)優(yōu)勢是重要載體,長期看隨著 AGI 發(fā)展會多樣化。對于 VLA 模型泛化性,雖面臨機(jī)器人環(huán)境復(fù)雜等挑戰(zhàn),但通過合成數(shù)據(jù)、多場景訓(xùn)練等可提升適應(yīng)性。
智源AI科研體驗區(qū) 從實驗室通向場景應(yīng)用
本屆智源大會,設(shè)置了智源研究院AI科研成果互動體驗展臺,帶來了從具身智能到腦科學(xué)、數(shù)字心臟等領(lǐng)域的最新應(yīng)用。此次“悟界”系列大模型中的腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ以及跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0也進(jìn)行了現(xiàn)場展示。
在具身智能展區(qū),基于RoboOS 2.0以及RoboBrain 2.0的不同構(gòu)型的機(jī)器人(單臂、輪式雙臂、人形)帶來了豐富的技能展示,包括餐飲互動,機(jī)器人接受到語音指令后,完成漢堡制作和倒飲料的動作,以及抓娃娃的游戲和家居物品收納。此外,基于智源自主研發(fā)的多模態(tài)具身大模型的機(jī)器人,融合了視覺、聽覺、思考、語音交互等能力,帶來了“心有靈犀”的互動小游戲,機(jī)器人可對看見的物品進(jìn)行詳細(xì)描述,互動者依據(jù)信息線索猜出對應(yīng)的物品名稱。智源與銀河通用聯(lián)合研發(fā)的具身大模型機(jī)器人Galbot,展示了商超場景下的落地應(yīng)用能力。
在腦科學(xué)多模態(tài)通用基礎(chǔ)模型展區(qū),展示了Brainμ在腦科學(xué)基礎(chǔ)應(yīng)用與臨床應(yīng)用上的實際案例以及AI+腦科學(xué)未來基礎(chǔ)研究與臨床應(yīng)用的新范式。同時,通過與腦機(jī)接口設(shè)備結(jié)合,Brainμ可根據(jù)采集的腦信號數(shù)據(jù)進(jìn)行信號解析與感覺刺激重建,利用多模態(tài)大模型的能力在消費級便攜式腦電設(shè)備上實現(xiàn)了接近醫(yī)用級設(shè)備數(shù)據(jù)采集的穩(wěn)定解析能力,Brainμ模型展現(xiàn)了降低腦機(jī)接口應(yīng)用在消費級設(shè)備的門檻的能力,可以為便攜式腦機(jī)接口的應(yīng)用拓展空間。
基于2024年研發(fā)的全球首個數(shù)字孿生心臟,智源推出了全球首個高速跨尺度心臟藥物安全性評價平臺,構(gòu)建了跨尺度藥物-心臟作用模型,覆蓋從亞細(xì)胞(離子通道),到細(xì)胞、組織、器官與人體,可以全尺度評測藥物對心臟電活動的影響,評測藥物心臟毒性,將全尺度藥物毒性仿真時間由近90天減少到一天之內(nèi),為藥物仿真平臺實際應(yīng)用提供堅實支撐。
在數(shù)字心臟展區(qū),可通過裸眼3D透明心臟以及VR互動沉浸體驗基于醫(yī)學(xué)影像重建的心臟三維結(jié)構(gòu),通過操控筆可精準(zhǔn)完成心臟模型的旋轉(zhuǎn)、拉伸與層析切片操作。未來,將實現(xiàn)對心臟電生理過程的動態(tài)仿真交互,為精準(zhǔn)醫(yī)療與個性化干預(yù)提供技術(shù)支撐。在裸眼3D提供宏觀交互的同時,也進(jìn)一步構(gòu)建了基于虛擬現(xiàn)實的沉浸式系統(tǒng),實現(xiàn)對心臟內(nèi)部結(jié)構(gòu)的深度探索與術(shù)式模擬。佩戴VR頭顯,可沉浸式進(jìn)入心臟內(nèi)部,進(jìn)行類內(nèi)窺鏡式的結(jié)構(gòu)觀察。通過手柄精準(zhǔn)定位,用戶可選定刺激區(qū)域,模擬電生理手術(shù)中的干預(yù)操作。該系統(tǒng)為心臟術(shù)前智能規(guī)劃提供了高度可視化與交互性的研究平臺,為數(shù)字孿生心臟在臨床應(yīng)用中的落地奠定了堅實基礎(chǔ)。
基于心沖擊信號(Ballistocardiograph,BCG)研發(fā)的無感智能坐墊系統(tǒng),可對多項生理指標(biāo)進(jìn)行高精度實時監(jiān)測與智能分析。落座后,系統(tǒng)通過內(nèi)嵌的高靈敏度傳感模塊,精準(zhǔn)捕捉由心臟搏動引發(fā)的微弱體動信號,并同步完成心動周期識別。在完成有效數(shù)據(jù)采集后,系統(tǒng)調(diào)用信號分析算法,進(jìn)入健康狀態(tài)評估階段,計算心率、心率變異性、呼吸頻率等指標(biāo)。根據(jù)這些指標(biāo),可對疲勞程度、精神壓力、情緒狀態(tài)進(jìn)行量化評估,并輔助識別房顫等心律異常狀態(tài),在個人健康管理、智能家居與智能醫(yī)療決策中具有廣泛的應(yīng)用前景。
大會期間,智源研究院與北京大學(xué)第一醫(yī)院簽署戰(zhàn)略合作協(xié)議,本著優(yōu)勢互補(bǔ)、資源共享、協(xié)同創(chuàng)新的原則,充分發(fā)揮雙方在人工智能技術(shù)研發(fā)與工程落地的多元能力以及臨床診療、教學(xué)科研與醫(yī)學(xué)數(shù)據(jù)資源的專業(yè)優(yōu)勢,共同在“智慧醫(yī)學(xué)系統(tǒng)”領(lǐng)域開展深入、系統(tǒng)、持續(xù)的戰(zhàn)略合作。
此外,大會上還宣布了智源研究院與香港投資管理有限公司建立戰(zhàn)略合作框架,共建世界級跨區(qū)域合作的人工智能生態(tài)圈。智源與港投的合作將加速人才、技術(shù)、資本的飛輪效應(yīng),構(gòu)建內(nèi)地、香港、國際的人才循環(huán)體系,匯聚全球人工智能青年人才、支持人工智能創(chuàng)新創(chuàng)業(yè)、加速人工智能產(chǎn)業(yè)全球化。
從“悟道”到“悟界”,智源研究院始終走在技術(shù)路線探索的前沿,積極構(gòu)建開源開放的技術(shù)生態(tài),未來,智源研究院將持續(xù)解構(gòu)物理世界與智能本質(zhì)的深層關(guān)聯(lián),在通用人工智能的征途中刻下新的坐標(biāo)。