2025年6月6日,第七屆“北京智源大會(huì)”在中關(guān)村展示中心開幕。
北京智源大會(huì)是智源研究院主辦的“AI內(nèi)行學(xué)術(shù)盛會(huì)”,以“全球視野、思想碰撞、前沿引領(lǐng)”為特色,匯聚海內(nèi)外研究者分享研究成果、探尋前沿知識(shí)、交流實(shí)踐經(jīng)驗(yàn)。2025北京智源大會(huì)邀請(qǐng)到了圖靈獎(jiǎng)得主、深度學(xué)習(xí)代表人物Yoshua Bengio,圖靈獎(jiǎng)得主、強(qiáng)化學(xué)習(xí)之父Richard S. Sutton,圖靈獎(jiǎng)得主Joseph Sifakis、姚期智,Google、DeepMind、Meta、Mila、Physical Intelligence、MIT、斯坦福、UC Berkeley、Linux基金會(huì)等國際明星機(jī)構(gòu)與技術(shù)團(tuán)隊(duì)代表,華為、百度、字節(jié)跳動(dòng)、騰訊、阿里等互聯(lián)網(wǎng)大廠以及智譜、宇樹科技、生數(shù)科技、面壁等30余位AI公司創(chuàng)始人、CEO,同時(shí),大會(huì)還匯聚了100余位全球青年科學(xué)家、200余位人工智能頂尖學(xué)者和產(chǎn)業(yè)專家,圍繞多模態(tài)、深度推理、下一代AI路徑、Agent智能體、具身智能、AI4S、AI產(chǎn)業(yè)、AI安全、AI開源展開精彩演講和前瞻性對(duì)話。
開幕式由智源研究院理事長黃鐵軍主持。
智源研究院院長王仲遠(yuǎn)做2025研究進(jìn)展報(bào)告,發(fā)布智源研究院在大模型前沿技術(shù)路徑的探索成果和開源生態(tài)建設(shè)的最新動(dòng)態(tài)。
在通用人工智能的探索之路上,智源研究院以”悟道”系列大模型為起點(diǎn),開啟了中國的大模型時(shí)代。
2021年3月推出的悟道1.0,作為中國首個(gè)超大規(guī)模信息智能模型,填補(bǔ)了中文超大預(yù)訓(xùn)練模型生態(tài)的空白;同年6月發(fā)布的悟道2.0,以1.75萬億參數(shù)規(guī)模登頂全球最大預(yù)訓(xùn)練模型,在知識(shí)推理、多語言生成等9項(xiàng)核心任務(wù)上實(shí)現(xiàn)國際領(lǐng)先;2023年全面開源的悟道3.0,在通用視覺與多模態(tài)的六大技術(shù)維度取得突破性進(jìn)展。
大語言模型和多模態(tài)模型的發(fā)展,進(jìn)一步推動(dòng)機(jī)器人從1.0時(shí)代邁向2.0時(shí)代。目前,大模型與機(jī)器本體深度耦合驅(qū)動(dòng)以具身智能為核心的機(jī)器人2.0時(shí)代,正在加速數(shù)字世界與物理世界融合。
智源“悟界”系列大模型:解碼生命本質(zhì) 驅(qū)動(dòng)機(jī)器智能 拓展AI與物理交互邊界
在2025北京智源大會(huì)上,繼“悟道”系列大模型之后,智源研究院推出“悟界”系列大模型,其中,“悟道”的“道”代表智源對(duì)大語言模型系統(tǒng)化方法和路徑的探索,“悟界”的“界”代表虛實(shí)世界邊界的不斷突破。“悟界”系列大模型承載的是智源對(duì)人工智能從數(shù)字世界邁向物理世界的技術(shù)趨勢(shì)的判斷。
“悟界”大模型系列,包括原生多模態(tài)世界模型Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2。
Emu3作為原生多模態(tài)統(tǒng)一架構(gòu)讓大模型具備理解和推理世界的能力,Brainμ基于Emu3架構(gòu),引入腦信號(hào)這一新的模態(tài)數(shù)據(jù),實(shí)現(xiàn)了單一模型完成多種神經(jīng)科學(xué)任務(wù)的大一統(tǒng)。多模態(tài)與腦科學(xué)模型未來可成為人機(jī)交互具身場(chǎng)景下的基礎(chǔ)模型。RoboOS 2.0與RoboBrain 2.0在初代版本基礎(chǔ)上,原有性能大幅提升,并新增多機(jī)協(xié)作規(guī)劃與物理常識(shí)驅(qū)動(dòng)的空間推理能力。OpenComplex2可在原子分辨率層面捕捉分子相互作用及平衡構(gòu)象,探索微觀構(gòu)象波動(dòng)與宏觀生物功能的跨尺度關(guān)聯(lián)。
從微觀生命體到具身智能體,’悟界’系列大模型試圖揭示生命機(jī)理本質(zhì)規(guī)律,構(gòu)建人工智能與物理世界交互基座。
1.原生多模態(tài)世界模型Emu3
原生多模態(tài)世界模型Emu3基于下一個(gè)token預(yù)測(cè)范式統(tǒng)一多模態(tài)學(xué)習(xí),無需擴(kuò)散模型或組合式架構(gòu)的復(fù)雜性,通過研發(fā)新型視覺tokenizer將圖像/視頻編碼為與文本同構(gòu)的離散符號(hào)序列,構(gòu)建模態(tài)無關(guān)的統(tǒng)一表征空間,實(shí)現(xiàn)文本、圖像、視頻的任意組合理解與生成。Emu3支持多模態(tài)輸入、多模態(tài)輸出的端到端映射,驗(yàn)證了自回歸框架在多模態(tài)領(lǐng)域的普適性與先進(jìn)性,為跨模態(tài)交互提供了強(qiáng)大的技術(shù)基座。
2.腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ
基于Emu3的底層架構(gòu),將fMRI、EEG、雙光子等神經(jīng)科學(xué)與腦醫(yī)學(xué)相關(guān)的腦信號(hào)統(tǒng)一token化,利用預(yù)訓(xùn)練模型多模態(tài)對(duì)齊的優(yōu)勢(shì),可以實(shí)現(xiàn)多模態(tài)腦信號(hào)與文本、圖像等模態(tài)的多向映射,并實(shí)現(xiàn)跨任務(wù)、跨模態(tài)、跨個(gè)體的統(tǒng)一通用建模,以單一模型完成多種神經(jīng)科學(xué)的下游任務(wù)。
Brainμ整合了神經(jīng)科學(xué)領(lǐng)域多個(gè)大型公開數(shù)據(jù)集和多個(gè)合作實(shí)驗(yàn)室的高質(zhì)量神經(jīng)科學(xué)數(shù)據(jù),完成了超過100萬單位的神經(jīng)信號(hào)預(yù)訓(xùn)練,模型可以支持神經(jīng)科學(xué)領(lǐng)域從基礎(chǔ)研究到臨床研究和腦機(jī)接口應(yīng)用的不同方向,有望成為腦科學(xué)的 “AlphaFold”模型。
作為神經(jīng)科學(xué)領(lǐng)域跨任務(wù)、跨模態(tài)、跨個(gè)體的基礎(chǔ)通用模型,Brainμ可同步處理多類編解碼任務(wù),兼容多物種動(dòng)物模型(包括小鼠 狨猴 獼猴)與人類數(shù)據(jù),實(shí)現(xiàn)科學(xué)數(shù)據(jù)注釋、交互式科學(xué)結(jié)論解讀、大腦感覺信號(hào)重建及模擬刺激信號(hào)生成。在自動(dòng)化睡眠分型、感官信號(hào)重建與多種腦疾病診斷等任務(wù)中,作為單一模型其性能顯著超越現(xiàn)有的專有模型,刷新SOTA表現(xiàn)。作為整合大規(guī)模多模態(tài)數(shù)據(jù)的基礎(chǔ)通用模型,Brainμ也可以支持拓展腦機(jī)接口應(yīng)用,在與腦機(jī)接口企業(yè)強(qiáng)腦科技BrainCO的合作中,Brainμ實(shí)現(xiàn)了首次在便攜式消費(fèi)級(jí)腦電系統(tǒng)上重建感覺信號(hào),展現(xiàn)了模型支持拓展腦機(jī)接口應(yīng)用能力的潛力。
智源正在與國內(nèi)前沿的基礎(chǔ)神經(jīng)科學(xué)實(shí)驗(yàn)室、腦疾病研究團(tuán)隊(duì)和腦機(jī)接口團(tuán)隊(duì)深入合作,包括北京生命科學(xué)研究所、清華大學(xué)、北京大學(xué)、復(fù)旦大學(xué)與強(qiáng)腦科技BrainCO,拓展Brainμ的科學(xué)與工業(yè)應(yīng)用。
3.跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0
跨本體具身大小腦協(xié)作框架RoboOS 2.0是全球首個(gè)基于具身智能SaaS平臺(tái)、支持無服務(wù)器一站式輕量化機(jī)器人本體部署的開源框架。同時(shí),RoboOS 2.0也是全球首個(gè)支持MCP的跨本體具身大小腦協(xié)作框架,旨在構(gòu)建具身智能領(lǐng)域的“應(yīng)用商店”生態(tài)。
在該框架下,可一鍵下載并部署來自全球開發(fā)者創(chuàng)建的相同型號(hào)機(jī)器人本體的小腦技能,完成大小腦的無縫整合。RoboOS 2.0實(shí)現(xiàn)了小腦技能的免適配注冊(cè)機(jī)制,顯著降低開發(fā)門檻,典型場(chǎng)景下,相關(guān)代碼量僅為傳統(tǒng)手動(dòng)注冊(cè)方式的1/10。
相較于1.0,RoboOS 2.0對(duì)端到端推理鏈路進(jìn)行了系統(tǒng)級(jí)優(yōu)化,整體性能提升達(dá)30%,全鏈路平均響應(yīng)時(shí)延低至3ms以下,端云通信效率提升27倍。在功能層面,新增了多本體時(shí)空記憶場(chǎng)景圖(Scene Graph)共享機(jī)制,支持動(dòng)態(tài)環(huán)境下的實(shí)時(shí)感知與建模;同時(shí)引入多粒度任務(wù)監(jiān)控模塊,實(shí)現(xiàn)任務(wù)閉環(huán)反饋,有效提升機(jī)器人任務(wù)執(zhí)行的穩(wěn)定性與成功率。
RoboBrain2.0官網(wǎng):https://superrobobrain.github.io
具身大腦RoboBrain 2.0是目前全球最強(qiáng)的開源具身大腦大模型,在多項(xiàng)空間推理與任務(wù)規(guī)劃指標(biāo)上超越主流大模型。
在任務(wù)規(guī)劃方面,RoboBrain 2.0相比于RoboBrain 1.0的基于Prompt的多機(jī)任務(wù)規(guī)劃機(jī)制和初級(jí)空間理解能力,進(jìn)一步擴(kuò)展了基于多本體-環(huán)境動(dòng)態(tài)建模的多機(jī)協(xié)同規(guī)劃能力,可實(shí)時(shí)構(gòu)建包含本體定位的場(chǎng)景圖(Scene Graph),并自動(dòng)完成跨本體的任務(wù)規(guī)劃。實(shí)驗(yàn)數(shù)據(jù)顯示,RoboBrain 2.0的任務(wù)規(guī)劃準(zhǔn)確率相較RoboBrain 1.0實(shí)現(xiàn)了74%的效果提升。
在空間智能方面,RoboBrain 2.0在原有可操作區(qū)域(Affordance)感知與操作軌跡(Trajectory)生成能力的基礎(chǔ)上,實(shí)現(xiàn)了17%的性能提升。同時(shí),RoboBrain 2.0增加了空間推理能力(Spatial Referring),既包含機(jī)器人對(duì)相對(duì)空間位置(如前后、左右、遠(yuǎn)近)及絕對(duì)距離的基礎(chǔ)感知與理解能力,也實(shí)現(xiàn)了對(duì)復(fù)雜空間的多步推理能力。
此外,RoboBrain 2.0還新增了閉環(huán)反饋以及具身智能的深度思考能力。閉環(huán)反饋使機(jī)器人能夠根據(jù)當(dāng)前環(huán)境感知和任務(wù)狀態(tài),實(shí)時(shí)調(diào)整任務(wù)規(guī)劃與操作策略,以應(yīng)對(duì)復(fù)雜環(huán)境中的突發(fā)變化和擾動(dòng);深度思考能力則支持機(jī)器人對(duì)復(fù)雜任務(wù)進(jìn)行推理分解,進(jìn)一步提升整體執(zhí)行準(zhǔn)確率與任務(wù)完成的可靠性。
RoboOS 2.0與RoboBrain 2.0已全面開源,包括框架代碼、模型權(quán)重、數(shù)據(jù)集與評(píng)測(cè)基準(zhǔn),以助力推動(dòng)具身智能研究和產(chǎn)業(yè)應(yīng)用的發(fā)展。目前,智源研究院已與全球20多家具身智能企業(yè)建立戰(zhàn)略合作關(guān)系,共同打造開放繁榮、協(xié)同共生的具身智能生態(tài)體系。
4.全原子微觀生命模型OpenComplex 2
全原子微觀生命模型OpenComplex2實(shí)現(xiàn)了生物分子研究從靜態(tài)結(jié)構(gòu)預(yù)測(cè)到動(dòng)態(tài)構(gòu)象分布建模的重大突破。該模型能夠表征生物分子系統(tǒng)的連續(xù)演化能量景觀(Energy Landscape),并通過融合擴(kuò)散生成式建模與生物實(shí)驗(yàn)數(shù)據(jù),在原子分辨率層面捕捉分子相互作用及平衡構(gòu)象分布,為探索微觀構(gòu)象波動(dòng)與宏觀生物功能的跨尺度關(guān)聯(lián)提供了全新的研究視角。
OpenComplex2基于FloydNetwork圖擴(kuò)散框架以及多尺度原子精度表示兩大關(guān)鍵技術(shù)創(chuàng)新,有效突破了生物分子在功能活動(dòng)中可及的動(dòng)態(tài)構(gòu)象分布預(yù)測(cè)的瓶頸,從而能夠建模生物分子系統(tǒng)中各種原子組分之間復(fù)雜的依賴關(guān)系,且無需對(duì)構(gòu)象空間施加先驗(yàn)約束,更加真實(shí)地還原生物分子的構(gòu)象多樣性和動(dòng)態(tài)特性,此外,還能同時(shí)捕捉原子級(jí)、殘基級(jí)和基序級(jí)(motif level)的相關(guān)性,從而在建模過程中兼顧關(guān)鍵的局部結(jié)構(gòu)細(xì)節(jié)與全局構(gòu)象變化,為揭示生物功能提供更加全面的結(jié)構(gòu)基礎(chǔ)。
OpenComplex2模型在生物分子動(dòng)態(tài)特性預(yù)測(cè)、柔性系統(tǒng)及超大型復(fù)合物建模、生物分子相互作用精細(xì)化分析等關(guān)鍵任務(wù)中性能卓越,突破了靜態(tài)結(jié)構(gòu)預(yù)測(cè)的瓶頸。2024年,在第16屆蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估競(jìng)賽CASP16(Critical Assessment of protein Structure Prediction)中,OpenComplex2成功預(yù)測(cè)了蛋白質(zhì)T1200/T1300的空間構(gòu)象分布(定性上與實(shí)驗(yàn)數(shù)據(jù)一致),成為23支參賽隊(duì)伍中唯一取得該突破的團(tuán)隊(duì)。
OpenComplex2為原子級(jí)結(jié)構(gòu)生物學(xué)提供了一種全新的建模工具,通過統(tǒng)一框架解碼生物分子系統(tǒng)的動(dòng)態(tài)作用機(jī)制,將加速從基礎(chǔ)分子機(jī)制研究到藥物設(shè)計(jì)等下游應(yīng)用的發(fā)展?;谌斯ぶ悄芫珳?zhǔn)預(yù)測(cè)與高通量實(shí)驗(yàn)驗(yàn)證平臺(tái)的結(jié)合,OpenComplex2將有望顯著縮短生物醫(yī)藥研發(fā)周期,降低研發(fā)成本,提升科研成果轉(zhuǎn)化率,助力生物醫(yī)藥產(chǎn)業(yè)的高質(zhì)量創(chuàng)新發(fā)展。
持續(xù)打造大模型開源技術(shù)體系共建開放合作的技術(shù)未來
智源作為非營利科研機(jī)構(gòu),一直堅(jiān)持開源開放的原則,智源打造的覆蓋模型、算法、數(shù)據(jù)、評(píng)測(cè)、系統(tǒng)的大模型開源技術(shù)體系FlagOpen,截至目前,已開源約200個(gè)模型和160個(gè)數(shù)據(jù)集,其中,模型全球總下載量超6.4億次,開源數(shù)據(jù)集下載量近113萬次,開源項(xiàng)目代碼下載量超140萬次,為人工智能技術(shù)普惠與開源社區(qū)繁榮做出持續(xù)貢獻(xiàn)。
其中,開源、統(tǒng)一的 AI 系統(tǒng)軟件棧 FlagOS進(jìn)一步升級(jí),新增統(tǒng)一編譯器FlagTree、統(tǒng)一通信庫FlagCX、自動(dòng)發(fā)版平臺(tái)工具FlagRelease等重要板塊,全面覆蓋統(tǒng)一生態(tài)技術(shù)需求;實(shí)現(xiàn)對(duì)11家國內(nèi)外廠商的18款異構(gòu)AI硬件的統(tǒng)一支持;FlagGems的算子平均性能已優(yōu)于國際主流算子,并行訓(xùn)推框架FlagScale與人工優(yōu)化相比,實(shí)現(xiàn)了最高23%的自動(dòng)并行加速。升級(jí)后的FlagOS已支持DeepSeek、通義千問等更多開源大模型實(shí)現(xiàn)跨硬件平臺(tái)運(yùn)行,為開發(fā)者提供更多選擇,推動(dòng) AI 技術(shù)的普及和多元發(fā)展。
FlagOpen開源地址:https://github.com/FlagOpen
在開源模型方面,通用向量模型BGE系列已發(fā)展為門類齊全、體系完備的生態(tài)系統(tǒng)。最初BGE聚焦文本相關(guān)場(chǎng)景,先后推出面向中英文應(yīng)用的BGE-v1模型,以及支持多語言場(chǎng)景的BGE-M3模型,在中英文及多語言向量建模能力上取得重大突破,廣受開源社區(qū)好評(píng)。自2025年起,BGE進(jìn)一步拓展至文本以外的應(yīng)用領(lǐng)域,并于近期集中發(fā)布了BGE-code-v1、BGE-VL-v1.5和BGE-VL-screenshot三款模型,分別在代碼檢索、多模態(tài)檢索以及富文本多模態(tài)檢索任務(wù)中取得了領(lǐng)先表現(xiàn)。目前,BGE模型已廣泛應(yīng)用于人工智能產(chǎn)業(yè),被百度、騰訊、華為、阿里巴巴、微軟、亞馬遜等知名企業(yè)商業(yè)化集成。2024年10月,BGE成為中國首個(gè)登頂 Hugging Face月度下載排行榜榜首的開源模型。截止2024年12月,BGE模型是2023年所有發(fā)布模型的全球下載量冠軍。
小時(shí)級(jí)開源輕量長視頻理解模型Video-XL-1,于2024年10月發(fā)布,首次實(shí)現(xiàn)了單GPU處理2048幀視頻的能力。與同期輕量級(jí)開源模型相比,Video-XL-1在MLVU、VideoMME等主流長視頻評(píng)測(cè)基準(zhǔn)上取得了領(lǐng)先。近期推出的Video-XL-2,效果更佳、長度更長、速度更快,不僅進(jìn)一步提升了輕量開源模型長視頻理解的最佳效果,同時(shí)實(shí)現(xiàn)了單GPU處理萬幀視頻的能力,并且在推理效率上大幅領(lǐng)先同類別競(jìng)品模型,編碼 2048 幀視頻僅需 12 秒,顯著加速長視頻理解流程。目前,Video-XL-2 的模型權(quán)重已全面向社區(qū)開放。未來,該模型有望在影視內(nèi)容分析、異常行為監(jiān)測(cè)等多個(gè)實(shí)際場(chǎng)景中展現(xiàn)重要應(yīng)用價(jià)值。
開源全能視覺生成模型OmniGen,采用極簡架構(gòu),僅由大模型基座和VAE模塊構(gòu)成,大幅降低了開發(fā)和部署成本。OmniGen通過廣泛的指令學(xué)習(xí),實(shí)現(xiàn)了視覺生成能力的高度集成。用戶僅需通過提示詞描述任務(wù)需求,便可一站式完成各類視覺生成任務(wù),極大簡化了操作流程。OmniGen展現(xiàn)出顯著的涌現(xiàn)能力,能夠通過提示詞的靈活組合,生成多樣化、定制化的視覺內(nèi)容。自發(fā)布以來,OmniGen在技術(shù)社區(qū)引發(fā)廣泛關(guān)注,相關(guān)話題在Twitter、YouTube、YC Hacker News等平臺(tái)累計(jì)瀏覽量突破百萬,GitHub Star數(shù)超過4,000,并催生出一系列視覺生成類的創(chuàng)業(yè)產(chǎn)品。
國際巨頭尖峰對(duì)話熱議AI未來發(fā)展路徑
2025北京智源大會(huì)開幕式上,圖靈獎(jiǎng)得主Yoshua Bengio、Richard Sutton,Linux基金會(huì)執(zhí)行董事Jim Zemlin,Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman分別做主題報(bào)告。
Yoshua Bengio以《Avoiding catastrophic risks from uncontrolled AI agency》為題指出,當(dāng)前 AI 在規(guī)劃、推理等領(lǐng)域呈指數(shù)級(jí)進(jìn)步,部分前沿模型已顯現(xiàn)自我保護(hù)、欺騙性對(duì)齊、篡改系統(tǒng)等類生物主體行為,若形成 “智能 + 自主目標(biāo) + 行動(dòng)能力” 組合將引發(fā)失控風(fēng)險(xiǎn),甚至可能威脅人類生存。他強(qiáng)調(diào),盡管 AI 造成傷害需同時(shí)具備能力與意圖,但前者已可預(yù)見,必須以預(yù)防原則優(yōu)先解決意圖對(duì)齊問題。為此,他提出雙重解決方案:一是研發(fā)以無私科學(xué)家為原型的非代理性、可信賴人工智能系統(tǒng),專注于理解世界而非自主行動(dòng);二是推動(dòng)全球協(xié)同治理,建立國際監(jiān)管框架與技術(shù)驗(yàn)證機(jī)制,遏制各國因競(jìng)爭(zhēng)導(dǎo)致的安全標(biāo)準(zhǔn)缺位,避免將 AGI 設(shè)計(jì)為人類競(jìng)爭(zhēng)者,呼吁在 AGI 可能于 5 年內(nèi)達(dá)到人類水平的緊迫時(shí)間窗口內(nèi),通過技術(shù)創(chuàng)新與全球協(xié)作筑牢安全防線。
Yoshua Bengio與北京大學(xué)助理教授、智源大模型安全研究院中心主任楊耀東就AI安全議題進(jìn)行對(duì)話。
Richard Sutton在《Welcome to the Era of Experience》的主題報(bào)告中表示,AI 正從依賴人類靜態(tài)數(shù)據(jù)的 “人類數(shù)據(jù)時(shí)代” 邁入通過互動(dòng)與經(jīng)驗(yàn)學(xué)習(xí)的 “體驗(yàn)時(shí)代”,強(qiáng)調(diào)智能體需像人類和動(dòng)物一樣從動(dòng)態(tài)交互中生成新知識(shí),強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn)這一目標(biāo)的核心路徑,而大語言模型時(shí)代已接近尾聲,通用人工智能需要更強(qiáng)大的持續(xù)學(xué)習(xí)算法。他認(rèn)為,智能體天然具有多元目標(biāo),如同自然界生物,關(guān)鍵在于通過分散合作而非集中控制實(shí)現(xiàn)安全協(xié)同 —— 人類社會(huì)的進(jìn)步源于分權(quán)化合作,集中控制 AI 的呼吁本質(zhì)是源于恐懼的 “危險(xiǎn)策略”,可能引發(fā)類似人類沖突的問題。Sutton 倡導(dǎo)以去中心化合作替代中心化控制,通過信任、協(xié)調(diào)和市場(chǎng)機(jī)制引導(dǎo) AI 與人類共生,抵制因恐懼催生的限制措施,認(rèn)為這一路徑更可持續(xù),且能避免戰(zhàn)爭(zhēng)、腐敗等風(fēng)險(xiǎn),最終實(shí)現(xiàn) AI 與人類社會(huì)的互利共贏。
Richard Sutton與清華人工智能研究院副院長、生數(shù)科技創(chuàng)始人兼首席科學(xué)家、智源首席科學(xué)家朱軍就強(qiáng)化學(xué)習(xí)等議題進(jìn)行對(duì)話。
Linux基金會(huì)執(zhí)行董事Jim Zemlin在演講中談到,2025 年是開源 AI 元年,開源正成為全球 AI 創(chuàng)新核心驅(qū)動(dòng)力。中國企業(yè),如DeepSeek發(fā)布開源大模型,引發(fā)技術(shù)生態(tài)變革,印證開源打破壟斷、加速迭代的作用。哈佛商學(xué)院數(shù)據(jù)顯示,全球開源軟件經(jīng)濟(jì)價(jià)值達(dá) 9 萬億美元,可幫助開發(fā)者節(jié)約 70% 開發(fā)成本。開源治理是平衡競(jìng)爭(zhēng)與協(xié)同的核心機(jī)制。開源不僅是代碼共享,更需全球協(xié)作。他強(qiáng)調(diào),開源是技術(shù)普惠的唯一路徑,通過全球協(xié)作確保 AI 創(chuàng)新由全人類共享。
智源研究院副院長兼總工程師林詠華主持Fireside Chat,Linux基金會(huì)執(zhí)行董事Jim Zemlin 與LAION工程負(fù)責(zé)人兼創(chuàng)始人Richard Vencu就全球AI開源與合作展開深度對(duì)話,嘉賓普遍認(rèn)為,開源是 AI 發(fā)展的核心,數(shù)據(jù)集共享是關(guān)鍵基礎(chǔ),全球合作至關(guān)重要,應(yīng)當(dāng)鼓勵(lì)開發(fā)者從提交代碼等小事參與開源,共同推動(dòng) AI 創(chuàng)新。
Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman做《Building physical ntelligence》主題報(bào)告,他認(rèn)為具身智能的發(fā)展,VLA模型是關(guān)鍵突破,可讓機(jī)器人通過互聯(lián)網(wǎng)數(shù)據(jù)學(xué)習(xí),無需體驗(yàn)每個(gè)場(chǎng)景,還能與其他機(jī)器人連接獲取數(shù)據(jù)。Physical Intelligence研發(fā)了通用機(jī)器人基礎(chǔ)模型π0,經(jīng)預(yù)訓(xùn)練和后期高質(zhì)量數(shù)據(jù)培訓(xùn),使機(jī)器人能完成如打開洗衣機(jī)、疊衣服等復(fù)雜任務(wù),在陌生環(huán)境下任務(wù)完成率達(dá) 80%-90%。目前雖已展示物理智能潛力,但在泛化能力、穩(wěn)定性等方面仍有挑戰(zhàn),未來希望實(shí)現(xiàn)機(jī)器人 100% 穩(wěn)定完成任務(wù),推動(dòng)物理智能的進(jìn)一步發(fā)展。
在智源具身智能會(huì)客廳中,銀河通用的具身大模型機(jī)器人Galbot登臺(tái)展示了端到端VLA大模型在商業(yè)零售場(chǎng)景的落地應(yīng)用,《CMG世界機(jī)器人大賽·系列賽》機(jī)甲格斗擂臺(tái)賽“AI策算師”冠軍機(jī)器人宇樹G1登臺(tái)展示了敏捷帥氣的“組合拳”,全球首個(gè)人形機(jī)器人半程馬拉松冠軍天工2.0也參與了現(xiàn)場(chǎng)互動(dòng),完成“水果擺盤”的精細(xì)化服務(wù)任務(wù),獲得滿堂喝彩。
在對(duì)具身智能發(fā)展?jié)M懷期待的氛圍中,智源研究院王仲遠(yuǎn)與Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman,宇樹科技創(chuàng)始人王興興,銀河通用創(chuàng)始人兼CTO、北京大學(xué)助理教授、智源具身智能研究中心主任王鶴,穹徹智能聯(lián)合創(chuàng)始人、上海交通大學(xué)教授盧策吾,北京人形機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍,就具身智能的不同技術(shù)路線、商業(yè)化路徑探索、典型應(yīng)用場(chǎng)景拓展、產(chǎn)業(yè)生態(tài)構(gòu)建等議題展開深度討論。嘉賓認(rèn)為,短期內(nèi)人形機(jī)器人因數(shù)據(jù)采集、人機(jī)交互和環(huán)境適應(yīng)優(yōu)勢(shì)是重要載體,長期看隨著 AGI 發(fā)展會(huì)多樣化。對(duì)于 VLA 模型泛化性,雖面臨機(jī)器人環(huán)境復(fù)雜等挑戰(zhàn),但通過合成數(shù)據(jù)、多場(chǎng)景訓(xùn)練等可提升適應(yīng)性。
智源AI科研體驗(yàn)區(qū) 從實(shí)驗(yàn)室通向場(chǎng)景應(yīng)用
本屆智源大會(huì),設(shè)置了智源研究院AI科研成果互動(dòng)體驗(yàn)展臺(tái),帶來了從具身智能到腦科學(xué)、數(shù)字心臟等領(lǐng)域的最新應(yīng)用。此次“悟界”系列大模型中的腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ以及跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0也進(jìn)行了現(xiàn)場(chǎng)展示。
在具身智能展區(qū),基于RoboOS 2.0以及RoboBrain 2.0的不同構(gòu)型的機(jī)器人(單臂、輪式雙臂、人形)帶來了豐富的技能展示,包括餐飲互動(dòng),機(jī)器人接受到語音指令后,完成漢堡制作和倒飲料的動(dòng)作,以及抓娃娃的游戲和家居物品收納。此外,基于智源自主研發(fā)的多模態(tài)具身大模型的機(jī)器人,融合了視覺、聽覺、思考、語音交互等能力,帶來了“心有靈犀”的互動(dòng)小游戲,機(jī)器人可對(duì)看見的物品進(jìn)行詳細(xì)描述,互動(dòng)者依據(jù)信息線索猜出對(duì)應(yīng)的物品名稱。智源與銀河通用聯(lián)合研發(fā)的具身大模型機(jī)器人Galbot,展示了商超場(chǎng)景下的落地應(yīng)用能力。
在腦科學(xué)多模態(tài)通用基礎(chǔ)模型展區(qū),展示了Brainμ在腦科學(xué)基礎(chǔ)應(yīng)用與臨床應(yīng)用上的實(shí)際案例以及AI+腦科學(xué)未來基礎(chǔ)研究與臨床應(yīng)用的新范式。同時(shí),通過與腦機(jī)接口設(shè)備結(jié)合,Brainμ可根據(jù)采集的腦信號(hào)數(shù)據(jù)進(jìn)行信號(hào)解析與感覺刺激重建,利用多模態(tài)大模型的能力在消費(fèi)級(jí)便攜式腦電設(shè)備上實(shí)現(xiàn)了接近醫(yī)用級(jí)設(shè)備數(shù)據(jù)采集的穩(wěn)定解析能力,Brainμ模型展現(xiàn)了降低腦機(jī)接口應(yīng)用在消費(fèi)級(jí)設(shè)備的門檻的能力,可以為便攜式腦機(jī)接口的應(yīng)用拓展空間。
基于2024年研發(fā)的全球首個(gè)數(shù)字孿生心臟,智源推出了全球首個(gè)高速跨尺度心臟藥物安全性評(píng)價(jià)平臺(tái),構(gòu)建了跨尺度藥物-心臟作用模型,覆蓋從亞細(xì)胞(離子通道),到細(xì)胞、組織、器官與人體,可以全尺度評(píng)測(cè)藥物對(duì)心臟電活動(dòng)的影響,評(píng)測(cè)藥物心臟毒性,將全尺度藥物毒性仿真時(shí)間由近90天減少到一天之內(nèi),為藥物仿真平臺(tái)實(shí)際應(yīng)用提供堅(jiān)實(shí)支撐。
在數(shù)字心臟展區(qū),可通過裸眼3D透明心臟以及VR互動(dòng)沉浸體驗(yàn)基于醫(yī)學(xué)影像重建的心臟三維結(jié)構(gòu),通過操控筆可精準(zhǔn)完成心臟模型的旋轉(zhuǎn)、拉伸與層析切片操作。未來,將實(shí)現(xiàn)對(duì)心臟電生理過程的動(dòng)態(tài)仿真交互,為精準(zhǔn)醫(yī)療與個(gè)性化干預(yù)提供技術(shù)支撐。在裸眼3D提供宏觀交互的同時(shí),也進(jìn)一步構(gòu)建了基于虛擬現(xiàn)實(shí)的沉浸式系統(tǒng),實(shí)現(xiàn)對(duì)心臟內(nèi)部結(jié)構(gòu)的深度探索與術(shù)式模擬。佩戴VR頭顯,可沉浸式進(jìn)入心臟內(nèi)部,進(jìn)行類內(nèi)窺鏡式的結(jié)構(gòu)觀察。通過手柄精準(zhǔn)定位,用戶可選定刺激區(qū)域,模擬電生理手術(shù)中的干預(yù)操作。該系統(tǒng)為心臟術(shù)前智能規(guī)劃提供了高度可視化與交互性的研究平臺(tái),為數(shù)字孿生心臟在臨床應(yīng)用中的落地奠定了堅(jiān)實(shí)基礎(chǔ)。
基于心沖擊信號(hào)(Ballistocardiograph,BCG)研發(fā)的無感智能坐墊系統(tǒng),可對(duì)多項(xiàng)生理指標(biāo)進(jìn)行高精度實(shí)時(shí)監(jiān)測(cè)與智能分析。落座后,系統(tǒng)通過內(nèi)嵌的高靈敏度傳感模塊,精準(zhǔn)捕捉由心臟搏動(dòng)引發(fā)的微弱體動(dòng)信號(hào),并同步完成心動(dòng)周期識(shí)別。在完成有效數(shù)據(jù)采集后,系統(tǒng)調(diào)用信號(hào)分析算法,進(jìn)入健康狀態(tài)評(píng)估階段,計(jì)算心率、心率變異性、呼吸頻率等指標(biāo)。根據(jù)這些指標(biāo),可對(duì)疲勞程度、精神壓力、情緒狀態(tài)進(jìn)行量化評(píng)估,并輔助識(shí)別房顫等心律異常狀態(tài),在個(gè)人健康管理、智能家居與智能醫(yī)療決策中具有廣泛的應(yīng)用前景。
大會(huì)期間,智源研究院與北京大學(xué)第一醫(yī)院簽署戰(zhàn)略合作協(xié)議,本著優(yōu)勢(shì)互補(bǔ)、資源共享、協(xié)同創(chuàng)新的原則,充分發(fā)揮雙方在人工智能技術(shù)研發(fā)與工程落地的多元能力以及臨床診療、教學(xué)科研與醫(yī)學(xué)數(shù)據(jù)資源的專業(yè)優(yōu)勢(shì),共同在“智慧醫(yī)學(xué)系統(tǒng)”領(lǐng)域開展深入、系統(tǒng)、持續(xù)的戰(zhàn)略合作。
此外,大會(huì)上還宣布了智源研究院與香港投資管理有限公司建立戰(zhàn)略合作框架,共建世界級(jí)跨區(qū)域合作的人工智能生態(tài)圈。智源與港投的合作將加速人才、技術(shù)、資本的飛輪效應(yīng),構(gòu)建內(nèi)地、香港、國際的人才循環(huán)體系,匯聚全球人工智能青年人才、支持人工智能創(chuàng)新創(chuàng)業(yè)、加速人工智能產(chǎn)業(yè)全球化。
從“悟道”到“悟界”,智源研究院始終走在技術(shù)路線探索的前沿,積極構(gòu)建開源開放的技術(shù)生態(tài),未來,智源研究院將持續(xù)解構(gòu)物理世界與智能本質(zhì)的深層關(guān)聯(lián),在通用人工智能的征途中刻下新的坐標(biāo)。