圖片來自網(wǎng)絡(luò)

今年3月,Google介紹了一款視覺語言動(dòng)作(Vision Language Action,VLA)模型,將Gemini 2.0的多模態(tài)推理和現(xiàn)實(shí)世界理解能力引入機(jī)器人領(lǐng)域。本周,Google DeepMind進(jìn)一步公布了Gemini Robotics On-Device,這是該公司可以直接在機(jī)器人上運(yùn)行的最強(qiáng)大的模型。由于Gemini Robotics On-Device的運(yùn)行不依賴網(wǎng)絡(luò)連接,因此它適合對(duì)延遲敏感的應(yīng)用程序,即使在帶寬不穩(wěn)定甚至沒有網(wǎng)絡(luò)的地區(qū)也能穩(wěn)定運(yùn)行。

Gemini Robotics On-Device是雙臂機(jī)器人的基礎(chǔ)模型,僅需最少的計(jì)算資源。它基于Gemini Robotics的任務(wù)泛化和靈活性開發(fā)。Google強(qiáng)調(diào),該模型的設(shè)計(jì)宗旨是快速實(shí)驗(yàn)和靈活操作,能夠通過微調(diào)適應(yīng)新任務(wù),并且可以在本地執(zhí)行低延遲推理。

Gemini Robotics On-Device在多種測(cè)試場(chǎng)景中展示了強(qiáng)大的視覺、語義和行為泛化能力,超越了Gemini Robotics和其他設(shè)備上運(yùn)行的模型。它能夠遵循自然語言指令,通過在機(jī)器人端執(zhí)行來完成高難度任務(wù),例如解開袋子的拉鏈或折疊衣服。

Gemini Robotics On-Device也是Google首個(gè)開放微調(diào)的VLA模型。即使在未微調(diào)的情況下,它也能執(zhí)行許多任務(wù),但開發(fā)人員仍然可以對(duì)其進(jìn)行微調(diào)以適應(yīng)新領(lǐng)域。在微調(diào)過程中,開發(fā)人員只需提供50到100次示例。

Gemini Robotics On-Device是基于ALOHA機(jī)器人進(jìn)行訓(xùn)練的,但Google已經(jīng)展示了經(jīng)過微調(diào)后,它也可以在第三方廠商的機(jī)器人上運(yùn)行,例如德國(guó)Apptronik的Franka FR3雙臂工業(yè)機(jī)器人或Apollo人形機(jī)器人。

Google還發(fā)布了Gemini Robotics SDK,幫助開發(fā)人員評(píng)估Gemini Robotics On-Device在其環(huán)境或任務(wù)中的性能。他們還可以利用Google幾年前發(fā)布的MuJoCo物理模擬庫(kù)測(cè)試模型,并快速適應(yīng)其他新領(lǐng)域。開發(fā)人員現(xiàn)在只需報(bào)名加入可信測(cè)試員計(jì)劃即可訪問SDK。

分享到

崔歡歡

相關(guān)推薦