圖片來自網(wǎng)絡

今年3月,Google介紹了一款視覺語言動作(Vision Language Action,VLA)模型,將Gemini 2.0的多模態(tài)推理和現(xiàn)實世界理解能力引入機器人領域。本周,Google DeepMind進一步公布了Gemini Robotics On-Device,這是該公司可以直接在機器人上運行的最強大的模型。由于Gemini Robotics On-Device的運行不依賴網(wǎng)絡連接,因此它適合對延遲敏感的應用程序,即使在帶寬不穩(wěn)定甚至沒有網(wǎng)絡的地區(qū)也能穩(wěn)定運行。

Gemini Robotics On-Device是雙臂機器人的基礎模型,僅需最少的計算資源。它基于Gemini Robotics的任務泛化和靈活性開發(fā)。Google強調,該模型的設計宗旨是快速實驗和靈活操作,能夠通過微調適應新任務,并且可以在本地執(zhí)行低延遲推理。

Gemini Robotics On-Device在多種測試場景中展示了強大的視覺、語義和行為泛化能力,超越了Gemini Robotics和其他設備上運行的模型。它能夠遵循自然語言指令,通過在機器人端執(zhí)行來完成高難度任務,例如解開袋子的拉鏈或折疊衣服。

Gemini Robotics On-Device也是Google首個開放微調的VLA模型。即使在未微調的情況下,它也能執(zhí)行許多任務,但開發(fā)人員仍然可以對其進行微調以適應新領域。在微調過程中,開發(fā)人員只需提供50到100次示例。

Gemini Robotics On-Device是基于ALOHA機器人進行訓練的,但Google已經(jīng)展示了經(jīng)過微調后,它也可以在第三方廠商的機器人上運行,例如德國Apptronik的Franka FR3雙臂工業(yè)機器人或Apollo人形機器人。

Google還發(fā)布了Gemini Robotics SDK,幫助開發(fā)人員評估Gemini Robotics On-Device在其環(huán)境或任務中的性能。他們還可以利用Google幾年前發(fā)布的MuJoCo物理模擬庫測試模型,并快速適應其他新領域。開發(fā)人員現(xiàn)在只需報名加入可信測試員計劃即可訪問SDK。

分享到

崔歡歡

相關推薦