人工智能研究公司OpenAI最新成果即是用單個機器手掌解魔方,其采用與操作?Dota 2?OpenAI Five相同的增強學習代碼,搭配一種稱為自動域隨機化(Automatic Domain Randomization,ADR)的新技術,以完全模擬的方式訓練機器手掌,現(xiàn)在機器手掌能有60%的成功率解開魔方。

對人類來說,單手解魔方也不是一件簡單的事,孩子需要花費數(shù)年的時間,才能掌握單手操作需要的靈巧性。在過去60年的機器人技術,人類需要為困難的任務設計定制化的機器人,因此開發(fā)使用通用機器人硬件的方法,一直是近幾十年人類的目標,而OpenAI在這項最新的研究中,使用15年前的機器手掌,搭配最新的方法,在通用機器人硬件操作課題上前進了一步。

OpenAI利用了神經(jīng)網(wǎng)絡來解決魔方的問題,透過增強學習進行模擬,并且使用Kociemba演算法以挑選魔術方塊解法的步驟,并且利用域隨機化(Domain Randomization)將訓練模擬轉移到真實的機器手掌上。

而讓機器手掌操作魔術方塊最大的挑戰(zhàn),是在創(chuàng)建的模擬環(huán)境中,模擬出真實世界特徵,研究人員表示,像是魔術方塊或是機器手掌這類複雜的物體,非常難模擬其摩擦、彈性或是動態(tài)性,僅是靠現(xiàn)有的域隨機化技術是遠遠不夠的,因此為了克服這個問題,他們開發(fā)了自動域隨機化技術,這個技術可以在模擬訓練中產(chǎn)生越來越困難的環(huán)境。

自動域隨機化訓練會從單一且非隨機的環(huán)境開始,讓神經(jīng)網(wǎng)絡先學會解決魔術方塊,隨著神經(jīng)網(wǎng)絡的表現(xiàn)越來越好,在達到一定的效能閾值時,域隨機化的數(shù)量便會自動增加,讓神經(jīng)網(wǎng)絡應付更隨機的環(huán)境,使得需要解決的任務更加困難,當神經(jīng)網(wǎng)絡不斷學習后,再次超過效能閾值時,便會再加入更多的隨機化,然后重複該過程。

自動域隨機化的參數(shù)有很多種,一開始從固定魔術方塊的大小開始,之后隨著訓練逐漸增加隨機范圍,變動魔術方塊的尺寸和重量,也會隨機化機器手指的摩擦力和手的視覺表面材質,神經(jīng)網(wǎng)絡需要在越來越困難的情況下,解決魔術方塊。

研究人員提到,過去域隨機化需要手動指定隨機范圍,但這并不容易,太多隨機化使得學習太困難,太少又會阻礙模擬轉移到真正機器人上的效果,而自動域隨機化能夠自動擴展隨機范圍,不需要人工干預,也不需要研究人員對域知識的理解,降低了該方法使用到不同領域的難度,而且由于自動域隨機化讓訓練任務始終具有挑戰(zhàn)性,訓練成效不會收斂。

自動域隨機化讓神經(jīng)網(wǎng)絡在無數(shù)種隨機情況中進行模擬,進而增加了強健性,當神經(jīng)網(wǎng)絡從模擬轉移到真實機器人上的時候,就能夠快速辨識并適應真實世界的環(huán)境條件。研究人員利用了各種擾動,以測試機器手掌解決魔術方塊的強健性,包括把機器手掌的兩只手指綁起來、戴上橡膠手套、阻礙視覺或是以長頸鹿玩偶隨意干擾等。

在施予擾動的初期,機器手掌解決魔術方塊的時間都會上升,研究人員解釋,這是因為之前學習的策略無法發(fā)揮作用,當經(jīng)神經(jīng)網(wǎng)絡過一段時間學習之后,完成的時間便會下降到之前的水準。

目前OpenAI的成果,在需要15次翻轉才能完成魔術方塊的條件,機器手掌有60%的成功率解決魔術方塊,但是在需要26次翻轉的復雜條件,現(xiàn)在機器手掌就只有20%的成功率。研究人員提到,他們的神經(jīng)網(wǎng)絡在前幾次的翻轉,魔術方塊掉落的機率特別大,這是因為神經(jīng)網(wǎng)絡需要透過初期的翻轉適應物理世界。

分享到

崔歡歡

相關推薦