2013 DeepMind Technologies 發表一篇突破性論文,展示神經網路如何透過觀看螢幕來學習玩 1980 年代的電子遊戲,幾個月後 Google 4 億美元收購該公司,DeepMind 開始應用深度學習,甚至在 AlphaGo 遊戲中勝過人類,但同時也突顯深度機器學習速度太慢的局限性,使得科學家開始探究人類學習事物的秘訣。

麻省理工科技評論(MIT Technology Review)報導指出,加州大學柏克萊分校研究團隊探討人類與影音遊戲互動方式,了解人類依靠什麼樣的先驗知識來理解遊戲。研究發現,當人類開始新遊戲時會使用大量背景知識,讓遊戲更好下手,但若把遊戲重新設計,打破先驗知識,人類就會陷入困境。而機器在兩個遊戲上皆以完全相同的方式執行。

研究人員在亞馬遜的眾包網站 Mechanical Turk 徵求 40 人玩一款基於經典遊戲設計的 Montezuma’s Revenge 小遊戲,研究人員沒有提供操作手冊與說明,參與者在完全不知道遊戲怎麼玩的情況下進行,研究發現參與者完成遊戲約需 1 分鐘時間,做出大約3000次鍵盤操作,但演算法卻使用 400 萬個鍵盤動作才完成遊戲,相當連續玩遊戲約 37 個小時。

研究人員表示,這並不令人意外,因為人類很容易猜到遊戲的目標是要踩著磚狀物體,並使用梯子到達更高的平台,同時避免生氣的粉紅色和火焰物體,將機器人精靈移往公主。相比之下,遊戲對機器來說很難,許多標準的深度學習演算法根本無法解決問題,由於只有完成遊戲時才有反饋,因此演算法無法評估遊戲內容。

研究人員歸功於人們的先驗知識,即知道某些物體是好的,而其他物體,譬如遊戲中有皺眉或火焰是壞的,平台支撐物體,梯子可以爬升,看起來相同的東西的行為方式相同,重力將物體拉下,判斷物件是什麼東西等。但機器對這些毫無所知。

研究人員重新設計遊戲,選擇紋理來掩蓋梯子、敵人、鑰匙、平台等各種形式的先驗知識,並且改變遊戲的物理屬性,比如重力的影響,以及角色與環境交互的方式。讓這些先前知識無關緊要,然後測量人類完成遊戲需要多長時間。

結果發現刪除一些先前知識會導致人類玩家解決遊戲的速度急劇下降,完成遊戲時間從 1 分鐘增加到超過 20 分鐘,而刪除這些訊息對機器演算法學習速度沒有影響。

研究人員甚至可以改變項目設計,觀察玩遊戲的時間變化,時間增加愈多代表相應的先前知識愈重要。譬如去除對象符號,如皺眉或火焰符號,參與者則需要花費更長的時間才能完成。但使用紋理掩蓋物件表面,遊戲會變得更困難,研究人員不得不將酬勞提高,參與者才願意玩下去。

這個排名與人類學習方式有一個有趣的聯繫。心理學家發現,在嬰兒 2 個月大的時候擁有一種原始的物體概念,但還無法辨識種類。3~5 個月大的嬰兒學會辨識物體種類,18~24 個月學會辨識個別物體,以及學習物體屬性,而人類先驗知識的重要性排序也跟嬰兒相同。

這份實驗價值在於量化人類在解決影音遊戲時使用各種知識的重要性,並理解先前的知識如何使人類善於處理複雜任務,為電腦科學家開發機器智慧提供一條有趣的途徑。利用人類從小就接受的相同基礎知識來設計演算法,這樣機器應該能夠趕上人類的學習速度,甚至可能超過人類。

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 Win Driver Blog 的頭像
    Win Driver Blog

    Win Driver Blog

    Win Driver Blog 發表在 痞客邦 留言(0) 人氣()