CNML格式】 【 】 【打 印】 
【 第1頁 第2頁 第3頁 】 
新版阿爾法狗從零開始 40天稱王
http://www.CRNTT.com   2017-10-22 00:16:03


 
  論文中提到,“阿爾法圍棋-零”是無監督學習的產物(機器自己摸索、發現規律),而它的雙胞胎兄弟“阿爾法圍棋-大師”則用了監督學習的方法(人把經驗教給機器)。40天後,前者以89:11的成績戰勝後者。

  除學習原理外,新版本“阿爾法圍棋-零”使用了單一的神經網絡。

  此前版本的“阿爾法圍棋”都用了兩種神經網絡:一種用來預測下一步棋最好的走法,另一種用來計算,根據這些走法誰更有可能獲勝。

  “阿爾法圍棋-零”則只讓神經網絡預測獲勝者,從而能够得到更高效的訓練和評估。它也不再使用快速而隨機的走子方法,而是通過高質量的神經網絡來評估棋局。它和不同版本的自己下棋,然後用勝者思路來訓練新的版本,如此不斷重複。

  通過這一方法,“阿爾法圍棋-零”完全摸索出開局、收官、定式等以前人類已知的圍棋知識,也摸索出新的定式。(來源:《新京報》)


 【 第1頁 第2頁 第3頁 】


掃描二維碼訪問中評網移動版 CNML格式】 【 】 【打 印掃描二維碼訪問中評社微信  

 相關新聞: