597.老闆你做個人吧（2/2）

谷環

劉光然心想，當年如果沒有搬出來的話，搞不好他現在已經跟某個行政小姐姐在一起了。

就是不知道她們還記不記得我。

緊接著曹陽又說到，「我們現在公司的員工已經很多了，各種部門都在擴張，我的打算是，把公司的客服部門和行政部門的一部分人搬走，搬到4環的商業區寫字樓裡面，雖然租金貴是貴了一點，不過也都不是個事情。

然後把開拓者工作室群和西幻工作室群也遷走，搬到博米的通天大廈那邊，這樣就有接納你們的位置了。」

「哈！？」

劉光然整個人如遭雷劈一般。

什麼？！

我們好不容易搬回去，就是為了看看漂亮的客服小姐姐的，老闆你這也太過分了吧？！

老闆你做個人吧！

……

現在劉光然帶著曹陽來到博米在中關村租的一個寫字樓的1樓小觀察室裡面。

這也算是博米的老傳統了，為了更好的進行測試和觀察，一般情況下會有一個專門用來做測試的小黑屋，在小黑屋的隔壁是觀察房。

兩者之間隔著一面單面鏡。

也就是說從觀察房能夠看到小黑屋當中的情況，但是小黑屋當中看不到，小黑屋當中看過來只能看到一面鏡子。

現在在小黑屋裡面，排放著一排電腦，然後幾個專業圍棋棋手正在進行測試——

測試的內容就是跟博米開發的【博米圍棋大師】進行對戰。

……

曹陽不是混圍棋圈的人，所以他看過去，也不認識裡面的人。

劉光然說，這些都是受邀來參加的職業5段棋手，棋手在圍棋領域當中職業5段就已經相當厲害了。

「我們這一次稍微調整了一下策略算法。」

劉光然解釋說：博米圍棋大師現在主要工作原理是「深度學習」。

「深度學習」是指多層的人工神經網絡和訓練它的方法。

一層神經網絡會把大量矩陣數字作為輸入，通過非線性激活方法取權重，再產生另一個數據集合作為輸出。

這就像生物神經大腦的工作機理一樣，通過合適的矩陣數量，多層組織連結一起，形成神經網絡「大腦」進行精準複雜的處理，就像人們識別物體標註圖片一樣。

博米圍棋大師用到了很多新技術，如神經網絡、深度學習、蒙特卡洛樹搜索法等，使其實力有了實質性飛躍。

這些其實都已經是現在世界上研究的軟體領域當中最難的課題了。

好在博米公司起步的早，而且還有著大量的人才和積累，加上曹陽的優秀的眼光和指導，現在的進展非常的順利。

……

劉光然解釋說：「博米圍棋大師系統主要由幾個部分組成：

一、策略網絡，給定當前局面，預測並採樣下一步的走棋；

二、快速走子，目標和策略網絡一樣，但在適當犧牲走棋質量的條件下，速度要比策略網絡快1000倍；

三、價值網絡，給定當前局面，估計是白勝概率大還是黑勝概率大；

四、蒙特卡洛樹搜索，把以上這四個部分連起來，形成一個完整的系統。」

……

現在，劉光然對博米圍棋大師的AI版本進行了多次的更迭，到現在已經比較成熟了。

博米圍棋大師此前的版本，結合了數百萬人類圍棋專家的棋譜，以及強化學習進行了自我訓練。

博米圍棋AI的能力則在這個基礎上有了質的提升。

最大的區別是，它不再需要人類數據。也就是說，它一開始就沒有接觸過人類棋譜。研發團隊只是讓它自由隨意地在棋盤上下棋，然後進行自我博弈。

劉光然給曹陽介紹，博米圍棋AI使用新的強化學習方法，讓自己變成了老師。

系統一開始甚至並不知道什麼是圍棋，只是從單一神經網絡開始，通過神經網絡強大的搜索算法，進行了自我對弈。

隨著自我博弈的增加，神經網絡逐漸調整，提升預測下一步的能力，最終贏得比賽。更為厲害的是，隨著訓練的深入，博米圍棋大師團隊發現，博米圍棋AI還獨立發現了遊戲規則，並走出了新策略，為圍棋這項古老遊戲帶來了新的見解。

從某種程度來說，也要歸功於之前AI換臉技術帶來的靈感。

AI換臉也是兩個【大腦】，一個負責做假，另外一個負責識別，然後看是做假的更厲害，還是能夠識別的更厲害，最後一直推演到識別技術也無法區分真假為止，就算是成功了。

博米圍棋大師也是這樣，自己的兩個大腦互相下圍棋，然後把棋譜存下來，作為資料庫當中的一部分，之後再不斷地從資料庫當中進行深度學習，然後又自己跟自己下，不斷地重複這個過程，直到最終能快速地產生出最優解。

之前博米圍棋AI僅用了單一的神經網絡。