人民網
人民網>>體育>>綜合

最強“阿法狗”面世 自學三天超越人類超一流

鄧菲菲
2017年10月24日08:20 | 來源:信息時報
小字號
原標題:最強“阿法狗”面世 自學三天超越人類超一流

近日,谷歌旗下的DeepMind團隊公布了最強版的AlphaGo,代號為“AlphaGo Zero”。用最通俗直白的語言來說,這版的AlphaGo和以往版本最大的不同就是脫離了人類既有棋譜,隻學會了圍棋的基本規則、從亂下開始,完美地貼合其代號——“0”,從零開始。在40天的自我對弈后,AlphaGo Zero成功超越碾壓人類高手的Master、成為目前最強版的AlphaGo,盡管人類棋界對於機器擊敗人類已經不再驚訝,但AlphaGo Zero這樣自我學習式的飛躍還是讓柯潔不由得感嘆:“對於Alphago的自我進步來講……人類太多余了。”

從零開始,40天成最強“阿法狗”

我們所熟知的那些AlphaGo,包括擊敗樊麾的版本、擊敗李世石的版本、以及此前橫掃網絡的Master版,它們無一例外都是從學習大量的人類棋譜起步,而如今的AlphaGo Zero,用DeepMind團隊的話說則是從“嬰兒般的白紙”開始,除了圍棋的基本規則,沒有任何關於圍棋的基礎知識,而它的“陪練”——另一個AlphaGo Zero也是同樣的新手,大家可以理解為兩個不會下棋的孩子,在沒有老師指導的情況下相互對弈,在此過程中自我總結和提高。

從DeepMind公布的AlphaGo Zero成績單中,我們不難看出這個“新手”的成長史:由於是實打實的“從零開始”,剛開始的時候,它甚至還會自己填子送死,但僅僅在三小時后,它已經達到了人類初學者的水平,基本不會犯低級錯誤了﹔19個小時以后,AlphaGo Zero學會了諸如打劫這樣的技巧﹔而到了第三天,AlphaGo Zero已經跟自己下了490萬局棋,並戰勝了當初擊敗李世石那一版AlphaGo,戰績是100:0。換言之,僅僅用了3天,AlphaGo Zero就從一個僅僅會基本規則的初學者,成長到了具備超一流棋手的水平。此后的AlphaGo Zero並未停下追趕的腳步,到了第40天,它以壓倒性的優勢戰勝了此前3:0完勝柯潔的AlphaGo Master,勝率達到90%。

菩提本無樹,明鏡亦非台。人類最初發明圍棋的時候,“套路”和“著法”都是不存在的,棋手都是在遵守規則的前提下自己去思考下一步棋,在此過程中,棋手們才慢慢總結出一些經驗,藉此可以在下棋時減少思考時間。然而,這些人類花了數千年才總結出來的經驗,AlphaGo Zero隻用了40天就超越了,因為它不會忘記事情、也不會疲倦、更不會犯同樣的錯誤。

嘗試其他領域造福人類

早在Master3:0完勝柯潔之后,DeepMind團隊就宣布了AlphaGo“退役”的決定,AlphaGo自此不再和人類對弈,因為擊敗人類頂尖棋手已經不再是它的目標。如今,AlphaGo Zero同樣不是為了擊敗人類棋手而生,DeepMind研發團隊已經開始嘗試將其技術用於其他領域,例如解析蛋白質折疊的細節。

蛋白質折疊,這對於很多普通民眾來說是個陌生而艱深的名詞,我們可以換個角度來認識它。一些人們談之色變的疾病,如阿爾茲海默症、“漸凍症”(運動神經元病)等,其實都是由於蛋白質折疊異常而造成分子聚集甚至沉澱或不能正常轉運到位所引起的。蛋白質折疊沒有什麼數據可以參考,而根據氨基酸序列來預測結構擁有太多的可能,這就跟圍棋棋盤上的變化非常類似——都有眾所周知的基本規則,以及一個清晰的目標。倘若AlphaGo Zero的算法能在解析蛋白質折疊的細節方面發揮作用,將會為上述疾病藥物的研發提供工具,簡而言之,就是發現新藥。

DeepMind聯合創始人、AlphaGo之父哈薩比斯透露,AlpahGo團隊的成員已經轉移到了其他團隊中,為的就是將Zero的技術應用到其他領域,除了前述的研發新藥,在DeepMind博客中列出的還有降低能耗、尋找革命性的新材料。“我們想用這樣的算法突破,來解決真實世界中各種各樣緊迫的問題。”哈薩比斯說。

而假如以后Zero的技術可以普遍應用,對於人類棋手來說,其最大的價值可能是“判斷”。當人類棋手在自我修煉的過程中悟出新的棋理,Zero可以輔助人類對其進行快速驗証,畢竟它一天就能對弈上百萬盤,驗証速度比人類要快得多。更有甚者,這種“判斷”也可能脫離棋盤——當你下次面臨“先救老婆還是先救丈母娘”的世紀難題時,Zero或許能為你作出最佳選擇。

高手聲音

人類無法學習人工智能

聶衛平:依葫蘆畫瓢沒有用,人工智能的一些想法、招法人類根本看不懂,也沒有辦法去學,越學反而越糟糕。

柯潔:一個純淨、純粹自我學習的alphago是最強的……對於alphago的自我進步來講……人類太多余了。

古力:20年不抵3天啊……我們的傷感,人類的進步!

唐韋星:看了之后不知道說什麼了……它確實不需要我們的知識,之前版本用了好幾年被這個40天的打敗似乎就是我們拖后腿了……ps我現在突然想到未來簡史說的人類的分層,小部分成為神,大部分是廢物。

李喆:完全拋開人類圍棋知識,去年論文裡提到的許多特征和rollout全部去掉,兩個神經網絡合為一個,隻給定棋盤、棋子和規則。從亂下開始,1天達到V18(超越人類棋手水平),21天達到Master,40天碾壓Master。 less is more。 2017年起,在某些領域,AI不再需要人類知識。

黑嘉嘉:AI是棋手學習的對象,但若只是一味的模仿,而沒有去理解它每手棋背后的意義,最終恐怕會走火入魔。

(責編:歐興榮、楊磊)

分享讓更多人看到

返回頂部