豆瓣評分9.9!國內外口碑炸裂的強化學習圣經中文版終于來了!

管理員賬號

2019-09-04

2017年12月7日,曾研發出在圍棋界打敗天下無敵手的AlphaGo團隊推出了更為強大的AlphaZero,它從零開始訓練,僅8小時就擊敗了與李世石對戰的AlphaGo v18!

然而AlphaZero帶來的沖擊遠不止如此!在AlphaZero的封神之戰上,面對當時世上最強的國際象棋引擎Stockfish,AlphaZero沒金鎩羽以28勝72平的百局不敗戰績,將冠軍Stockfish斬于馬下。這樣的結果不免令人震驚,此前大家都認為Stockfish已趨于完美,它的代碼中有無數人類精心構造的算法技巧。論速度,Stockfish以每秒6千萬個位置的計算能力也足以完爆每秒6萬的AlphaZero。

可現實情況卻是——Stockfish永遠不可能戰勝AlphaZero。AlphaZero擁有一種更加聰明的思維模式,這使得它更明智,知道該思考什么,該忽略什么。這種更聰明的思維就來源于強化學習。

以聯結主義的神經網絡為代表的深度學習毫無疑問是21 世紀初人工智能領域的最重要、最具實用意義的技術突破之一,它為基礎研究走向產業應用做出了巨大貢獻,也相應地贏得了巨大的聲譽和關注。

然而,如火如荼的產業應用掩蓋不住冷靜的研究者們對人工智能未來走向的擔憂,越來越多的研究者把深度學習的改良性研究視為工業界的應用技巧,而開始關注與聯結主義的經典深度學習不同的人工智能范式探索。

強化學習正是這一探索中的典型代表。

強化學習與傳統的預先收集或構造好數據及標簽的有監督學習有著本質的區別,它強調在與環境的交互中獲取反映真實目標達成度的反饋信號,強調模型的試錯學習和序列決策行為的動態和長期效應。這使得強化學習在人工智能領域的一些難題的研究中具有無可替代的重要地位。而這些寶貴的思想,也為聯結主義的深度學習在小數據、動態環境、自主學習等方面的進一步發展提供了重要的基礎。

在AlphaGo 戰勝李世石之后,AlphaZero 以其完全憑借自我學習超越人類在各種棋類游戲中數千年經驗的能力再次刷新了人類對人工智能的認識,也使得強化學習與深度學習的結合受到了學術界和產業界的前所未有的關注。

《強化學習(第2版)》 Reinforcement Learning: An Introduction ( Second Edition ) 正是在這樣的背景下出版的。

本書的兩位作者Richard S. Sutton和Andrew G. Barto都是強化學習領域的先驅,他們早在1979 年末便開始關注如今被稱為強化學習的領域并從事相關研究,于1998 年出版了本書的第1版,引起業界轟動。

該書作為強化學習領域的開創性、奠基性著作,對強化學習思想進行了深度解剖,為強化學習核心概念與算法提供了清晰簡明的解釋,20年來引領了無數愛好者走進強化學習,并培育出了好幾代強化學習領域的優秀研究人員。

20年后的今天,在機器學習(包括強化學習)前沿技術發展的推動下,人工智能取得了重大進展。這些進展不僅歸功于這些年迅猛發展起來的計算機強大的計算能力,也受益于許多理論和算法上的創新?!稄娀瘜W習(第2版)》應運而生,第2版中加入了很多新的內容,包括對深度強化學習應用(如AlphaGo)的介紹,以及更新的思想和理解等,使得本書既保持對核心理論的清晰簡明的講解,又包含了與時俱進的最新應用成果和作者的最新思想。

在國內本書延續了國際上炸裂的口碑,國內學習者們在豆瓣讀書上實打實的給出了9.9的高分!

讀者們也給出了十分中肯的評價:

這本書是迄今為止最系統最完整地描述強化學習領域的教材,在第2版中除了包含機器學習、神經網絡等人工智能諸多方面的內容外,還涉及心理學與神經科學等內容,新概念、新詞匯繁多,對于大部分國內讀者來說存在著極高的閱讀門檻。

值得慶幸的是,上海交通大學俞凱教授率領團隊已經將這部行業圣經的思想和內容以符合中國人理解習慣的方式進行了高質量地翻譯!

俞凱教授身為上海交通大學計算科學與工程系教授、思必馳公司創始人及首席科學家,長期從事交互式人工智能,尤其是智能語音及自然語言處理的研究和產業化工作,有著非常豐富的強化學習和深度學習實踐經驗。這也保證中文版忠于原著且行文流暢。

《強化學習(第2版)》已登錄各大平臺!

本書從強化學習的基本思想出發,深入淺出又嚴謹細致地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法,并以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。

香港科技大學楊強教授贊譽到:“毫不夸張地說,《強化學習(第2版)》中文版的面世為機器學習領域的中國學者和學生架起了一座通往強化學習經典知識寶庫的橋梁?!?/p>

此外,Yoshua Bengio、Demis Hassabis、周志華、鄧力等眾多國內外行業大咖同樣力薦

?喬鮑·塞派什瓦里(Csaba Szepesvari)

DeepMind研究科學家,阿爾伯塔大學計算機科學教授

?杰米斯·哈薩比斯(Demis Hassabis)

DeepMind聯合創始人兼首席執行官

?鄧力

美國城堡基金首席人工智能官 (Chief AI Offiffifficer) ,美國微軟公司原首席人工智能科學家

?黃士傑(Aja Huang)

AlphaGo首席工程師(Lead Programmer of AlphaGo)

?佩德羅·多明戈斯(Pedro Domingos)

華盛頓大學計算機科學教授,《終極算法》作者

?漆遠

螞蟻金服副總裁,首席 AI 科學家

?湯姆·米切爾(Tom Mitchell)

卡內基梅隆大學計算機科學教授

?楊強

前海微眾銀行首席人工智能官,香港科技大學講座教授,國際人工智能聯合會理事會主席(2017―2019)

?約舒亞·本吉奧(Yoshua Bengio)

蒙特利爾大學計算機科學與運籌學教授

?張鈸

中國科學院院士,清華大學人工智能研究院院長

?周志華

南京大學計算機系主任/人工智能學院院長,歐洲科學院外籍院士

得知本書將要在中國上市,兩位原著作者還特意為中國讀者寫了寄言。

We are most pleased that Professor Kai Yu has produced this Chinese translation of our textbook, which we hope will enable more Chinese students to self-study reinforcement learning and lead to the development of new ideas within China that contribute to the diversity and vigour of worldwide reinforcement learning research.

——Richard Sutton and Andrew Barto

我們非常高興俞凱教授將我們的教材翻譯成中文,希望這本教材能夠幫助更多的中國學生自學強化學習,并且促進更多的新思想在中國產生,為世界范圍的強化學習研究的多樣性和生機活力做出貢獻。

——理查德·薩頓、安德魯·巴圖

強化學習是人工智能領域的一顆明珠,也會是后深度學習時代技術發展的重要火種之一。正如俞凱教授在譯者序里所講那樣:

“希望本書的中文譯本能夠讓他們的思想為更多的中國研究者所了解,并作為一個種子,在中國孕育并產生人工智能前沿研究的新思想?!?/p>

讀者評論

相關專題

相關博文

  • 機器學習:數據驅動的科學

    機器學習:數據驅動的科學

    管理員賬號 2017-05-27

    小編說:傳統上,計算機會按照我們輸入的指令一步步執行。而機器學習卻是通過輸入數據而不是指令來進行各種工作。 機器學習,也被稱為統計機器學習,是人工智能領域的一個分支,其基本思想是基于數據構建統計模型,并利用模型對數據進行分析和預測...

    管理員賬號 2017-05-27
    1082 0 0 0
  • 你聽過無人駕駛,但你了解無人駕駛的算法嗎?

    你聽過無人駕駛,但你了解無人駕駛的算法嗎?

    管理員賬號 2017-05-26

    小編說:我們已經拉開了全自動無人駕駛的序幕,在幕布之后是我們精彩的未來,但你可能不知道的是無人駕駛系統是一個復雜的系統,系統主要由三部分組成:算法端、Client端和云端。算法端從傳感器原始數據中提取有意義的信息以了解周遭的環境情況,...

    管理員賬號 2017-05-26
    1267 0 0 0
  • 無人駕駛的分級以及產品化后會帶來的改善

    無人駕駛的分級以及產品化后會帶來的改善

    管理員賬號 2017-05-24

    小編說:人工智能是時代,機器人開始作為服務的承載體出現,其中的一個具體事例就是無人駕駛的產品化。無人駕駛并不是一個單一的新技術,而是一系列技術的整合。本文將向您介紹這一技術對生活帶來的改善以及無人駕駛的分級。本文選自《第一本無人駕駛技...

    管理員賬號 2017-05-24
    230 0 0 0
kof雅典娜赚钱方法中文