聯邦學習
  • 推薦0
  • 收藏3
  • 瀏覽551

聯邦學習

楊強,劉洋,程勇,康焱,陳天健,于涵 (作者)  楊強 等 (譯者) 宋亞東 (責任編輯)

  • 書  號:978-7-121-38522-3
  • 出版日期:2020-04-01
  • 頁  數:208
  • 開  本:16(170*240)
  • 出版狀態:上市銷售
  • 原書名: Federated Learning
  • 原書號:9781681736976
  • 維護人:宋亞東
電子書 ¥62.30
購買電子書
紙質版 ¥89.00
如何在保證本地訓練數據不公開的前提下,實現多個數據擁有者協同訓練一個共享的機器學習模型?傳統的機器學習方法需要將所有的數據集中到一個地方(例如,數據中心),然后進行機器學習模型的訓練。但這種基于集中數據的做法無疑會嚴重侵害用戶隱私和數據安全。如今,世界上越來越多的人開始強烈要求科技公司必須根據用戶隱私法律法規妥善地處理用戶的數據,歐盟的《通用數據保護條例》是一個很好的例子。在本書中,我們將描述聯邦學習(亦稱聯邦機器學習)如何將分布式機器學習、密碼學、基于金融規則的激勵機制和博弈論結合起來,以解決分散數據的使用問題。我們會介紹不同種類的面向隱私保護的機器學習解決方案以及技術背景,并描述一些典型的實際問題解決案例。我們還會進一步論述聯邦學習將成為下一代機器學習的基礎,可以滿足技術和社會需求并促進面向安全的人工智能的開發和應用。
本書可供計算機科學、人工智能和機器學習專業的學生,以及大數據和人工智能應用程序的開發人員閱讀,也可供高等院校的教員、研究機構的研究人員、法律法規制定者和政府監管部門參考。
面向數據安全和隱私保護機器學習學術成果和應用案例
數據孤島和數據保護難題破解之法
楊強
楊強教授是微眾銀行的首席人工智能官(CAIO)和香港科技大學(HKUST)計算機科學與工程系講席教授。他是香港科技大學計算機科學與工程系的前任系主任,并曾擔任大數據研究院的創始主任(2015-2018 年)。他的研究興趣包括人工智能、機器學習和數據挖掘,特別是遷移學習、自動規劃、聯邦學習和基于案例的推理。他是多個國際協會的會士(Fellow),包括ACM、AAAI、IEEE、IAPR 和AAAS。他于1982 年獲得北京大學天體物理學學士學位,分別于1987年和1989 年獲得馬里蘭大學帕克分校計算機科學系碩士學位和博士學位。他曾在在滑鐵盧大學(1989-1995 年)和西蒙弗雷澤大學(1995-2001 年)擔任教授。他是ACM TIST 和IEEE TBD 的創始主編。他是國際人工智能聯合會議(IJCAI)的理事長(2017-2019 年)和人工智能發展協會(AAAI)的執行委員會成員(2016-2020 年)。楊強教授曾獲多個獎項,包括2004/2005 ACM KDDCUP 冠軍、ACM SIGKDD 卓越服務獎(2017)、AAAI 創新人工智能應用獎(2018, 2020)和吳文俊人工智能杰出貢獻獎(2019)。他是華為諾亞方舟實驗室的創始主任(2012-2014 年)和第四范式(AI 平臺公司)的共同創始人。他是Intelligent Planning (Springer)、Crafting Your Research Future (Morgan & Claypool)、Transfer Learning (Cambridge University Press)與Constraint-based Design Recovery for Software Engineering (Springer)等著作的作者。

劉洋
劉洋是微眾銀行AI 項目組的高級研究員。她的研究興趣包括機器學習、聯邦學習、遷移學習、多智能體系統、統計力學,以及這些技術的產業應用。她于2012 年獲得普林斯頓大學博士學位,2007 年獲得清華大學學士學位。她擁有多項國際發明專利,研究成果曾發表于Nature、IJCAI 和ACM TIST 等科研刊物和會議上。她曾獲AAAI 人工智能創新應用獎、IJCAI 創新應用獎等多個獎項,并擔任IJCAI 高級程序委員會委員,NeurIPS 等多個人工智能會議研討會聯合主席,以及IEEE Intelligent Systems 期刊客座編委等。

程勇
程勇是微眾銀行AI 項目組的高級研究員。他曾任華為技術有限公司(深圳)高級工程師和德國貝爾實驗室高級研究員,也曾在華為-香港科技大學創新實驗室擔任研究員。他的研究興趣和專長主要包括聯邦學習、深度學習、計算機視覺和OCR、數學優化理論和算法、分布式和網絡計算以及混合整數規劃。他發表期刊和會議論文20 余篇。他于2006 年、2010 年、2013 年分別在浙江大學、香港科技大學、德國達姆施塔特工業大學獲工學學士學位(一等榮譽)、碩士學位和博士學位。他于2014 年獲達姆施塔特工業大學最佳博士論文獎,于2006 年獲浙江大學最佳學士論文獎。他在ICASSP’15 會議上做了關于“混合整數規劃”的教程。他是IJCAI’19 和NIPS’19 等國際會議的程序委員會委員。

康焱
康焱是微眾銀行AI 項目組的高級研究員。他的工作重點是面向隱私保護的機器學習和聯邦遷移學習技術的研究和實現。他在馬里蘭大學巴爾的摩分校獲計算機碩士和博士學位。他的博士論文研究的是以機器學習和語義網絡進行異構數據集成,并獲得了博士論文獎學金。在就讀研究生期間,他參與了與美國國家標準與技術研究院(NIST)和美國國家科學基金會(NSF)合作的多個項目,設計和開發語義網絡集成系統。他在商業軟件項目方面也有著豐富的經驗。他曾在美國
Stardog Union 公司和美國塞納公司工作了四年多的時間,從事系統設計和實現方面的工作。

陳天健
陳天健是微眾銀行AI 項目組的副總經理。他現在負責構建基于聯邦學習技術的銀行智能生態系統。在加入微眾銀行之前,他是百度金融的首席架構師,同時也是百度的首席架構師。他擁有超過12 年的大規模分布式系統設計經驗,并在Web 搜索引擎、對等網絡存儲、基因組學、推薦系統、數字銀行和機器學習等多個應用領域中實現了技術創新。他現居于中國深圳,與其他工作伙伴一起建設和推廣聯邦AI 生態系統和相關的開源項目FATE。

于涵
于涵現任職新加坡南洋理工大學(NTU)計算機科學與工程學院助理教授、微眾銀行特聘顧問。在2015—2018 年期間,他在南洋理工大學擔任李光耀博士后研究員(LKY PDF)。在加入南洋理工大學之前,他曾在新加坡惠普公司擔任嵌入式軟件工程師。他于2014 年獲南洋理工大學計算機科學博士學位。他的研究重點是在線凸優化、人工智能倫理、聯邦學習及其在眾包等復雜協作系統中的應用。他在國際學術會議和期刊上發表研究論文120 余篇,獲得了多項科研獎項。
前言
本書講述在數據間彼此孤立、同時被不同組織所擁有且并不能被輕易地聚合在一起的環境下,聯合構建機器學習模型的方法。我們經??梢月牭?,當今是大數據(Big Data)時代,而大數據正是人工智能(Artificial Intelligence,AI)應用蓬勃發展的“燃料”。事實卻是,我們面對的數據常常既是小規模,又是碎片化的。例如,我們不能隨意收集由移動終端設備產生的數據,這些數據都以碎片化的形式分散存在。像醫院這樣的機構,由于行業的特殊性,對用戶數據的掌握量往往是有限的。然而,由于用戶隱私和數據安全方面的需求,使得在不同機構間以簡單的方式將所有數據聚合到一處并進行處理變得越來越不可行。在這樣的環境中,聯邦機器學習(Federated Machine Learning),或者簡稱為聯邦學習(Federated Learning),作為一種行之有效的解決方案引起了人們的廣泛關注。聯邦學習既能幫助多個參與方搭建共享的高性能模型,又符合用戶隱私和數據保密性的要求。
除了保護用戶隱私和數據安全,聯邦學習的另一發展動機是為了最大化地利用云系統下終端設備的計算能力。如果只在設備和服務器之間傳輸計算結果而不是原始數據,那么通信將會變得極為高效。人造衛星能夠完成絕大部分的信息收集計算,并只需使用最低限度的信道與地面計算機通信。聯邦學習通過交換中間計算結果即可在多臺設備和計算服務器之間進行同步。
我們可以打個比方來通俗地解釋聯邦學習,把機器學習模型比作羊,把數據比作羊吃的草。在傳統方法中,要建立機器學習模型,需要到各個草場的供應商處收購草。這就像一家人工智能公司需要到處收集數據一樣,會面對很多的挑戰,例如用戶隱私、各個組織的利益和法律法規的約束等。聯邦學習則換了一種思路,我們可以牽著羊,到各個草場去吃草,這樣羊就可以吃到每個地方的草,羊可以成長,而草不出本地,就像聯邦學習系統里的數據不出本地一樣。羊吃了各家的草,可以逐漸長大,就像聯邦模型在各個地方的數據集上都獲得知識,變得越來越好,最后聯邦模型可以供大家一起使用一樣。這也是本書的封面所展示的意義。
如今,現代社會需要人們更負責任地使用人工智能,而用戶隱私和數據完整性是人工智能系統的重要特征。在這一方向,從安全地更新移動電話上的輸入法預測模型,到與多家醫院一同改善醫療圖像識別模型的性能,聯邦學習已經產生了顯著的積極影響。在計算機科學領域,有許多已有的研究成果為聯邦學習技術奠定了基礎。自從谷歌發布了一個名為Gboard 的應用程序后,聯邦學習技術在2018 年左右開始迅速崛起。
谷歌的Gboard 系統是一個企業對消費者(Business-to-Consumer,B2C)應用的例子。它也能夠用于支持邊緣計算,云系統的終端(邊緣)設備可以處理許多計算任務,從而減少了通過原始數據與中央服務器通信的需要。另一個維度是企業對企業(Business-to-Business,B2B)應用。在此類應用中,多個組織聯合起來搭建一個共享的機器學習模型。模型是在確保沒有本地數據離開任何站點的同時構建的,而模型性能可以根據業務需求進行一定程度的定制。在本書中,我們涵蓋了B2C 模型和B2B 模型。
為了推進聯邦學習技術,需要多個學科領域的合作,包括機器學習算法、分布式機器學習、密碼學與安全、隱私保護數據挖掘、博弈論與經濟學原理、激勵機制設計、法律與監管要求等。要同時精通如此多的學科,對一位研究者或工程師來說是一個極其艱巨的任務。目前,研究聯邦學習領域的資源分散于許多研究論文和博客上,因此,我們有必要在一本書中進行全面的介紹。
本書的內容是關于聯邦學習的介紹,可以作為讀者入門和探究聯邦學習所需閱讀的第一本書。本書是為計算機科學、人工智能和機器學習專業的學生,以及大數據和人工智能應用程序的開發人員編寫的。本科高年級學生或者研究生、大學的教員和研究機構的研究人員都能夠發現這本書的有用之處。在課堂上,本書可以作為研究生研討課程的教科書,也可以作為研究聯邦學習的參考文獻。法律法規制定者和政府監管部門也可以把這本書作為一本關于大數據和人工智能法律事務的參考書。
本書的想法來自我們在微眾銀行開發的一個名為聯邦智能使能器(Federated AI Technology Enabler,FATE)的聯邦學習平臺,是第一個工業級聯邦學習開源框架。FATE 平臺現已是Linux 基金會的一部分。微眾銀行是一家服務于中國數億用戶的數字銀行,擁有來自不同背景的商業合作伙伴,包括銀行、保險公司、互聯網公司、零售公司和供應鏈公司等。我們親身體會到,由于數據不能輕易地共享和傳輸,導致合作構建由機器學習所支撐的新業務的需求正變得愈加強烈。
谷歌將聯邦學習大規模地應用在其面向消費者的移動服務中。我們進一步擴大了聯邦學習的適用范圍,使多家企業結為伙伴關系?;诼摪顚W習的橫向、縱向和遷移學習分類首次在我們發表于ACM TIST (ACM Transactions on Intelligent Systems and Technology) 的研究論文中提出,也于2019 年在夏威夷由人工智能發展協會組織舉辦的AAAI(Association for the Advancement of Artificial Intelligence)會議上提出。隨后,在第14 屆中國計算機聯盟科技前沿大會等會議上,參會者們提供了許多關于聯邦學習的教程。在本書的編寫過程中,我們的第一個開源聯邦學習系統FATE 誕生了。此外,聯邦學習的第一個 IEEE 國際標準正在制定中。各種教程和相關的研究論文是本書的基礎所在。
本書的結構安排如下。第1 章介紹當前人工智能面臨的挑戰以及將聯邦學習作為可行的解決方案。第2 章提供面向隱私保護的機器學習的背景知識,包括常用的隱私保護技術和數據安全技術。第3 章是分布式機器學習概述,包括面向擴展性的分布式機器學習和面向隱私保護的分布式機器學習,并強調了聯邦學習和分布式機器學習的區別。第4 章、第5 章和第6 章分別詳細地介紹了橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。第7 章探討聯邦學習激勵機制的設計,以便更好地激勵聯邦學習的參與方。第8 章介紹聯邦學習在計算機視覺、自然語言處理及推薦系統領域的研究和應用。第9 章介紹聯邦強化學習。第10 章討論聯邦學習在各個領域的應用前景。第11 章總結此書,并展望聯邦學習的未來發展。最后,附錄A 中提供了當前最新的歐盟、美國和中國的數據保護法律和法規概況。

為完成本書的撰寫,一群非常敬業的學者和工程師付出了巨大的努力。除了本書的作者,也有許多博士研究生、研究人員和研究伙伴為不同章節做出了貢獻。我們衷心地感謝以下為本書的寫作和編校做出貢獻的人士。
? 周雨豪協助完成了本書從英文到中文翻譯的初稿。
? 高大山協助撰寫了第2 章和第3 章。
? 吳學陽協助撰寫了第3 章和第5 章。
? 梁新樂協助撰寫了第3 章和第9 章。
? 黃云峰協助撰寫了第5 章和第8 章。
? 萬晟協助撰寫了第6 章和第8 章。
? 魏錫光協助撰寫了第9 章。
? 邢鵬威協助撰寫了第8 章和第10 章。
最后,我們要感謝我們的家人對我們的理解與支持!

楊強,劉洋,程勇,康焱,陳天健,于涵
2020 年4 月,中國深圳

目錄

序言Ⅲ
前言Ⅳ
作者簡介Ⅷ

第1 章 引言/1
1.1 人工智能面臨的挑戰/2
1.2 聯邦學習概述/4
1.2.1 聯邦學習的定義/5
1.2.2 聯邦學習的分類/8
1.3 聯邦學習的發展/11
1.3.1 聯邦學習的研究/11
1.3.2 開源平臺/13
1.3.3 聯邦學習標準化進展/14
1.3.4 聯邦人工智能生態系統/15

第2 章 隱私、安全及機器學習/17
2.1 面向隱私保護的機器學習/18
2.2 面向隱私保護的機器學習與安全機器學習/18
2.3 威脅與安全模型/19
2.3.1 隱私威脅模型/19
2.3.2 攻擊者和安全模型/21
2.4 隱私保護技術/22
2.4.1 安全多方計算/22
2.4.2 同態加密/27
2.4.3 差分隱私/30

第3 章 分布式機器學習/35
3.1 分布式機器學習介紹/36
3.1.1 分布式機器學習的定義/36
3.1.2 分布式機器學習平臺/37
3.2 面向擴展性的DML /39
3.2.1 大規模機器學習/39
3.2.2 面向擴展性的DML 方法/40
3.3 面向隱私保護的DML /43
3.3.1 隱私保護決策樹/43
3.3.2 隱私保護方法/45
3.3.3 面向隱私保護的DML 方案/45
3.4 面向隱私保護的梯度下降方法/48
3.4.1 樸素聯邦學習/49
3.4.2 隱私保護方法/49
3.5 挑戰與展望/51

第4 章 橫向聯邦學習/53
4.1 橫向聯邦學習的定義/54
4.2 橫向聯邦學習架構/55
4.2.1 客戶-服務器架構/55
4.2.2 對等網絡架構/58
4.2.3 全局模型評估/59
4.3 聯邦平均算法介紹/60
4.3.1 聯邦優化/60
4.3.2 聯邦平均算法/63
4.3.3 安全的聯邦平均算法/65
4.4 聯邦平均算法的改進/68
4.4.1 通信效率提升/68
4.4.2 參與方選擇/69
4.5 相關工作/69
4.6 挑戰與展望/71

第5 章 縱向聯邦學習/73
5.1 縱向聯邦學習的定義/74
5.2 縱向聯邦學習的架構/75
5.3 縱向聯邦學習算法/77
5.3.1 安全聯邦線性回歸/77
5.3.2 安全聯邦提升樹/80
5.4 挑戰與展望/85

第6 章 聯邦遷移學習/87
6.1 異構聯邦學習/88
6.2 聯邦遷移學習的分類與定義/88
6.3 聯邦遷移學習框架/90
6.3.1 加法同態加密/93
6.3.2 聯邦遷移學習的訓練過程/94
6.3.3 聯邦遷移學習的預測過程/95
6.3.4 安全性分析/95
6.3.5 基于秘密共享的聯邦遷移學習/96
6.4 挑戰與展望/97

第7 章 聯邦學習激勵機制/99
7.1 貢獻的收益/100
7.1.1 收益分享博弈/100
7.1.2 反向拍賣/102
7.2 注重公平的收益分享框架/103
7.2.1 建模貢獻/103
7.2.2 建模代價/104
7.2.3 建模期望損失/105
7.2.4 建模時間期望損失/105
7.2.5 策略協調/106
7.2.6 計算收益評估比重/108
7.3 挑戰與展望/109

第8 章 聯邦學習與計算機視覺、自然語言處理及推薦系統/111
8.1 聯邦學習與計算機視覺/112
8.1.1 聯邦計算機視覺/112
8.1.2 業內研究進展/114
8.1.3 挑戰與展望/115
8.2 聯邦學習與自然語言處理/116
8.2.1 聯邦自然語言處理/116
8.2.2 業界研究進展/118
8.2.3 挑戰與展望/118
8.3 聯邦學習與推薦系統/119
8.3.1 推薦模型/120
8.3.2 聯邦推薦系統/121
8.3.3 業界研究進展/123
8.3.4 挑戰與展望/123

第9 章 聯邦強化學習/125
9.1 強化學習介紹/126
9.1.1 策略/127
9.1.2 獎勵/127
9.1.3 價值函數/127
9.1.4 環境模型/127
9.1.5 強化學習應用舉例/127
9.2 強化學習算法/128
9.3 分布式強化學習/130
9.3.1 異步分布式強化學習/130
9.3.2 同步分布式強化學習/131
9.4 聯邦強化學習/131
9.4.1 聯邦強化學習背景/131
9.4.2 橫向聯邦強化學習/132
9.4.3 縱向聯邦強化學習/134
9.5 挑戰與展望/136

第10 章 應用前景/139
10.1 金融/140
10.2 醫療/141
10.3 教育/142
10.4 城市計算和智慧城市/144
10.5 邊緣計算和物聯網/146
10.6 區塊鏈/147
10.7 第五代移動網路/148

第11 章 總結與展望/149

附錄A 數據保護法律和法規/151
A.1 歐盟的數據保護法規/152
A.1.1 GDPR 中的術語/153
A.1.2 GDPR 重點條款/154
A.1.3 GDPR 的影響/156
A.2 美國的數據保護法規/157
A.3 中國的數據保護法規/158

參考文獻/161

本書勘誤

印次
  • 頁碼:24  •  行數:12  •  印次: 1  •  修訂印次: 2

    “解密” 應為 “加密”

    tsuki 提交于 2020/5/20 10:06:43
    宋亞東 確認于 2020/5/20 11:19:53
  • 頁碼:46  •  行數:8  •  印次: 1  •  修訂印次: 2

    面各應為:面向

    宋亞東 提交于 2020/6/8 12:12:16
    宋亞東 確認于 2020/6/8 12:12:46
  • 頁碼:107  •  行數:18  •  印次: 1  •  修訂印次: 2

    應當被“最大化”而不是“最小化

    Xinyan Chen 提交于 2020/6/23 11:15:27
    宋亞東 確認于 2020/6/29 9:31:47
  • 頁碼:130  •  行數:表9-1  •  印次: 1  •  修訂印次: 2

    最后兩列的標題:離策略 和 在策略 寫反了

    Liyiying 提交于 2020/5/17 14:34:12
    宋亞東 確認于 2020/5/18 9:12:11

讀者評論

電子書版本

  • Epub

相關博文

相關圖書

語音識別原理與應用

洪青陽 (作者)

本書從語音信號、特征提取等基礎內容出發,逐層深入到動態時間規整、隱馬爾科夫模型、GMM-HMM、DNN等經典算法模型,幫助讀者系統了解語音識別技術的基礎知識,最...

¥128.00

Python極簡講義:一本書入門數據分析與機器學習

張玉宏 (作者)

本書以圖文并茂的方式介紹了Python的基礎內容,并深入淺出地介紹了數據分析和機器學習領域的相關入門知識。 第1章至第5章以極簡方式講解了Python的常用語...

¥89.60

程序員的AI書:從代碼開始

張力柯 潘暉 (作者)

隨著AI技術的普及,如何快速理解、掌握并應用AI技術,成為絕大多數程序員亟需解決的問題。本書基于Keras框架并以代碼實現為核心,詳細解答程序員學習AI算法時的...

¥76.30

快樂機器學習

王圣元 (作者)

學習并精通任何一門學科無外乎要經過四個步驟:它是什么?它可行嗎?怎么學它?如何學好它?機器學習也不例外,《快樂機器學習》就以這四個步驟來介紹機器學習。 《...

 

知識圖譜:概念與技術

肖仰華 等 (作者)

知識圖譜是一種大規模語義網絡,已經成為大數據時代知識工程的代表性進展。知識圖譜技術是實現機器認知智能和推動各行業智能化發展的關鍵基礎技術。知識圖譜也成為大規模知...

¥118.00

量化投資:交易模型開發與數據挖據

韓燾 (作者)

本書是一本利用Python技術,結合人工智能、神經網絡和機器學習、遺傳算法等互聯網技術進行相應行業模型開發的技術圖書。<br>本書第1~4 章主要講解了利用Py...

¥99.00
kof雅典娜赚钱方法中文 中国铝业股票行情 山西十一选五平台 陕西11选5手机版 修正药业股票代码 贵州省11选5前三走势 融资融券技巧及策略 博彩通评级机构 江苏苏州快三开奖结果 北京十一选五走势图手 开奖查询