深度強(qiáng)化學(xué)習(xí)控制:前沿理論與方法
定 價(jià):180 元
- 作者:孫長銀,穆朝絮
- 出版時(shí)間:2025/6/1
- ISBN:9787030819345
- 出 版 社:科學(xué)出版社
- 中圖法分類:TP181
- 頁碼:307
- 紙張:
- 版次:1
- 開本:B5
本書系統(tǒng)梳理了深度強(qiáng)化學(xué)習(xí)的核心理論、關(guān)鍵算法及其在智能控制、機(jī)器人技術(shù)和多智能體系統(tǒng)中的應(yīng)用。全書涵蓋強(qiáng)化學(xué)習(xí)的基本概念、深度強(qiáng)化學(xué)習(xí)的主要框架,以及多智能體強(qiáng)化學(xué)習(xí)的協(xié)同決策、任務(wù)分解與優(yōu)化控制等前沿問題,并結(jié)合大量實(shí)驗(yàn)案例,深入探討強(qiáng)化學(xué)習(xí)在飛行器控制、移動(dòng)機(jī)器人導(dǎo)航與避障等領(lǐng)域的實(shí)踐應(yīng)用。
更多科學(xué)出版社服務(wù),請掃碼獲取。
人工智能,深度學(xué)習(xí)2012.3任北京科技大學(xué)自動(dòng)化學(xué)院院長,特聘教授,博士生導(dǎo)師;
2009.12起任東南大學(xué)自動(dòng)化學(xué)院副院長;
2007-2009受聘國家自然科學(xué)基金委自動(dòng)化學(xué)科項(xiàng)目主任
2011年獲得國家杰出青年科學(xué)基金;
目前主持國家自然科學(xué)基金重大研究計(jì)劃重點(diǎn)項(xiàng)目1項(xiàng)、教育部博士點(diǎn)基金2項(xiàng)、一院高校創(chuàng)新基金1項(xiàng)
目錄
前言
第1章 緒論 1
1.1 強(qiáng)化學(xué)習(xí)發(fā)展歷程 1
1.2 深度強(qiáng)化學(xué)習(xí)基礎(chǔ)算法 2
1.2.1 基于值函數(shù)的深度強(qiáng)化學(xué)習(xí) 2
1.2.2 基于策略的深度強(qiáng)化學(xué)習(xí) 5
1.2.3 深度強(qiáng)化學(xué)習(xí)的應(yīng)用與挑戰(zhàn) 8
1.3 多智能體強(qiáng)化學(xué)習(xí) 11
1.3.1 多智能體強(qiáng)化學(xué)習(xí)難點(diǎn)問題 11
1.3.2 多智能體強(qiáng)化學(xué)習(xí)常用算法與結(jié)構(gòu) 12
1.3.3 多智能體強(qiáng)化學(xué)習(xí)應(yīng)用與挑戰(zhàn) 16
1.4 本章小結(jié) 17
參考文獻(xiàn) 18
第2章 強(qiáng)化學(xué)習(xí)基本概念與理論 25
2.1 智能體–環(huán)境交互模型 25
2.2 策略與值函數(shù) 26
2.3 基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法 28
2.4 基于策略的強(qiáng)化學(xué)習(xí)算法 30
2.5 本章小結(jié) 33
參考文獻(xiàn) 33
第3章 面向輸入受限系統(tǒng)的深度強(qiáng)化學(xué)習(xí) 34
3.1 引言 34
3.2 問題描述 36
3.3 解算器–評價(jià)器結(jié)構(gòu)與離軌策略學(xué)習(xí)算法 37
3.3.1 基于平方和的策略評價(jià)器 37
3.3.2 動(dòng)作解算器 38
3.3.3 離軌策略學(xué)習(xí)算法 39
3.3.4 算法收斂性和策略最優(yōu)性分析 41
3.4 仿真實(shí)驗(yàn) 48
3.4.1 一般線性系統(tǒng)的控制仿真 48
3.4.2 非線性振蕩器的控制仿真 51
3.4.3 平衡車系統(tǒng)的控制仿真 54
3.4.4 二自由度機(jī)械臂系統(tǒng)的控制仿真 55
3.5 本章小結(jié) 59
參考文獻(xiàn) 59
第4章 狀態(tài)依賴輸入約束的強(qiáng)化學(xué)習(xí)優(yōu)化控制 62
4.1 引言 62
4.2 問題描述 63
4.3 動(dòng)作映射機(jī)制 65
4.4 基于動(dòng)作映射的強(qiáng)化學(xué)習(xí)框架 72
4.4.1 執(zhí)行器–評價(jià)器網(wǎng)絡(luò)設(shè)計(jì) 79
4.4.2 異策略學(xué)習(xí)算法 80
4.5 值函數(shù)的連續(xù)性分析 82
4.6 仿真實(shí)驗(yàn) 84
4.6.1 線性系統(tǒng)的控制仿真 85
4.6.2 輸入受限系統(tǒng)的控制仿真 87
4.6.3 二自由度機(jī)械臂系統(tǒng)的控制仿真 90
4.7 本章小結(jié) 91
參考文獻(xiàn) 92
第5章 自治切換系統(tǒng)的強(qiáng)化學(xué)習(xí)優(yōu)化控制 94
5.1 引言 94
5.2 問題描述 95
5.3 算法設(shè)計(jì)及實(shí)現(xiàn) 97
5.3.1 精確 Q 學(xué)習(xí)算法 97
5.3.2 近似 Q 學(xué)習(xí)算法 98
5.3.3 算法執(zhí)行過程 99
5.4 算法理論分析 101
5.4.1 近似值函數(shù)迭代算法回顧 101
5.4.2 目標(biāo)函數(shù)連續(xù)性分析 101
5.4.3 算法收斂性分析 102
5.4.4 切換策略穩(wěn)定性分析 103
5.5 仿真實(shí)驗(yàn) 104
5.5.1 仿真實(shí)驗(yàn)一 105
5.5.2 仿真實(shí)驗(yàn)二 107
5.5.3 仿真實(shí)驗(yàn)三 111
5.6 本章小結(jié) 117
參考文獻(xiàn) 117
第6章 受控切換系統(tǒng)的強(qiáng)化學(xué)習(xí)優(yōu)化控制 119
6.1 引言 119
6.2 問題描述 120
6.3 算法設(shè)計(jì) 121
6.3.1 混合 Q 學(xué)習(xí)算法 121
6.3.2 混合歸一化優(yōu)勢函數(shù)算法 122
6.4 算法理論分析 124
6.4.1 HQL 算法特性分析 124
6.4.2 HNAF 算法特性分析 128
6.5 仿真實(shí)驗(yàn) 130
6.5.1 仿真實(shí)驗(yàn)一 130
6.5.2 仿真實(shí)驗(yàn)二 133
6.5.3 仿真實(shí)驗(yàn)三 135
6.6 本章小結(jié) 137
參考文獻(xiàn) 137
第7章 基于任務(wù)分解的多智能體強(qiáng)化學(xué)習(xí)協(xié)同控制 138
7.1 引言 138
7.2 問題描述 140
7.3 基于任務(wù)分解的學(xué)習(xí)算法 140
7.3.1 值函數(shù)分解 141
7.3.2 基于任務(wù)分解的多智能體 Q 學(xué)習(xí)算法 142
7.3.3 基于任務(wù)分解的多智能體確定性策略梯度算法 146
7.4 仿真實(shí)驗(yàn) 151
7.4.1 仿真實(shí)驗(yàn)一 151
7.4.2 仿真實(shí)驗(yàn)二 154
7.4.3 仿真實(shí)驗(yàn)三 157
7.5 本章小結(jié) 160
參考文獻(xiàn) 161
第8章 基于后繼特征的多智能體遷移強(qiáng)化學(xué)習(xí) 163
8.1 引言 163
8.2 問題描述 164
8.3 基于后繼特征的多智能體強(qiáng)化學(xué)習(xí)及任務(wù)遷移 165
8.3.1 基于后繼特征的多智能體強(qiáng)化學(xué)習(xí)框架 166
8.3.2 基于后繼特征的目標(biāo)任務(wù)知識遷移方法 170
8.3.3 關(guān)于目標(biāo)任務(wù)快速啟動(dòng)策略的理論分析 173
8.4 仿真實(shí)驗(yàn) 177
8.4.1 仿真實(shí)驗(yàn)環(huán)境介紹 177
8.4.2 獎(jiǎng)勵(lì)特征函數(shù)的設(shè)計(jì) 179
8.4.3 實(shí)驗(yàn)結(jié)果分析與討論 180
8.5 本章小結(jié) 187
參考文獻(xiàn) 188
第9章 基于鄰居動(dòng)作值函數(shù)的多智能體一致性控制 191
9.1 引言 191
9.2 問題描述 193
9.2.1 多智能體系統(tǒng) 193
9.2.2 最優(yōu)控制 194
9.3 算法設(shè)計(jì) 196
9.3.1 基于鄰居動(dòng)作值函數(shù)的多智能體一致性算法 196
9.3.2 算法執(zhí)行過程 198
9.4 收斂性分析 199
9.4.1 帶領(lǐng)導(dǎo)者的多智能體系統(tǒng):折扣因子γ∈ [0,1) 200
9.4.2 帶領(lǐng)導(dǎo)者的多智能體系統(tǒng):折扣因子γ= 1 202
9.4.3 無領(lǐng)導(dǎo)者的多智能體系統(tǒng):折扣因子γ∈ [0,1] 204
9.4.4 穩(wěn)定性分析 204
9.5 仿真實(shí)驗(yàn) 205
9.5.1 帶領(lǐng)導(dǎo)者的多智能體系統(tǒng)控制仿真 206
9.5.2 無領(lǐng)導(dǎo)者的多智能體系統(tǒng)控制仿真 208
9.6 本章小結(jié) 210
參考文獻(xiàn) 210
第10章 基于自學(xué)習(xí)通信多智能體強(qiáng)化學(xué)習(xí)的合作追捕 213
10.1 引言 213
10.2 合作追捕學(xué)習(xí)算法 215
10.2.1 環(huán)形拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)下合作追捕學(xué)習(xí)算法 215
10.2.2 主從式線形拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)下合作追捕學(xué)習(xí)算法 219
10.3 仿真實(shí)驗(yàn) 223
10.3.1 仿真環(huán)境描述 223
10.3.2 訓(xùn)練實(shí)施方式 225
10.3.3 實(shí)驗(yàn)結(jié)果與分析 227
10.4 本章小結(jié) 233
參考文獻(xiàn) 233
第11章 強(qiáng)化學(xué)習(xí)在飛行器控制中的應(yīng)用 236
11.1 引言 236
11.2 問題描述 238
11.3 積分補(bǔ)償確定性策略梯度控制器 240
11.3.1 確定性策略梯度算法 241
11.3.2 帶積分補(bǔ)償?shù)拇_定性策略梯度算法 243
11.3.3 四旋翼 DPG-IC 控制器設(shè)計(jì) 244
11.4 基于 DPG-IC 的兩段式訓(xùn)練算法 247
11.4.1 離線訓(xùn)練階段 247
11.4.2 在線訓(xùn)練階段 249
11.5 仿真實(shí)驗(yàn) 249
11.5.1 訓(xùn)練和測試環(huán)境 250
11.5.2 離線訓(xùn)練過程與結(jié)果 251
11.5.3 離線控制策略實(shí)驗(yàn)和結(jié)果 254
11.5.4 在線訓(xùn)練實(shí)驗(yàn)和結(jié)果 260
11.6 本章小結(jié) 261
參考文獻(xiàn) 261
第12章 強(qiáng)化學(xué)習(xí)在移動(dòng)機(jī)器人導(dǎo)航與避障中的應(yīng)用 264
12.1 引言 264
12.2 問題描述 266
12.3 模塊化深度強(qiáng)化學(xué)習(xí)導(dǎo)航與避障算法 268
12.3.1 局部避障模塊 269
12.3.2 全局導(dǎo)航模塊 272
12.3.3 動(dòng)作調(diào)度模塊 273
12.4 仿真實(shí)驗(yàn) 275
12.4.1 深度雙流 Q 網(wǎng)絡(luò)局部避障訓(xùn)練與對比實(shí)驗(yàn) 276
12.4.2 導(dǎo)航模塊離線訓(xùn)練與測試結(jié)果 280
12.4.3 模塊化深度強(qiáng)化學(xué)習(xí)在線訓(xùn)練與對比測試結(jié)果 280
12.5 本章小結(jié) 285
參考文獻(xiàn) 285
第13章 強(qiáng)化學(xué)習(xí)開源測試環(huán)境與算法庫 288
13.1 引言 288
13.2 強(qiáng)化學(xué)習(xí)開源測試環(huán)境 288
13.2.1 OpenAI Gym 289
13.2.2 Unity ML-Agents Toolkit 289
13.2.3 PyBullet 290
13.2.4 DeepMind Control Suite 290
13.3 玄策強(qiáng)化學(xué)習(xí)開源算法庫 291
13.3.1 軟件概述 291
13.3.2 軟件主要功能詳解 294
13.3.3 軟件使用說明 302
13.4 本章小結(jié) 305
第14章 總結(jié)與展望 306