強化學習的基礎教程
0.jpg (38.93 KB, 下載次數: 80)
下載附件
2018-3-22 03:30 上傳
0.jpg (41.97 KB, 下載次數: 67)
下載附件
2018-3-22 03:30 上傳
0.jpg (24.48 KB, 下載次數: 63)
下載附件
2018-3-22 03:30 上傳
0.jpg (44.59 KB, 下載次數: 67)
下載附件
2018-3-22 03:30 上傳
在DP和RL中,控制器(agent,決策者)與過程(環境)進行交互,
通過3種信號:
在每個離散時間步,控制器接收來自過程的狀態測量值,并采取一個動作,使得過程遷移到一個新狀態,并產生一個獎賞,其中獎賞值用來評估狀態遷移的質量。
控制器發出的行為指令是受控于策略的(從狀態到動作的函數)。
過程的行為是由它的動態性來描述的,對過程采取動作(由控制器發出的指令)后,狀態如何變化。
0.jpg (15.14 KB, 下載次數: 64)
下載附件
2018-3-22 03:31 上傳
0.jpg (38 KB, 下載次數: 67)
下載附件
2018-3-22 03:31 上傳
0.jpg (22.57 KB, 下載次數: 76)
下載附件
2018-3-22 03:32 上傳
0.jpg (45.42 KB, 下載次數: 74)
下載附件
2018-3-22 03:32 上傳
完整的pdf格式文檔51黑下載地址(共66頁):
強化學習.pdf
(4.38 MB, 下載次數: 28)
2018-3-21 21:49 上傳
點擊文件名下載附件
下載積分: 黑幣 -5
|