基于核方法的連續(xù)動作Actor-Critic學(xué)習(xí)
摘要: 強化學(xué)習(xí)算法通常要處理連續(xù)狀態(tài)及連續(xù)動作空間問題以實現(xiàn)精確控制.就此文中結(jié)合Actor-Critic方法在處理連續(xù)動作空間的優(yōu)點及核方法在處理連續(xù)狀態(tài)空間的優(yōu)勢,提出一種基于核方法的連續(xù)動作Actor-Critic學(xué)習(xí)算法(KCACL).該算法中,Actor根據(jù)獎賞不作為原則更新動作概率,Critic采用基于核方法的在線選擇時間差分算法學(xué)習(xí)狀態(tài)值函數(shù).對比實驗驗證該算法的有效性. (共8頁)
開通會員,享受整站包年服務(wù)