當前位置:首頁 > 科技文檔 > 自動化 > 正文

基于核方法的連續(xù)動作Actor-Critic學(xué)習(xí)

模式識別與人工智能 頁數(shù): 8 2014-02-15
摘要: 強化學(xué)習(xí)算法通常要處理連續(xù)狀態(tài)及連續(xù)動作空間問題以實現(xiàn)精確控制.就此文中結(jié)合Actor-Critic方法在處理連續(xù)動作空間的優(yōu)點及核方法在處理連續(xù)狀態(tài)空間的優(yōu)勢,提出一種基于核方法的連續(xù)動作Actor-Critic學(xué)習(xí)算法(KCACL).該算法中,Actor根據(jù)獎賞不作為原則更新動作概率,Critic采用基于核方法的在線選擇時間差分算法學(xué)習(xí)狀態(tài)值函數(shù).對比實驗驗證該算法的有效性. (共8頁)

開通會員,享受整站包年服務(wù)