廣義行為正則化離線Actor-Critic
摘要: 行為正則化Actor-Critic(BRAC)是一種離線強(qiáng)化學(xué)習(xí)算法,通過將當(dāng)前策略與行為策略之間的Kullback-Leibler(KL)散度作為策略目標(biāo)函數(shù)的正則化項(xiàng)來緩解分布偏移問題.但是,由于KL散度是一種無界的分布差異度量,在策略差異過大時(shí),策略目標(biāo)函數(shù)中的累積期望回報(bào)項(xiàng)將僅對(duì)策略改進(jìn)發(fā)揮有限的作用,從而導(dǎo)致最終學(xué)到的策略性能較差.針對(duì)該問題,將當(dāng)前策略與行為策略之間... (共13頁)
開通會(huì)員,享受整站包年服務(wù)