基于Tile Coding編碼和模型學(xué)習(xí)的Actor-Critic算法
摘要: Actor-Critic是一類具有較好性能及收斂保證的強(qiáng)化學(xué)習(xí)方法,然而,Agent在學(xué)習(xí)和改進(jìn)策略的過(guò)程中并沒(méi)有對(duì)環(huán)境的動(dòng)態(tài)性進(jìn)行學(xué)習(xí),導(dǎo)致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函數(shù),其中狀態(tài)和動(dòng)作的編碼方法以及參數(shù)對(duì)Actor-Critic方法有重要的影響。Tile Coding編碼具有簡(jiǎn)單易用、計(jì)算時(shí)間復(fù)雜度較低等優(yōu)點(diǎn),因此,將Tile Coding編碼與基于模型的Actor-Critic方法結(jié)合,并將所得算法應(yīng)用于強(qiáng)化學(xué)習(xí)仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所得算法具有較好的性能。 (共5頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)