基于批量遞歸最小二乘的自然Actor-Critic算法
摘要: 為了減輕Actor-Critic結(jié)構(gòu)中智能體用最小二乘法估計(jì)自然梯度時(shí)的在線運(yùn)算負(fù)擔(dān),提高運(yùn)算實(shí)時(shí)性,提出新的學(xué)習(xí)算法:NAC-BRLS.該算法在Critic中利用批量遞歸最小二乘法估計(jì)自然梯度,根據(jù)估計(jì)得到的梯度樂觀地更新策略.批量遞歸最小二乘法的引入使得智能體能根據(jù)自身運(yùn)算能力自由調(diào)整各批次運(yùn)算的數(shù)據(jù)量,即每次策略估計(jì)時(shí)使用的數(shù)據(jù)量,在全樂觀和部分樂觀之間進(jìn)行權(quán)衡,大大提高了NAC-LSTD算法的靈活性.山地車仿真實(shí)驗(yàn)表明,與NAC-LSTD算法相比,NAC-BRLS算法在保證一定收斂性能的前提下,能夠明顯降低智能體的單步平均運(yùn)算負(fù)擔(dān). (共8頁)
開通會(huì)員,享受整站包年服務(wù)