當(dāng)前位置:首頁 > 科技文檔 > 自動(dòng)化 > 正文

基于批量遞歸最小二乘的自然Actor-Critic算法

摘要: 為了減輕Actor-Critic結(jié)構(gòu)中智能體用最小二乘法估計(jì)自然梯度時(shí)的在線運(yùn)算負(fù)擔(dān),提高運(yùn)算實(shí)時(shí)性,提出新的學(xué)習(xí)算法:NAC-BRLS.該算法在Critic中利用批量遞歸最小二乘法估計(jì)自然梯度,根據(jù)估計(jì)得到的梯度樂觀地更新策略.批量遞歸最小二乘法的引入使得智能體能根據(jù)自身運(yùn)算能力自由調(diào)整各批次運(yùn)算的數(shù)據(jù)量,即每次策略估計(jì)時(shí)使用的數(shù)據(jù)量,在全樂觀和部分樂觀之間進(jìn)行權(quán)衡,大大提高了NAC-LSTD算法的靈活性.山地車仿真實(shí)驗(yàn)表明,與NAC-LSTD算法相比,NAC-BRLS算法在保證一定收斂性能的前提下,能夠明顯降低智能體的單步平均運(yùn)算負(fù)擔(dān). (共8頁)

開通會(huì)員,享受整站包年服務(wù)
科技文檔
數(shù)學(xué) 力學(xué) 化學(xué) 金融 證券 保險(xiǎn) 投資 會(huì)計(jì) 審計(jì) 園藝 林業(yè) 旅游 體育 物理學(xué) 生物學(xué) 天文學(xué) 氣象學(xué) 海洋學(xué) 地質(zhì)學(xué) 新能源 金屬學(xué) 農(nóng)藝學(xué) 農(nóng)作物 管理學(xué) 領(lǐng)導(dǎo)學(xué) 自然科學(xué) 系統(tǒng)科學(xué) 資源科學(xué) 無機(jī)化工 有機(jī)化工 燃料化工 化學(xué)工業(yè) 材料科學(xué) 礦業(yè)工程 冶金工業(yè) 安全科學(xué) 環(huán)境科學(xué) 工業(yè)通用 機(jī)械工業(yè) 無線電子 電信技術(shù) 鐵路運(yùn)輸 汽車工業(yè) 船舶工業(yè) 動(dòng)力工程 電力工業(yè) 農(nóng)業(yè)科學(xué) 農(nóng)業(yè)工程 植物保護(hù) 動(dòng)物醫(yī)學(xué) 教育理論 學(xué)前教育 初等教育 中等教育 高等教育 職業(yè)教育 成人教育 自然地理 地球物理 經(jīng)濟(jì)統(tǒng)計(jì) 農(nóng)業(yè)經(jīng)濟(jì) 工業(yè)經(jīng)濟(jì) 交通經(jīng)濟(jì) 企業(yè)經(jīng)濟(jì) 文化經(jīng)濟(jì) 信息經(jīng)濟(jì) 貿(mào)易經(jīng)濟(jì) 財(cái)政稅收 市場研究 科學(xué)研究 互聯(lián)網(wǎng) 自動(dòng)化 輕工業(yè) 核科學(xué) 服務(wù)業(yè) 石油然氣 服務(wù)業(yè) 野生動(dòng)物 水產(chǎn)漁業(yè) 硬件 儀器儀表 航空航天 武器軍事 公路運(yùn)輸 水利水電 建筑科學(xué) 軟件