性爱网在线免费观看视频_亚洲日韩精品久久久久一区_国产三级久久三级久久_国产在线高清在线精品

當(dāng)前位置:首頁 > 科技文檔 > 自動化技術(shù) > 正文

稀疏獎勵場景下基于適應(yīng)性狀態(tài)近似的多智能體強化學(xué)習(xí)

機器人 頁數(shù): 10 2024-11-20
摘要: 稀疏獎勵是多智能體強化學(xué)習(xí)的主要挑戰(zhàn)之一,現(xiàn)有算法難以在稀疏獎勵場景下有效訓(xùn)練智能體團(tuán)隊,并且容易導(dǎo)致其探索效率低下。為解決此類問題,本文提出基于適應(yīng)性狀態(tài)近似的多智能體強化學(xué)習(xí)算法。受人類在獎勵稀缺情況下學(xué)習(xí)的啟發(fā),通過考慮智能體狀態(tài)之間的相似性,自適應(yīng)地從經(jīng)驗池中獲取近似狀態(tài),并將其添加到候選狀態(tài)集,利用候選狀態(tài)集中的探索信息促進(jìn)策略訓(xùn)練。此外,算法還將該近似狀態(tài)與當(dāng)前局部... (共10頁)

開通會員,享受整站包年服務(wù)