基于不確定性估計的離線確定型Actor-Critic
摘要: Actor-Critic是一種強(qiáng)化學(xué)習(xí)方法,通過與環(huán)境在線試錯交互收集樣本來學(xué)習(xí)策略,是求解序貫感知決策問題的有效手段.但是,這種在線交互的主動學(xué)習(xí)范式在一些復(fù)雜真實環(huán)境中收集樣本時會帶來成本和安全問題.離線強(qiáng)化學(xué)習(xí)作為一種基于數(shù)據(jù)驅(qū)動的強(qiáng)化學(xué)習(xí)范式,強(qiáng)調(diào)從靜態(tài)樣本數(shù)據(jù)集中學(xué)習(xí)策略,與環(huán)境無探索交互,為機(jī)器人、自動駕駛、健康護(hù)理等真實世界部署應(yīng)用提供了可行的解決方案,是近年來的... (共16頁)
開通會員,享受整站包年服務(wù)