結(jié)合A2C和手牌估值方法的麻將博弈研究
摘要: 針對大眾麻將中對手牌信息利用不充分的問題,提出了手牌估值方法,并設(shè)計(jì)了基礎(chǔ)麻將程序(MJE)。為進(jìn)一步提升麻將AI的博弈能力,使用深度強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)了麻將AI(MJE-RL)。首先,通過MJE自對弈生成深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。其次,根據(jù)訓(xùn)練集、測試集和對比實(shí)驗(yàn)的結(jié)果,選擇效果最好的模型作為強(qiáng)化學(xué)習(xí)的預(yù)訓(xùn)練模型。最后,使用優(yōu)勢演說-評(píng)論家模型作為強(qiáng)化學(xué)習(xí)的主要框架,將訓(xùn)練好的深度學(xué)... (共8頁)
開通會(huì)員,享受整站包年服務(wù)