強化学習
3目並べについての強化学習(Q学習)の例。
http://plaza.harmonix.ne.jp/~fakira/turedure/Q-Learning.zip
更新は e-greedy。Q学習が先手で後手は以下のルールのAI。
- 自分のリーチならそこに置いて勝つ。
- 上記以外で、相手のリーチならそこに置いて邪魔をする。
- 上記以外で、置くとリーチになる場所の中からランダムに選ぶ。
- 上記以外なら、ランダムに置く。
Q学習の勝率は9割。epsを0にすれば、敗率は0。
3目並べについての強化学習(Q学習)の例。
http://plaza.harmonix.ne.jp/~fakira/turedure/Q-Learning.zip
更新は e-greedy。Q学習が先手で後手は以下のルールのAI。
Q学習の勝率は9割。epsを0にすれば、敗率は0。