寒假闲着没事,开始学习围棋,结果被各路棋手暴打。于是打算借助科技的力量看看能不能将失去的都夺回来!
- 自己训练的卷积策略选择网络
- 有KataGo帮忙的局面价值判断
- MiniMax树搜索
由此可见,组成非常简单。至于为什么叫半个,主要是因为在局面价值判断上有KataGo帮忙。
在data文件夹下可以看到sgf棋谱数据来源。
在对策略选择网络进行监督训练时使用了从1980年到2018年的约7万局人类对局数据和约10万局ai对局数据。
在试验时候,一共设计了四个策略选择网络。分别是简易三层卷积神经网络GoCNN、增强全局特征的卷积神经网络GoCNN_p、基于Transformer的卷积神经网络GoCNN_t、阿尔法狗原版卷积神经网络AlphaCNN。全都测试下来发现GoCNN_p的速度和准确率比较平衡。
GoCNN_p首先将输入从2维升至64维,然后通过3个残差块得到局部特征,接着使用全局平局池化提取全局特征,再与先前得到的局部特征进行融合得到混合特征,最后通过全连接层得到362种行棋的可能性