Skip to content

AI 算法优化随想 #5

@jasonleaster

Description

@jasonleaster

通过最后期的“对局结果”反向影响“前期落子”的走法得分,以逐步实现AI的自我强化训练

例如:棋盘大小固定S^2;初始化一个落子点走法的权重,均匀化,即第一步落在哪个点都可以,概率/落子权重/走法权重 相同

假设从第1步到第N步落子结束,算法主要目的就是预测当前第i步的走法,即当前第 i 步 应该落在哪个坐标,胜率最大;

假设局面评估/胜算计算的函数约定为 M 在 [0, 1] 之间,M的入参有(棋盘现状,评估函数,枚举出的走法)

我们可以将第i步落子的权重公式化表达为 (Px, Py) = F(i) = (Mi + (是否为输方 * -1 ) * ( (Mi+1~Mi+n)* 修正系数alpha) )

重点就是通过最后的结果,反向修正此前的走法权重,并且越早落下的步骤,修正系数越大,甚至可以用类乘,达到“尽早改过”的效果, 形成反向反馈,达到强化学习的目的;通过一次次的错误,反向修正自己的走法;

依此避免预测算法固化、死板、或者出现重复性的错误。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions