作者您好,非常感谢您开源了这些在ctrcvr领域十分经典的baseline! 关于W&D结构,在原始代码中顶层激活函数接受的是Wide和Deep部分各一维的特征拼接,实操来看似乎模型的泛化能力并不足,因为简单的特征相加会使得每一个特征共享相同的梯度(1)。所以是否可以尝试一下尽量保留Wide部分的原始物理信息,在激活函数之前设计一个靠近顶层的FC层,接受原始的Wide部分的特征和保留一定宽度的Deep部分的输出拼接,实操下来效果会优于baseline一些。 祝好!
作者您好,非常感谢您开源了这些在ctrcvr领域十分经典的baseline!
关于W&D结构,在原始代码中顶层激活函数接受的是Wide和Deep部分各一维的特征拼接,实操来看似乎模型的泛化能力并不足,因为简单的特征相加会使得每一个特征共享相同的梯度(1)。所以是否可以尝试一下尽量保留Wide部分的原始物理信息,在激活函数之前设计一个靠近顶层的FC层,接受原始的Wide部分的特征和保留一定宽度的Deep部分的输出拼接,实操下来效果会优于baseline一些。
祝好!