按照 adityassrana.github.io/blog/th 一文的说法,用“正确”的方式初始化了模型参数,结果甚至 train 不起来。想起以前不知在哪看到的「大家都在 overfit Adam」,感觉多少也是异曲同工。或许无形中已经 overfit 了 PyTorch 默认的不科学的 init。

フォロー

好像是我改错了,有一些层应该 nonlinearity='linear' 的。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。