按照 https://adityassrana.github.io/blog/theory/2020/08/26/Weight-Init.html 一文的说法,用“正确”的方式初始化了模型参数,结果甚至 train 不起来。想起以前不知在哪看到的「大家都在 overfit Adam」,感觉多少也是异曲同工。或许无形中已经 overfit 了 PyTorch 默认的不科学的 init。
好像是我改错了,有一些层应该 nonlinearity='linear' 的。
様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。