您好,分类层forward里面没有使用attention mask,会导致padding影响结果。您可以验证一下。
您好,分类层forward里面没有使用attention mask,会导致padding影响结果。您可以验证一下。