7B模型训练数据污染（疑似？） #551

shifop · 2025-01-22T15:19:25Z

检查发现，EC-LAW和MCSC数据和训练数据是有重叠的，这和三个测试集的效果一致，EC-LAW，MCSC接近1，SIGHAN-2015奇怪的只有0.4917

想问一下，训练的时候有去除在测试集中的数据吗？

shibing624 · 2025-01-24T06:49:21Z

训练的时候包括了测试集中的数据。

TW-NLP · 2025-02-06T07:18:01Z

可以看一下，https://github.com/TW-NLP/ChineseErrorCorrector 在训练过程中，是将训练和测试集分开的，有7B和32B规模的纠错大模型，希望可以帮助你。

shifop added the bug Something isn't working label Jan 22, 2025

Provide feedback