目前我在 GLM-4.5 的技术报告 https://arxiv.org/abs/2508.06471 中未检索到evaluate gpqa时使用了怎样的提示词工程,仅知道指标是avg@8以及通过裁判模型判断回答是否正确。像opencompass这样的工具测试gpqa时只需要关注答案(A,B,C,D)是否选对即可,GLM-4.7这样的模型理解能力是很强的,能够严格遵循提示词要求的格式给出答案,通过简单的正则表达式就能准确提取答案。我的疑问在于既然能非常容易提取答案,为什么需要用到裁判模型,是因为提示词工程有什么特殊吗,方便公开一下测试gpqa时使用的提示词工程吗。
目前我在 GLM-4.5 的技术报告 https://arxiv.org/abs/2508.06471 中未检索到evaluate gpqa时使用了怎样的提示词工程,仅知道指标是avg@8以及通过裁判模型判断回答是否正确。像opencompass这样的工具测试gpqa时只需要关注答案(A,B,C,D)是否选对即可,GLM-4.7这样的模型理解能力是很强的,能够严格遵循提示词要求的格式给出答案,通过简单的正则表达式就能准确提取答案。我的疑问在于既然能非常容易提取答案,为什么需要用到裁判模型,是因为提示词工程有什么特殊吗,方便公开一下测试gpqa时使用的提示词工程吗。