请问GLM-4.7使用gpqa数据集evaluate时使用了怎样的提示词？

目前我在 GLM-4.5 的技术报告 https://arxiv.org/abs/2508.06471 中未检索到evaluate gpqa时使用了怎样的提示词工程，仅知道指标是avg@8以及通过裁判模型判断回答是否正确。像opencompass这样的工具测试gpqa时只需要关注答案（A,B,C,D）是否选对即可，GLM-4.7这样的模型理解能力是很强的，能够严格遵循提示词要求的格式给出答案，通过简单的正则表达式就能准确提取答案。我的疑问在于既然能非常容易提取答案，为什么需要用到裁判模型，是因为提示词工程有什么特殊吗，方便公开一下测试gpqa时使用的提示词工程吗。