diff --git a/pages/techniques/reflexion.zh.mdx b/pages/techniques/reflexion.zh.mdx index 5ff6973da..1bc6c3b70 100644 --- a/pages/techniques/reflexion.zh.mdx +++ b/pages/techniques/reflexion.zh.mdx @@ -9,10 +9,10 @@ 如上图所示,自我反思由三个不同的模型组成: - **参与者(Actor)**:根据状态观测量生成文本和动作。参与者在环境中采取行动并接受观察结果,从而形成轨迹。[链式思考(CoT)](https://www.promptingguide.ai/techniques/cot) 和 [ReAct](https://www.promptingguide.ai/techniques/react) 被用作参与者模型。此外,还添加了记忆组件为智能体提供额外的上下文信息。 -- **评估者(Evaluator)**:对参与者的输出进行评价。具体来说,它将生成的轨迹(也被称作短期记忆)作为输入并输出奖励分数。根据人物的不同,使用不同的奖励函数(决策任务使用LLM和基于规则的启发式奖励)。 +- **评估者(Evaluator)**:对参与者的输出进行评价。具体来说,它将生成的轨迹(也被称作短期记忆)作为输入并输出奖励分数。根据任务的不同,使用不同的奖励函数(决策任务使用LLM和基于规则的启发式奖励)。 - **自我反思(Self-Reflection)**:生成语言强化线索来帮助参与者实现自我完善。这个角色由大语言模型承担,能够为未来的试验提供宝贵的反馈。自我反思模型利用奖励信号、当前轨迹和其持久记忆生成具体且相关的反馈,并存储在记忆组件中。智能体利用这些经验(存储在长期记忆中)来快速改进决策。 -总的来说,自我反思的关键步骤是a)定义任务,b)生成轨迹,c)评估,d)执行自我反思,e)生成下一条轨迹。下图展示了自我反思的智能体学习迭代优化其行为来解决决策、编程和推理等各种人物的例子。自我反思(Refelxion)通过引入自我评估、自我反思和记忆组件来拓展 ReAct 框架。 +总的来说,自我反思的关键步骤是a)定义任务,b)生成轨迹,c)评估,d)执行自我反思,e)生成下一条轨迹。下图展示了自我反思的智能体学习迭代优化其行为来解决决策、编程和推理等各种任务的例子。自我反思(Refelxion)通过引入自我评估、自我反思和记忆组件来拓展 ReAct 框架。 !["Reflexion 示例"](../../img/research/reflexion-examples.png)