feat: 支持批量审查功能 (PR sunmh207#148 + PR sunmh207#130)

yestion · yestion · commit cdeff89b7874 · 2025-12-22T20:20:43.000+08:00
- 新增批量审查功能，按文件分批次审查代码
- 支持通过环境变量控制批量审查行为
  * BATCH_REVIEW_ENABLED: 启用/禁用批量审查（默认启用）
  * BATCH_REVIEW_FILES_PER_BATCH: 每批次文件数量（默认1）
- 新增 summary_merge_review_prompt 提示词模板用于汇总多批次审查结果
- 批量审查功能完美结合项目级 prompt 模板支持
- 更新所有 webhook handler（GitLab/GitHub/Gitea）使用批量审查方法
- 保留 Gitea 平台支持
diff --git a/biz/queue/worker.py b/biz/queue/worker.py
@@ -41,7 +41,8 @@ def handle_push_event(webhook_data: dict, gitlab_token: str, gitlab_url: str, gi
             if len(changes) > 0:
                 project_name = webhook_data['project']['name']
                 commits_text = ';'.join(commit.get('message', '').strip() for commit in commits)
-                review_result = CodeReviewer().review_and_strip_code(str(changes), commits_text, project_name)
+                code_reviewer = CodeReviewer()
+                review_result = code_reviewer.review_changes_in_batches(changes, commits_text, project_name)
                 score = CodeReviewer.parse_review_score(review_text=review_result)
                 for item in changes:
                     additions += item['additions']
@@ -134,10 +135,11 @@ def handle_merge_request_event(webhook_data: dict, gitlab_token: str, gitlab_url
             logger.error('Failed to get commits')
             return
 
-        # review 代码
+        # review 代码 - 使用批量审查方法
         project_name = webhook_data['project']['name']
         commits_text = ';'.join(commit['title'] for commit in commits)
-        review_result = CodeReviewer().review_and_strip_code(str(changes), commits_text, project_name)
+        code_reviewer = CodeReviewer()
+        review_result = code_reviewer.review_changes_in_batches(changes, commits_text, project_name)
 
         # 将review结果提交到Gitlab的 notes
         handler.add_merge_request_notes(f'Auto Review Result: \n{review_result}')
@@ -193,7 +195,8 @@ def handle_github_push_event(webhook_data: dict, github_token: str, github_url:
             if len(changes) > 0:
                 project_name = webhook_data['repository']['name']
                 commits_text = ';'.join(commit.get('message', '').strip() for commit in commits)
-                review_result = CodeReviewer().review_and_strip_code(str(changes), commits_text, project_name)
+                code_reviewer = CodeReviewer()
+                review_result = code_reviewer.review_changes_in_batches(changes, commits_text, project_name)
                 score = CodeReviewer.parse_review_score(review_text=review_result)
                 for item in changes:
                     additions += item.get('additions', 0)
@@ -276,10 +279,11 @@ def handle_github_pull_request_event(webhook_data: dict, github_token: str, gith
             logger.error('Failed to get commits')
             return
 
-        # review 代码
+        # review 代码 - 使用批量审查方法
         project_name = webhook_data['repository']['name']
         commits_text = ';'.join(commit['title'] for commit in commits)
-        review_result = CodeReviewer().review_and_strip_code(str(changes), commits_text, project_name)
+        code_reviewer = CodeReviewer()
+        review_result = code_reviewer.review_changes_in_batches(changes, commits_text, project_name)
 
         # 将review结果提交到GitHub的 notes
         handler.add_pull_request_notes(f'Auto Review Result: \n{review_result}')
@@ -334,7 +338,8 @@ def handle_gitea_push_event(webhook_data: dict, gitea_token: str, gitea_url: str
             if len(changes) > 0:
                 project_name = webhook_data.get('repository', {}).get('name')
                 commits_text = ';'.join(commit.get('message', '').strip() for commit in commits)
-                review_result = CodeReviewer().review_and_strip_code(str(changes), commits_text, project_name)
+                code_reviewer = CodeReviewer()
+                review_result = code_reviewer.review_changes_in_batches(changes, commits_text, project_name)
                 score = CodeReviewer.parse_review_score(review_text=review_result)
                 for item in changes:
                     additions += item.get('additions', 0)
@@ -413,7 +418,8 @@ def handle_gitea_pull_request_event(webhook_data: dict, gitea_token: str, gitea_
 
         project_name = webhook_data.get('repository', {}).get('name')
         commits_text = ';'.join(commit.get('title', '') for commit in commits)
-        review_result = CodeReviewer().review_and_strip_code(str(changes), commits_text, project_name)
+        code_reviewer = CodeReviewer()
+        review_result = code_reviewer.review_changes_in_batches(changes, commits_text, project_name)
 
         handler.add_pull_request_notes(f'Auto Review Result: \n{review_result}')
 
diff --git a/biz/utils/code_reviewer.py b/biz/utils/code_reviewer.py
@@ -115,6 +115,123 @@ def review_code(self, diffs_text: str, commits_text: str = "", project_name: str
         ]
         return self.call_llm(messages)
 
+    def review_changes_in_batches(self, changes: List[Dict[str, Any]], commits_text: str = "", project_name: str = "") -> str:
+        """
+        按文件批次审查代码变更，然后汇总所有审查结果
+        :param changes: 代码变更列表，每个元素是一个包含文件信息的字典
+        :param commits_text: 提交信息
+        :param project_name: 项目名称
+        :return: 汇总后的审查结果
+        """
+        if not changes:
+            logger.info("代码变更为空")
+            return "代码为空"
+
+        # 检查是否启用批量审查
+        batch_review_enabled = os.getenv("BATCH_REVIEW_ENABLED", "1") == "1"
+
+        # 如果未启用批量审查，使用原有的一次性审查方式
+        if not batch_review_enabled:
+            logger.info("批量审查功能未启用，使用传统一次性审查方式")
+            return self.review_and_strip_code(str(changes), commits_text, project_name)
+
+        review_max_tokens = int(os.getenv("REVIEW_MAX_TOKENS", 10000))
+        # 获取每批次审查的文件数量配置
+        files_per_batch = int(os.getenv("BATCH_REVIEW_FILES_PER_BATCH", 1))
+        logger.info(f"批量审查已启用，每批次审查 {files_per_batch} 个文件")
+
+        partial_reviews = []
+        total_files = len(changes)
+
+        # 按配置的批次大小分批进行审查
+        for batch_start in range(0, total_files, files_per_batch):
+            batch_end = min(batch_start + files_per_batch, total_files)
+            batch_changes = changes[batch_start:batch_end]
+            batch_num = (batch_start // files_per_batch) + 1
+            total_batches = (total_files + files_per_batch - 1) // files_per_batch
+
+            logger.info(f"正在审查第 {batch_num}/{total_batches} 批次 (文件 {batch_start + 1}-{batch_end}/{total_files})")
+
+            # 收集当前批次的文件路径
+            batch_file_paths = [
+                change.get('new_path') or change.get('old_path', 'unknown')
+                for change in batch_changes
+            ]
+
+            # 将批次内的文件转换为文本
+            batch_text = str(batch_changes)
+
+            # 计算tokens数量，如果超过限制则截断
+            tokens_count = count_tokens(batch_text)
+            if tokens_count > review_max_tokens:
+                logger.warning(f"批次 {batch_num} 的变更超过 {review_max_tokens} tokens，将截断")
+                batch_text = truncate_text_by_tokens(batch_text, review_max_tokens)
+
+            # 审查当前批次，传递 project_name 参数
+            try:
+                review_result = self.review_code(batch_text, commits_text, project_name).strip()
+                if review_result.startswith("```markdown") and review_result.endswith("```"):
+                    review_result = review_result[11:-3].strip()
+
+                # 添加批次标识
+                batch_header = f"### 批次 {batch_num} (文件: {', '.join(batch_file_paths)})\n"
+                partial_reviews.append(f"{batch_header}{review_result}")
+                logger.info(f"批次 {batch_num} 审查完成")
+            except Exception as e:
+                logger.error(f"审查批次 {batch_num} 时出错: {e}")
+                partial_reviews.append(f"### 批次 {batch_num}\n审查失败: {str(e)}")
+
+        # 如果只有一个批次，直接返回结果（去掉批次标识）
+        if len(partial_reviews) == 1:
+            # 去掉批次标题行
+            result = partial_reviews[0]
+            lines = result.split('\n', 1)
+            return lines[1] if len(lines) > 1 else result
+
+        # 汇总多个批次的审查结果
+        logger.info(f"开始汇总 {len(partial_reviews)} 个批次的审查结果")
+        summary_result = self._summarize_reviews(partial_reviews, project_name)
+        return summary_result
+
+    def _summarize_reviews(self, partial_reviews: List[str], project_name: str = "") -> str:
+        """
+        使用 summary_merge_review_prompt 汇总多个审查结果
+        :param partial_reviews: 各批次的审查结果列表
+        :param project_name: 项目名称
+        :return: 汇总后的总审查报告
+        """
+        # 加载汇总提示词，支持项目级别的自定义
+        normalized_project_name = project_name.replace("-", "_") if project_name else project_name
+        project_prompts_path = os.getenv(f"{normalized_project_name.upper()}_PROMPT", None)
+        
+        summary_prompts = (
+            self._load_prompts(prompt_key="summary_merge_review_prompt", prompt_templates_file=project_prompts_path)
+            if project_prompts_path
+            else self._load_prompts("summary_merge_review_prompt", os.getenv("REVIEW_STYLE", "professional"))
+        )
+
+        # 拼接所有分批审查结果
+        partial_reviews_text = "\n\n---\n\n".join(partial_reviews)
+
+        # 构建汇总请求消息
+        messages = [
+            summary_prompts["system_message"],
+            {
+                "role": "user",
+                "content": summary_prompts["user_message"]["content"].format(
+                    partial_reviews_text=partial_reviews_text
+                ),
+            },
+        ]
+
+        # 调用LLM进行汇总
+        summary_result = self.call_llm(messages).strip()
+        if summary_result.startswith("```markdown") and summary_result.endswith("```"):
+            summary_result = summary_result[11:-3].strip()
+
+        logger.info("审查结果汇总完成")
+        return summary_result
+
     @staticmethod
     def parse_review_score(review_text: str) -> int:
         """解析 AI 返回的 Review 结果，返回评分"""
diff --git a/conf/prompt_templates.yml b/conf/prompt_templates.yml
@@ -41,3 +41,55 @@ code_review_prompt:
     
     提交历史(commits)：
     {commits_text}
+
+summary_merge_review_prompt:
+  system_prompt: |-
+    你是一位高级软件架构师，现在需要对多个分批完成的代码审查结果进行整合成一个完整的总审查报告。
+
+    你的职责：
+    1. 重新整合多个批次的审查结果，形成"统一评分的总报告"
+    2. 不得丢失开发者定位问题所需的"批次级详细描述"
+    3. 在顶层总结问题趋势及关键风险
+    4. 根据全量问题重新统一打分
+
+    ---
+
+    汇总结构必须包含以下 3 部分：
+
+    ### 第一部分：全局问题总结与优化建议（进行归类整合，去重问题）
+    - 从所有批次报告中抽取共性问题进行分类总结
+    - 以整体角度提出优化方向，而不是重复粘贴批次内容
+
+    ### 第二部分：分批次详细问题保留区（必须原样结构化保留）
+    你的任务是按以下格式保留批次细节，不得简化或省略：
+    ```
+    #### 批次 X（文件范围/来源说明）
+    <保留该批完整的"问题描述与评分明细"，不得删减内容>
+    ```
+
+    这样开发者能快速找到"哪个文件在哪个批次出了什么问题"。
+
+    ### 第三部分：统一评分明细与总分（你必须重新评分）
+    - 你需要结合多个批次的影响范围重新量化总评分，而不是平均或取最大值
+    - 格式如下：
+      ```
+      - 功能实现的正确性与健壮性：XX分
+      - 安全性与潜在风险：XX分
+      - 是否符合最佳实践：XX分
+      - 性能与资源效率：XX分
+      - 提交信息清晰性与准确性：XX分
+      ```
+
+    最后一行必须为：**总分:XX分**
+
+    ---
+
+    自检规则：
+    - 若未包含"分批次详细问题保留区"则需重新生成
+    - 若未重新统一评分，而直接引用批次数值，则需重新评分
+    - 若缺少"总分:XX分"，必须重新生成
+    - 若全局总结部分只是重复批次内容，必须进行整合后重新生成
+
+  user_prompt: |-
+    以下是分批次代码审查结果，请将其整合为一个完整的总审查报告，并统一量化评分：
+    {partial_reviews_text}