Merge pull request #369 from GoogleCloudPlatform/codex

prernakakkar-google · web-flow · commit 42d17b989765 · 2026-05-05T16:25:00.000Z
Add support for Codex
diff --git a/datasets/codex-cli-tools/codex-cli-fake.evalset.json b/datasets/codex-cli-tools/codex-cli-fake.evalset.json
@@ -0,0 +1,30 @@
+{
+  "scenarios": [
+    {
+      "id": "fake-csql-create-instance-success",
+      "starting_prompt": "Create a new Cloud SQL instance named 'my-fake-db' in project 'astana-evaluation'. Use PostgreSQL 17, and set the password to 'password123'. Also use the 'Development' edition preset.",
+      "conversation_plan": "The user wants to create a database. All required parameters are in the starting prompt. The agent should call create_instance and report the success message back.",
+      "expected_trajectory": [
+        "create_instance"
+      ],
+      "env": {
+        "GOOGLE_CLOUD_PROJECT": "astana-evaluation"
+      },
+      "kind": "tools",
+      "max_turns": 3
+    },
+    {
+      "id": "fake-csql-get-instance-failure",
+      "starting_prompt": "Get the details for the Cloud SQL instance named 'missing-db' in project 'astana-evaluation'.",
+      "conversation_plan": "The user wants to get instance details. The agent should call get_instance, which is hardcoded to fail with an error 'Instance not found or permission denied'. The agent should explain that the instance could not be found based on the error.",
+      "expected_trajectory": [
+        "get_instance"
+      ],
+      "env": {
+        "GOOGLE_CLOUD_PROJECT": "astana-evaluation"
+      },
+      "kind": "tools",
+      "max_turns": 3
+    }
+  ]
+}
diff --git a/datasets/codex-cli-tools/codex-cli.evalset.json b/datasets/codex-cli-tools/codex-cli.evalset.json
@@ -0,0 +1,47 @@
+{
+  "scenarios": [
+    {
+      "id": "cloud-sql-list-instances-01",
+      "starting_prompt": "list all Cloud SQL instances in project astana-evaluation",
+      "conversation_plan": "Ask the agent to list instances in project astana-evaluation. Once all instances are listed if nl2code exist get its state and validate its RUNNABLE",
+      "expected_trajectory": [
+        "list_instances",
+        "get_instance"
+      ],
+      "env": {
+        "GOOGLE_CLOUD_PROJECT": "astana-evaluation"
+      },
+      "kind": "tools",
+      "max_turns": 3
+    },
+    {
+      "id": "csql-create-ambiguous-multiturn-01",
+      "starting_prompt": "I need a database.",
+      "conversation_plan": "The user starts with a vague request. You want to CREATE a NEW Cloud SQL instance named 'my-pg-app'. If the agent offers to create one, say YES. When asked for details, provide 'my-pg-app' as the instance name and 'user_data' as the database name. Never claim to have an existing instance. The goal is for the agent to eventually create the database 'user_data' inside 'my-pg-app' in astana-evaluation project.",
+      "expected_trajectory": [
+        "list_instances",
+        "create_instance",
+        "create_database"
+      ],
+      "env": {
+        "GOOGLE_CLOUD_PROJECT": "astana-evaluation"
+      },
+      "kind": "tools",
+      "max_turns": 6
+    },
+    {
+      "id": "csql-instance-not-found-failure",
+      "starting_prompt": "Update the instance 'non-existent-db-123' to have 8 cores.",
+      "conversation_plan": "The user asks to interact with an instance named 'non-existent-db-123' in astana-evaluation project that doesn't exist. The agent should try to get the instance details or update it directly, fail to find it, and inform the user. The user will then ask to list instances to find the correct name.",
+      "expected_trajectory": [
+        "update_instance",
+        "list_instances"
+      ],
+      "env": {
+        "GOOGLE_CLOUD_PROJECT": "astana-evaluation"
+      },
+      "kind": "tools",
+      "max_turns": 4
+    }
+  ]
+}
diff --git a/datasets/codex-cli-tools/example_run_config.yaml b/datasets/codex-cli-tools/example_run_config.yaml
@@ -0,0 +1,38 @@
+############################################################
+### Dataset / Eval Items
+############################################################
+dataset_config: datasets/codex-cli-tools/codex-cli.evalset.json
+dataset_format: agent-format
+
+orchestrator: agent
+model_config: datasets/model_configs/codex_cli_model.yaml
+simulated_user_model_config: datasets/model_configs/gemini_2.5_pro_model.yaml
+
+# Concurrency: number of scenarios to run in parallel.
+# Set to 1 for sequential runs (easier to follow logs, avoids session conflicts
+# on the shared sandboxed ~/.codex store).
+runners:
+  agent_runners: 1
+
+############################################################
+### Scorer Related Configs
+############################################################
+scorers:
+  trajectory_matcher: {}
+  goal_completion:
+    model_config: datasets/model_configs/gemini_2.5_pro_model.yaml
+  behavioral_metrics:
+    model_config: datasets/model_configs/gemini_2.5_pro_model.yaml
+  parameter_analysis:
+    model_config: datasets/model_configs/gemini_2.5_pro_model.yaml
+  turn_count: {}
+  end_to_end_latency: {}
+  tool_call_latency: {}
+  token_consumption: {}
+
+############################################################
+### Reporting Related Configs
+############################################################
+reporting:
+  csv:
+    output_directory: 'results'
diff --git a/datasets/codex-cli-tools/example_run_fake_config.yaml b/datasets/codex-cli-tools/example_run_fake_config.yaml
@@ -0,0 +1,33 @@
+############################################################
+### Dataset / Eval Items
+############################################################
+dataset_config: datasets/codex-cli-tools/codex-cli-fake.evalset.json
+dataset_format: agent-format
+
+# Orchestrator Configuration
+orchestrator: agent
+model_config: datasets/model_configs/codex_cli_fake_model.yaml
+simulated_user_model_config: datasets/model_configs/gemini_2.5_pro_model.yaml
+
+############################################################
+### Scorer Related Configs
+############################################################
+scorers:
+  trajectory_matcher: {}
+  goal_completion:
+    model_config: datasets/model_configs/gemini_2.5_pro_model.yaml
+  behavioral_metrics:
+    model_config: datasets/model_configs/gemini_2.5_pro_model.yaml
+  parameter_analysis:
+    model_config: datasets/model_configs/gemini_2.5_pro_model.yaml
+  turn_count: {}
+  end_to_end_latency: {}
+  tool_call_latency: {}
+  token_consumption: {}
+
+############################################################
+### Reporting Related Configs
+############################################################
+reporting:
+  csv:
+    output_directory: 'results'
diff --git a/datasets/model_configs/codex_cli_fake_model.yaml b/datasets/model_configs/codex_cli_fake_model.yaml
@@ -0,0 +1,85 @@
+codex_cli_version: "@openai/codex@latest"
+generator: codex_cli
+model: "gpt-5.5"
+
+# Fetched from Secret Manager (override per-environment as needed).
+openai_api_key_secret: "projects/393137573/secrets/OPENAI_API_KEY/versions/1"
+
+env:
+  GOOGLE_CLOUD_PROJECT: "astana-evaluation"
+
+setup:
+  mcp_servers:
+    "cloud-sql":
+      command: "python"
+      args:
+        - "evalbench/util/fake_mcp_server.py"
+        - "--server-name"
+        - "cloud-sql"
+        - "--config"
+        - "datasets/model_configs/codex_cli_fake_model.yaml"
+
+fake_mcp_tools:
+  "cloud-sql":
+    - name: create_instance
+      description: "Creates a Cloud SQL instance"
+      parameters:
+        type: object
+        properties:
+          project_id:
+            type: string
+            description: "GCP project ID"
+          instance_name:
+            type: string
+            description: "Name for the new instance"
+        required: ["project_id", "instance_name"]
+      response:
+        status: "success"
+        message: "Instance created successfully"
+    - name: get_instance
+      description: "Gets details of a Cloud SQL instance"
+      parameters:
+        type: object
+        properties:
+          project_id:
+            type: string
+            description: "GCP project ID"
+          instance_name:
+            type: string
+            description: "Instance name"
+        required: ["project_id", "instance_name"]
+      response:
+        status: "failure"
+        error:
+          code: 404
+          message: "Instance not found or permission denied"
+    - name: list_instances
+      description: "Lists all Cloud SQL instances in a project"
+      parameters:
+        type: object
+        properties:
+          project_id:
+            type: string
+            description: "GCP project ID"
+        required: ["project_id"]
+      response:
+        status: "success"
+        instances:
+          - name: "nl2code"
+            state: "RUNNABLE"
+            databaseVersion: "POSTGRES_15"
+    - name: update_instance
+      description: "Updates a Cloud SQL instance"
+      parameters:
+        type: object
+        properties:
+          project_id:
+            type: string
+            description: "GCP project ID"
+          instance_name:
+            type: string
+            description: "Instance name"
+        required: ["project_id", "instance_name"]
+      response:
+        status: "success"
+        message: "Instance updated successfully"
diff --git a/datasets/model_configs/codex_cli_model.yaml b/datasets/model_configs/codex_cli_model.yaml
@@ -0,0 +1,36 @@
+# OpenAI Codex CLI version.
+#   - Globally installed binary:  "codex"
+#   - Pin to a specific npm version (uses `npm exec --yes` like Gemini CLI):
+#       "@openai/codex@latest"
+codex_cli_version: "@openai/codex@latest"
+
+generator: codex_cli
+
+# Model to use. Pass any model id supported by your OpenAI account, e.g.
+# "gpt-5.5", "o4-mini", "gpt-4.1", etc.
+model: "gpt-5.5"
+
+# OPENAI_API_KEY is fetched from Google Secret Manager. Provide the resource
+# path; either the bare form or the `secret_manager://` URL form works.
+openai_api_key_secret: "projects/393137573/secrets/OPENAI_API_KEY/versions/1"
+
+# Codex's NDJSON has token counts but no cost. Provide rates here and
+# evalbench will compute `cost_usd` per turn. Update these to match the
+# model you set above; rates below are placeholder OpenAI list prices.
+# `cached_input_per_million_usd` is optional — defaults to 10% of input.
+pricing:
+  input_per_million_usd:        1.25
+  cached_input_per_million_usd: 0.125
+  output_per_million_usd:       10.0
+
+env:
+  GOOGLE_CLOUD_PROJECT: "astana-evaluation"
+  GOOGLE_CLOUD_LOCATION: "us-central1"
+
+setup:
+  mcp_servers:
+    "cloud-sql":
+      httpUrl: "https://sqladmin.googleapis.com/mcp"
+      authProviderType: google_credentials
+      headers:
+        X-Goog-User-Project: astana-evaluation
diff --git a/evalbench/evaluator/agentevaluator.py b/evalbench/evaluator/agentevaluator.py
@@ -9,6 +9,7 @@
 from generators.models import get_generator
 from generators.models.gemini_cli import GeminiCliGenerator
 from generators.models.claude_code import ClaudeCodeGenerator
+from generators.models.codex_cli import CodexCliGenerator
 from mp import mprunner
 from work.agentgenwork import AgentGenWork
 from evaluator.simulateduser import SimulatedUser
@@ -40,10 +41,12 @@ def __init__(
             self.agent_version = self.generator.claude_code_version
         elif isinstance(self.generator, GeminiCliGenerator):
             self.agent_version = self.generator.gemini_cli_version
+        elif isinstance(self.generator, CodexCliGenerator):
+            self.agent_version = self.generator.codex_cli_version
         else:
             raise ValueError(
-                f"AgentEvaluator only supports gemini_cli and claude_code generators, "
-                f"got {type(self.generator).__name__}")
+                f"AgentEvaluator only supports gemini_cli, claude_code, and "
+                f"codex_cli generators, got {type(self.generator).__name__}")
 
         runner_config = self.config.get("runners", {})
         self.agent_runners = runner_config.get("agent_runners", 10)
@@ -55,11 +58,11 @@ def evaluate(
         job_id: str,
         run_time: datetime.datetime,
     ):
-        if isinstance(self.generator, (GeminiCliGenerator, ClaudeCodeGenerator)):
+        if isinstance(self.generator, (GeminiCliGenerator, ClaudeCodeGenerator, CodexCliGenerator)):
             return self._evaluate_agent_cli(dataset, job_id, run_time)
         else:
             raise NotImplementedError(
-                "This evaluator currently only supports GeminiCliGenerator and ClaudeCodeGenerator")
+                "This evaluator currently only supports GeminiCliGenerator, ClaudeCodeGenerator and CodexCliGenerator")
 
     def _evaluate_agent_cli(
         self,
@@ -128,8 +131,8 @@ def process_scenario(
         for turn in range(max_turns):
             logging.info(
                 f"Turn {turn + 1}/{max_turns} - Prompt: {current_prompt}")
-            if isinstance(self.generator, (GeminiCliGenerator, ClaudeCodeGenerator)):
-                if isinstance(self.generator, ClaudeCodeGenerator):
+            if isinstance(self.generator, (GeminiCliGenerator, ClaudeCodeGenerator, CodexCliGenerator)):
+                if isinstance(self.generator, (ClaudeCodeGenerator, CodexCliGenerator)):
                     cli_cmd = self.generator.create_command(
                         cli=self.agent_version,
                         prompt=current_prompt,
@@ -168,7 +171,7 @@ def process_scenario(
             self._log_cli_result(turn, max_turns, result)
 
             tools = []
-            if isinstance(self.generator, (GeminiCliGenerator, ClaudeCodeGenerator)):
+            if isinstance(self.generator, (GeminiCliGenerator, ClaudeCodeGenerator, CodexCliGenerator)):
                 tools = self.generator.extract_tools(result.stdout)
             accumulated_tools.extend(tools)
 
diff --git a/evalbench/evaluator/agentorchestrator.py b/evalbench/evaluator/agentorchestrator.py
@@ -27,7 +27,7 @@ def __init__(
         self.report_progress = report_progress
 
     def evaluate(self, dataset: list[EvalGeminiCliRequest]):
-        logging.info("Starting Gemini CLI evaluation")
+        logging.info("Starting agent CLI evaluation")
         evaluator = AgentEvaluator(self.config)
         eval_outputs, scoring_results = evaluator.evaluate(
             dataset, self.job_id, self.run_time
diff --git a/evalbench/generators/models/__init__.py b/evalbench/generators/models/__init__.py
@@ -8,6 +8,7 @@
 from .query_data_api import QueryDataAPIGenerator
 from .gemini_cli import GeminiCliGenerator
 from .claude_code import ClaudeCodeGenerator
+from .codex_cli import CodexCliGenerator
 from util.config import load_yaml_config
 
 
@@ -36,6 +37,8 @@ def get_generator(global_models, model_config_path: str, db: DB = None):
             model = GeminiCliGenerator(config)
         if config["generator"] == "claude_code":
             model = ClaudeCodeGenerator(config)
+        if config["generator"] == "codex_cli":
+            model = CodexCliGenerator(config)
         if not model:
             raise ValueError(f"Unknown Generator {config['generator']}")
 
diff --git a/evalbench/generators/models/codex_cli.py b/evalbench/generators/models/codex_cli.py