katanemo · syedhashmi · Mar 3, 2026 · Mar 5, 2026 · Mar 16, 2026 · Mar 16, 2026
diff --git a/cli/planoai/config_generator.py b/cli/planoai/config_generator.py
@@ -466,6 +466,15 @@ def validate_and_render_schema():
         "upstream_tls_ca_path", "/etc/ssl/certs/ca-certificates.crt"
     )
 
+    upstream_timeout_ms = overrides.get("upstream_timeout_ms")
+    if upstream_timeout_ms is not None:
+        timeout_s = f"{int(upstream_timeout_ms) // 1000}s"
+        llm_gateway["timeout"] = timeout_s
+        prompt_gateway["timeout"] = timeout_s
+        for listener in listeners:
+            if listener.get("type") == "agent" and "timeout" not in listener:
+                listener["timeout"] = timeout_s
+
     data = {
         "prompt_gateway_listener": prompt_gateway,
         "llm_gateway_listener": llm_gateway,

diff --git a/cli/planoai/utils.py b/cli/planoai/utils.py
@@ -92,7 +92,7 @@ def convert_legacy_listeners(
         "type": "model_listener",
         "port": 12000,
         "address": "0.0.0.0",
-        "timeout": "30s",
+        "timeout": "300s",
         "model_providers": model_providers or [],
     }
 
@@ -101,7 +101,7 @@ def convert_legacy_listeners(
         "type": "prompt_listener",
         "port": 10000,
         "address": "0.0.0.0",
-        "timeout": "30s",
+        "timeout": "300s",
     }
 
     # Handle None case

diff --git a/config/envoy.template.yaml b/config/envoy.template.yaml
@@ -336,7 +336,7 @@ static_resources:
                             auto_host_rewrite: true
                             prefix_rewrite: "/agents/"
                             cluster: bright_staff
-                            timeout: {{ listener.timeout | default('30s') }}
+                            timeout: {{ listener.timeout | default('300s') }}
                 http_filters:
                   - name: envoy.filters.http.compressor
                     typed_config:
@@ -517,12 +517,12 @@ static_resources:
                           route:
                             auto_host_rewrite: true
                             cluster: {{ llm_cluster_name }}
-                            timeout: 300s
+                            timeout: {{ llm_gateway_listener.timeout }}
                             {% if llm_gateway_listener.max_retries %}
                             retry_policy:
                               retry_on: "5xx,connect-failure,refused-stream,reset,retriable-status-codes"
                               num_retries: {{ llm_gateway_listener.max_retries }}
-                              per_try_timeout: 30s
+                              per_try_timeout: {{ llm_gateway_listener.timeout }}
                               retriable_status_codes: [429, 500, 502, 503, 504]
                               retry_back_off:
                                 base_interval: 0.5s

diff --git a/config/plano_config_schema.yaml b/config/plano_config_schema.yaml
@@ -265,6 +265,10 @@ properties:
         type: boolean
       use_agent_orchestrator:
         type: boolean
+      upstream_timeout_ms:
+        type: integer
+        minimum: 1000
+        description: "Timeout in milliseconds for outbound upstream calls from WASM filters (tool endpoints, function calling, default prompt targets). Default is 300000 (300s)."
       upstream_connect_timeout:
         type: string
         description: "Connect timeout for upstream provider clusters (e.g., '5s', '10s'). Default is '5s'."

diff --git a/crates/common/src/configuration.rs b/crates/common/src/configuration.rs
@@ -84,6 +84,7 @@ pub struct Overrides {
     pub prompt_target_intent_matching_threshold: Option<f64>,
     pub optimize_context_window: Option<bool>,
     pub use_agent_orchestrator: Option<bool>,
+    pub upstream_timeout_ms: Option<u64>,
 }
 
 #[derive(Debug, Clone, Serialize, Deserialize, Default)]

diff --git a/crates/common/src/consts.rs b/crates/common/src/consts.rs
@@ -3,10 +3,10 @@ pub const SYSTEM_ROLE: &str = "system";
 pub const USER_ROLE: &str = "user";
 pub const TOOL_ROLE: &str = "tool";
 pub const ASSISTANT_ROLE: &str = "assistant";
-pub const ARCH_FC_REQUEST_TIMEOUT_MS: u64 = 30000; // 30 seconds
-pub const DEFAULT_TARGET_REQUEST_TIMEOUT_MS: u64 = 30000; // 30 seconds
-pub const API_REQUEST_TIMEOUT_MS: u64 = 30000; // 30 seconds
-pub const MODEL_SERVER_REQUEST_TIMEOUT_MS: u64 = 30000; // 30 seconds
+pub const ARCH_FC_REQUEST_TIMEOUT_MS: u64 = 300_000; // 300 seconds
+pub const DEFAULT_TARGET_REQUEST_TIMEOUT_MS: u64 = 300_000; // 300 seconds
+pub const API_REQUEST_TIMEOUT_MS: u64 = 300_000; // 300 seconds
+pub const MODEL_SERVER_REQUEST_TIMEOUT_MS: u64 = 300_000; // 300 seconds
 pub const MODEL_SERVER_NAME: &str = "bright_staff";
 pub const ARCH_ROUTING_HEADER: &str = "x-arch-llm-provider";
 pub const MESSAGES_KEY: &str = "messages";

diff --git a/crates/prompt_gateway/src/http_context.rs b/crates/prompt_gateway/src/http_context.rs
@@ -205,7 +205,12 @@ impl HttpContext for StreamContext {
         info!("on_http_request_body: sending request to model server");
         debug!("request body: {}", json_data);
 
-        let timeout_str = MODEL_SERVER_REQUEST_TIMEOUT_MS.to_string();
+        let timeout_ms = if let Some(overrides) = self.overrides.as_ref() {
+            overrides.upstream_timeout_ms.unwrap_or(MODEL_SERVER_REQUEST_TIMEOUT_MS)
+        } else {
+            MODEL_SERVER_REQUEST_TIMEOUT_MS
+        };
+        let timeout_str = timeout_ms.to_string();
 
         let mut headers = vec![
             (ARCH_UPSTREAM_HOST_HEADER, MODEL_SERVER_NAME),
@@ -230,7 +235,7 @@ impl HttpContext for StreamContext {
             headers,
             Some(json_data.as_bytes()),
             vec![],
-            Duration::from_secs(5),
+            Duration::from_millis(timeout_ms),
         );
 
         if let Some(content) = self.user_prompt.as_ref().unwrap().content.as_ref() {

diff --git a/crates/prompt_gateway/src/stream_context.rs b/crates/prompt_gateway/src/stream_context.rs
@@ -171,7 +171,14 @@ impl StreamContext {
                     callout_context.request_body.messages.clone(),
                 );
                 let arch_messages_json = serde_json::to_string(&params).unwrap();
-                let timeout_str = DEFAULT_TARGET_REQUEST_TIMEOUT_MS.to_string();
+                let timeout_ms = if let Some(overrides) = self.overrides.as_ref() {
+                    overrides
+                        .upstream_timeout_ms
+                        .unwrap_or(DEFAULT_TARGET_REQUEST_TIMEOUT_MS)
+                } else {
+                    DEFAULT_TARGET_REQUEST_TIMEOUT_MS
+                };
+                let timeout_str = timeout_ms.to_string();
 
                 let mut headers = vec![
                     (":method", "POST"),
@@ -193,7 +200,7 @@ impl StreamContext {
                     headers,
                     Some(arch_messages_json.as_bytes()),
                     vec![],
-                    Duration::from_secs(5),
+                    Duration::from_millis(timeout_ms),
                 );
                 callout_context.response_handler_type = ResponseHandlerType::DefaultTarget;
                 callout_context.prompt_target_name = Some(default_prompt_target.name.clone());
@@ -422,7 +429,12 @@ impl StreamContext {
 
         debug!("on_http_call_response: api call body {:?}", api_call_body);
 
-        let timeout_str = API_REQUEST_TIMEOUT_MS.to_string();
+        let timeout_ms = if let Some(overrides) = self.overrides.as_ref() {
+            overrides.upstream_timeout_ms.unwrap_or(API_REQUEST_TIMEOUT_MS)
+        } else {
+            API_REQUEST_TIMEOUT_MS
+        };
+        let timeout_str = timeout_ms.to_string();
 
         let http_method_str = http_method.to_string();
         let mut headers: HashMap<_, _> = [
@@ -457,7 +469,7 @@ impl StreamContext {
             headers.into_iter().collect(),
             api_call_body.as_deref().map(|s| s.as_bytes()),
             vec![],
-            Duration::from_secs(5),
+            Duration::from_millis(timeout_ms),
         );
 
         info!(