spring-projects · HarrisonC118 · Dec 12, 2025
diff --git a/spring-ai-docs/src/main/antora/modules/ROOT/pages/api/chat/openai-chat.adoc b/spring-ai-docs/src/main/antora/modules/ROOT/pages/api/chat/openai-chat.adoc
@@ -784,7 +784,7 @@ Each property under `spring.ai.openai.chat.options.extra-body` becomes a top-lev
 
 [source,properties]
 ----
-spring.ai.openai.base-url=http://localhost:8000/v1
+spring.ai.openai.base-url=http://localhost:8000
 spring.ai.openai.chat.options.model=meta-llama/Llama-3-8B-Instruct
 spring.ai.openai.chat.options.temperature=0.7
 spring.ai.openai.chat.options.extra-body.top_k=50
@@ -831,7 +831,7 @@ When running vLLM with a Llama model, you might want to use sampling parameters
 
 [source,properties]
 ----
-spring.ai.openai.base-url=http://localhost:8000/v1
+spring.ai.openai.base-url=http://localhost:8000
 spring.ai.openai.chat.options.model=meta-llama/Llama-3-70B-Instruct
 spring.ai.openai.chat.options.extra-body.top_k=40
 spring.ai.openai.chat.options.extra-body.top_p=0.95
@@ -998,7 +998,7 @@ vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \
 
 [source,properties]
 ----
-spring.ai.openai.base-url=http://localhost:8000/v1
+spring.ai.openai.base-url=http://localhost:8000
 spring.ai.openai.chat.options.model=deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
 ----