New Llama4 models - offered by Groq and Fireworks + examples

peterbanda · peterbanda · commit 870781dea1dd · 2025-04-06T00:07:51.000+02:00
diff --git a/openai-core/src/main/scala/io/cequence/openaiscala/domain/NonOpenAIModelId.scala b/openai-core/src/main/scala/io/cequence/openaiscala/domain/NonOpenAIModelId.scala
@@ -32,6 +32,11 @@ object NonOpenAIModelId {
   val amazon_nova_micro_v1_0 = "amazon.nova-micro-v1:0"
 
   // Llama
+  // 400B params, 1 mil context
+  val llama4_maverick_instruct_basic = "llama4-maverick-instruct-basic" // Fireworks AI
+  // 107B params, 128k context
+  val llama4_scout_instruct_basic = "llama4-scout-instruct-basic" // Fireworks AI
+  val llama_4_scout_17b_16e_instruct = "meta-llama/llama-4-scout-17b-16e-instruct" // Groq
   val llama_3_3_70b_versatile = "llama-3.3-70b-versatile" // Groq
   val llama_3_3_70b_specdec = "llama-3.3-70b-specdec" // Groq
   val llama_v3p3_70b_instruct = "llama-v3p3-70b-instruct" // Fireworks AI
@@ -103,6 +108,7 @@ object NonOpenAIModelId {
   val meta_llama_3_8b_instruct_to_ai = "meta-llama/Meta-Llama-3-8B-Instruct" // Together AI
 
   // Mistral
+  val mistral_saba_24b = "mistral-saba-24b" // Groq
   // currently points to mistral-large-2407. mistral-large-2402 will be deprecated shortly.
   val mistral_large_latest = "mistral-large-latest" // Mistral
   val mistral_large_2407 = "mistral-large-2407" // Mistral
@@ -282,6 +288,7 @@ object NonOpenAIModelId {
   val deepseek_reasoner = "deepseek-reasoner" // Deepseek
   val deepseek_r1_distill_llama_70b =
     "deepseek-r1-distill-llama-70b" // Groq, Cerebras and Fireworks
+  val deepseek_r1_distill_qwen_32b = "deepseek-r1-distill-qwen-32b" // Groq
   val deepseek_ai_deepseek_r1_distill_llama_70b_free =
     "deepseek-ai/DeepSeek-R1-Distill-Llama-70B-free" // Together AI
   val deepseek_ai_deepseek_r1_distill_llama_70b =
diff --git a/openai-examples/src/main/scala/io/cequence/openaiscala/examples/fireworksai/FireworksAICreateChatCompletion.scala b/openai-examples/src/main/scala/io/cequence/openaiscala/examples/fireworksai/FireworksAICreateChatCompletion.scala
@@ -25,7 +25,7 @@ object FireworksAICreateChatCompletion extends ExampleBase[OpenAIChatCompletionS
   )
 
 //  private val modelId = NonOpenAIModelId.deepseek_r1
-  private val modelId = NonOpenAIModelId.llama_v3p1_405b_instruct
+  private val modelId = NonOpenAIModelId.llama4_maverick_instruct_basic
 
   override protected def run: Future[_] =
     service
diff --git a/openai-examples/src/main/scala/io/cequence/openaiscala/examples/fireworksai/FireworksAICreateChatCompletionStreamed.scala b/openai-examples/src/main/scala/io/cequence/openaiscala/examples/fireworksai/FireworksAICreateChatCompletionStreamed.scala
@@ -21,7 +21,7 @@ object FireworksAICreateChatCompletionStreamed
     UserMessage("What is the weather like in Norway?")
   )
 
-  private val modelId = NonOpenAIModelId.llama_v3p3_70b_instruct
+  private val modelId = NonOpenAIModelId.llama4_scout_instruct_basic
 
   override protected def run: Future[_] =
     service
@@ -37,8 +37,7 @@ object FireworksAICreateChatCompletionStreamed
       )
       .runWith(
         Sink.foreach { completion =>
-          val content = completion.choices.headOption.flatMap(_.delta.content)
-          print(content.getOrElse(""))
+          print(completion.contentHead.getOrElse(""))
         }
       )
 }
diff --git a/openai-examples/src/main/scala/io/cequence/openaiscala/examples/groq/GroqCreateChatCompletion.scala b/openai-examples/src/main/scala/io/cequence/openaiscala/examples/groq/GroqCreateChatCompletion.scala
@@ -19,7 +19,7 @@ object GroqCreateChatCompletion extends ExampleBase[OpenAIChatCompletionService]
     UserMessage("What is the weather like in Norway?")
   )
 
-  private val modelId = NonOpenAIModelId.llama_3_3_70b_versatile
+  private val modelId = NonOpenAIModelId.llama_4_scout_17b_16e_instruct
 
   override protected def run: Future[_] =
     service
@@ -28,7 +28,7 @@ object GroqCreateChatCompletion extends ExampleBase[OpenAIChatCompletionService]
         settings = CreateChatCompletionSettings(
           model = modelId,
           temperature = Some(0.1),
-          max_tokens = Some(1024)
+          max_tokens = Some(2000)
         )
       )
       .map(printMessageContent)

Original file line number	Diff line number	Diff line change
`@@ -25,7 +25,7 @@ object FireworksAICreateChatCompletion extends ExampleBase[OpenAIChatCompletionS`
`25`	`25`	`)`
`26`	`26`
`27`	`27`	`// private val modelId = NonOpenAIModelId.deepseek_r1`
`28`		`- private val modelId = NonOpenAIModelId.llama_v3p1_405b_instruct`
	`28`	`+ private val modelId = NonOpenAIModelId.llama4_maverick_instruct_basic`
`29`	`29`
`30`	`30`	`override protected def run: Future[_] =`
`31`	`31`	`service`
Original file line number	Diff line number	Diff line change
`@@ -21,7 +21,7 @@ object FireworksAICreateChatCompletionStreamed`
`21`	`21`	`UserMessage("What is the weather like in Norway?")`
`22`	`22`	`)`
`23`	`23`
`24`		`- private val modelId = NonOpenAIModelId.llama_v3p3_70b_instruct`
	`24`	`+ private val modelId = NonOpenAIModelId.llama4_scout_instruct_basic`
`25`	`25`
`26`	`26`	`override protected def run: Future[_] =`
`27`	`27`	`service`
`@@ -37,8 +37,7 @@ object FireworksAICreateChatCompletionStreamed`
`37`	`37`	`)`
`38`	`38`	`.runWith(`
`39`	`39`	`Sink.foreach { completion =>`
`40`		`- val content = completion.choices.headOption.flatMap(_.delta.content)`
`41`		`- print(content.getOrElse(""))`
	`40`	`+ print(completion.contentHead.getOrElse(""))`
`42`	`41`	`}`
`43`	`42`	`)`
`44`	`43`	`}`
Original file line number	Diff line number	Diff line change
`@@ -19,7 +19,7 @@ object GroqCreateChatCompletion extends ExampleBase[OpenAIChatCompletionService]`
`19`	`19`	`UserMessage("What is the weather like in Norway?")`
`20`	`20`	`)`
`21`	`21`
`22`		`- private val modelId = NonOpenAIModelId.llama_3_3_70b_versatile`
	`22`	`+ private val modelId = NonOpenAIModelId.llama_4_scout_17b_16e_instruct`
`23`	`23`
`24`	`24`	`override protected def run: Future[_] =`
`25`	`25`	`service`
`@@ -28,7 +28,7 @@ object GroqCreateChatCompletion extends ExampleBase[OpenAIChatCompletionService]`
`28`	`28`	`settings = CreateChatCompletionSettings(`
`29`	`29`	`model = modelId,`
`30`	`30`	`temperature = Some(0.1),`
`31`		`- max_tokens = Some(1024)`
	`31`	`+ max_tokens = Some(2000)`
`32`	`32`	`)`
`33`	`33`	`)`
`34`	`34`	`.map(printMessageContent)`