Blaizzy · Talpik · Mar 20, 2026 · Apr 7, 2026 · Apr 7, 2026 · Apr 7, 2026
diff --git a/mlx_audio/convert.py b/mlx_audio/convert.py
@@ -586,7 +586,7 @@ def convert(
     model_class = get_model_class(model_type, domain)
 
     model_config = (
-        model_class.ModelConfig.from_dict(config)
+        model_class.ModelConfig.from_dict(dict(config))
         if hasattr(model_class, "ModelConfig")
         else config
     )

diff --git a/mlx_audio/tts/generate.py b/mlx_audio/tts/generate.py
@@ -245,12 +245,12 @@ def generate_audio(
             cfg_scale=cfg_scale,
             ddpm_steps=ddpm_steps,
             temperature=temperature,
-            max_tokens=max_tokens,
             verbose=verbose,
             stream=stream,
             streaming_interval=streaming_interval,
             instruct=instruct,
             use_zero_spk_emb=use_zero_spk_emb,
+            max_tokens=max_tokens,
             **kwargs,
         )
         if prompt is not None:
@@ -494,6 +494,10 @@ def parse_args():
     )
 
     args = parser.parse_args()
+    args._repetition_penalty_explicit = any(
+        arg == "--repetition_penalty" or arg.startswith("--repetition_penalty=")
+        for arg in sys.argv[1:]
+    )
 
     if args.save and not args.stream:
         parser.error("--save requires --stream")

diff --git a/mlx_audio/tts/models/vibevoice/__init__.py b/mlx_audio/tts/models/vibevoice/__init__.py
@@ -3,13 +3,15 @@
     DiffusionHeadConfig,
     ModelConfig,
     Qwen2DecoderConfig,
+    SemanticTokenizerConfig,
 )
 from .vibevoice import Model
 
 __all__ = [
     "Model",
     "ModelConfig",
     "AcousticTokenizerConfig",
+    "SemanticTokenizerConfig",
     "DiffusionHeadConfig",
     "Qwen2DecoderConfig",
 ]