flagos-ai · chai-xiaonan · Oct 30, 2025 · Oct 30, 2025 · Oct 31, 2025 · gemini-code-assist
diff --git a/examples/aquila/conf/train/7b.yaml b/examples/aquila/conf/train/7b.yaml
@@ -57,6 +57,7 @@ data:
   data_path: ${data_path:??}
   split: 1
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: AquilaTokenizerFS
     vocab_file: ./examples/aquila/tokenizer/vocab.json
     merge_file: ./examples/aquila/tokenizer/merges.txt

diff --git a/examples/deepseek_v3/conf/train/16b_a3b.yaml b/examples/deepseek_v3/conf/train/16b_a3b.yaml
@@ -111,6 +111,7 @@ data:
   split: 1
   no_mmap_bin_files: true
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: QwenTokenizerFS
     tokenizer_path: examples/aquila/qwentokenizer
     vocab_size: 151851

diff --git a/examples/llama2/conf/train/7b.yaml b/examples/llama2/conf/train/7b.yaml
@@ -62,6 +62,7 @@ data:
   data_path: ${data_path:??}
   split: 1
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: Llama2Tokenizer
     tokenizer_model: examples/llama/tokenizer.model
     vocab_size: 32000
diff --git a/examples/llama3/conf/train/70b.yaml b/examples/llama3/conf/train/70b.yaml
@@ -67,6 +67,7 @@ data:
   data_path: ${data_path:??}
   split: 1
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: Llama3TokenizerFS
     tokenizer_path: ${tokenizer_path:??}
     vocab_size: 128256
diff --git a/examples/llava1_5/conf/train/7b.yaml b/examples/llava1_5/conf/train/7b.yaml
@@ -78,6 +78,7 @@ data:
   dataloader_type: external
   split: 100,0,0
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: Llama2Tokenizer
     tokenizer_model: ${tokenizer_model_path:??}
     vocab_size: 32000
diff --git a/examples/llava_onevision/conf/train/1_5b.yaml b/examples/llava_onevision/conf/train/1_5b.yaml
@@ -88,6 +88,7 @@ data:
   dataloader_type: external
   split: 100,0,0
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: Qwen2TokenizerFS
     tokenizer_path: xxxx
     # vocab_size: 152064 # 7b

diff --git a/examples/mixtral/conf/train/8x7b.yaml b/examples/mixtral/conf/train/8x7b.yaml
@@ -68,6 +68,7 @@ data:
   data_path: <xxxx>
   split: 1
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: QwenTokenizerFS
     tokenizer_path: <xxxx>
     make_vocab_size_divisible_by: 64
diff --git a/examples/qwen2_5/conf/train/1_5b.yaml b/examples/qwen2_5/conf/train/1_5b.yaml
@@ -75,6 +75,7 @@ data:
   split: 1
   apply_sft_dataset_separated_loss_mask_if_existed: true
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: HFTokenizerFS
     tokenizer_path: ${HF_model_path:??}
     vocab_size: 151665
diff --git a/examples/qwen2_5_vl/conf/train/7b.yaml b/examples/qwen2_5_vl/conf/train/7b.yaml
@@ -100,6 +100,7 @@ data:
   dataloader_type: external
   split: 100,0,0
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: Qwen2VLTokenizer
     tokenizer_path: xxxx
     vocab_size: 152064 # 7b

diff --git a/examples/qwen3/conf/train/32b.yaml b/examples/qwen3/conf/train/32b.yaml
@@ -82,6 +82,7 @@ data:
   split: 1
   no_mmap_bin_files: true
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: QwenTokenizerFS
     tokenizer_path: examples/aquila/qwentokenizer
     vocab_size: 151851

diff --git a/examples/qwq/conf/train/32b.yaml b/examples/qwq/conf/train/32b.yaml
@@ -80,6 +80,7 @@ data:
   split: 1
   no_mmap_bin_files: true
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_type: Qwen2TokenizerFS
     tokenizer_path: /tokenizer_path
     vocab_size: 151851

diff --git a/examples/rwkv/conf/train/3b.yaml b/examples/rwkv/conf/train/3b.yaml
@@ -45,4 +45,5 @@ data:
   data_path: ${data_path:??}
   split: "1"
   tokenizer:
+    legacy_tokenizer: true
     tokenizer_path: ${tokenizer_path:??} # The vocab file can be found at https://github.com/RWKV-Vibe/RWKV-LM-V7/tree/main/data/tokenizer