aoyulong
diff --git a/‎model_zoo/bert/README.md
+102-16 b/‎model_zoo/bert/README.md
+102-16
diff --git a/‎model_zoo/bert/create_pretraining_data.py
+4-6 b/‎model_zoo/bert/create_pretraining_data.py
+4-6
diff --git a/‎model_zoo/bert/export_model.py
+1-2 b/‎model_zoo/bert/export_model.py
+1-2
diff --git a/‎model_zoo/bert/predict_glue.py
+1-1 b/‎model_zoo/bert/predict_glue.py
+1-1
@@ -53,15 +53,54 @@ python create_pretraining_data.py \
 GLUE评测任务所含数据集已在paddlenlp中以API形式提供，无需预先准备，使用`run_glue.py`执行微调时将会自动下载。
 
 ### 执行Pre-training
+<details>
+<summary>GPU训练</summary>
+<pre><code>unset CUDA_VISIBLE_DEVICES
+python -m paddle.distributed.launch --gpus "0" run_pretrain.py \
+    --model_type bert \
+    --model_name_or_path bert-base-uncased \
+    --max_predictions_per_seq 20 \
+    --batch_size 32   \
+    --learning_rate 1e-4 \
+    --weight_decay 1e-2 \
+    --adam_epsilon 1e-6 \
+    --warmup_steps 10000 \
+    --num_train_epochs 3 \
+    --input_dir data/ \
+    --output_dir pretrained_models/ \
+    --logging_steps 1 \
+    --save_steps 20000 \
+    --max_steps 1000000 \
+    --device gpu \
+    --use_amp False</code></pre>
 
-#### GPU训练
+其中参数释义如下：
+- `model_type` 指示了模型类型，使用BERT模型时设置为bert即可。
+- `model_name_or_path` 指示了某种特定配置的模型，对应有其预训练模型和预训练时使用的 tokenizer。若模型相关内容保存在本地，这里也可以提供相应目录地址。
+- `max_predictions_per_seq` 表示每个句子中会被mask的token的最大数目，与创建预训练数据时的设置一致。
+- `batch_size` 表示每次迭代**每张卡**上的样本数目。
+- `learning_rate` 表示基础学习率大小，将于learning rate scheduler产生的值相乘作为当前学习率。
+- `weight_decay` 表示AdamW优化器中使用的weight_decay的系数。
+- `adam_epsilon` 表示AdamW优化器中使用的epsilon值。
+- `warmup_steps` 表示动态学习率热启的step数。
+- `num_train_epochs` 表示训练轮数。
+- `input_dir` 表示输入数据的目录，该目录下所有文件名中包含training的文件将被作为训练数据。
+- `output_dir` 表示模型的保存目录。
+- `logging_steps` 表示日志打印间隔。
+- `save_steps` 表示模型保存及评估间隔。
+- `max_steps` 表示最大训练步数，达到`max_steps`后就提前结束。注意，我们必须设置 `max_steps`。
+- `device` 表示训练使用的设备, 'gpu'表示使用GPU, 'xpu'表示使用百度昆仑卡, 'cpu'表示使用CPU。
+- `use_amp` 指示是否启用自动混合精度训练。
+</details>
+
+#### GPU训练（Trainer版本）
 ```shell
 unset CUDA_VISIBLE_DEVICES
-python -m paddle.distributed.launch --gpus "0" run_pretrain.py \
+python -m paddle.distributed.launch --gpus "0" run_pretrain_trainer.py \
     --model_type bert \
     --model_name_or_path bert-base-uncased \
     --max_predictions_per_seq 20 \
-    --batch_size 32   \
+    --per_device_train_batch_size 32   \
     --learning_rate 1e-4 \
     --weight_decay 1e-2 \
     --adam_epsilon 1e-6 \
@@ -73,12 +112,13 @@ python -m paddle.distributed.launch --gpus "0" run_pretrain.py \
     --save_steps 20000 \
     --max_steps 1000000 \
     --device gpu \
-    --use_amp False
+    --fp16 False \
+    --do_train
 ```
 
-#### XPU训练
-```shell
-unset FLAGS_selected_xpus
+<details>
+<summary>XPU训练</summary>
+<pre><code>unset FLAGS_selected_xpus
 python -m paddle.distributed.launch --xpus "0" run_pretrain.py \
     --model_type bert \
     --model_name_or_path bert-base-uncased \
@@ -95,8 +135,8 @@ python -m paddle.distributed.launch --xpus "0" run_pretrain.py \
     --save_steps 20000 \
     --max_steps 1000000 \
     --device xpu \
-    --use_amp False
-```
+    --use_amp False</code></pre>
+
 其中参数释义如下：
 - `model_type` 指示了模型类型，使用BERT模型时设置为bert即可。
 - `model_name_or_path` 指示了某种特定配置的模型，对应有其预训练模型和预训练时使用的 tokenizer。若模型相关内容保存在本地，这里也可以提供相应目录地址。
@@ -114,6 +154,48 @@ python -m paddle.distributed.launch --xpus "0" run_pretrain.py \
 - `max_steps` 表示最大训练步数，达到`max_steps`后就提前结束。注意，我们必须设置 `max_steps`。
 - `device` 表示训练使用的设备, 'gpu'表示使用GPU, 'xpu'表示使用百度昆仑卡, 'cpu'表示使用CPU。
 - `use_amp` 指示是否启用自动混合精度训练。
+</details>
+
+#### XPU训练（Trainer版本）
+```shell
+unset FLAGS_selected_xpus
+python -m paddle.distributed.launch --xpus "0" run_pretrain_trainer.py \
+    --model_type bert \
+    --model_name_or_path bert-base-uncased \
+    --max_predictions_per_seq 20 \
+    --per_device_train_batch_size 32   \
+    --learning_rate 1e-4 \
+    --weight_decay 1e-2 \
+    --adam_epsilon 1e-6 \
+    --warmup_steps 10000 \
+    --num_train_epochs 3 \
+    --input_dir data/ \
+    --output_dir pretrained_models/ \
+    --logging_steps 1 \
+    --save_steps 20000 \
+    --max_steps 1000000 \
+    --device xpu \
+    --fp16 False \
+    --do_train
+```
+其中参数释义如下：
+- `model_type` 指示了模型类型，使用BERT模型时设置为bert即可。
+- `model_name_or_path` 指示了某种特定配置的模型，对应有其预训练模型和预训练时使用的 tokenizer。若模型相关内容保存在本地，这里也可以提供相应目录地址。
+- `max_predictions_per_seq` 表示每个句子中会被mask的token的最大数目，与创建预训练数据时的设置一致。
+- `per_device_train_batch_size` 表示用于训练的每个 GPU 核心/CPU 的batch大小.（`int`，可选，默认为 8）
+- `learning_rate` 表示基础学习率大小，将于learning rate scheduler产生的值相乘作为当前学习率。
+- `weight_decay` 表示AdamW优化器中使用的weight_decay的系数。
+- `adam_epsilon` 表示AdamW优化器中使用的epsilon值。
+- `warmup_steps` 表示动态学习率热启的step数。
+- `num_train_epochs` 表示训练轮数。
+- `input_dir` 表示输入数据的目录，该目录下所有文件名中包含training的文件将被作为训练数据。
+- `output_dir` 表示模型的保存目录。
+- `logging_steps` 表示日志打印间隔。
+- `save_steps` 表示模型保存及评估间隔。
+- `max_steps` 表示最大训练步数，达到`max_steps`后就提前结束。注意，我们必须设置 `max_steps`。
+- `device` 表示训练使用的设备, 'gpu'表示使用GPU, 'xpu'表示使用百度昆仑卡, 'cpu'表示使用CPU。
+- `fp16` 是否使用 fp16 混合精度训练而不是 fp32 训练。(`bool`, 可选, 默认为 `False`)
+- `do_train` 是否进行训练任务。(`bool`, 可选, 默认为 `False`)
 
 **NOTICE**: 预训练时data目录存放的是经过 `create_pretraining_data.py` 处理后的数据，因此需要通过该数据处理脚本预先处理，否则预训练将会出现报错。
 
@@ -123,34 +205,38 @@ python -m paddle.distributed.launch --xpus "0" run_pretrain.py \
 
 ```shell
 unset CUDA_VISIBLE_DEVICES
-python -m paddle.distributed.launch --gpus "0" run_glue.py \
-    --model_type bert \
+python -m paddle.distributed.launch --gpus "0" run_glue_trainer.py \
     --model_name_or_path bert-base-uncased \
     --task_name SST2 \
     --max_seq_length 128 \
-    --batch_size 32   \
+    --per_device_train_batch_size 32   \
+    --per_device_eval_batch_size 32   \
     --learning_rate 2e-5 \
     --num_train_epochs 3 \
     --logging_steps 1 \
     --save_steps 500 \
     --output_dir ./tmp/ \
     --device gpu \
-    --use_amp False
+    --fp16 False\
+    --do_train \
+    --do_eval
 ```
 
 其中参数释义如下：
-- `model_type` 指示了模型类型，使用BERT模型时设置为bert即可。
 - `model_name_or_path` 指示了某种特定配置的模型，对应有其预训练模型和预训练时使用的 tokenizer。若模型相关内容保存在本地，这里也可以提供相应目录地址。注：`bert-base-uncased`等对应使用的预训练模型转自[huggingface/transformers](https://github.com/huggingface/transformers)，具体可参考当前目录下converter中的内容。
 - `task_name` 表示Fine-tuning的任务。
 - `max_seq_length` 表示最大句子长度，超过该长度将被截断。
-- `batch_size` 表示每次迭代**每张卡**上的样本数目。
+- `per_device_train_batch_size` 表示用于训练的每个 GPU 核心/CPU 的batch大小.（`int`，可选，默认为 8）
+- `per_device_eval_batch_size` 表示用于评估的每个 GPU 核心/CPU 的batch大小.（`int`，可选，默认为 8）
 - `learning_rate` 表示基础学习率大小，将于learning rate scheduler产生的值相乘作为当前学习率。
 - `num_train_epochs` 表示训练轮数。
 - `logging_steps` 表示日志打印间隔。
 - `save_steps` 表示模型保存及评估间隔。
 - `output_dir` 表示模型保存路径。
 - `device` 表示训练使用的设备, 'gpu'表示使用GPU, 'xpu'表示使用百度昆仑卡, 'cpu'表示使用CPU, 'npu'表示使用华为昇腾卡。
-- `use_amp` 指示是否启用自动混合精度训练。
+- `fp16` 是否使用 fp16 混合精度训练而不是 fp32 训练。(`bool`, 可选, 默认为 `False`)
+- `do_train` 是否进行训练任务。(`bool`, 可选, 默认为 `False`)
+- `do_eval` 是否进行评估任务。同上。(`bool`, 可选, 默认为 `False`)
 
 基于`bert-base-uncased`在GLUE各评测任务上Fine-tuning后，在验证集上有如下结果：
 
 
@@ -15,20 +15,18 @@
 # limitations under the License.
 """Create masked LM/next sentence masked_lm examples for BERT."""
 import argparse
-import logging
+import collections
 import os
 import random
 from io import open
+
 import h5py
 import numpy as np
 from tqdm import tqdm
 
 from paddlenlp.transformers import BertTokenizer
 from paddlenlp.transformers.tokenizer_utils import convert_to_unicode
 
-import random
-import collections
-
 
 class TrainingInstance(object):
     """A single training instance (sentence pair)."""
@@ -243,7 +241,7 @@ def create_instances_from_document(
                     is_random_next = False
                     for j in range(a_end, len(current_chunk)):
                         tokens_b.extend(current_chunk[j])
-                truncate_seq_pair(tokens_a, tokens_b, max_num_tokens, rng)
+                truncate_seq_pair(tokens_a, tokens_b, target_seq_length, rng)
 
                 assert len(tokens_a) >= 1
                 assert len(tokens_b) >= 1
@@ -400,7 +398,7 @@ def main():
         "and ignore vocab_file and do_lower_case.",
     )
 
-    ## Other parameters
+    # Other parameters
     # int
     parser.add_argument(
         "--max_seq_length",
 
@@ -16,8 +16,7 @@
 import os
 
 import paddle
-
-from run_glue import MODEL_CLASSES
+from run_glue_trainer import MODEL_CLASSES
 
 
 def parse_args():
 
@@ -17,7 +17,7 @@
 
 import paddle
 from datasets import load_dataset
-from run_glue import METRIC_CLASSES, MODEL_CLASSES, task_to_keys
+from run_glue_trainer import METRIC_CLASSES, MODEL_CLASSES, task_to_keys
 
 from paddlenlp.data import Dict, Pad