aoyulong · May 19, 2022
diff --git a/‎examples/language_model/gpt
+1-1 b/‎examples/language_model/gpt
+1-1
diff --git a/‎examples/language_model/gpt-3/README.md
+11 b/‎examples/language_model/gpt-3/README.md
+11
diff --git a/‎examples/language_model/gpt-3/deploy/README.md
+11 b/‎examples/language_model/gpt-3/deploy/README.md
+11
diff --git a/‎examples/language_model/gpt-3/static/args.py
+40-1 b/‎examples/language_model/gpt-3/static/args.py
+40-1
diff --git a/‎examples/language_model/gpt-3/static/dataset.py
+29-18 b/‎examples/language_model/gpt-3/static/dataset.py
+29-18
diff --git a/‎examples/language_model/gpt-3/static/modeling.py
+277-12 b/‎examples/language_model/gpt-3/static/modeling.py
+277-12
diff --git a/‎examples/language_model/gpt-3/static/run_gen.sh
+31 b/‎examples/language_model/gpt-3/static/run_gen.sh
+31
diff --git a/‎examples/language_model/gpt-3/static/run_generation.py
+288 b/‎examples/language_model/gpt-3/static/run_generation.py
+288
diff --git a/‎examples/language_model/gpt-3/static/run_static.sh
+1-1 b/‎examples/language_model/gpt-3/static/run_static.sh
+1-1
diff --git a/‎model_zoo/gpt/args.py
+1 b/‎model_zoo/gpt/args.py
+1
@@ -1 +1 @@
-../../model_zoo/gpt
+../../model_zoo/gpt/
@@ -144,5 +144,16 @@ python -u  -m paddle.distributed.fleet.launch \
 
 除了上述混合并行策略外，飞桨还支持重计算、offload、混合精度等策略，来减少显存占用、加速训练。更多具体内容可以参考稿件:[飞桨分布式训练又推新品，4D混合并行可训千亿级AI模型](https://baijiahao.baidu.com/s?id=1697085717806202673)。
 
+### 飞桨超大模型部署
+
+飞桨超大模型部署工具：
+
+- Paddle Fleet: 飞桨训练自适应并行技术，同样适应于超大模型部署，针对推理硬件自适应切分
+- Paddle Inference: 支持模型并行、流水线并行、混合并行策略，经过极致优化，性能领先
+- Paddle Serving: 支持服务化部署，支持自动Batch、容错调度、服务监控、负载均衡
+- Paddle Slim: 支持超大模型量化、稀疏压缩
+
+具体部署示例参考[GPT-3超大模型部署教程](deploy)
+
 ### 参考文献
 - [Language Models are Few-Shot Learners](https://arxiv.org/pdf/2005.14165.pdf)
@@ -0,0 +1,11 @@
+## 超大模型部署
+
+TBD
+
+### 模型导出
+
+### 自动切分
+
+### 推理部署
+
+### Benchmark
@@ -160,7 +160,6 @@ def parse_args(MODEL_CLASSES):
         type=int,
         default=10,
         help="Evaluate the model use X steps data.")
-
     # Config for 4D Parallelism
     parser.add_argument(
         "--use_sharding",
@@ -258,6 +257,46 @@ def parse_args(MODEL_CLASSES):
         default=None,
         help='The option of profiler, which should be in format \"key1=value1;key2=value2;key3=value3\".'
     )
+    parser.add_argument(
+        "--max_dec_len",
+        type=int,
+        default=20,
+        help="The maximum length of decoded sequence.", )
+    parser.add_argument(
+        "--decoding_strategy",
+        type=str,
+        default="topk_sampling",
+        choices=["topk_sampling", "topp_sampling", "sampling"],
+        help="The decoding strategy, not support beam_search now!", )
+    parser.add_argument(
+        "--temperature",
+        type=float,
+        default=1.,
+        help="The temperature in each generation step.")
+    # top-k sampling
+    parser.add_argument(
+        "--topk",
+        type=int,
+        default=10,
+        help="The hyper-parameter in top-k sampling..")
+    # top-p sampling
+    parser.add_argument(
+        "--topp",
+        type=float,
+        default=0.9,
+        help="The hyper-parameter in top-p sampling.")
+    # beam search
+    parser.add_argument(
+        "--beam_size",
+        type=int,
+        default=1,
+        help="The hyper-parameter in beam search.")
+    parser.add_argument(
+        "--save_inference_model_then_exist",
+        type=bool,
+        default=False,
+        help="save_inference_model_then_exist")
+
     args = parser.parse_args()
     args.test_iters = args.eval_iters * 10
 
 
@@ -148,7 +148,7 @@ def _num_tokens(documents, lens):
 
 
 def _num_epochs(tokens_per_epoch, seq_length, num_samples):
-    """Based on number of samples and sequence lenght, calculate how many
+    """Based on number of samples and sequence length, calculate how many
     epochs will be needed."""
     num_epochs = 0
     total_tokens = 0
@@ -256,18 +256,17 @@ def get_train_valid_test_split_(splits_string, size):
     return splits_index
 
 
-def create_pretrained_dataset(
-        args,
-        input_path,
-        local_rank,
-        data_world_rank,
-        data_world_size,
-        eos_id,
-        worker_init=None,
-        max_seq_len=1024,
-        places=None,
-        data_holders=None,
-        pipeline_mode=False, ):
+def create_pretrained_dataset(args,
+                              input_path,
+                              local_rank,
+                              data_world_rank,
+                              data_world_size,
+                              eos_id,
+                              worker_init=None,
+                              max_seq_len=1024,
+                              places=None,
+                              data_holders=None,
+                              pipeline_mode=False):
 
     if local_rank == 0:
         start_time = time.time()
@@ -339,7 +338,8 @@ def build_dataset(index, name, num_samples):
             sample_lens=sample_lens,
             eos_id=eos_id,
             seed=args.seed,
-            use_pure_fp16=args.use_amp and args.amp_level == "O2")
+            use_pure_fp16=args.use_amp and args.amp_level == "O2",
+            data_holders=data_holders)
         batch_sampler = DistributedBatchSampler(
             dataset,
             batch_size=args.micro_batch_size,
@@ -361,14 +361,16 @@ def data_gen():
             data_loader.set_sample_generator(
                 data_gen, batch_size=args.micro_batch_size, places=places)
         else:
+            stacks = (Stack(), ) * len(data_holders)
+            collate_fn = Tuple(*stacks)
             data_loader = DataLoader(
                 dataset=dataset,
                 places=places,
                 feed_list=data_holders,
                 batch_sampler=batch_sampler,
                 num_workers=1,
                 worker_init_fn=worker_init,
-                collate_fn=Tuple(Stack(), Stack(), Stack(), Stack()),
+                collate_fn=collate_fn,
                 return_list=False)
         return data_loader
 
@@ -401,7 +403,8 @@ def __init__(self,
                  name="gpt",
                  max_seq_len=1024,
                  seed=1234,
-                 use_pure_fp16=False):
+                 use_pure_fp16=False,
+                 data_holders=None):
         self.file_prefix = file_prefix
         self.max_seq_len = max_seq_len
         self.name = name
@@ -410,6 +413,7 @@ def __init__(self,
         self.sample_lens = sample_lens
         self.micro_batch_size = micro_batch_size
         self.use_pure_fp16 = use_pure_fp16
+        self.data_holders = data_holders
 
         if documents is None:
             document_ids = np.arange(0, self.sample_lens.shape[0])
@@ -435,10 +439,17 @@ def _construct_sample(self, tokens):
         else:
             loss_mask = np.ones(seq_length, dtype="float32")
         loss_mask[np.where(np.array(tokens) == self.eos_id)] = 0.0
-        position_ids = np.arange(0, seq_length, dtype="int64")
 
+        position_ids = np.arange(0, seq_length, dtype="int64")
         labels = np.array(labels, dtype="int64")
-        return [tokens, loss_mask, position_ids, labels]
+        if len(self.data_holders) == 4:
+            return [tokens, loss_mask, position_ids, labels]
+        elif len(self.data_holders) == 3:
+            return [tokens, loss_mask, position_ids]
+        else:
+            assert len(self.data_holders) == 1, \
+                "length of daat_holders should be 4, 3 or 1"
+            return [tokens]
 
     def _get_single_sample_from_idx(self, doc_index_f, doc_index_l, offset_f,
                                     offset_l):
 
@@ -29,11 +29,13 @@
 import paddlenlp
 
 __all__ = [
-    'GPTModel',
-    'GPTForPretraining',
-    'GPTPretrainingCriterion',
+    'GPTModel', 'GPTForPretraining', 'GPTPretrainingCriterion',
+    'GPTForGeneration'
 ]
 
+device = "gpu"
+int_type = "int64"
+
 
 class MultiHeadAttention(nn.Layer):
     """
@@ -153,6 +155,11 @@ def _prepare_qkv(self, query, key, value, use_cache=False, cache=None):
             # for decoder self-attention in inference
             k = tensor.concat([cache.k, k], axis=2)
             v = tensor.concat([cache.v, v], axis=2)
+
+            ## if not assign here, assign in While loop
+            #layers.assign(k, cache.k)    # update caches
+            #layers.assign(v, cache.v)
+
         if use_cache is True:
             cache = self.Cache(k, v)
 
@@ -229,7 +236,12 @@ def forward(self,
         product = layers.matmul(
             x=q, y=k, transpose_y=True, alpha=self.head_dim**-0.5)
 
-        weights = incubate.softmax_mask_fuse_upper_triangle(product)
+        if self.training:
+            weights = incubate.softmax_mask_fuse_upper_triangle(product)
+        else:
+            if attn_mask is not None:
+                product = product + attn_mask
+            weights = F.softmax(product)
 
         if self.dropout:
             weights = F.dropout(
@@ -311,12 +323,20 @@ def forward(self,
                                  cache=cache)
 
             else:
-                output, new_cache = mod(output,
-                                        memory,
-                                        tgt_mask=tgt_mask,
-                                        use_cache=use_cache,
-                                        cache=cache[i])
-                new_caches.append(new_cache)
+                if use_cache:
+                    output, new_cache = mod(output,
+                                            memory,
+                                            tgt_mask=tgt_mask,
+                                            use_cache=use_cache,
+                                            cache=cache[i])
+                    new_caches.append(new_cache)
+                else:
+                    output = mod(output,
+                                 memory,
+                                 tgt_mask=tgt_mask,
+                                 use_cache=use_cache,
+                                 cache=cache[i])
+
             self.checkpoints.append(output.name)
 
         if self.norm is not None:
@@ -675,6 +695,9 @@ def __init__(self,
         self.topo = topo
         self.hidden_size = hidden_size
         self.vocab_size = vocab_size
+        self.num_attention_heads = num_attention_heads
+        self.num_hidden_layers = num_hidden_layers
+        self.hidden_size = hidden_size
 
         self.pipline_mode = topo is not None and topo.pp_info.size > 1
         if self.pipline_mode:
@@ -738,16 +761,18 @@ def forward(self,
                 paddle.shape(input_ids)[-1] + past_length,
                 dtype='int64')
             position_ids = position_ids.unsqueeze(0)
-            # .expand_as(input_ids)
             position_ids = paddle.fluid.layers.expand_as(position_ids,
                                                          input_ids)
         embedding_output = self.embeddings(
             input_ids=input_ids, position_ids=position_ids)
 
+        tgt_mask = None
+        if not self.training:
+            tgt_mask = attention_mask
         encoder_outputs = self.decoder(
             embedding_output,
             memory=None,
-            tgt_mask=None,
+            tgt_mask=tgt_mask,
             use_cache=use_cache,
             cache=cache)
         self.checkpoints.extend(self.decoder.checkpoints)
@@ -830,3 +855,243 @@ def forward(self, prediction_scores, masked_lm_labels, loss_mask):
         masked_lm_loss = paddle.sum(masked_lm_loss.reshape([-1]) * loss_mask)
         loss = masked_lm_loss / loss_mask.sum()
         return loss
+
+
+class GPTForGeneration(GPTPretrainedModel):
+    def __init__(self,
+                 gpt,
+                 max_length=20,
+                 min_length=0,
+                 decoding_strategy='sampling',
+                 temperature=1.0,
+                 top_k=0,
+                 top_p=1.0,
+                 eos_id=None):
+        super(GPTForGeneration, self).__init__()
+        self.gpt = gpt
+        self.apply(self.init_weights)
+        self.vocab_size = gpt.vocab_size
+        self.eos_token_id = eos_id or 7
+
+        self.min_dec_len = min_length
+        self.max_dec_len = max_length
+        self.decoding_strategy = decoding_strategy
+        self.temperature = temperature
+        self.topk = top_k
+        self.topp = top_p
+        self._fuse = False
+        self._init_gen_cache = False
+        self.generation_caches = []
+        self._dtype = "float32"
+
+    def _init_generation_caches(self, src_ids):
+        if self._init_gen_cache:
+            return self.generation_caches
+
+        num_heads = self.gpt.num_attention_heads
+        num_layers = self.gpt.num_hidden_layers
+        mp_n_head = num_heads // self.gpt.topo.mp_info.size
+        hidden_size = self.gpt.hidden_size
+        head_size = hidden_size // num_heads
+        for i in range(num_layers):
+            k = layers.fill_constant_batch_size_like(
+                input=src_ids,
+                shape=[-1, mp_n_head, 0, head_size],
+                dtype=self._dtype,
+                value=0)
+            v = layers.fill_constant_batch_size_like(
+                input=src_ids,
+                shape=[-1, mp_n_head, 0, head_size],
+                dtype=self._dtype,
+                value=0)
+            self.generation_caches.append(MultiHeadAttention.Cache(k, v))
+        self._init_gen_cache = True
+        return self.generation_caches
+
+    def parallel_matmul(self, lm_output, logit_weights, parallel_output, topo):
+        if topo is not None and topo.mp_info.size > 1:
+            input_parallel = paddle.distributed.collective._c_identity(
+                lm_output, group=None)
+
+            logits = paddle.matmul(
+                input_parallel, logit_weights, transpose_y=True)
+
+            if parallel_output:
+                return logits
+
+            # TODO(qinqing): collective._c_concat is not support in static graph now
+            return paddle.distributed.collective._c_concat(logits, group=None)
+        else:
+            logits = paddle.matmul(lm_output, logit_weights, transpose_y=True)
+            return logits
+
+    def topk_sampling(self, probs):
+        topk_probs, _ = paddle.topk(probs, self.topk)
+        ge_cond = paddle.cast(
+            paddle.greater_equal(probs,
+                                 paddle.unsqueeze(topk_probs[:, -1], [1])),
+            "float32")
+        old_probs = probs
+        probs = probs * ge_cond / paddle.sum(topk_probs, axis=-1, keepdim=True)
+        sampling_ids = layers.sampling_id(probs, dtype="int")
+        probs = old_probs
+        return probs, sampling_ids
+
+    def topp_sampling(self, probs):
+        sorted_probs, sorted_idx = layers.argsort(probs, descending=True)
+        cum_sorted_probs = layers.cumsum(sorted_probs, axis=1, exclusive=True)
+        lt_cond = paddle.cast(
+            paddle.less_than(cum_sorted_probs,
+                             layers.fill_constant_batch_size_like(
+                                 cum_sorted_probs, cum_sorted_probs.shape,
+                                 cum_sorted_probs.dtype, self.topp)), "float32")
+        old_probs = probs
+        candidate_probs = sorted_probs * lt_cond
+        probs = candidate_probs / paddle.sum(candidate_probs,
+                                             axis=-1,
+                                             keep_dim=True)
+        sampling_ids = layers.sampling_id(probs, dtype="int")
+        sampling_ids = paddle.index_sample(sorted_idx,
+                                           paddle.unsqueeze(sampling_ids, [1]))
+        sampling_ids = paddle.squeeze(sampling_ids, [1])
+        probs = old_probs
+        return probs, sampling_ids
+
+    def model(self,
+              input_ids,
+              position_ids=None,
+              attention_mask=None,
+              masked_positions=None,
+              use_cache=False,
+              cache=None):
+        outputs = self.gpt(input_ids,
+                           position_ids=position_ids,
+                           attention_mask=attention_mask,
+                           use_cache=use_cache,
+                           cache=cache)
+        if use_cache:
+            encoder_outputs, cached_kvs = outputs[:2]
+        else:
+            encoder_outputs = outputs
+        logits = self.parallel_matmul(
+            encoder_outputs, self.gpt.embeddings.word_embeddings.weight, False,
+            self.gpt.topo)
+        if use_cache:
+            return logits, cached_kvs
+        else:
+            return logits
+
+    def forward(self, inputs, use_cache=False, cache=None):
+        """
+        Args:
+            inputs (dict): include src_ids.
+                pos_ids, input_mask and max_dec_len are optional.
+        """
+        ######### forward context #########
+        input_ids = inputs['src_ids']
+        position_ids = inputs['pos_ids'] if 'pos_ids' in inputs else None
+        attention_mask = inputs[
+            'input_mask'] if 'input_mask' in inputs else None
+
+        causal_mask = paddle.tensor.triu(
+            paddle.ones((paddle.shape(input_ids)[-1],
+                         paddle.shape(input_ids)[-1])) * -1e4,
+            diagonal=1)
+        if attention_mask is not None:
+            tgt_pos = paddle.sum(attention_mask, axis=-1,
+                                 keepdim=True).astype('int64')
+            if len(attention_mask.shape) == 2:
+                attention_mask = paddle.unsqueeze(attention_mask, axis=[1, 2])
+            encode_mask = attention_mask + causal_mask
+        else:
+            encode_mask = causal_mask
+
+        # if cached_kvs are assigned to next step in _prepare_qkv of MultiHeadAttention,
+        # need to init the global caches here
+        #gen_caches = self._init_generation_caches(input_ids)
+
+        logits, cached_kvs = self.model(
+            input_ids, position_ids, encode_mask, use_cache=True)
+
+        next_id = paddle.argmax(logits[:, -1, :], axis=-1).reshape([-1, 1])
+        ####################################
+
+        if 'max_dec_len' not in inputs:
+            max_len = layers.fill_constant(
+                [1], dtype=int_type, value=self.max_dec_len, force_cpu=True)
+        else:
+            max_len = inputs['max_dec_len']
+        min_len = layers.fill_constant(
+            shape=[1], dtype=int_type, value=self.min_dec_len, force_cpu=True)
+        step_idx = layers.fill_constant(
+            shape=[1], value=0, dtype='int64', force_cpu=True)
+
+        placehold_ids = layers.fill_constant_batch_size_like(
+            input=inputs["src_ids"],
+            value=0,
+            shape=[-1, 1],
+            dtype=next_id.dtype)
+        ids = layers.array_write(next_id, step_idx)
+
+        if 'max_dec_len' in inputs:
+            max_len = paddle.tensor.creation._memcpy(
+                max_len, place=paddle.CPUPlace())
+        cond_int = paddle.full([1], 0, dtype=int_type, name="cond_int")
+        cond = paddle.less_than(step_idx, max_len)
+
+        if attention_mask is not None:
+            append_mask = layers.fill_constant_batch_size_like(
+                input=next_id,
+                value=1,
+                shape=[-1, 1, 1, 1],
+                dtype=attention_mask.dtype)
+
+        while_op = layers.While(cond, is_test=True)
+        with while_op.block():
+            pre_ids = layers.array_read(array=ids, i=step_idx)
+            if attention_mask:
+                decode_mask = paddle.concat(
+                    [attention_mask, append_mask], axis=-1)
+                tgt_pos = tgt_pos + step_idx
+                att_mask = (1 - decode_mask) * -1e4
+            else:
+                att_mask = None
+                tgt_pos = None
+
+            layers.increment(x=step_idx, value=1.0, in_place=True)
+            layers.array_write(placehold_ids, i=step_idx, array=ids)
+
+            logits, decode_cached_kvs = self.model(
+                pre_ids, tgt_pos, att_mask, use_cache=True, cache=cached_kvs)
+
+            logits = paddle.reshape(logits, shape=(-1, self.vocab_size))
+            probs = F.softmax(logits / self.temperature)
+
+            if self.decoding_strategy.startswith("sampling"):
+                sampling_ids = layers.sampling_id(probs, dtype="int")
+            elif self.decoding_strategy.startswith("topk_sampling"):
+                probs, sampling_ids = self.topk_sampling(probs)
+            elif self.decoding_strategy.startswith("topp_sampling"):
+                probs, sampling_ids = self.topp_sampling(probs)
+            else:
+                raise ValueError(self.decoding_strategy)
+
+            selected_ids = paddle.unsqueeze(sampling_ids, -1)
+            layers.array_write(selected_ids, i=step_idx, array=ids)
+
+            length_cond = paddle.less_than(
+                x=step_idx, y=max_len, name="length_cond")
+            finish_cond = paddle.logical_not(
+                paddle.is_empty(x=selected_ids), name="finish_cond")
+            paddle.logical_and(
+                x=length_cond, y=finish_cond, out=cond, name="logical_and_cond")
+
+            paddle.assign(layers.cast(cond, dtype='bool'), cond)
+            if attention_mask:
+                paddle.assign(decode_mask, attention_mask)
+                for i in range(len(decode_cached_kvs)):
+                    paddle.assign(decode_cached_kvs[i].k, cached_kvs[i].k)
+                    paddle.assign(decode_cached_kvs[i].v, cached_kvs[i].v)
+
+        ids, _ = layers.tensor_array_to_tensor(ids)
+        return ids
@@ -0,0 +1,31 @@
+set -x
+export PADDLE_WITH_GLOO=0
+export FLAGS_call_stack_level=2
+export FLAGS_allocator_strategy=naive_best_fit
+unset CUDA_VISIBLE_DEVICES
+
+rm -rf main_sharding*
+
+task_name="gpt-generation"
+rm -rf output/$task_name/log
+
+python -u  -m paddle.distributed.fleet.launch \
+    --gpus "0" \
+    --log_dir "output/$task_name/log" run_generation.py \
+    --model_type "gpt" \
+    --model_name_or_path "gpt2-medium-en" \
+    --input_dir "./data" \
+    --output_dir "output/$task_name" \
+    --max_seq_len 1024 \
+    --micro_batch_size 2 \
+    --global_batch_size 2 \
+    --sharding_degree 1 \
+    --mp_degree 1 \
+    --dp_degree 1 \
+    --pp_degree 1 \
+    --max_dec_len 20 \
+    --decoding_strategy 'topk_sampling' \
+    --topp 0.9 \
+    --save_inference_model_then_exist true \
+    --device "gpu" 
+
@@ -0,0 +1,288 @@
+#   Copyright (c) 2022 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from __future__ import absolute_import
+from __future__ import division
+from __future__ import print_function
+
+import argparse
+import os
+import sys
+import random
+import math
+import time
+import numpy as np
+
+os.path.expandvars('$HOME')
+os.path.expanduser('~')
+
+import paddle
+import paddle.distributed.fleet as fleet
+
+from paddlenlp.transformers import GPTTokenizer, GPTChineseTokenizer
+from paddlenlp.ops import guard, Topology, get_rng_state_tracker
+from paddlenlp.utils.log import logger
+import paddlenlp.ops as ops
+
+from paddle.distributed import init_parallel_env
+
+from modeling import GPTModel, GPTForPretraining, GPTForGeneration
+
+# Used to load the data_tools path, should import before dataset
+filepath = os.path.abspath(os.path.dirname(__file__))
+sys.path.insert(0, os.path.join(filepath, "../../"))
+from dataset import create_pretrained_dataset
+from args import parse_args
+import lr
+
+MODEL_CLASSES = {
+    "gpt": (GPTForGeneration, GPTTokenizer),
+    "gpt-cn": (GPTForGeneration, GPTChineseTokenizer),
+}
+
+USE_LOCAL_HPI = True
+
+device = "gpu"
+ascend = False
+int_type = "int64"
+device_id = int(os.environ.get('FLAGS_selected_gpus', 0))
+
+# yapf: enable.
+
+
+def create_data_holder(args):
+    shapes = [[-1, -1], [-1, -1], [-1, -1]]
+    dtypes = [int_type, 'float32', int_type]
+    names = ['src_ids', 'input_mask', 'pos_ids']  # three inputs
+    #names = ['src_ids']  # one input
+
+    inputs = [
+        paddle.static.data(
+            name=names[i], shape=shapes[i], dtype=dtypes[i])
+        for i in range(len(names))
+    ]
+    return inputs
+
+
+def debug_program(name, program):
+    with open("{}.txt.{}".format(name, device_id), 'w') as f:
+        f.write(str(program))
+
+
+def get_data_file(args):
+    files = [
+        os.path.join(args.input_dir, f) for f in os.listdir(args.input_dir)
+        if (os.path.isfile(os.path.join(args.input_dir, f)) and str(f).endswith(
+            "_idx.npz"))
+    ]
+    files = [x.replace("_idx.npz", "") for x in files]
+    if len(files) == 0:
+        logger.warning(
+            "Not found dataset with name of xxx_ids.npy and xxx_idx.npz! \
+            Try to found old compatible xxx_ids.npz file.")
+    else:
+        return files
+    files = [
+        os.path.join(args.input_dir, f) for f in os.listdir(args.input_dir)
+        if (os.path.isfile(os.path.join(args.input_dir, f)) and str(f).endswith(
+            "_ids.npz"))
+    ]
+    files = [x.replace("_ids.npz", "") for x in files]
+    return files
+
+
+def init_static_with_params(model, dygraph_params, topo, prog=None):
+    from paddlenlp.utils.tools import dygraph_params_to_static
+    static_params = dygraph_params_to_static(model, dygraph_params, topo)
+    if prog is None:
+        prog = paddle.static.default_main_program()
+    paddle.static.set_program_state(prog, static_params)
+
+
+def do_generation(args):
+    # Initialize the paddle and paddle fleet execute environment
+    paddle.enable_static()
+
+    strategy = fleet.DistributedStrategy()
+    strategy.hybrid_configs = {"dp_degree": 1, "mp_degree": 2, "pp_degree": 1}
+    fleet.init(is_collective=True, strategy=strategy)
+
+    group = paddle.distributed.init_parallel_env()
+
+    # Create the random seed for the worker
+    random.seed(args.seed)
+    np.random.seed(args.seed)
+    paddle.seed(args.seed)
+    get_rng_state_tracker().add('global_seed', args.seed)
+    get_rng_state_tracker().add('local_seed',
+                                args.seed + fleet.worker_index() + 2021)
+
+    if args.use_amp and args.amp_level == "O2":
+        assert (args.mp_degree == 1 and args.pp_degree == 1
+                ), "When amp level is O2, mp_degree and pp_degree should be 1."
+        assert (args.use_sharding == False
+                ), "When amp level is O2, use_sharding should be False."
+
+    assert args.device in [
+        "cpu", "gpu", "xpu"
+    ], "Invalid device! Available device should be cpu, gpu, or xpu."
+    place = paddle.set_device(args.device)
+
+    worker_num = fleet.worker_num()
+    worker_index = fleet.worker_index()
+    local_rank = 0 if fleet.local_rank() is None else int(fleet.local_rank())
+
+    topo = Topology(
+        device_rank=worker_index,
+        world_size=worker_num,
+        dp_degree=args.dp_degree,
+        pp_degree=args.pp_degree,
+        sharding_degree=args.sharding_degree,
+        mp_degree=args.mp_degree)
+
+    logger.info("The topo of hybrid parallelism:\n{}".format(topo))
+
+    model_class, tokenizer_class = MODEL_CLASSES[args.model_type]
+    pretrained_models_list = list(
+        model_class.pretrained_init_configuration.keys())
+
+    data_file = get_data_file(args)
+    main_program = paddle.static.default_main_program()
+    startup_program = paddle.static.default_startup_program()
+    with paddle.static.program_guard(main_program, startup_program):
+        with paddle.utils.unique_name.guard():
+            with paddle.static.device_guard('gpu:0'):
+                feeds = create_data_holder(args)
+                tokenizer = tokenizer_class.from_pretrained(
+                    args.model_name_or_path)
+                eos_id = tokenizer.eos_token_id
+
+                _, _, test_data_loader = create_pretrained_dataset(
+                    args,
+                    data_file,
+                    local_rank=local_rank,
+                    data_world_size=topo.data_info.size,
+                    data_world_rank=topo.data_info.rank,
+                    eos_id=eos_id,
+                    max_seq_len=args.max_seq_len,
+                    places=paddle.static.cuda_places(),
+                    data_holders=feeds,
+                    pipeline_mode=False)
+
+                if args.model_name_or_path in pretrained_models_list:
+                    model_config = model_class.pretrained_init_configuration[
+                        args.model_name_or_path]
+                    model_config[
+                        "hidden_dropout_prob"] = args.hidden_dropout_prob
+                    model_config[
+                        "attention_probs_dropout_prob"] = args.attention_probs_dropout_prob
+                    model_config["topo"] = topo
+                    model = GPTForGeneration(
+                        GPTModel(**model_config),
+                        max_length=args.max_dec_len,
+                        decoding_strategy=args.decoding_strategy,
+                        temperature=args.temperature,
+                        top_k=args.topk,
+                        top_p=args.topp,
+                        eos_id=eos_id)
+                else:
+                    logger.error("No checkpoint load.")
+                model.eval()
+                ins = {v.name: v for v in feeds}
+                preds = model(ins)
+
+    # Define the Executor for running the static model
+    exe = paddle.static.Executor(place)
+    exe.run(startup_program)
+    main_program = main_program.clone(for_test=True)
+
+    model_urls = model.pretrained_resource_files_map['model_state']
+    model_path = args.model_name_or_path
+    if model_path in pretrained_models_list and model_path in model_urls:
+        flag_loaded = False
+        from paddle.utils.download import get_weights_path_from_url
+        dygraph_path = get_weights_path_from_url(model_urls[model_path])
+        if os.path.exists(dygraph_path):
+            if args.sharding_degree > 1:
+                logger.warning("Sharding should init with static vars")
+            else:
+                logger.info("Loading parameters from %s" % dygraph_path)
+                init_static_with_params(
+                    model,
+                    paddle.load(
+                        dygraph_path, return_numpy=True),
+                    topo,
+                    main_program)
+                flag_loaded = True
+        if not flag_loaded:
+            logger.error("No checkpoint load.")
+
+    global_step = 0
+    epoch = 0
+    fetchs = [preds]
+
+    ### check resutls
+    text = [
+        "Question: Where is the capital of China? Answer:",
+        "Question:Who is the CEO of Apple? Answer:"
+    ]
+    inputs = tokenizer(
+        text,
+        padding=True,
+        return_attention_mask=True,
+        return_position_ids=True)
+    ids = np.array(inputs["input_ids"]).reshape(len(text), -1).astype('int64')
+    position_ids = np.array(inputs["position_ids"]).reshape(len(text),
+                                                            -1).astype('int64')
+    attention_mask = np.array(inputs["attention_mask"]).reshape(
+        len(text), -1).astype('float32')
+
+    t_ids = paddle.fluid.core.Tensor()
+    t_ids.set(ids, place)
+    t_mask = paddle.fluid.core.Tensor()
+    t_mask.set(attention_mask, place)
+    t_pos = paddle.fluid.core.Tensor()
+    t_pos.set(position_ids, place)
+    feed_data = {'src_ids': t_ids, 'pos_ids': t_pos, 'input_mask': t_mask}
+    ret = exe.run(main_program, feed=feed_data, fetch_list=fetchs)
+    ret = np.array(ret[0])
+    for i in range(ret.shape[0]):
+        o = [int(x) for x in ret[i]]
+        ret_str = tokenizer.convert_ids_to_string(o)
+        ret_str = text[i] + ret_str
+        logger.info(ret_str)
+    ##################
+
+    for step, batch in enumerate(test_data_loader()):
+        ret = exe.run(main_program, feed=batch, fetch_list=fetchs)
+        if step == 5:
+            break
+
+    if args.save_inference_model_then_exist:
+        save_inference_model_dir = 'inference_model_pp{pp_degree}mp{mp_degree}'.format(
+            pp_degree=args.pp_degree, mp_degree=args.mp_degree)
+        inference_save_path = os.path.join(save_inference_model_dir,
+                                           'rank_' + str(fleet.worker_index()),
+                                           'step_' + str(0))
+        print("saving inference models to {}".format(inference_save_path))
+        feed_names = [v.name for v in feeds]
+        fetchs_names = [v.name for v in fetchs]
+        print('feeds: ', feed_names, 'fetches: ', fetchs_names)
+        paddle.static.save_inference_model(
+            inference_save_path, feeds, fetchs, exe, program=main_program)
+
+
+if __name__ == '__main__':
+    args = parse_args(MODEL_CLASSES)
+    do_generation(args)
@@ -22,7 +22,7 @@ python -u  -m paddle.distributed.fleet.launch \
     --max_seq_len 1024 \
     --micro_batch_size 8 \
     --global_batch_size 16 \
-    --sharding_degree 2\
+    --sharding_degree 2 \
     --mp_degree 2 \
     --dp_degree 1 \
     --pp_degree 1 \
 
@@ -258,6 +258,7 @@ def parse_args(MODEL_CLASSES):
         default=None,
         help='The option of profiler, which should be in format \"key1=value1;key2=value2;key3=value3\".'
     )
+
     args = parser.parse_args()
     args.test_iters = args.eval_iters * 10
Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-../../model_zoo/gpt`
	`1`	`+../../model_zoo/gpt/`
Original file line number	Diff line number	Diff line change
`@@ -258,6 +258,7 @@ def parse_args(MODEL_CLASSES):`
`258`	`258`	`default=None,`
`259`	`259`	`help='The option of profiler, which should be in format \"key1=value1;key2=value2;key3=value3\".'`
`260`	`260`	`)`
	`261`	`+`
`261`	`262`	`args = parser.parse_args()`
`262`	`263`	`args.test_iters = args.eval_iters * 10`
`263`	`264`