diff --git a/python/paddle/optimizer/optimizer.py b/python/paddle/optimizer/optimizer.py
index 0752b5894b3357..2188d54dd79647 100644
--- a/python/paddle/optimizer/optimizer.py
+++ b/python/paddle/optimizer/optimizer.py
@@ -747,25 +747,29 @@ def _create_master_weight(self, param):
             var = self._master_weights[param.name]
         else:
             assert isinstance(self.helper, LayerHelper)
-
             var_name = self._gen_master_weight_var_name(param)
-            var = paddle.static.create_global_var(
-                name=var_name,
-                shape=param.shape,
-                value=0,
-                dtype='float32',
-                persistable=True,
-            )
-            block = self.helper.startup_program.global_block()
-            block.append_op(
-                type="cast",
-                inputs={"X": [param]},
-                outputs={"Out": [var]},
-                attrs={
-                    "in_dtype": param.dtype,
-                    "out_dtype": core.VarDesc.VarType.FP32,
-                },
-            )
+
+            if framework.in_dygraph_mode():
+                var = paddle.cast(param, 'float32')
+                var.name = var_name
+            else:
+                var = paddle.static.create_global_var(
+                    name=var_name,
+                    shape=param.shape,
+                    value=0,
+                    dtype='float32',
+                    persistable=True,
+                )
+                block = self.helper.startup_program.global_block()
+                block.append_op(
+                    type="cast",
+                    inputs={"X": [param]},
+                    outputs={"Out": [var]},
+                    attrs={
+                        "in_dtype": param.dtype,
+                        "out_dtype": core.VarDesc.VarType.FP32,
+                    },
+                )
             self._master_weights[param.name] = var
         return var
 
diff --git a/test/auto_parallel/CMakeLists.txt b/test/auto_parallel/CMakeLists.txt
index b17e012584d7f5..c5fbf8466f2bf2 100644
--- a/test/auto_parallel/CMakeLists.txt
+++ b/test/auto_parallel/CMakeLists.txt
@@ -122,7 +122,7 @@ if(WITH_DISTRIBUTE AND WITH_GPU)
   py_test_modules(test_semi_auto_parallel_single_strategy MODULES
                   test_semi_auto_parallel_single_strategy)
   set_tests_properties(test_semi_auto_parallel_single_strategy
-                       PROPERTIES LABELS "RUN_TYPE=EXCLUSIVE" TIMEOUT 120)
+                       PROPERTIES LABELS "RUN_TYPE=EXCLUSIVE" TIMEOUT 300)
   py_test_modules(test_semi_auto_parallel_hybrid_strategy MODULES
                   test_semi_auto_parallel_hybrid_strategy)
   set_tests_properties(test_semi_auto_parallel_hybrid_strategy
diff --git a/test/auto_parallel/semi_auto_parallel_simple_net.py b/test/auto_parallel/semi_auto_parallel_simple_net.py
index a0c78b061dffec..3d8e13e1909648 100644
--- a/test/auto_parallel/semi_auto_parallel_simple_net.py
+++ b/test/auto_parallel/semi_auto_parallel_simple_net.py
@@ -13,6 +13,7 @@
 # limitations under the License.
 
 import os
+import random
 
 import numpy as np
 
@@ -80,9 +81,6 @@ def __init__(self):
         )
 
         paddle.set_device(self._backend)
-
-        self.init_input_data()
-
         self.init_single_card_net_result()
 
     def shard_fn(self, layer_name, layer, process_mesh):
@@ -124,56 +122,58 @@ def pp_shard_fn(self, layer_name, layer, process_mesh):
             )
             layer.bias = dist.shard_tensor(layer.bias, dist_attr=bias_dist_attr)
 
-    def init_input_data(self):
-        paddle.seed(self._seed)
-        np.random.seed(self._seed)
+    def set_random_seed(self, seed):
+        random.seed(seed)
+        np.random.seed(seed)
+        paddle.seed(seed)
 
-        self.image = np.random.random([BATCH_SIZE, IMAGE_SIZE]).astype(
-            'float32'
-        )
-        self.label = np.random.random([BATCH_SIZE, CLASS_NUM]).astype('float32')
+    def init_input_data(self):
+        image = np.random.random([BATCH_SIZE, IMAGE_SIZE]).astype('float32')
+        label = np.random.random([BATCH_SIZE, CLASS_NUM]).astype('float32')
+        return paddle.to_tensor(image), paddle.to_tensor(label)
 
     def run_dynamic(self, layer, shard_input=False, is_pp=False):
-        paddle.seed(self._seed)
-        np.random.seed(self._seed)
-
         # create loss
         loss_fn = nn.MSELoss()
-
         # run forward and backward
-        image = paddle.to_tensor(self.image)
         input_mesh = self._pp_mesh0 if is_pp else self._mesh
-        if shard_input:
-            image = dist.shard_tensor(
-                image,
-                dist_attr=dist.DistAttr(
-                    mesh=input_mesh, sharding_specs=['x', None]
-                ),
-            )
-
-        out = layer(image)
-        label = paddle.to_tensor(self.label)
-
-        loss = loss_fn(out, label)
-
-        loss.backward()
         opt = paddle.optimizer.SGD(
             learning_rate=0.1, parameters=layer.parameters()
         )
-        opt.step()
+        for _ in range(5):
+            image, label = self.init_input_data()
+            if shard_input:
+                image = dist.shard_tensor(
+                    image,
+                    dist_attr=dist.DistAttr(
+                        mesh=input_mesh, sharding_specs=['x', None]
+                    ),
+                )
+
+            out = layer(image)
+            loss = loss_fn(out, label)
+            loss.backward()
+
+            opt.step()
+            opt.clear_grad()
         return loss, layer.parameters()
 
     def init_single_card_net_result(self):
+        self.set_random_seed(self._seed)
         self.base_loss, self.base_parameters = self.run_dynamic(
             DemoNet("demo_weight")
         )
 
-    def check_tensor_eq(self, a, b):
-        np1 = a.numpy()
-        np2 = b.numpy()
-        np.testing.assert_allclose(np1, np2, rtol=1e-05, verbose=True)
+    def check_tensor_eq(self, a, b, rtol=1e-05, atol=0, verbose=True):
+        np1 = a.astype("float32").numpy()
+        np2 = b.astype("float32").numpy()
+        np.testing.assert_allclose(
+            np1, np2, rtol=rtol, atol=atol, verbose=verbose
+        )
 
     def test_dp_demo_net(self):
+        self.set_random_seed(self._seed)
+
         self.dp_loss, self.dp_parameters = self.run_dynamic(
             DemoNet("dp_demo_weight"),
             shard_input=True,
@@ -184,6 +184,8 @@ def test_dp_demo_net(self):
             self.check_tensor_eq(param.grad, param_base.grad)
 
     def test_mp_demo_net(self):
+        self.set_random_seed(self._seed)
+
         mp_layer = dist.shard_layer(
             DemoNet("mp_demo_weight"), self._mesh, self.shard_fn
         )
@@ -196,6 +198,8 @@ def test_mp_demo_net(self):
             self.check_tensor_eq(param.grad, param_base.grad)
 
     def test_pp_demo_net(self):
+        self.set_random_seed(self._seed)
+
         # Send/Recv operators doens't support CPU now.
         if self._backend != "gpu":
             return
diff --git a/test/auto_parallel/semi_auto_parallel_simple_net_amp.py b/test/auto_parallel/semi_auto_parallel_simple_net_amp.py
index 087bbcc16efb49..bce1d5e10483af 100644
--- a/test/auto_parallel/semi_auto_parallel_simple_net_amp.py
+++ b/test/auto_parallel/semi_auto_parallel_simple_net_amp.py
@@ -14,7 +14,6 @@
 
 import os
 
-import numpy as np
 from semi_auto_parallel_simple_net import (
     DemoNet,
     TestSimpleNetForSemiAutoParallel,
@@ -37,44 +36,52 @@ def __init__(self):
         self.init_single_card_net_result()
 
     def run_dynamic_amp(self, layer, level='O1', shard_input=False):
-        paddle.seed(self._seed)
-        np.random.seed(self._seed)
-
         if level == 'O2':
             layer = paddle.amp.decorate(models=layer, level='O2')
         # create loss
         loss_fn = nn.MSELoss()
+        opt = paddle.optimizer.SGD(
+            learning_rate=0.1, parameters=layer.parameters()
+        )
         scaler = paddle.amp.GradScaler(init_loss_scaling=1024)
         # run forward and backward
-        image = paddle.to_tensor(self.image)
-        if shard_input:
-            image = dist.shard_tensor(
-                image,
-                dist_attr=dist.DistAttr(
-                    mesh=self._mesh, sharding_specs=['x', None]
-                ),
-            )
-
-        with paddle.amp.auto_cast(level=level):
-            out = layer(image)
-            label = paddle.to_tensor(self.label)
-            loss = loss_fn(out, label)
-
-        scaled = scaler.scale(loss)
-        scaled.backward()
+        for _ in range(5):
+            image, label = self.init_input_data()
+            if shard_input:
+                image = dist.shard_tensor(
+                    image,
+                    dist_attr=dist.DistAttr(
+                        mesh=self._mesh, sharding_specs=['x', None]
+                    ),
+                )
+
+            with paddle.amp.auto_cast(level=level):
+                out = layer(image)
+                loss = loss_fn(out, label)
+
+            scaled = scaler.scale(loss)
+            scaled.backward()
+            opt.step()
+            opt.clear_grad()
+
         return loss, layer.parameters()
 
     def init_single_card_net_result(self):
+        self.set_random_seed(self._seed)
+
         (
             self.base_loss_o1,
             self.base_parameters_o1,
         ) = self.run_dynamic_amp(DemoNet('demo_weight_O1'), 'O1')
+
+        self.set_random_seed(self._seed)
         (
             self.base_loss_o2,
             self.base_parameters_o2,
         ) = self.run_dynamic_amp(DemoNet('demo_weight_O2'), 'O2')
 
     def test_dp_demo_net(self):
+        self.set_random_seed(self._seed)
         (
             self.dp_loss_o1,
             self.dp_parameters_o1,
@@ -88,6 +95,7 @@ def test_dp_demo_net(self):
             # self.check_tensor_eq(param, param_base)
             self.check_tensor_eq(param.grad, param_base.grad)
 
+        self.set_random_seed(self._seed)
         (
             self.dp_loss_o2,
             self.dp_parameters_o2,
@@ -100,6 +108,7 @@ def test_dp_demo_net(self):
             self.check_tensor_eq(param.grad, param_base.grad)
 
     def test_mp_demo_net(self):
+        self.set_random_seed(self._seed)
         mp_layer_o1 = dist.shard_layer(
             DemoNet("mp_demo_weight_O1"), self._mesh, self.shard_fn
         )
@@ -114,6 +123,7 @@ def test_mp_demo_net(self):
             self.check_tensor_eq(param, param_base)
             self.check_tensor_eq(param.grad, param_base.grad)
 
+        self.set_random_seed(self._seed)
         mp_layer_o2 = dist.shard_layer(
             DemoNet("mp_demo_weight_O2"), self._mesh, self.shard_fn
         )
diff --git a/test/auto_parallel/semi_auto_parallel_simple_net_clear_gradient.py b/test/auto_parallel/semi_auto_parallel_simple_net_clear_gradient.py
index 17a852a779c344..cd14b99542816f 100644
--- a/test/auto_parallel/semi_auto_parallel_simple_net_clear_gradient.py
+++ b/test/auto_parallel/semi_auto_parallel_simple_net_clear_gradient.py
@@ -34,30 +34,32 @@ def __init__(self):
         self._mesh = dist.ProcessMesh([0, 1], dim_names=["x"])
 
         paddle.set_device(self._backend)
-        self.init_input_data()
 
     def run_dynamic_clear_gradient(self, layer, shard_input=False):
         # create loss
         loss_fn = nn.MSELoss()
+        opt = paddle.optimizer.SGD(
+            learning_rate=0.1, parameters=layer.parameters()
+        )
         # run forward and backward
-        image = paddle.to_tensor(self.image)
-        if shard_input:
-            image = dist.shard_tensor(
-                image,
-                dist_attr=dist.DistAttr(
-                    mesh=self._mesh, sharding_specs=['x', None]
-                ),
-            )
-        out = layer(image)
-
-        label = paddle.to_tensor(self.label)
-        loss = loss_fn(out, label)
-
-        loss.backward()
+        for _ in range(5):
+            image, label = self.init_input_data()
+            if shard_input:
+                image = dist.shard_tensor(
+                    image,
+                    dist_attr=dist.DistAttr(
+                        mesh=self._mesh, sharding_specs=['x', None]
+                    ),
+                )
+            out = layer(image)
+            loss = loss_fn(out, label)
 
-        for param in layer.parameters():
-            param.clear_gradient()
-            param.clear_gradient(False)
+            loss.backward()
+            opt.step()
+            opt.clear_grad()
+            for param in layer.parameters():
+                param.clear_gradient()
+                param.clear_gradient(False)
 
     def test_demo_net(self):
         mp_layer = dist.shard_layer(
diff --git a/test/auto_parallel/semi_auto_parallel_simple_net_grad_api.py b/test/auto_parallel/semi_auto_parallel_simple_net_grad_api.py
index 8a8c9cf256299c..3744fdfee18645 100644
--- a/test/auto_parallel/semi_auto_parallel_simple_net_grad_api.py
+++ b/test/auto_parallel/semi_auto_parallel_simple_net_grad_api.py
@@ -34,13 +34,12 @@ def __init__(self):
         self._mesh = dist.ProcessMesh([0, 1], dim_names=["x"])
 
         paddle.set_device(self._backend)
-        self.init_input_data()
 
     def run_dynamic_grad_api(self, layer, shard_input=False):
         # create loss
         loss_fn = nn.MSELoss()
         # run forward and backward
-        image = paddle.to_tensor(self.image)
+        image, label = self.init_input_data()
         if shard_input:
             image = dist.shard_tensor(
                 image,
@@ -50,7 +49,6 @@ def run_dynamic_grad_api(self, layer, shard_input=False):
             )
         out = layer(image)
 
-        label = paddle.to_tensor(self.label)
         loss = loss_fn(out, label)
 
         loss.backward()
diff --git a/test/auto_parallel/semi_auto_parallel_simple_net_gradient_hook.py b/test/auto_parallel/semi_auto_parallel_simple_net_gradient_hook.py
index 4c0e8284b51355..5de0c5f64f0261 100644
--- a/test/auto_parallel/semi_auto_parallel_simple_net_gradient_hook.py
+++ b/test/auto_parallel/semi_auto_parallel_simple_net_gradient_hook.py
@@ -47,14 +47,12 @@ def __init__(self):
         self._mesh = dist.ProcessMesh([0, 1], dim_names=["x"])
 
         paddle.set_device(self._backend)
-        self.init_input_data()
 
     def run_dynamic(self, layer):
+        image, label = self.init_input_data()
         loss_fn = nn.MSELoss()
-        image = paddle.to_tensor(self.image)
 
         out = layer(image)
-        label = paddle.to_tensor(self.label)
         loss = loss_fn(out, label)
         loss.backward()
 
diff --git a/test/auto_parallel/semi_auto_parallel_simple_net_gradient_merge.py b/test/auto_parallel/semi_auto_parallel_simple_net_gradient_merge.py
index 83403e0d0ecd8b..fa894d3b309127 100644
--- a/test/auto_parallel/semi_auto_parallel_simple_net_gradient_merge.py
+++ b/test/auto_parallel/semi_auto_parallel_simple_net_gradient_merge.py
@@ -35,7 +35,6 @@ def __init__(self):
         self._mesh = dist.ProcessMesh([0, 1], dim_names=["x"])
 
         paddle.set_device(self._backend)
-        self.init_input_data()
         self.init_single_card_net_result()
 
     def run_dynamic_gradient_merge(self, layer, shard_input=False):
@@ -44,8 +43,11 @@ def run_dynamic_gradient_merge(self, layer, shard_input=False):
 
         # create loss
         loss_fn = nn.MSELoss()
+        opt = paddle.optimizer.SGD(
+            learning_rate=0.1, parameters=layer.parameters()
+        )
         # run forward and backward
-        image = paddle.to_tensor(self.image)
+        image, label = self.init_input_data()
         if shard_input:
             image = dist.shard_tensor(
                 image,
@@ -56,19 +58,22 @@ def run_dynamic_gradient_merge(self, layer, shard_input=False):
 
         for i in range(2):
             out = layer(image)
-            label = paddle.to_tensor(self.label)
             loss = loss_fn(out, label)
             loss.backward()
+            opt.step()
+            opt.clear_grad()
 
         return loss, layer.parameters()
 
     def init_single_card_net_result(self):
+        self.set_random_seed(self._seed)
         (
             self.base_loss,
             self.base_parameters,
         ) = self.run_dynamic_gradient_merge(DemoNet("gradient_merge_demo"))
 
     def test_dp_demo_net(self):
+        self.set_random_seed(self._seed)
         (
             self.dp_loss,
             self.dp_parameters,
@@ -83,6 +88,7 @@ def test_dp_demo_net(self):
             self.check_tensor_eq(param.grad, param_base.grad)
 
     def test_mp_demo_net(self):
+        self.set_random_seed(self._seed)
         mp_layer = dist.shard_layer(
             DemoNet("gradient_merge_mp_demo"), self._mesh, self.shard_fn
         )
diff --git a/test/auto_parallel/semi_auto_parallel_simple_net_master_grad.py b/test/auto_parallel/semi_auto_parallel_simple_net_master_grad.py
new file mode 100644
index 00000000000000..7d593e07a8e61f
--- /dev/null
+++ b/test/auto_parallel/semi_auto_parallel_simple_net_master_grad.py
@@ -0,0 +1,158 @@
+# Copyright (c) 2023 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import os
+
+from semi_auto_parallel_simple_net import (
+    DemoNet,
+    TestSimpleNetForSemiAutoParallel,
+)
+
+import paddle
+import paddle.distributed as dist
+from paddle import nn
+
+
+class TestSimpleNetWithAmpForSemiAutoParallel(TestSimpleNetForSemiAutoParallel):
+    def __init__(self):
+        self._dtype = os.getenv("dtype")
+        self._backend = os.getenv("backend")
+        self._seed = eval(os.getenv("seed"))
+        self._mesh = dist.ProcessMesh([0, 1], dim_names=["x"])
+
+        paddle.set_device(self._backend)
+        self.init_input_data()
+        self.init_single_card_net_result()
+
+    def check_tensor_eq(self, tensor_a, tensor_b):
+        super().check_tensor_eq(tensor_a, tensor_b, rtol=1e-5, atol=1e-7)
+
+    def run_dynamic_amp(self, layer, level='O1', shard_input=False):
+        # create loss
+        loss_fn = nn.MSELoss()
+        opt = paddle.optimizer.AdamW(
+            learning_rate=0.1, parameters=layer.parameters()
+        )
+
+        if level == 'O2':
+            layer, opt = paddle.amp.decorate(
+                models=layer,
+                level='O2',
+                master_grad=True,
+                optimizers=opt,
+                dtype="bfloat16",
+            )
+
+        scaler = paddle.amp.GradScaler(init_loss_scaling=1024)
+        # run forward and backward
+        for _ in range(5):
+            image, label = self.init_input_data()
+            if shard_input:
+                image = dist.shard_tensor(
+                    image,
+                    dist_attr=dist.DistAttr(
+                        mesh=self._mesh, sharding_specs=['x', None]
+                    ),
+                )
+
+            with paddle.amp.auto_cast(level=level):
+                out = layer(image)
+                loss = loss_fn(out, label)
+
+            scaled = scaler.scale(loss)
+            scaled.backward()
+            opt.step()
+            opt.clear_grad()
+
+        return loss, layer.parameters()
+
+    def init_single_card_net_result(self):
+        self.set_random_seed(self._seed)
+
+        (
+            self.base_loss_o1,
+            self.base_parameters_o1,
+        ) = self.run_dynamic_amp(DemoNet('demo_weight_O1'), 'O1')
+
+        self.set_random_seed(self._seed)
+        (
+            self.base_loss_o2,
+            self.base_parameters_o2,
+        ) = self.run_dynamic_amp(DemoNet('demo_weight_O2'), 'O2')
+
+    def test_dp_demo_net(self):
+        self.set_random_seed(self._seed)
+        (
+            self.dp_loss_o1,
+            self.dp_parameters_o1,
+        ) = self.run_dynamic_amp(
+            DemoNet('dp_demo_weight_O1'), 'O1', shard_input=True
+        )
+        self.check_tensor_eq(self.dp_loss_o1, self.base_loss_o1)
+        for param, param_base in zip(
+            self.dp_parameters_o1, self.base_parameters_o1
+        ):
+            # self.check_tensor_eq(param, param_base)
+            self.check_tensor_eq(param.grad, param_base.grad)
+
+        self.set_random_seed(self._seed)
+        (
+            self.dp_loss_o2,
+            self.dp_parameters_o2,
+        ) = self.run_dynamic_amp(DemoNet('dp_demo_weight_O2'), 'O2')
+        self.check_tensor_eq(self.dp_loss_o2, self.base_loss_o2)
+        for param, param_base in zip(
+            self.dp_parameters_o2, self.base_parameters_o2
+        ):
+            self.check_tensor_eq(param, param_base)
+            self.check_tensor_eq(param.grad, param_base.grad)
+
+    def test_mp_demo_net(self):
+        self.set_random_seed(self._seed)
+        mp_layer_o1 = dist.shard_layer(
+            DemoNet("mp_demo_weight_O1"), self._mesh, self.shard_fn
+        )
+        (
+            self.mp_loss_o1,
+            self.mp_parameters_o1,
+        ) = self.run_dynamic_amp(mp_layer_o1, 'O1')
+        self.check_tensor_eq(self.mp_loss_o1, self.base_loss_o1)
+        for param, param_base in zip(
+            self.mp_parameters_o1, self.base_parameters_o1
+        ):
+            self.check_tensor_eq(param, param_base)
+            self.check_tensor_eq(param.grad, param_base.grad)
+
+        self.set_random_seed(self._seed)
+        mp_layer_o2 = dist.shard_layer(
+            DemoNet("mp_demo_weight_O2"), self._mesh, self.shard_fn
+        )
+        (
+            self.mp_loss_o2,
+            self.mp_parameters_o2,
+        ) = self.run_dynamic_amp(mp_layer_o2, 'O2')
+        self.check_tensor_eq(self.mp_loss_o2, self.base_loss_o2)
+        for param, param_base in zip(
+            self.mp_parameters_o2, self.base_parameters_o2
+        ):
+            self.check_tensor_eq(param, param_base)
+            self.check_tensor_eq(param.grad, param_base.grad)
+
+    def run_test_case(self):
+        self.test_dp_demo_net()
+        self.test_mp_demo_net()
+
+
+if __name__ == '__main__':
+    TestSimpleNetWithAmpForSemiAutoParallel().run_test_case()
diff --git a/test/auto_parallel/semi_auto_parallel_simple_net_recompute.py b/test/auto_parallel/semi_auto_parallel_simple_net_recompute.py
index 78a9ec2d136f38..b59c452c42db5f 100644
--- a/test/auto_parallel/semi_auto_parallel_simple_net_recompute.py
+++ b/test/auto_parallel/semi_auto_parallel_simple_net_recompute.py
@@ -14,7 +14,6 @@
 
 import os
 
-import numpy as np
 from semi_auto_parallel_simple_net import (
     DemoNet,
     TestSimpleNetForSemiAutoParallel,
@@ -35,34 +34,36 @@ def __init__(self):
         self._mesh = dist.ProcessMesh([0, 1], dim_names=["x"])
 
         paddle.set_device(self._backend)
-        self.init_input_data()
         self.init_single_card_net_result()
 
     def run_dynamic_recompute(self, layer, shard_input=False):
-        paddle.seed(self._seed)
-        np.random.seed(self._seed)
-
         # create loss
         loss_fn = nn.MSELoss()
+        opt = paddle.optimizer.SGD(
+            learning_rate=0.1, parameters=layer.parameters()
+        )
         # run forward and backward
-        image = paddle.to_tensor(self.image)
-        if shard_input:
-            image = dist.shard_tensor(
-                image,
-                dist_attr=dist.DistAttr(
-                    mesh=self._mesh, sharding_specs=['x', None]
-                ),
-            )
-        image.stop_gradient = False
-        out = layer(image)
-
-        label = paddle.to_tensor(self.label)
-        loss = loss_fn(out, label)
-
-        loss.backward()
+        for _ in range(1):
+            image, label = self.init_input_data()
+            if shard_input:
+                image = dist.shard_tensor(
+                    image,
+                    dist_attr=dist.DistAttr(
+                        mesh=self._mesh, sharding_specs=['x', None]
+                    ),
+                )
+            image.stop_gradient = False
+            out = layer(image)
+            loss = loss_fn(out, label)
+
+            loss.backward()
+            opt.step()
+            opt.clear_grad()
+
         return loss, layer.parameters()
 
     def init_single_card_net_result(self):
+        self.set_random_seed(self._seed)
         (
             self.base_loss,
             self.base_parameters,
@@ -71,6 +72,7 @@ def init_single_card_net_result(self):
         )
 
     def test_dp_demo_net(self):
+        self.set_random_seed(self._seed)
         (
             self.dp_loss,
             self.dp_parameters,
@@ -85,6 +87,7 @@ def test_dp_demo_net(self):
             self.check_tensor_eq(param.grad, param_base.grad)
 
     def test_mp_demo_net(self):
+        self.set_random_seed(self._seed)
         mp_layer = dist.shard_layer(
             DemoNet("recompute_mp_demo", is_recompute=True),
             self._mesh,
diff --git a/test/auto_parallel/semi_auto_parallel_simple_net_zero_grads.py b/test/auto_parallel/semi_auto_parallel_simple_net_zero_grads.py
index 4bdcd540618f2f..8b74fa5be4cd6e 100644
--- a/test/auto_parallel/semi_auto_parallel_simple_net_zero_grads.py
+++ b/test/auto_parallel/semi_auto_parallel_simple_net_zero_grads.py
@@ -34,13 +34,13 @@ def __init__(self):
         self._mesh = dist.ProcessMesh([0, 1], dim_names=["x"])
 
         paddle.set_device(self._backend)
-        self.init_input_data()
+        self.image, self.label = self.init_input_data()
 
     def run_dynamic_zero_grads(self, layer, shard_input=False):
         # create loss
         loss_fn = nn.MSELoss()
         # run forward and backward
-        image = paddle.to_tensor(self.image)
+        image, label = self.init_input_data()
         if shard_input:
             image = dist.shard_tensor(
                 image,
@@ -49,8 +49,6 @@ def run_dynamic_zero_grads(self, layer, shard_input=False):
                 ),
             )
         out = layer(image)
-
-        label = paddle.to_tensor(self.label)
         loss = loss_fn(out, label)
 
         loss.backward()
diff --git a/test/auto_parallel/test_semi_auto_parallel_single_strategy.py b/test/auto_parallel/test_semi_auto_parallel_single_strategy.py
index 27bff7eda64faa..a8850a3d9d0246 100644
--- a/test/auto_parallel/test_semi_auto_parallel_single_strategy.py
+++ b/test/auto_parallel/test_semi_auto_parallel_single_strategy.py
@@ -29,86 +29,96 @@ def setUp(self):
         }
         self._changeable_envs = {"backend": ["cpu", "gpu"]}
 
-    def test_simple_net_single_strategy(self):
-        envs_list = test_base.gen_product_envs_list(
-            self._default_envs, self._changeable_envs
-        )
-        for envs in envs_list:
-            self.run_test_case(
-                "semi_auto_parallel_simple_net.py",
-                user_defined_envs=envs,
-            )
+    # def test_simple_net_single_strategy(self):
+    #     envs_list = test_base.gen_product_envs_list(
+    #         self._default_envs, self._changeable_envs
+    #     )
+    #     for envs in envs_list:
+    #         self.run_test_case(
+    #             "semi_auto_parallel_simple_net.py",
+    #             user_defined_envs=envs,
+    #         )
 
-    def test_simple_net_single_strategy_with_amp(self):
-        self._changeable_envs = {"backend": ["gpu"]}
-        envs_list = test_base.gen_product_envs_list(
-            self._default_envs, self._changeable_envs
-        )
-        for envs in envs_list:
-            self.run_test_case(
-                "semi_auto_parallel_simple_net_amp.py",
-                user_defined_envs=envs,
-            )
+    # def test_simple_net_single_strategy_with_amp(self):
+    #     self._changeable_envs = {"backend": ["gpu"]}
+    #     envs_list = test_base.gen_product_envs_list(
+    #         self._default_envs, self._changeable_envs
+    #     )
+    #     for envs in envs_list:
+    #         self.run_test_case(
+    #             "semi_auto_parallel_simple_net_amp.py",
+    #             user_defined_envs=envs,
+    #         )
 
-    def test_simple_net_single_strategy_with_gradient_merge(self):
-        self._changeable_envs = {"backend": ["gpu"]}
-        envs_list = test_base.gen_product_envs_list(
-            self._default_envs, self._changeable_envs
-        )
-        for envs in envs_list:
-            self.run_test_case(
-                "semi_auto_parallel_simple_net_gradient_merge.py",
-                user_defined_envs=envs,
-            )
+    # def test_simple_net_single_strategy_with_gradient_merge(self):
+    #     self._changeable_envs = {"backend": ["gpu"]}
+    #     envs_list = test_base.gen_product_envs_list(
+    #         self._default_envs, self._changeable_envs
+    #     )
+    #     for envs in envs_list:
+    #         self.run_test_case(
+    #             "semi_auto_parallel_simple_net_gradient_merge.py",
+    #             user_defined_envs=envs,
+    #         )
 
-    def test_simple_net_recompute(self):
-        envs_list = test_base.gen_product_envs_list(
-            self._default_envs, self._changeable_envs
-        )
-        for envs in envs_list:
-            self.run_test_case(
-                "semi_auto_parallel_simple_net_recompute.py",
-                user_defined_envs=envs,
-            )
+    # def test_simple_net_recompute(self):
+    #     envs_list = test_base.gen_product_envs_list(
+    #         self._default_envs, self._changeable_envs
+    #     )
+    #     for envs in envs_list:
+    #         self.run_test_case(
+    #             "semi_auto_parallel_simple_net_recompute.py",
+    #             user_defined_envs=envs,
+    #         )
 
-    def test_simple_net_single_strategy_with_gradient_hook(self):
-        self._changeable_envs = {"backend": ["gpu"]}
-        envs_list = test_base.gen_product_envs_list(
-            self._default_envs, self._changeable_envs
-        )
-        for envs in envs_list:
-            self.run_test_case(
-                "semi_auto_parallel_simple_net_gradient_hook.py",
-                user_defined_envs=envs,
-            )
+    # def test_simple_net_single_strategy_with_gradient_hook(self):
+    #     self._changeable_envs = {"backend": ["gpu"]}
+    #     envs_list = test_base.gen_product_envs_list(
+    #         self._default_envs, self._changeable_envs
+    #     )
+    #     for envs in envs_list:
+    #         self.run_test_case(
+    #             "semi_auto_parallel_simple_net_gradient_hook.py",
+    #             user_defined_envs=envs,
+    #         )
 
-    def test_simple_net_clear_gradient(self):
-        envs_list = test_base.gen_product_envs_list(
-            self._default_envs, self._changeable_envs
-        )
-        for envs in envs_list:
-            self.run_test_case(
-                "semi_auto_parallel_simple_net_clear_gradient.py",
-                user_defined_envs=envs,
-            )
+    # def test_simple_net_clear_gradient(self):
+    #     envs_list = test_base.gen_product_envs_list(
+    #         self._default_envs, self._changeable_envs
+    #     )
+    #     for envs in envs_list:
+    #         self.run_test_case(
+    #             "semi_auto_parallel_simple_net_clear_gradient.py",
+    #             user_defined_envs=envs,
+    #         )
 
-    def test_simple_net_several_grad_api(self):
-        envs_list = test_base.gen_product_envs_list(
-            self._default_envs, self._changeable_envs
-        )
-        for envs in envs_list:
-            self.run_test_case(
-                "semi_auto_parallel_simple_net_grad_api.py",
-                user_defined_envs=envs,
-            )
+    # def test_simple_net_several_grad_api(self):
+    #     envs_list = test_base.gen_product_envs_list(
+    #         self._default_envs, self._changeable_envs
+    #     )
+    #     for envs in envs_list:
+    #         self.run_test_case(
+    #             "semi_auto_parallel_simple_net_grad_api.py",
+    #             user_defined_envs=envs,
+    #         )
+
+    # def test_simple_net_zero_grads(self):
+    #     envs_list = test_base.gen_product_envs_list(
+    #         self._default_envs, self._changeable_envs
+    #     )
+    #     for envs in envs_list:
+    #         self.run_test_case(
+    #             "semi_auto_parallel_simple_net_zero_grads.py",
+    #             user_defined_envs=envs,
+    #         )
 
-    def test_simple_net_zero_grads(self):
+    def test_simple_net_master_grad(self):
         envs_list = test_base.gen_product_envs_list(
             self._default_envs, self._changeable_envs
         )
         for envs in envs_list:
             self.run_test_case(
-                "semi_auto_parallel_simple_net_zero_grads.py",
+                "semi_auto_parallel_simple_net_master_grad.py",
                 user_defined_envs=envs,
             )