csarofeen · csarofeen · Feb 1, 2022
diff --git a/benchmarks/cpp/nvfuser/batch_norm.cpp b/benchmarks/cpp/nvfuser/batch_norm.cpp
@@ -78,10 +78,10 @@ static void NvFuserScheduler_BatchNorm(
   const float kEps = 1e-5;
 
   std::vector<int64_t> input_shape{
-      benchmark_state.range(0),
-      benchmark_state.range(1),
-      benchmark_state.range(2),
-      benchmark_state.range(2)};
+      benchmark_state.range(0) + SIZE_OFFSET,
+      benchmark_state.range(1) + SIZE_OFFSET,
+      benchmark_state.range(2) + SIZE_OFFSET,
+      benchmark_state.range(2) + SIZE_OFFSET};
 
   // inputs
   at::manual_seed(0);
@@ -117,10 +117,10 @@ static void Baseline_BatchNorm(
   const float kMomentum = 0.1;
   const float kEps = 1e-5;
   std::vector<int64_t> input_shape{
-      benchmark_state.range(0),
-      benchmark_state.range(1),
-      benchmark_state.range(2),
-      benchmark_state.range(2)};
+      benchmark_state.range(0) + SIZE_OFFSET,
+      benchmark_state.range(1) + SIZE_OFFSET,
+      benchmark_state.range(2) + SIZE_OFFSET,
+      benchmark_state.range(2) + SIZE_OFFSET};
 
   // inputs
   at::manual_seed(0);
@@ -152,9 +152,11 @@ static void Baseline_BatchNorm(
 
   clearL2Cache();
   cudaDeviceSynchronize();
+
+  CudaKernelTimer timer;
   for (auto _ : benchmark_state) {
-    CudaKernelTimer timer;
-    auto output = at::batch_norm(
+    timer.restart();
+    auto output = at::_ops::_batch_norm_impl_index::call(
         at_x,
         ato_weight,
         ato_bias,
@@ -225,6 +227,36 @@ NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_fp16)
     ->Unit(benchmark::kMicrosecond)
     ->UseManualTime();
 
+NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {64, 64}, {7, 112}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {256, 256}, {7, 56}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {512, 512}, {7, 28}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {1024, 1024}, {7, 14}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {2048, 2048}, {7, 7}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
 //------------------------------------------------------------------------------
 
 BENCHMARK(Baseline_BatchNorm_cuDNN_fp32)
@@ -251,3 +283,33 @@ BENCHMARK(Baseline_BatchNorm_cuDNN_fp16)
     ->Ranges({{2, 64}, {2, 32}, {2, 256}})
     ->Unit(benchmark::kMicrosecond)
     ->UseManualTime();
+
+BENCHMARK(Baseline_BatchNorm_cuDNN_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {64, 64}, {7, 112}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+BENCHMARK(Baseline_BatchNorm_cuDNN_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {256, 256}, {7, 56}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+BENCHMARK(Baseline_BatchNorm_cuDNN_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {512, 512}, {7, 28}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+BENCHMARK(Baseline_BatchNorm_cuDNN_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {1024, 1024}, {7, 14}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+BENCHMARK(Baseline_BatchNorm_cuDNN_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {2048, 2048}, {7, 7}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
diff --git a/benchmarks/cpp/nvfuser/batch_norm_backward.cpp b/benchmarks/cpp/nvfuser/batch_norm_backward.cpp
@@ -89,10 +89,10 @@ static void NvFuserScheduler_BatchNorm_BWD(
   const float kEps = 1e-5;
 
   std::vector<int64_t> input_shape{
-      benchmark_state.range(0),
-      benchmark_state.range(1),
-      benchmark_state.range(2),
-      benchmark_state.range(2)};
+      benchmark_state.range(0) + SIZE_OFFSET,
+      benchmark_state.range(1) + SIZE_OFFSET,
+      benchmark_state.range(2) + SIZE_OFFSET,
+      benchmark_state.range(2) + SIZE_OFFSET};
 
   at::manual_seed(0);
   auto options =
@@ -130,10 +130,10 @@ static void Baseline_BatchNorm_BWD(
   const float kMomentum = 0.1;
   const float kEps = 1e-5;
   std::vector<int64_t> input_shape{
-      benchmark_state.range(0),
-      benchmark_state.range(1),
-      benchmark_state.range(2),
-      benchmark_state.range(2)};
+      benchmark_state.range(0) + SIZE_OFFSET,
+      benchmark_state.range(1) + SIZE_OFFSET,
+      benchmark_state.range(2) + SIZE_OFFSET,
+      benchmark_state.range(2) + SIZE_OFFSET};
 
   at::manual_seed(0);
   auto options =
@@ -166,13 +166,12 @@ static void Baseline_BatchNorm_BWD(
       kMomentum,
       kEps,
       true);
-  cudaDeviceSynchronize();
-
-  // Sync everything up before we start
   clearL2Cache();
   cudaDeviceSynchronize();
+
+  CudaKernelTimer timer;
   for (auto _ : benchmark_state) {
-    CudaKernelTimer timer;
+    timer.restart();
 
     at::_ops::cudnn_batch_norm_backward::call(
         input,
@@ -186,7 +185,6 @@ static void Baseline_BatchNorm_BWD(
         std::get<3>(fwd_result));
 
     benchmark_state.SetIterationTime(timer.elapsed() / 1000.0);
-    cudaDeviceSynchronize();
     clearL2Cache();
     cudaDeviceSynchronize();
   }
@@ -249,6 +247,36 @@ NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_BWD_fp16)
     ->Unit(benchmark::kMicrosecond)
     ->UseManualTime();
 
+NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_BWD_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {64, 64}, {7, 112}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_BWD_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {256, 256}, {7, 56}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_BWD_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {512, 512}, {7, 28}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_BWD_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {1024, 1024}, {7, 14}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+NVFUSER_BENCHMARK_RUN(NvFuserScheduler_BatchNorm_BWD_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {2048, 2048}, {7, 7}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
 //------------------------------------------------------------------------------
 
 BENCHMARK(Baseline_BatchNorm_BWD_cuDNN_fp32)
@@ -275,3 +303,33 @@ BENCHMARK(Baseline_BatchNorm_BWD_cuDNN_fp16)
     ->Ranges({{2, 64}, {2, 32}, {2, 256}})
     ->Unit(benchmark::kMicrosecond)
     ->UseManualTime();
+
+BENCHMARK(Baseline_BatchNorm_BWD_cuDNN_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {64, 64}, {7, 112}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+BENCHMARK(Baseline_BatchNorm_BWD_cuDNN_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {256, 256}, {7, 56}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+BENCHMARK(Baseline_BatchNorm_BWD_cuDNN_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {512, 512}, {7, 28}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+BENCHMARK(Baseline_BatchNorm_BWD_cuDNN_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {1024, 1024}, {7, 14}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
+
+BENCHMARK(Baseline_BatchNorm_BWD_cuDNN_fp16)
+    // ->RangeMultiplier(2)
+    ->Ranges({{64, 256}, {2048, 2048}, {7, 7}})
+    ->Unit(benchmark::kMicrosecond)
+    ->UseManualTime();
diff --git a/benchmarks/cpp/nvfuser/bert.cpp b/benchmarks/cpp/nvfuser/bert.cpp
@@ -113,10 +113,10 @@ static void MagicScheduler_DivMaxSoftDropFwd(
   Fusion fusion;
   FusionGuard fg(&fusion);
 
-  auto w = benchmark_state.range(0);
-  auto x = benchmark_state.range(1);
-  auto y = benchmark_state.range(2);
-  auto z = benchmark_state.range(3);
+  auto w = benchmark_state.range(0) + SIZE_OFFSET;
+  auto x = benchmark_state.range(1) + SIZE_OFFSET;
+  auto y = benchmark_state.range(2) + SIZE_OFFSET;
+  auto z = benchmark_state.range(3) + SIZE_OFFSET;
 
   setupDivMaxSoftmaxDropoutForward(&fusion, dtype);
 
@@ -171,10 +171,10 @@ static void MagicScheduler_DivMaxSoftDropBwd(
   Fusion fusion;
   FusionGuard fg(&fusion);
 
-  auto w = benchmark_state.range(0);
-  auto x = benchmark_state.range(1);
-  auto y = benchmark_state.range(2);
-  auto z = benchmark_state.range(3);
+  auto w = benchmark_state.range(0) + SIZE_OFFSET;
+  auto x = benchmark_state.range(1) + SIZE_OFFSET;
+  auto y = benchmark_state.range(2) + SIZE_OFFSET;
+  auto z = benchmark_state.range(3) + SIZE_OFFSET;
 
   setupDivMaxSoftmaxDropoutBackward(&fusion, dtype);
 
@@ -286,9 +286,9 @@ static void MagicScheduler_BiasDropoutAddLayernormFwd(
   Fusion fusion;
   FusionGuard fg(&fusion);
 
-  auto x = benchmark_state.range(0);
-  auto y = benchmark_state.range(1);
-  auto z = benchmark_state.range(2);
+  auto x = benchmark_state.range(0) + SIZE_OFFSET;
+  auto y = benchmark_state.range(1) + SIZE_OFFSET;
+  auto z = benchmark_state.range(2) + SIZE_OFFSET;
 
   setupBiasDropoutAddLayernormFwd(&fusion, dtype);
 
@@ -402,9 +402,9 @@ static void MagicScheduler_BiasDropoutAddLayernormBwd1(
   Fusion fusion;
   FusionGuard fg(&fusion);
 
-  auto x = benchmark_state.range(0);
-  auto y = benchmark_state.range(1);
-  auto z = benchmark_state.range(2);
+  auto x = benchmark_state.range(0) + SIZE_OFFSET;
+  auto y = benchmark_state.range(1) + SIZE_OFFSET;
+  auto z = benchmark_state.range(2) + SIZE_OFFSET;
 
   setupBiasDropoutAddLayernormBwd1(&fusion, dtype);
 
@@ -513,9 +513,9 @@ static void MagicScheduler_BiasDropoutAddLayernormBwd2(
   Fusion fusion;
   FusionGuard fg(&fusion);
 
-  auto x = benchmark_state.range(0);
-  auto y = benchmark_state.range(1);
-  auto z = benchmark_state.range(2);
+  auto x = benchmark_state.range(0) + SIZE_OFFSET;
+  auto y = benchmark_state.range(1) + SIZE_OFFSET;
+  auto z = benchmark_state.range(2) + SIZE_OFFSET;
 
   setupBiasDropoutAddLayernormBwd2(&fusion, dtype);
 
@@ -606,9 +606,9 @@ static void MagicScheduler_BiasDropoutAddLayernormBwd3(
   Fusion fusion;
   FusionGuard fg(&fusion);
 
-  auto x = benchmark_state.range(0);
-  auto y = benchmark_state.range(1);
-  auto z = benchmark_state.range(2);
+  auto x = benchmark_state.range(0) + SIZE_OFFSET;
+  auto y = benchmark_state.range(1) + SIZE_OFFSET;
+  auto z = benchmark_state.range(2) + SIZE_OFFSET;
 
   setupBiasDropoutAddLayernormBwd3(&fusion, dtype);
 

diff --git a/benchmarks/cpp/nvfuser/broadcast.cpp b/benchmarks/cpp/nvfuser/broadcast.cpp
@@ -51,8 +51,8 @@ static void NvFuserScheduler_Broadcast(
     FusionExecutorCache* fusion_executor_cache,
     DataType dtype,
     int bcast_dim) {
-  auto bcast_size = benchmark_state.range(0);
-  auto iter_size = benchmark_state.range(1);
+  auto bcast_size = benchmark_state.range(0) + SIZE_OFFSET;
+  auto iter_size = benchmark_state.range(1) + SIZE_OFFSET;
 
   at::manual_seed(0);
   auto options =
@@ -99,8 +99,8 @@ static void Baseline_Broadcast(
     benchmark::State& benchmark_state,
     DataType dtype,
     int bcast_dim) {
-  auto bcast_size = benchmark_state.range(0);
-  auto iter_size = benchmark_state.range(1);
+  auto bcast_size = benchmark_state.range(0) + SIZE_OFFSET;
+  auto iter_size = benchmark_state.range(1) + SIZE_OFFSET;
 
   at::manual_seed(0);
   auto options =

diff --git a/benchmarks/cpp/nvfuser/instance_norm.cpp b/benchmarks/cpp/nvfuser/instance_norm.cpp
@@ -71,10 +71,10 @@ static void NvFuserScheduler_InstanceNorm(
   TORCH_INTERNAL_ASSERT(dtype == DataType::Float || dtype == DataType::Half);
 
   std::vector<int64_t> input_shape{
-      benchmark_state.range(0),
-      benchmark_state.range(2),
-      benchmark_state.range(1),
-      benchmark_state.range(1)};
+      benchmark_state.range(0) + SIZE_OFFSET,
+      benchmark_state.range(2) + SIZE_OFFSET,
+      benchmark_state.range(1) + SIZE_OFFSET,
+      benchmark_state.range(1) + SIZE_OFFSET};
 
   // inputs
   at::manual_seed(0);
@@ -112,10 +112,10 @@ static void Baseline_InstanceNorm(
   TORCH_INTERNAL_ASSERT(dtype == DataType::Float || dtype == DataType::Half);
 
   std::vector<int64_t> input_shape{
-      benchmark_state.range(0),
-      benchmark_state.range(2),
-      benchmark_state.range(1),
-      benchmark_state.range(1)};
+      benchmark_state.range(0) + SIZE_OFFSET,
+      benchmark_state.range(2) + SIZE_OFFSET,
+      benchmark_state.range(1) + SIZE_OFFSET,
+      benchmark_state.range(1) + SIZE_OFFSET};
   const float kMomentum = 0.1;
   const float kEps = 1e-5;
   const auto aten_dtype = data_type_to_aten(dtype);

diff --git a/benchmarks/cpp/nvfuser/layer_norm.cpp b/benchmarks/cpp/nvfuser/layer_norm.cpp
@@ -60,7 +60,8 @@ static void NvFuserScheduler_LayerNorm(
   TORCH_INTERNAL_ASSERT(dtype == DataType::Float || dtype == DataType::Half);
 
   std::vector<int64_t> input_shape{
-      benchmark_state.range(0), benchmark_state.range(1)};
+      benchmark_state.range(0) + SIZE_OFFSET,
+      benchmark_state.range(1) + SIZE_OFFSET};
   const float kEps = 1e-5;
 
   // inputs
@@ -89,7 +90,8 @@ static void Baseline_LayerNorm(
   TORCH_INTERNAL_ASSERT(dtype == DataType::Float || dtype == DataType::Half);
 
   std::vector<int64_t> input_shape{
-      benchmark_state.range(0), benchmark_state.range(1)};
+      benchmark_state.range(0) + SIZE_OFFSET,
+      benchmark_state.range(1) + SIZE_OFFSET};
   const int kReductionAxis = 1;
   std::vector<int64_t> norm_shape;
   for (int idx = kReductionAxis; idx < input_shape.size(); ++idx) {