added option for no PG validation for faster init (#1161)

ngoyal2707 · Naman Goyal · web-flow · commit d0b506f710bf · 2024-01-24T12:49:34.000-08:00
Co-authored-by: Naman Goyal &lt;naman@fb.com&gt;
diff --git a/fairscale/nn/data_parallel/fully_sharded_data_parallel.py b/fairscale/nn/data_parallel/fully_sharded_data_parallel.py
@@ -368,6 +368,7 @@ def __init__(
         gradient_predivide_factor: Optional[float] = None,
         limit_all_gather_events: bool = False,
         limit_reduce_scatter_events: bool = False,
+        should_validate_process_group: bool = True,
     ):
         try:
             import torch._C
@@ -451,7 +452,7 @@ def __init__(
             raise ValueError(f"offload type: '{offload_config.offload_type}' requires flatten_parameters=True")
 
         # skip validation if the process group was created above
-        if process_group:
+        if process_group and should_validate_process_group:
             validate_process_group(self.compute_device, self.process_group)
 
         # enable pytorch sync_bn just in case model contains sync_bn layers.