Merge branch 'main' into 96_awq_match_module_set

dsikka · web-flow · commit d40689e36aa9 · 2025-12-08T19:35:31.000-05:00
diff --git a/examples/awq/qwen3-vl-30b-a3b-Instruct-example.py b/examples/awq/qwen3-vl-30b-a3b-Instruct-example.py
@@ -3,20 +3,16 @@
 from transformers import AutoProcessor, Qwen3VLMoeForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modeling import replace_modules_for_calibration
 from llmcompressor.modifiers.awq import AWQModifier
 from llmcompressor.utils import dispatch_for_generation
 
-# NOTE: Requires a minimum of transformers 4.57.0
-
 MODEL_ID = "Qwen/Qwen3-VL-30B-A3B-Instruct"
 
 # Load model.
 model = Qwen3VLMoeForConditionalGeneration.from_pretrained(
     MODEL_ID, torch_dtype=torch.bfloat16, device_map=None, trust_remote_code=True
 )
 processor = AutoProcessor.from_pretrained(MODEL_ID, trust_remote_code=True)
-model = replace_modules_for_calibration(model)
 
 DATASET_ID = "neuralmagic/calibration"
 NUM_CALIBRATION_SAMPLES = 256
diff --git a/examples/quantization_w4a4_fp4/qwen3_vl_moe_w4a4_fp4.py b/examples/quantization_w4a4_fp4/qwen3_vl_moe_w4a4_fp4.py
@@ -3,19 +3,15 @@
 from transformers import AutoProcessor, Qwen3VLMoeForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modeling import replace_modules_for_calibration
 from llmcompressor.modifiers.quantization import QuantizationModifier
 from llmcompressor.utils import dispatch_for_generation
 
-# NOTE: Requires a minimum of transformers 4.57.0
-
 MODEL_ID = "Qwen/Qwen3-VL-235B-A22B-Instruct"
 
 
 # Load model.
 model = Qwen3VLMoeForConditionalGeneration.from_pretrained(MODEL_ID, torch_dtype="auto")
 processor = AutoProcessor.from_pretrained(MODEL_ID)
-model = replace_modules_for_calibration(model)
 
 DATASET_ID = "neuralmagic/calibration"
 NUM_CALIBRATION_SAMPLES = 20
diff --git a/examples/quantization_w8a8_fp8/qwen3_vl_moe_fp8_example.py b/examples/quantization_w8a8_fp8/qwen3_vl_moe_fp8_example.py
@@ -1,7 +1,6 @@
 from transformers import AutoProcessor, Qwen3VLMoeForConditionalGeneration
 
 from llmcompressor import oneshot
-from llmcompressor.modeling import replace_modules_for_calibration
 from llmcompressor.modifiers.quantization import QuantizationModifier
 
 # NOTE: Requires a minimum of transformers 4.57.0
@@ -11,7 +10,6 @@
 # Load model.
 model = Qwen3VLMoeForConditionalGeneration.from_pretrained(MODEL_ID, torch_dtype="auto")
 processor = AutoProcessor.from_pretrained(MODEL_ID)
-model = replace_modules_for_calibration(model)
 
 # Configure the quantization algorithm and scheme.
 # In this case, we:
diff --git a/src/llmcompressor/entrypoints/oneshot.py b/src/llmcompressor/entrypoints/oneshot.py
@@ -201,22 +201,24 @@ def apply_recipe_modifiers(
         session.reset()
 
         # (Helen INFERENG-661): validate recipe modifiers before initialization
-        session.initialize(
-            model=self.model,
-            start=-1,
-            recipe=self.recipe,
-            recipe_stage=recipe_stage,
-            recipe_args=self.recipe_args.recipe_args,
-            calib_data=calibration_dataloader,
-        )
-        user_pipeline = self.dataset_args.pipeline
-        modifiers = session.lifecycle.recipe.modifiers
-        pipeline = CalibrationPipeline.from_modifiers(modifiers, user=user_pipeline)
         # Apply MoE calibration context for the entire calibration process
         with moe_calibration_context(
             self.model,
             calibrate_all_experts=self.dataset_args.moe_calibrate_all_experts,
         ):
+            session.initialize(
+                model=self.model,
+                start=-1,
+                recipe=self.recipe,
+                recipe_stage=recipe_stage,
+                recipe_args=self.recipe_args.recipe_args,
+                calib_data=calibration_dataloader,
+            )
+            user_pipeline = self.dataset_args.pipeline
+            pipeline = CalibrationPipeline.from_modifiers(
+                session.lifecycle.recipe.modifiers, user=user_pipeline
+            )
+
             pipeline(
                 self.model,
                 calibration_dataloader,
diff --git a/src/llmcompressor/modeling/__init__.py b/src/llmcompressor/modeling/__init__.py
@@ -18,4 +18,3 @@
 # TODO: add granite4, Qwen3Next
 
 from .fuse import *
-from .prepare import *
diff --git a/src/llmcompressor/modeling/deepseek_v3.py b/src/llmcompressor/modeling/deepseek_v3.py
@@ -68,20 +68,3 @@ def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
         hidden_states = final_hidden_states.type(hidden_states.dtype).view(*orig_shape)
         hidden_states = hidden_states + self.shared_experts(residuals)
         return hidden_states
-
-
-# Legacy function for backward compatibility
-def replace(
-    config: DeepseekV3Config,
-    module: OriginalDeepseekV3MoE,
-    calibrate_all_experts: bool,
-):
-    """
-    Legacy replacement function.
-    Use CalibrationDeepseekV3MoE instead.
-    """
-    return CalibrationDeepseekV3MoE(
-        module,
-        config,
-        calibrate_all_experts=calibrate_all_experts,
-    )
diff --git a/src/llmcompressor/modeling/llama4.py b/src/llmcompressor/modeling/llama4.py
@@ -87,16 +87,3 @@ def __init__(self, config: Llama4TextConfig, original: Llama4TextExperts):
             self[i].gate_proj.weight.data = gate_proj.t().contiguous()
             self[i].up_proj.weight.data = up_proj.t().contiguous()
             self[i].down_proj.weight.data = down.t().contiguous()
-
-
-# Legacy function for backward compatibility
-def replace(config: Llama4Config, module: Llama4TextMoe, calibrate_all_experts: bool):
-    """
-    Legacy replacement function.
-    Use SequentialLlama4TextMoe instead.
-    """
-    return SequentialLlama4TextMoe(
-        module,
-        config,
-        calibrate_all_experts=calibrate_all_experts,
-    )
diff --git a/src/llmcompressor/modeling/prepare.py b/src/llmcompressor/modeling/prepare.py
diff --git a/src/llmcompressor/modeling/qwen3_moe.py b/src/llmcompressor/modeling/qwen3_moe.py
@@ -97,20 +97,3 @@ def forward(self, hidden_states: torch.Tensor):
 
     def restore(self, original: torch.nn.Module) -> torch.nn.Module:
         return original
-
-
-# Legacy function for backward compatibility
-def replace(
-    config: Qwen3MoeConfig,
-    module: OriginalQwen3MoeSparseMoeBlock,
-    calibrate_all_experts: bool,
-):
-    """
-    Legacy replacement function.
-    Use CalibrationQwen3MoeSparseMoeBlock instead.
-    """
-    return CalibrationQwen3MoeSparseMoeBlock(
-        module,
-        config,
-        calibrate_all_experts=calibrate_all_experts,
-    )
diff --git a/src/llmcompressor/modeling/qwen3_next_moe.py b/src/llmcompressor/modeling/qwen3_next_moe.py
@@ -123,13 +123,3 @@ def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
 
     def restore(self, original: torch.nn.Module) -> torch.nn.Module:
         return original
-
-
-def replace(
-    config,
-    module,
-    calibrate_all_experts,
-):
-    return CalibrationQwen3NextSparseMoeBlock(
-        config=config, original=module, calibrate_all_experts=calibrate_all_experts
-    )
diff --git a/src/llmcompressor/modeling/qwen3_vl_moe.py b/src/llmcompressor/modeling/qwen3_vl_moe.py
@@ -116,15 +116,3 @@ def __init__(self, config, original):
             self[i].gate_proj.weight.data = gate_proj.t().clone().contiguous()
             self[i].up_proj.weight.data = up_proj.t().clone().contiguous()
             self[i].down_proj.weight.data = down.t().clone().contiguous()
-
-
-def replace(
-    config: "Qwen3VLMoeConfig",
-    original: "Qwen3VLMoeTextSparseMoeBlock",
-    calibrate_all_experts: bool,
-):
-    return CalibrateQwen3VLMoeTextSparseMoeBlock(
-        original=original,
-        config=config,
-        calibrate_all_experts=calibrate_all_experts,
-    )
diff --git a/src/llmcompressor/modifiers/quantization/calibration.py b/src/llmcompressor/modifiers/quantization/calibration.py
@@ -8,12 +8,15 @@
     QuantizationStrategy,
 )
 from compressed_tensors.quantization.lifecycle.forward import forward_quantize
-from compressed_tensors.utils import align_module_device, update_offload_parameter
+from compressed_tensors.utils import (
+    align_module_device,
+    getattr_chain,
+    update_offload_parameter,
+)
 from loguru import logger
 from torch.nn import Module
 
 from llmcompressor.observers import Observer
-from llmcompressor.utils.helpers import getattr_chain
 
 __all__ = [
     "initialize_observer",
diff --git a/src/llmcompressor/pipelines/independent/pipeline.py b/src/llmcompressor/pipelines/independent/pipeline.py
@@ -1,12 +1,12 @@
 from typing import TYPE_CHECKING
 
 import torch
+from compressed_tensors.utils import patch_attr
 from loguru import logger
 from torch.utils.data.dataloader import DataLoader
 
 from llmcompressor.core import active_session
 from llmcompressor.pipelines.registry import CalibrationPipeline
-from llmcompressor.utils.helpers import patch_attr
 
 if TYPE_CHECKING:
     from llmcompressor.args.dataset_arguments import DatasetArguments
diff --git a/src/llmcompressor/pipelines/sequential/ast_helpers.py b/src/llmcompressor/pipelines/sequential/ast_helpers.py
@@ -8,9 +8,9 @@
 from typing import List
 
 import torch
+from compressed_tensors.utils import patch_attr
 
 from llmcompressor.pipelines.sequential.ast_utils.auto_wrapper import AutoWrapper
-from llmcompressor.utils import patch_attr
 
 __all__ = ["autowrap_forwards", "append_autowrap_source_on_fail"]
 
diff --git a/src/llmcompressor/pipelines/sequential/ast_utils/name_analyzer.py b/src/llmcompressor/pipelines/sequential/ast_utils/name_analyzer.py
@@ -2,7 +2,7 @@
 import builtins
 from typing import Set, Tuple
 
-from llmcompressor.utils import patch_attr
+from compressed_tensors.utils import patch_attr
 
 
 class NameAnalyzer(ast.NodeVisitor):
diff --git a/src/llmcompressor/pipelines/sequential/helpers.py b/src/llmcompressor/pipelines/sequential/helpers.py
@@ -10,6 +10,7 @@
 from compressed_tensors.utils import (
     has_offloaded_params,
     offloaded_dispatch,
+    patch_attr,
     remove_dispatch,
 )
 from compressed_tensors.utils.match import match_targets
@@ -24,7 +25,7 @@
 from llmcompressor.modifiers import Modifier
 from llmcompressor.modifiers.utils.hooks import HooksMixin
 from llmcompressor.pipelines.sequential.transformers_helpers import HFTracer
-from llmcompressor.utils.helpers import calibration_forward_context, patch_attr
+from llmcompressor.utils.helpers import calibration_forward_context
 from llmcompressor.utils.pytorch.module import get_no_split_params
 
 from .ast_helpers import append_autowrap_source_on_fail, autowrap_forwards
diff --git a/src/llmcompressor/utils/dev.py b/src/llmcompressor/utils/dev.py
@@ -7,15 +7,13 @@
 import torch
 from accelerate import dispatch_model, infer_auto_device_map
 from accelerate.utils import get_balanced_memory
-from compressed_tensors.utils import remove_dispatch
+from compressed_tensors.utils import patch_attr, remove_dispatch
 from huggingface_hub import snapshot_download
 from safetensors.torch import save_file
 from transformers import AutoModelForCausalLM, PreTrainedModel
 from transformers.modeling_utils import TORCH_INIT_FUNCTIONS
 from transformers.utils import SAFE_WEIGHTS_INDEX_NAME, WEIGHTS_INDEX_NAME
 
-from llmcompressor.utils.helpers import patch_attr
-
 __all__ = [
     "skip_weights_download",
     "patch_transformers_logger_level",
diff --git a/src/llmcompressor/utils/helpers.py b/src/llmcompressor/utils/helpers.py
diff --git a/tests/llmcompressor/utils/test_helpers.py b/tests/llmcompressor/utils/test_helpers.py

Original file line number	Diff line number	Diff line change
`@@ -18,4 +18,3 @@`
`18`	`18`	`# TODO: add granite4, Qwen3Next`
`19`	`19`
`20`	`20`	`from .fuse import *`
`21`		`-from .prepare import *`