Dec 1, 2025 · Dec 1, 2025 · Dec 1, 2025 · Dec 1, 2025 · Dec 1, 2025 · Dec 2, 2025
diff --git a/test/quantization/quantize_/workflows/int8/test_int8_tensor.py b/test/quantization/quantize_/workflows/int8/test_int8_tensor.py
 INT8_TEST_CONFIGS = [
    Int8WeightOnlyConfig(version=2, granularity=PerTensor()),
    Int8WeightOnlyConfig(version=2, granularity=PerRow()),
    Int8DynamicActivationInt8WeightConfig(
        version=2, granularity=PerTensor(), act_mapping_type=MappingType.ASYMMETRIC
    ),
    Int8DynamicActivationInt8WeightConfig(
        version=2, granularity=PerRow(), act_mapping_type=MappingType.ASYMMETRIC
    ),
    Int8DynamicActivationInt8WeightConfig(
        version=2, granularity=PerTensor(), act_mapping_type=MappingType.SYMMETRIC
    ),
        elif isinstance(config.granularity, PerTensor):
            self.assertEqual(w.scale.shape, (1, 1))

        if config.act_mapping_type == MappingType.SYMMETRIC:
            self.assertEqual(w.zero_point, None)
        elif config.act_mapping_type == MappingType.ASYMMETRIC:
            if isinstance(config.granularity, PerRow):
                self.assertEqual(w.zero_point.shape, (w.shape[0], 1))
            elif isinstance(config.granularity, PerTensor):
                self.assertEqual(w.zero_point.shape, (1, 1))
        if hasattr(config, "act_mapping_type"):
            self.assertEqual(w.act_quant_kwargs.mapping_type, config.act_mapping_type)

    @common_utils.parametrize("dtype", [torch.bfloat16, torch.float32])
    @common_utils.parametrize("compile", [True, False])
        sizes: tuple,
    ):
        """Test linear operation supports including shape and compile"""
        torch.compiler.reset()

        M, N, K = sizes
        input_tensor = torch.randn(*M, K, dtype=dtype, device="cuda")
        model = ToyTwoLinearModel(K, N, K, dtype=dtype, device="cuda").eval()
        self.assertEqual(model_q.linear2.weight.scale.ndim, 2)

        if compile:
            torch.compiler.reset()
            model_q = torch.compile(model_q, fullgraph=True)

        output_fp = model(input_tensor)

        self.assertEqual(weight1.qdata, dummy.weight.qdata.narrow(0, 0, slice_sizes[0]))
        self.assertEqual(weight2.qdata, dummy.weight.qdata.narrow(1, 0, slice_sizes[1]))
        self.assertEqual(weight1.scale, dummy.weight.scale.narrow(0, 0, slice_sizes[0]))

        if isinstance(config.granularity, PerRow):
            self.assertEqual(
                weight1.scale, dummy.weight.scale.narrow(0, 0, slice_sizes[0])
            )

        self.assertEqual(weight2.scale, dummy.weight.scale)
        with self.assertRaises(NotImplementedError):
            _ = dummy.weight[::2]

    @common_utils.parametrize("config", INT8_TEST_CONFIGS)
    @common_utils.parametrize("granularity", [PerTensor(), PerRow()])
    def test_index_select(self, config, granularity):
    def test_index_select(self, config):
        """test that `x_0 = x[0]` works when `x` is a 2D quantized tensor."""
        N, K = 256, 512
        x = torch.randn(N, K, device="cuda", dtype=torch.bfloat16)
        linear = torch.nn.Linear(K, N, bias=False, dtype=torch.bfloat16, device="cuda")
        linear.weight.data = x

        config = config(version=2, granularity=granularity)
        quantize_(linear, config)

        x_int8 = linear.weight
        )

        # Test block_size granularity
        if isinstance(granularity, PerRow):
        if isinstance(config.granularity, PerRow):
            self.assertEqual(
                list(get_block_size(x_int8.shape, config.granularity)), [1, K]
            )
        elif isinstance(granularity, PerTensor):
        elif isinstance(config.granularity, PerTensor):
            self.assertEqual(
                list(get_block_size(x_int8.shape, config.granularity)), [N, K]
            )
diff --git a/torchao/quantization/quant_api.py b/torchao/quantization/quant_api.py
            granularity=config.granularity,
            act_quant_kwargs=QuantizeTensorToInt8Kwargs(
                granularity=act_granularity,
 act_mapping_type=config.act_mapping_type,
 mapping_type=config.act_mapping_type,
            ),
        )

diff --git a/torchao/quantization/quantize_/workflows/int8/int8_tensor.py b/torchao/quantization/quantize_/workflows/int8/int8_tensor.py
    """

    granularity: Granularity = PerRow()
 act_mapping_type: MappingType = MappingType.SYMMETRIC
 mapping_type: MappingType = MappingType.SYMMETRIC


 class Int8Tensor(TorchAOBaseTensor):
    """
    int8 quantized tensor with plain layout
    int8 quantized tensor with plain layout.

    Currently only Symmetric quantization is supported.

    Tensor Attributes:
        qdata: (N, K) or (B, N, K) int8 quantized weight data (2D or 3D)
    ):
        kwargs = {
            "device": qdata.device,
            "dtype": dtype,
            "dtype": dtype or scale.dtype,
            "requires_grad": False,
        }
        return torch.Tensor._make_wrapper_subclass(cls, qdata.shape, **kwargs)
        hp_tensor: torch.Tensor,
        granularity: Granularity = PerRow(),
        act_quant_kwargs: Optional[QuantizeTensorToInt8Kwargs] = None,
        mapping_type=MappingType.SYMMETRIC,
    ):
        """Create Int8Tensor from high-precision tensor"""
        block_size = get_block_size(hp_tensor.shape, granularity)
        block_size = list(block_size)

        scale, zero_point = choose_qparams_affine(
            input=hp_tensor,
            mapping_type=MappingType.SYMMETRIC,
            mapping_type=mapping_type,
            block_size=block_size,
            target_dtype=torch.int8,
            quant_min=-128,

    if weight_tensor.act_quant_kwargs is not None:
        activation_tensor = Int8Tensor.from_hp(
            activation_tensor, weight_tensor.act_quant_kwargs.granularity
            activation_tensor,
            granularity=weight_tensor.act_quant_kwargs.granularity,
        )
        # Dynamic activation quantization path
Original file line number	Diff line number	Diff line change
Expand Up		@@ -27,12 +27,6 @@
		INT8_TEST_CONFIGS = [
		Int8WeightOnlyConfig(version=2, granularity=PerTensor()),
		Int8WeightOnlyConfig(version=2, granularity=PerRow()),
		Int8DynamicActivationInt8WeightConfig(
		version=2, granularity=PerTensor(), act_mapping_type=MappingType.ASYMMETRIC
		),
		Int8DynamicActivationInt8WeightConfig(
		version=2, granularity=PerRow(), act_mapping_type=MappingType.ASYMMETRIC
		),
		Int8DynamicActivationInt8WeightConfig(
		version=2, granularity=PerTensor(), act_mapping_type=MappingType.SYMMETRIC
		),
Expand DownExpand Up		@@ -77,13 +71,8 @@ def test_creation_and_attributes(self, config):
		elif isinstance(config.granularity, PerTensor):
		self.assertEqual(w.scale.shape, (1, 1))

		if config.act_mapping_type == MappingType.SYMMETRIC:
		self.assertEqual(w.zero_point, None)
		elif config.act_mapping_type == MappingType.ASYMMETRIC:
		if isinstance(config.granularity, PerRow):
		self.assertEqual(w.zero_point.shape, (w.shape[0], 1))
		elif isinstance(config.granularity, PerTensor):
		self.assertEqual(w.zero_point.shape, (1, 1))
		if hasattr(config, "act_mapping_type"):
		self.assertEqual(w.act_quant_kwargs.mapping_type, config.act_mapping_type)

		@common_utils.parametrize("dtype", [torch.bfloat16, torch.float32])
		@common_utils.parametrize("compile", [True, False])
Expand All		@@ -103,6 +92,8 @@ def test_int8_linear_variants(
		sizes: tuple,
		):
		"""Test linear operation supports including shape and compile"""
		torch.compiler.reset()

		M, N, K = sizes
		input_tensor = torch.randn(*M, K, dtype=dtype, device="cuda")
		model = ToyTwoLinearModel(K, N, K, dtype=dtype, device="cuda").eval()
Expand All		@@ -118,7 +109,6 @@ def test_int8_linear_variants(
		self.assertEqual(model_q.linear2.weight.scale.ndim, 2)

		if compile:
		torch.compiler.reset()
		model_q = torch.compile(model_q, fullgraph=True)

		output_fp = model(input_tensor)
Expand DownExpand Up		@@ -146,21 +136,24 @@ def test_slice(self, config, device, dtype):

		self.assertEqual(weight1.qdata, dummy.weight.qdata.narrow(0, 0, slice_sizes[0]))
		self.assertEqual(weight2.qdata, dummy.weight.qdata.narrow(1, 0, slice_sizes[1]))
		self.assertEqual(weight1.scale, dummy.weight.scale.narrow(0, 0, slice_sizes[0]))

		if isinstance(config.granularity, PerRow):
		self.assertEqual(
		weight1.scale, dummy.weight.scale.narrow(0, 0, slice_sizes[0])
		)

		self.assertEqual(weight2.scale, dummy.weight.scale)
		with self.assertRaises(NotImplementedError):
		_ = dummy.weight[::2]

		@common_utils.parametrize("config", INT8_TEST_CONFIGS)
		@common_utils.parametrize("granularity", [PerTensor(), PerRow()])
		def test_index_select(self, config, granularity):
		def test_index_select(self, config):
		"""test that `x_0 = x[0]` works when `x` is a 2D quantized tensor."""
		N, K = 256, 512
		x = torch.randn(N, K, device="cuda", dtype=torch.bfloat16)
		linear = torch.nn.Linear(K, N, bias=False, dtype=torch.bfloat16, device="cuda")
		linear.weight.data = x

		config = config(version=2, granularity=granularity)
		quantize_(linear, config)

		x_int8 = linear.weight
Expand All		@@ -172,11 +165,11 @@ def test_index_select(self, config, granularity):
		)

		# Test block_size granularity
		if isinstance(granularity, PerRow):
		if isinstance(config.granularity, PerRow):
		self.assertEqual(
		list(get_block_size(x_int8.shape, config.granularity)), [1, K]
		)
		elif isinstance(granularity, PerTensor):
		elif isinstance(config.granularity, PerTensor):
		self.assertEqual(
		list(get_block_size(x_int8.shape, config.granularity)), [N, K]
		)
Expand Down
Original file line number	Diff line number	Diff line change
Expand Up		@@ -1608,7 +1608,7 @@ def get_weight_block_size(x):
		granularity=config.granularity,
		act_quant_kwargs=QuantizeTensorToInt8Kwargs(
		granularity=act_granularity,
		act_mapping_type=config.act_mapping_type,
		mapping_type=config.act_mapping_type,
		),
		)

Expand Down
Original file line number	Diff line number	Diff line change
Expand Up		@@ -37,12 +37,14 @@ class QuantizeTensorToInt8Kwargs(QuantizeTensorKwargs):
		"""

		granularity: Granularity = PerRow()
		act_mapping_type: MappingType = MappingType.SYMMETRIC
		mapping_type: MappingType = MappingType.SYMMETRIC


		class Int8Tensor(TorchAOBaseTensor):
		"""
		int8 quantized tensor with plain layout
		int8 quantized tensor with plain layout.

		Currently only Symmetric quantization is supported.

		Tensor Attributes:
		qdata: (N, K) or (B, N, K) int8 quantized weight data (2D or 3D)
Expand DownExpand Up		@@ -73,7 +75,7 @@ def __new__(
		):
		kwargs = {
		"device": qdata.device,
		"dtype": dtype,
		"dtype": dtype or scale.dtype,
		"requires_grad": False,
		}
		return torch.Tensor._make_wrapper_subclass(cls, qdata.shape, **kwargs)
Expand DownExpand Up		@@ -110,14 +112,15 @@ def from_hp(
		hp_tensor: torch.Tensor,
		granularity: Granularity = PerRow(),
		act_quant_kwargs: Optional[QuantizeTensorToInt8Kwargs] = None,
		mapping_type=MappingType.SYMMETRIC,
		):
		"""Create Int8Tensor from high-precision tensor"""
		block_size = get_block_size(hp_tensor.shape, granularity)
		block_size = list(block_size)

		scale, zero_point = choose_qparams_affine(
		input=hp_tensor,
		mapping_type=MappingType.SYMMETRIC,
		mapping_type=mapping_type,
		block_size=block_size,
		target_dtype=torch.int8,
		quant_min=-128,
Expand DownExpand Up		@@ -179,7 +182,8 @@ def _(func, types, args, kwargs):

		if weight_tensor.act_quant_kwargs is not None:
		activation_tensor = Int8Tensor.from_hp(
		activation_tensor, weight_tensor.act_quant_kwargs.granularity
		activation_tensor,
		granularity=weight_tensor.act_quant_kwargs.granularity,
		)
		# Dynamic activation quantization path

Expand Down