post-training-quantization

Star

Here are 56 public repositories matching this topic...

Language:All

Filter by language

All56 Python38 Jupyter Notebook12 C++3 C1

Sort:Most stars

Sort options

Most stars Fewest stars Most forks Fewest forks Recently updated Least recently updated

intel /neural-compressor

Star2.6k

SOTA low-bit LLM quantization (INT8/FP8/MXFP8/INT4/MXFP4/NVFP4) & sparsity; leading model compression techniques on PyTorch, TensorFlow, and ONNX Runtime

sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat

UpdatedFeb 20, 2026
Python

micronet, a model compression and deploy lib. compression: 1、quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference)、Low-Bit(≤2b)/Ternary and Binary(TWN/BNN/XNOR-Net); post-training-quantization(PTQ), 8-bit(tensorrt); 2、 pruning: normal、reg…

pytorch pruning convolutional-networks quantization xnor-net tensorrt model-compression bnn neuromorphic-computing group-convolution onnx network-in-network tensorrt-int8-python dorefa twn network-slimming integer-arithmetic-only quantization-aware-training post-training-quantization batch-normalization-fuse

UpdatedMay 6, 2025
Python

alibaba /TinyNeuralNetwork

Star864

TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

deep-neural-networks deep-learning pytorch pruning model-compression model-converter quantization-aware-training post-training-quantization

UpdatedDec 24, 2025
Python

SqueezeAILab /SqueezeLLM

Star713

[ICML 2024] SqueezeLLM: Dense-and-Sparse Quantization

natural-language-processing text-generation transformer llama quantization model-compression efficient-inference post-training-quantization large-language-models llm small-models localllm

UpdatedAug 13, 2024
Python

Xiuyu-Li /q-diffusion

Star370

[ICCV 2023] Q-Diffusion: Quantizing Diffusion Models.

pytorch quantization model-compression diffusion-models post-training-quantization ddim stable-diffusion

UpdatedMar 21, 2024
Python

megvii-research /FQ-ViT

Star360

[IJCAI 2022] FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer

pytorch imagenet quantization post-training-quantization vision-transformer

UpdatedApr 11, 2023
Python

megvii-research /Sparsebit

Star333

A model compression and acceleration toolbox based on pytorch.

deep-learning sparse pruning quantization tensorrt quantization-aware-training post-training-quantization

UpdatedJan 12, 2024
Python

Hsu1023 /DuQuant

Star180

[NeurIPS 2024 Oral🔥] DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs.

quantization post-training-quantization large-language-models llm

UpdatedOct 3, 2024
Python

sayakpaul /Adventures-in-TensorFlow-Lite

Star173

This repository contains notebooks that show the usage of TensorFlow Lite for quantizing deep neural networks.

inference pruning tensorflow-lite tensorflow-2 on-device-ml tf-hub model-quantization model-optimization quantization-aware-training post-training-quantization tf-lite-model

UpdatedJan 23, 2023
Jupyter Notebook

IST-DASLab /qutlass

Star166

QuTLASS: CUTLASS-Powered Quantized BLAS for Deep Learning

cuda blackwell quantization-aware-training post-training-quantization

UpdatedNov 11, 2025
C++

hkproj /quantization-notes

Star119

Notes on quantization in neural networks

deep-learning pytorch neural-networks quantization quantization-aware-training post-training-quantization

UpdatedDec 14, 2023
Jupyter Notebook

ModelTC /TFMQ-DM

Star108

[CVPR 2024 Highlight & TPAMI 2025] This is the official PyTorch implementation of "TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models".

highlight quantization cvpr ldm diffusion-models tpami post-training-quantization ddim stable-diffusion cvpr2024 tpami2025