vision-transformer

[NeurIPS 2024 Best Paper Award][GPT beats diffusion🔥] [scaling laws in visual generation📈] Official impl. of "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction". An *ultra-simple, user-friendly yet state-of-the-art* codebase for autoregressive image generation!

transformers generative-model image-generation auto-regressive-model gpt neurips gpt-2 diffusion-models autoregressive-models vision-transformer large-language-models generative-ai

UpdatedNov 10, 2025
Jupyter Notebook

adithya-s-k /omniparse

Sponsor

Star6.8k

Ingest, parse, and optimize any data format ➡️ from documents to multimedia ➡️ for enhanced compatibility with GenAI frameworks

ocr parser-library web-crawler parse-server whisper-api ingestion-api vision-transformer omniparser

UpdatedDec 12, 2025
Python

JingyunLiang /SwinIR

Star5.2k

SwinIR: Image Restoration Using Swin Transformer (official repository)

decompression transformer super-resolution image-denoising image-restoration restoration denoising image-super-resolution low-level-vision deblocking vision-transformer image-deblocking compression-artifact-reduction real-world-image-super-resolution lightweight-image-super-resolution image-sr

UpdatedMay 14, 2024
Python

cmhungsteve /Awesome-Transformer-Attention

Star5k

An ultimately comprehensive paper list of Vision Transformer/Attention, including papers, codes, and related websites

computer-vision deep-learning transformers transformer awesome-list vit papers attention-mechanism attention-mechanisms self-attention transformer-architecture transformer-models detr vision-transformer transformer-cv transformer-with-cv transformer-awesome visual-transformer

UpdatedJul 30, 2024

huawei-noah /Efficient-AI-Backbones

Star4.4k

Efficient AI Backbones including GhostNet, TNT and MLP, developed by Huawei Noah's Ark Lab.

tensorflow pytorch transformer imagenet convolutional-neural-networks pretrained-models model-compression efficient-inference ghostnet vision-transformer

UpdatedMar 15, 2025
Python

open-mmlab /mmpretrain

Star3.8k

OpenMMLab Pre-training Toolbox and Benchmark

deep-learning pytorch image-classification resnet pretrained-models clip mae mobilenet moco multimodal self-supervised-learning constrastive-learning beit vision-transformer swin-transformer masked-image-modeling convnext

UpdatedNov 1, 2024
Python

google-research /scenic

Star3.7k

Scenic: A Jax Library for Computer Vision Research and Beyond

research computer-vision deep-learning transformers attention jax vision-transformer

UpdatedDec 16, 2025
Python

towhee-io /towhee

Star3.4k

Towhee is a framework that is dedicated to making neural data processing pipelines simple and fast.

machine-learning computer-vision pipeline image-processing embeddings transformer video-processing feature-extraction convolutional-networks vit feature-vector image-retrieval unstructured-data embedding-vectors milvus vision-transformer towhee llm

UpdatedOct 18, 2024
Python

mit-han-lab /efficientvit

Star3.2k

Efficient vision foundation models for high-resolution generation and perception.

imagenet segmentation high-resolution vision-transformer efficientvit segment-anything deep-compression-autoencoder efficient-diffusion-model

UpdatedSep 5, 2025
Python

InternLM /InternLM-XComposer

Star2.9k

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

foundation gpt language-model multimodal multi-modality vision-transformer gpt-4 visual-language-learning llm chatgpt instruction-tuning large-language-model supervised-finetuning mllm vision-language-model large-vision-language-model

UpdatedMay 26, 2025
Python

baaivision /EVA

Star2.6k

EVA Series: Visual Representation Fantasies from BAAI

representation-learning vision-transformer foundation-models

UpdatedAug 1, 2024
Python

OpenGVLab /InternVideo

Star2.1k

[ECCV2024] Video Foundation Models & Data for Multimodal Understanding

benchmark action-recognition video-understanding video-data self-supervised multimodal video-dataset open-set-recognition video-retrieval video-question-answering masked-autoencoder temporal-action-localization contrastive-learning spatio-temporal-action-localization zero-shot-retrieval video-clip vision-transformer zero-shot-classification foundation-models instruction-tuning

UpdatedDec 15, 2025
Python

hila-chefer /Transformer-Explainability

Star2k

[CVPR 2021] Official PyTorch implementation for Transformer Interpretability Beyond Attention Visualization, a novel method to visualize classifications by Transformer based networks.

deep-learning vit bert perturbation attention-visualization bert-model explainability attention-matrix vision-transformer transformer-interpretability visualize-classifications cvpr2021

UpdatedJan 24, 2024
Jupyter Notebook

Blaizzy /mlx-vlm

Sponsor

Star1.9k

MLX-VLM is a package for inference and fine-tuning of Vision Language Models (VLMs) on your Mac using MLX.

mlx vision-framework apple-silicon vision-transformer llm vision-language-model llava local-ai idefics florence2 paligemma pixtral molmo

UpdatedDec 17, 2025
Python

NVlabs /MambaVision

Star1.9k

[CVPR 2025] Official PyTorch Implementation of MambaVision: A Hybrid Mamba-Transformer Vision Backbone

deep-learning transformers image-classification object-detection semantic-segmentation mamba visual-recognition instance-segmentation self-attention hybrid-models huggingface-transformers vision-transformer foundation-models

UpdatedJul 22, 2025
Python

alibaba /EasyCV

Star1.9k

An all-in-one toolkit for computer vision

computer-vision transformers pytorch classification object-detection self-supervised-learning vision-transformer

UpdatedMay 9, 2025
Python

ViTAE-Transformer /ViTPose

Star1.9k

The official repo for [NeurIPS'22] "ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation" and [TPAMI'23] "ViTPose++: Vision Transformer for Generic Body Pose Estimation"

deep-learning pytorch pose-estimation mae distillation self-supervised-learning vision-transformer

UpdatedSep 25, 2025
Python

Improve this page

Add a description, image, and links to thevision-transformer topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with thevision-transformer topic, visit your repo's landing page and select "manage topics."

Learn more

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

vision-transformer

Here are 1,393 public repositories matching this topic...

open-mmlab /mmdetection

lukas-blecher /LaTeX-OCR

NielsRogge /Transformers-Tutorials

FoundationVision /VAR

adithya-s-k /omniparse

JingyunLiang /SwinIR

cmhungsteve /Awesome-Transformer-Attention

huawei-noah /Efficient-AI-Backbones

open-mmlab /mmpretrain

google-research /scenic

towhee-io /towhee

mit-han-lab /efficientvit

InternLM /InternLM-XComposer

baaivision /EVA

OpenGVLab /InternVideo

hila-chefer /Transformer-Explainability

Blaizzy /mlx-vlm

NVlabs /MambaVision

alibaba /EasyCV

ViTAE-Transformer /ViTPose

Improve this page

Add this topic to your repo