siglip

Star

Here are 27 public repositories matching this topic...

Language:All

Filter by language

All27 Python17 Jupyter Notebook6

Sort:Most stars

Sort options

Most stars Fewest stars Most forks Fewest forks Recently updated Least recently updated

gokayfem /ComfyUI_VLM_nodes

Star475

Custom ComfyUI nodes for Vision Language Models, Large Language Models, Image to Music, Text to Music, Consistent and Random Creative Prompt Generation

image-captioning nodes vlm custom-nodes img2text llm mllm llava comfyui siglip phi15 joytag img2sfx

UpdatedFeb 13, 2025
Python

merveenoyan /siglip

Star218

Projects based on SigLIP (Zhai et. al, 2023) and Hugging Face transformers integration 🤗

machine-learning computer-vision multimodal-learning siglip

UpdatedFeb 21, 2025
Jupyter Notebook

MCG-NJU /AWT

Star95

[NeurIPS 2024] AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation

computer-vision transfer-learning clip video-understanding zero-shot-learning open-set-recognition vlms siglip

UpdatedOct 5, 2024
Python

rizavelioglu /tryoffdiff

Star83

Official repository of "TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models".

fashion pytorch e-commerce demo-app image-to-image diffusion virtual-try-on stable-diffusion huggingface-diffusers siglip virtual-try-off

UpdatedJan 20, 2025
Python

qubvel /transformers-notebooks

Star69

Inference and fine-tuning examples for vision models from 🤗 Transformers

transformers inference object-detection pose-estimation depth-estimation fine-tuning detr superglue vision-transformer keypoint-matching vitpose siglip depth-pro rt-detr-v2

UpdatedFeb 26, 2025
Jupyter Notebook

OrvilleX /MachineLearning

Star66

本项目以应用为主出发，结合了从基础的机器学习、深度学习到目标检测以及目前最新的大模型，采用目前成熟的第三方库、开源预训练模型以及相关论文的最新技术，目的是记录学习的过程同时也进行分享以供更多人可以直接进行使用。

machine-learning tensorflow numpy svm sklearn scipy knn spark-mllib llm mllm siglip

UpdatedMar 2, 2025
Jupyter Notebook

NikosEfth /freedom

Star43

Official PyTorch implementation of the WACV 2025 Oral paper "Composed Image Retrieval for Training-FREE DOMain Conversion".

computer-vision deep-learning neural-networks cross-domain clip image-retrieval cross-domain-learning composed-image-retrieval training-free siglip domain-conversion

UpdatedJan 24, 2025
Python

rhysdg /vision-at-a-clip

Sponsor

Star36

Low-latency ONNX and TensorRT based zero-shot classification and detection with contrastive language-image pre-training based prompts

machine-learning clip tensorrt onnx zero-shot-classification zero-shot-object-detection foundation-models grounding-dino siglip

UpdatedAug 31, 2024
Jupyter Notebook

miccunifi /Cross-the-Gap

Star35

[ICLR 2025] - Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion

image-classification clip image-retrieval vlm ovi text-retrieval multimodal vision-language oti contrastive-learning textual-inversion vision-language-model siglip iclr2025 modality-gap modality-inversion intra-modal inter-modal intra-modal-misalignment visual-inversion

UpdatedFeb 7, 2025

filipbasara0 /simple-clip

Star28

A minimal, but effective implementation of CLIP (Contrastive Language-Image Pretraining) in PyTorch

machine-learning deep-learning pytorch representation-learning self-supervised-learning multi-modal-learning contrastive-learning zero-shot-classification siglip

UpdatedFeb 14, 2024
Jupyter Notebook

awsaf49 /flickr-dataset

Star16

Download flickr8k, flickr30k image caption datasets

image flickr dataset clip captioning-images image-text flickr8k flickr30k siglip

UpdatedFeb 6, 2024

ola-krutrim /Chitrarth

Star9

Chitrarth: Bridging Vision and Language for a Billion People

image transformers vlm siglip

UpdatedFeb 12, 2025
Python

seanvelasco /memegraph

Sponsor

Star7

Meme search and discovery engine using OpenAI CLIP and Salesforce BLIP

memes transformer openai search-algorithm clip mlx siglip catlip corenet

UpdatedNov 6, 2024
Python

alejandroolivo /ObjectClassification-with-fastSAM-and-embeddings

Star5

Este proyecto presenta una solución de Computer Vision para la detección y clasificación de objetos en imágenes, las cuales son extraídas como frames de vídeos. Utiliza el modelo FastSAM para la detección de objetos, y para la clasificación, emplea embeddings que pueden ser generados mediante dos modelos distintos: CLIP o SigLIP.

python computer-vision clip fastsam siglip