image-text-retrieval

Offline semantic Text-to-Image and Image-to-Image search on Android powered by quantized state-of-the-art vision-language pretrained CLIP model and ONNX Runtime inference engine

android kotlin nlp computer-vision deep-learning image-search quantization clip semantic-search image-retrieval onnx cross-modal-retrieval image-text-matching image-text-retrieval

UpdatedMar 28, 2024
Kotlin

greyovo /PicQuery

Star450

🔍 Search local images with natural language on Android, powered by OpenAI's CLIP model. / 在 Android 上用自然语言搜索本地图片 (基于 OpenAI 的 CLIP 模型)

android openai clip image-text-search jetpack-compose image-text-retrieval material-design-3

UpdatedJul 8, 2025
Kotlin

Paranioar /Awesome_Matching_Pretraining_Transfering

Star433

The Paper List of Large Multi-Modality Model (Perception, Generation, Unification), Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insight.

tutorial awesome-list vision-and-language video-text-recognition text-to-image-synthesis cross-modal-retrieval visual-semantic-embedding image-text-matching video-text-retrieval image-text-retrieval multimodal-pretraining large-language-models text-to-image-generation large-language-model large-vision-language-models multimodal-large-language-models memory-efficient-tuning parameter-efficient-fine-tuning text-to-video-generation large-vision-models

UpdatedSep 25, 2025

Paranioar /SGRAF

Star219

[AAAI2021] The code of “Similarity Reasoning and Filtration for Image-Text Matching”

image-retrieval aaai text-matching similarity-metric cross-modal-retrieval image-text-matching image-text-retrieval

UpdatedApr 11, 2024
Python

chuhaojin /Text2Poster-ICASSP-22

Star213

Official implementation of the ICASSP-2022 paper "Text2Poster: Laying Out Stylized Texts on Retrieved Images"

deep-learning image-processing pytorch artificial-neural-networks object-detection image-retrieval banner-generator banner-advertisements encoder-decoder-architecture image-text-retrieval aigc layout-design multimodal-generation poster-generation geneative-creation

UpdatedDec 18, 2023
Python

alipay /Ant-Multi-Modal-Framework

Star169

Research Code for Multimodal-Cognition Team in Ant Group

video-editing multimodal-learning video-text-retrieval image-text-retrieval multimodal-llm

UpdatedOct 14, 2025
Python

howard-hou /BagFormer

Star100

PyTorch code for BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

vision-language cross-modal-retrieval image-text-retrieval

UpdatedJan 14, 2023
Python

X-PLUG /mPLUG

Star96

mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections. (EMNLP 2022)

pytorch transformer vqa image-captioning visual-language image-text multimodal pretraining image-text-retrieval

UpdatedMay 8, 2023
Python

hpc203 /Chinese-CLIP-opencv-onnxrun

Star79

使用OpenCV+onnxruntime部署中文clip做以文搜图，给出一句话来描述想要的图片，就能从图库中搜出来符合要求的图片。包含C++和Python两个版本的程序

clip opencv-dnn image-text-retrieval multimodal-large-language-models

UpdatedJan 15, 2024
C++

MILVLG /rosita

Star56

ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration

vqa vision-and-language pre-training referring-expression-comprehension image-text-retrieval

UpdatedJun 13, 2023
Python

cobanov /image-captioning

Star49

Image captioning using python and BLIP

image-captioning blip visual-reasoning vision-language image-text-retrieval img2text

UpdatedAug 16, 2023
Python

eric-ai-lab /ComCLIP

Star36

Official implementation and dataset for the NAACL 2024 paper "ComCLIP: Training-Free Compositional Image and Text Matching"

causality clip svo slip vision-and-language compositionality flickr8k-dataset image-text-matching flickr30k image-text-retrieval winoground blip2

UpdatedAug 18, 2024
Python

eric-ai-lab /CPL

Star34

Official implementation of our EMNLP 2022 paper "CPL: Counterfactual Prompt Learning for Vision and Language Models"

vqa image-classification causal-inference vision-and-language image-text-retrieval counterfactual-reasoning prompt-tuning

UpdatedDec 5, 2022
Python

Paranioar /RCAR

Star33

[TIP2023] The code of “Plug-and-Play Regulators for Image-Text Matching”

tip image-retrieval text-matching regulator cross-modal-retrieval image-text-matching image-text-retrieval

UpdatedApr 11, 2024
Python

ytaek-oh /fsc-clip

Star19

[EMNLP 2024] Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

compositionality zero-shot-classification image-text-retrieval vision-language-models

UpdatedOct 8, 2024
Python

alipay /PC2-NoiseofWeb

Star15

Noise of Web (NoW) is a challenging noisy correspondence learning (NCL) benchmark containing 100K image-text pairs for robust image-text matching/retrieval models.

benchmark dataset captioning-images multimodal-learning cross-modal-retrieval acmmm image-text-matching image-text-retrieval noisy-correspondence acmmm2024

UpdatedAug 15, 2025
Python

frank-chris /ImageTextRetrieval

Star11

In this work, we implement different cross-modal learning schemes such as Siamese Network, Correlational Network and Deep Cross-Modal Projection Learning model and study their performance. We also propose a modified Deep Cross-Modal Projection Learning model that uses a different image feature extractor. We evaluate the model’s performance on im…

flask tensorflow pytorch cross-modal-retrieval cross-modal-learning image-text-retrieval

UpdatedAug 23, 2021
Jupyter Notebook

Improve this page

Add a description, image, and links to theimage-text-retrieval topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with theimage-text-retrieval topic, visit your repo's landing page and select "manage topics."

Learn more

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly