visual-language-models

Star

Here are 56 public repositories matching this topic...

Language:All

Filter by language

All56 Python37 Jupyter Notebook7 JavaScript2 Rust2 C++1 R1 TypeScript1

Sort:Most stars

Sort options

Most stars Fewest stars Most forks Fewest forks Recently updated Least recently updated

zai-org /CogVLM

Star6.7k

a state-of-the-art-level open visual language model | 多模态预训练模型

pretrained-models language-model multi-modal cross-modality visual-language-models

UpdatedMay 29, 2024
Python

camel-ai /crab

Sponsor

Star399

🦀️ CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents.https://crab.camel-ai.org/

multi-agent-systems gui-automation large-language-models language-model-agent visual-language-models

UpdatedFeb 20, 2026
Python

MiniMax-AI /One-RL-to-See-Them-All

Star331

The official repo of One RL to See Them All: Visual Triple Unified Reinforcement Learning

rl vlm visual-language-models vlm-rl v-triune orsta

UpdatedMay 31, 2025
Python

bilel-bj /ROSGPT_Vision

Star104

Commanding robots using only Language Models' prompts

robotics language-models ros2 robotic-vision large-language-models llm prompt-engineering chatgpt language-models-are-next robotic-design-patterns prompting-robotic-modalities visual-language-models

UpdatedFeb 16, 2025
Python

hk-zh /language-conditioned-robot-manipulation-models

Star78

https://arxiv.org/abs/2312.10807

reinforcement-learning imitation-learning robot-manipulation neural-symbolic foundation-models visual-language-models language-conditioned-learning large-languge-models

UpdatedDec 29, 2025

kesimeg /awesome-turkish-language-models

Star67

A curated list of Turkish AI models, datasets, papers

awesome turkish speech awesome-list turkish-language vlm turkish-nlp large-language-models llm visual-language-models

UpdatedFeb 17, 2026

BioMedIA-MBZUAI /FetalCLIP

Star57

Official repository of FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis

artificial-intelligence medical-imaging ultrasound-imaging foundation-models visual-language-models fetal-ultrasound fetalclip

UpdatedFeb 5, 2026
Python

xinyanghuang7 /Basic-Visual-Language-Model

Star47

Build a simple basic multimodal large model from scratch. 从零搭建一个简单的基础多模态大模型🤖

visual-language-learning large-language-models visual-language-models multimodel-large-language-model

UpdatedJun 19, 2024
Python

jaisidhsingh /CoN-CLIP

Star39

Implementation of the "Learn No to Say Yes Better" paper.

deep-learning pytorch multimodal compositionality image-captions image-text-matching visual-language-models

UpdatedOct 30, 2025
Python

yangjie-cv /WeThink

Star36

WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning

reinforcement-learning visual-reasoning mllm visual-language-models multimodal-reasoning

UpdatedJun 10, 2025
Python

AlignGPT-VL /AlignGPT

Star34

Official repo for "AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability"

large-language-models multimodal-large-language-models visual-language-models

UpdatedJul 12, 2024
Python

tianyu-z /VCR

Star32

Official Repo for the paper: VCR: Visual Caption Restoration. Check arxiv.org/pdf/2406.06462 for details.

benchmark deep-learning visual-language-models

UpdatedFeb 26, 2025
Python

Sid2697 /HOI-Ref

Star29

Code implementation for paper titled "HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision"

dataset dataset-generation vlm hand-object-interaction egocentric-vision large-language-models visual-language-models

UpdatedApr 16, 2024
Python

amathislab /wildclip

Star27

Scene and animal attribute retrieval from camera trap data with domain-adapted vision-language models

behavior computer-vision clip camera-trap computervision visual-language-models

UpdatedMar 8, 2024
Python

avanturist322 /awesome-memory-vla

Star24

Awesome Memory-VLA: A curated list of Visual-Language-Action models with memory

robotics memory vla pomdp vlm embodied-ai long-horizon visual-language-models long-context-modeling visual-language-action-models memory-vlm memory-vla

UpdatedJan 22, 2026

csebuetnlp /IllusionVQA

Star24

This repository contains the data and code of the paper titled "IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models"

vqa vqa-dataset optical-illusions visual-language-models

UpdatedApr 27, 2025
Jupyter Notebook

sduzpf /UAP_VLP

Star24

Universal Adversarial Perturbations for Vision-Language Pre-trained Models

deep-neural-networks adversarial-attacks visual-language-models

UpdatedAug 8, 2025
Python

CristianoPatricio /concept-based-interpretability-VLM

Star14

Code for the paper "Towards Concept-based Interpretability of Skin Lesion Diagnosis using Vision-Language Models", IEEE ISBI 2024 (Oral).

deep-learning medical-imaging clip interpretability explainable-ai skin-lesion-classification melanoma-diagnosis concept-based-explanations visual-language-models ieee-isbi

UpdatedJun 5, 2024
Jupyter Notebook

Linvyl /DAM-QA

Star13

[ICCVW 2025] Implementation for DAM-QA: Describe Anything Model for Visual Question Answering on Text-rich Images

vision-document visual-language-models describe-anything dam-qa

UpdatedSep 13, 2025
Python

openmap-project /OpenMap

Star12

Official implementation of OpenMap: Instruction Grounding via Open-Vocabulary Visual-Language Mapping (ACM MM 2025)

mapping embodied-navigation open-vocabulary visual-language-models 3d-semantic-mapping

UpdatedJan 22, 2026
Python

Improve this page

Add a description, image, and links to thevisual-language-models topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with thevisual-language-models topic, visit your repo's landing page and select "manage topics."

Learn more

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

visual-language-models

Here are 56 public repositories matching this topic...

zai-org /CogVLM

camel-ai /crab

MiniMax-AI /One-RL-to-See-Them-All

bilel-bj /ROSGPT_Vision

hk-zh /language-conditioned-robot-manipulation-models

kesimeg /awesome-turkish-language-models

BioMedIA-MBZUAI /FetalCLIP

xinyanghuang7 /Basic-Visual-Language-Model

jaisidhsingh /CoN-CLIP

yangjie-cv /WeThink

AlignGPT-VL /AlignGPT

tianyu-z /VCR

Sid2697 /HOI-Ref

amathislab /wildclip

avanturist322 /awesome-memory-vla

csebuetnlp /IllusionVQA

sduzpf /UAP_VLP

CristianoPatricio /concept-based-interpretability-VLM

Linvyl /DAM-QA

openmap-project /OpenMap

Improve this page

Add this topic to your repo