Movatterモバイル変換

Skip to content

#

multi-modality

Here are 85 public repositories matching this topic...

Language:All

Filter by language

All85 Python64 Jupyter Notebook10 C++2 JavaScript1 MATLAB1 Shell1 TeX1 TypeScript1

Sort:Most stars

Sort options

Most stars Fewest stars Most forks Fewest forks Recently updated Least recently updated

haotian-liu /LLaVA

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

chatbot llama multimodal multi-modality gpt-4 foundation-models visual-language-learning chatgpt instruction-tuning vision-language-model llava llama2 llama-2

UpdatedAug 12, 2024
Python

BradyFU /Awesome-Multimodal-Large-Language-Models

✨✨Latest Advances on Multimodal Large Language Models

multi-modality instruction-following in-context-learning large-language-models chain-of-thought instruction-tuning visual-instruction-tuning large-vision-language-model multimodal-instruction-tuning large-vision-language-models multimodal-large-language-models multimodal-in-context-learning multimodal-chain-of-thought

UpdatedMar 21, 2025

clip-as-service

jina-ai /clip-as-service

🏄 Scalable embedding, reasoning, ranking for images and sentences with CLIP

deep-learning pytorch openai bert sentence2vec onnx cross-modality multi-modality image2vec sentence-encoding bert-as-service cross-modal-retrieval neural-search clip-model clip-as-service

UpdatedJan 23, 2024
Python

swarms

kyegomez /swarms

The Enterprise-Grade Production-Ready Multi-Agent Orchestration Framework. Website:https://swarms.ai

machine-learning ai artificial-intelligence prompt-toolkit swarms attention-mechanism agents multimodal multi-modality multi-modal-imaging huggingface transformer-models gpt4 prompt-engineering prompting chatgpt langchain gpt4all langchain-python tree-of-thoughts

UpdatedMar 18, 2025
Python

lucidrains /deep-daze

Simple command line tool for text to image generation using OpenAI's CLIP and Siren (Implicit neural representation network). Technique was originally created byhttps://twitter.com/advadnoun

deep-learning transformers artificial-intelligence siren text-to-image multi-modality implicit-neural-representation

UpdatedMar 13, 2022
Python

Otter

EvolvingLMMs-Lab /Otter

🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind's Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.

machine-learning deep-learning multi-modality artificial-inteligence embodied-ai gpt-4 foundation-models large-scale-models visual-language-learning chatgpt instruction-tuning

UpdatedMar 5, 2024
Python

InternLM /InternLM-XComposer

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

foundation gpt language-model multimodal multi-modality vision-transformer gpt-4 visual-language-learning llm chatgpt instruction-tuning large-language-model supervised-finetuning mllm vision-language-model large-vision-language-model

UpdatedJan 22, 2025
Python

DLR-RM /3DObjectTracking

Algorithms and Publications on 3D Object Tracking

tracking real-time computer-vision paper object-tracking rgbd pose-estimation ijcv multi-modality articulated tpami multi-body accv2020 cvpr2022 iros2023

UpdatedMay 16, 2024
C++

OpenBMB /VisRAG

Parsing-free RAG supported by VLMs

retrieval multi-modal document-retrieval rag multi-modality document-understanding vision-language-model retrieval-augmented-generation

UpdatedFeb 19, 2025
Python

OpenGVLab /Multi-Modality-Arena

Chatbot Arena meets multi-modality! Multi-Modality Arena allows you to benchmark vision-language models side-by-side while providing images as inputs. Supports MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP-2, and many more!

chat chatbot vqa gradio multi-modality large-language-models llms chatgpt vision-language-model

UpdatedApr 21, 2024
Python

kyegomez /Gemini

The open source implementation of Gemini, the model that will "eclipse ChatGPT" by Google

machine-learning ai ml artificial-intelligence gemini multi-modality gpt4 multimodla

UpdatedMar 17, 2025
Python

ziqihuangg /Collaborative-Diffusion

[CVPR 2023] Collaborative Diffusion

image-editing image-generation face-generation multi-modality face-editing diffusion-models aigc stable-diffusion latent-diffusion-models gen-ai

UpdatedNov 28, 2023
Python

researchmm /MM-Diffusion

[CVPR'23] MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

video-generation multi-modality diffusion-models content-creation audio-generation

UpdatedJun 5, 2024
Python

xiaoachen98 /Open-LLaVA-NeXT

An open-source implementation for training LLaVA-NeXT.

chatbot llama multimodal multi-modality gpt-4 visual-language-learning chatgpt vision-language-model llava large-multimodal-models llama3 gpt4o llava-next

UpdatedOct 23, 2024
Python

kyegomez /Sophia

Effortless plugin and play Optimizer to cut model training costs by 50%. New optimizer that is 2x faster than Adam on LLMs.

deep-learning neural-network optimizer artificial-intelligence multi-modality chatgpt

UpdatedJun 4, 2024
Python

LSXI7 /MINIMA

[CVPR 2025] MINIMA: Modality Invariant Image Matching

image-matching multi-modality cvpr2025

UpdatedMar 14, 2025
Python

DerrickWang005 /CRIS.pytorch

An official PyTorch implementation of the CRIS paper

multi-modality referring-image-segmentation contrastive-learning

UpdatedJun 9, 2024
Python

RLHF-V /RLHF-V

[CVPR'24] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

chatbot llama multimodal multi-modality gpt-4 visual-language-learning rlhf-v

UpdatedSep 11, 2024
Python

dvlab-research /VisionZip

Official repository for VisionZip (CVPR 2025)

efficiency multi-modality vision-language-model vlms

UpdatedFeb 27, 2025
Python

ZwwWayne /mmMOT

[ICCV2019] Robust Multi-Modality Multi-Object Tracking

mot multi-modality iccv2019

UpdatedDec 7, 2019
Python

Improve this page

Add a description, image, and links to themulti-modality topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with themulti-modality topic, visit your repo's landing page and select "manage topics."

[8]ページ先頭

©2009-2025 Movatter.jp