Movatterモバイル変換

Skip to content

#

multimodal-deep-learning

Here are 469 public repositories matching this topic...

Language:All

Filter by language

All469 Python280 Jupyter Notebook117 JavaScript5 C++3 MATLAB2 OpenEdge ABL2 Cuda1 Dart1 HTML1 R1

Sort:Most stars

Sort options

Most stars Fewest stars Most forks Fewest forks Recently updated Least recently updated

salesforce /LAVIS

LAVIS - A One-stop Library for Language-Vision Intelligence

deep-learning salesforce image-captioning deep-learning-library vision-framework vision-and-language multimodal-deep-learning multimodal-datasets vision-language-transformer vision-language-pretraining visual-question-anwsering

UpdatedNov 18, 2024
Jupyter Notebook

AI4Finance-Foundation /FinRobot

FinRobot: An Open-Source AI Agent Platform for Financial Analysis using LLMs 🚀 🚀 🚀

finance multimodal-deep-learning robo-advisor large-language-models prompt-engineering chatgpt fingpt aiagent

UpdatedNov 17, 2024
Jupyter Notebook

Awesome-Text-to-Image

Yutong-Zhou-cv /Awesome-Text-to-Image

(ෆ`꒳´ෆ) A Survey on Text-to-Image Generation/Synthesis.

survey generative-adversarial-network image-manipulation image-generation text-to-image image-synthesis multimodal multimodal-deep-learning awseome-list text-to-face

UpdatedJul 12, 2025

KimMeen /Time-LLM

[ICLR 2024] Official implementation of " 🦙 Time-LLM: Time Series Forecasting by Reprogramming Large Language Models"

machine-learning deep-learning time-series language-model time-series-analysis time-series-forecast time-series-forecasting multimodal-deep-learning cross-modality multimodal-time-series cross-modal-learning prompt-tuning large-language-models

UpdatedNov 3, 2024
Python

kyegomez /BitNet

Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch

machine-learning deep-neural-networks artificial-intelligence deeplearning multimodal multimodal-deep-learning gpt4

UpdatedApr 4, 2025
Python

AlibabaResearch /AdvancedLiterateMachinery

A collection of original, innovative ideas and algorithms towards Advanced Literate Machinery. This project is maintained by the OCR Team in the Language Technology Lab, Tongyi Lab, Alibaba Group.

ocr computer-vision artificial-intelligence text-recognition document text-detection document-analysis end-to-end-ocr multimodal scene-text-recognition multimodal-deep-learning scene-text-detection vision-language document-understanding scene-text-detection-recognition document-recognition document-intelligence documentai vision-language-transformer vision-language-model

UpdatedApr 9, 2025
C++

DWCTOD /CVPR2024-Papers-with-Code-Demo

收集 CVPR 最新的成果，包括论文、代码和demo视频等，欢迎大家推荐！Collect the latest CVPR (Conference on Computer Vision and Pattern Recognition) results, including papers, code, and demo videos, etc., and welcome recommendations from everyone!

computer-vision segmentation object-detection cvpr multimodal-deep-learning cvpr2021 cvpr2022 llm cvpr2023 segment-anything cvpr2024

UpdatedApr 25, 2024

pytorch-widedeep

jrzaurin /pytorch-widedeep

A flexible package for multimodal-deep-learning to combine tabular data with text and images using Wide and Deep models in Pytorch

python deep-learning text images tabular-data pytorch pytorch-cv multimodal-deep-learning pytorch-nlp pytorch-transformers model-hub pytorch-tabular-data

UpdatedJul 9, 2025
Python

yuewang-cuhk /awesome-vision-language-pretraining-papers

Recent Advances in Vision and Language PreTrained Models (VL-PTMs)

bert vision-and-language multimodal-deep-learning pretraining vl-ptms

UpdatedAug 19, 2022

TheShadow29 /awesome-grounding

awesome grounding: A curated list of research papers in visual grounding

natural-language-processing computer-vision paper awesome-list arxiv papers video-understanding captioning-images captioning-videos phrase-grounding language-grounding multimodal-deep-learning grounding visual-grounding embodied-agent video-grounding image-grounding paper-roadmap

UpdatedApr 9, 2023

declare-lab /multimodal-deep-learning

This repository contains various models targetting multimodal representation learning, multimodal fusion for downstream tasks such as multimodal sentiment analysis.

multimodal-interactions multimodal-learning multimodal-sentiment-analysis multimodal-deep-learning

UpdatedMar 15, 2023
OpenEdge ABL

richard-peng-xia /awesome-multimodal-in-medical-imaging

A collection of resources on applications of multi-modal learning in medical imaging.

medical-imaging multimodal-learning visual-question-answering multimodal-deep-learning large-language-models medical-report-generation multimodal-large-language-models large-multimodal-models

UpdatedJun 5, 2025

blended-latent-diffusion

omriav /blended-latent-diffusion

Official implementation for "Blended Latent Diffusion" [SIGGRAPH 2023]

computer-vision deep-learning pytorch generative-model image-generation text-to-image diffusion multimodal multimodal-deep-learning text-to-image-synthesis diffusion-models text-guided-manipulation text-driven-editing

UpdatedJun 4, 2024
Jupyter Notebook

MMMU-Benchmark /MMMU

This repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"

machine-learning natural-language-processing deep-neural-networks computer-vision deep-learning evaluation question-answering stem multimodality multimodal-learning visual-question-answering multimodal multimodal-deep-learning foundation-models large-language-models llm llms large-multimodal-models

UpdatedMay 19, 2025
Python

remyxai /VQASynth

Compose multimodal datasets 🎹

dataset-generation spatial-reasoning synthetic-dataset-generation multimodal-deep-learning multimodal-datasets scene-reconstruction

UpdatedJun 10, 2025
Python

kyegomez /Med-PaLM

Towards Generalist Biomedical AI

opensource deep-learning multimodality biomedical multimodal multimodal-deep-learning gpt4

UpdatedFeb 17, 2024
Python

jianghaojun /Awesome-Parameter-Efficient-Transfer-Learning

A collection of parameter-efficient transfer learning papers focusing on computer vision and multimodal domains.

machine-learning computer-vision deep-learning transfer-learning multimodal-deep-learning parameter-efficient-learning parameter-efficient-tuning

UpdatedSep 26, 2024

theislab /scarches

Reference mapping for single-cell genomics

deep-learning scrna-seq data-integration single-cell rna-seq-analysis single-cell-genomics batch-correction multimodal-deep-learning multiomics human-cell-atlas

UpdatedMay 22, 2025
Jupyter Notebook

westlake-repl /Recommendation-Systems-without-Explicit-ID-Features-A-Literature-Review

Paper List of Pre-trained Foundation Recommender Models

recommendation-system recommender-system transfer-learning language-model multimodal multimodal-deep-learning transferable pre-training cross-domain-recommendation llm chatgpt chatgpt3 foundation-model large-language-model llm4rec cross-domainrecommendation gpt4rec chatgpt4rec multimodalrecommendation llm-recommendation

UpdatedAug 12, 2024

fcakyon /content-moderation-deep-learning

Deep learning based content moderation from text, audio, video & image input modalities.

profanity-detection nudity-detection genre-classification violence-detection multimodal-deep-learning movie-trailer nsfw-recognition content-moderation content-ratings movie-content-filter

UpdatedJul 5, 2025

Improve this page

Add a description, image, and links to themultimodal-deep-learning topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with themultimodal-deep-learning topic, visit your repo's landing page and select "manage topics."

[8]ページ先頭

©2009-2025 Movatter.jp