audio-generation

Star

Here are 174 public repositories matching this topic...

Language:All

Filter by language

All174 Python105 TypeScript16 Jupyter Notebook15 Go3 Rust3 JavaScript2 PowerShell2 C1 C#1 C++1

Sort:Most stars

Sort options

Most stars Fewest stars Most forks Fewest forks Recently updated Least recently updated

mudler /LocalAI

Sponsor

Star42.9k

🤖 The free, Open Source alternative to OpenAI, Claude and others. Self-hosted and local-first. Drop-in replacement, running on consumer-grade hardware. No GPU required. Runs gguf, transformers, diffusers and many more. Features: Generate Text, MCP, Audio, Video, Images, Voice Cloning, Distributed, P2P and decentralized inference

api ai mcp decentralized text-generation distributed tts image-generation llama object-detection mamba libp2p gemma mistral audio-generation llm stable-diffusion rwkv musicgen rerank

UpdatedFeb 20, 2026
Go

FunAudioLLM /CosyVoice

Star19.6k

Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.

python text-to-speech japanese chatbot multi-lingual tts english chinese korean cantonese natural-language-generation cross-lingual fine-grained fine-tuning voice-cloning audio-generation chatgpt gpt-4o cosyvoice

UpdatedFeb 11, 2026
Python

open-mmlab /Amphion

Star9.7k

Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development.

text-to-speech audit speech-synthesis audio-synthesis music-generation voice-conversion vocoder emilia text-to-audio fastspeech2 vits audio-generation singing-voice-conversion vall-e audioldm naturalspeech2 maskgct

UpdatedMay 27, 2025
Python

multimodal-art-projection /YuE

Star6k

YuE: Open Full-song Music Generation Foundation Model, something similar to Suno.ai but open

ai deep-learning llama gpt music-generation voice-cloning huggingface style-transfers audio-generation foundation-models llms

UpdatedJun 4, 2025
Python

rsxdalv /TTS-WebUI

Star3k

A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice, XTTSv2, DIA, Kokoro, OpenVoice, ParlerTTS, Stable Audio, MMS, StyleTTS2, MAGNet, AudioGen, MusicGen, Tortoise, RVC, Vocos, Demucs, SeamlessM4T, and Bark!

music text-to-speech ai generator tts rvc gradio openvoice openai-api audio-generation generative-ai tortoise-tts musicgen vocos styletts2 cosyvoice ace-step

UpdatedFeb 19, 2026
TypeScript

haoheliu /AudioLDM

Sponsor

Star2.8k

AudioLDM: Generate speech, sound effects, music and beyond, with text.

audio-generation

UpdatedJun 25, 2025
Python

vllm-project /vllm-omni

Sponsor

Star2.8k

A framework for efficient model inference with omni-modality models

inference pytorch transformer image-generation diffusion model-serving multimodal video-generation audio-generation

UpdatedFeb 20, 2026
Python

haoheliu /AudioLDM2

Sponsor

Star2.6k

Text-to-Audio/Music Generation

audio-generation

UpdatedSep 29, 2024
Python

archinetai /audio-diffusion-pytorch

Sponsor

Star2.1k

Audio generation using diffusion models, in PyTorch.

deep-learning artificial-intelligence denoising-diffusion audio-generation

UpdatedJun 12, 2023
Python

archinetai /audio-ai-timeline

Sponsor

Star1.9k

A timeline of the latest AI models for audio generation, starting in 2023!

machine-learning artificial-intelligence audio-generation

UpdatedJan 4, 2024

FunAudioLLM /FunMusic

Star1.3k

A fundamental toolkit designed for music, song, and audio generation

pytorch music-generation audio-processing audio-generation

UpdatedMay 20, 2025
Python

declare-lab /tango

Star1.2k

A family of diffusion models for text-to-audio generation.

language-models diffusion diffusion-models text-to-audio audio-generation large-language-models

UpdatedJul 29, 2025
Python

NVIDIA /BigVGAN

Star1.2k

Official PyTorch implementation of BigVGAN (ICLR 2023)

speech-synthesis audio-synthesis music-synthesis neural-vocoder singing-voice-synthesis audio-generation

UpdatedSep 5, 2024
Python

devnen /Chatterbox-TTS-Server

Star1k

Self-host the powerful Chatterbox TTS model. This server offers a user-friendly Web UI, flexible API endpoints (incl. OpenAI compatible), predefined voices, voice cloning, and large audiobook-scale text processing. Runs accelerated on NVIDIA (CUDA), AMD (ROCm), and CPU.

python text-to-speech ai cuda web-ui api-server pytorch tts speech-synthesis rocm chatterbox speech-synthesis-api tts-api voice-cloning fastapi huggingface openai-api audio-generation chatterbox-tts

UpdatedFeb 12, 2026
Python

Yuan-ManX /ai-audio-datasets

Star907

AI Audio Datasets (AI-ADS) 🎵, including Speech, Music, and Sound Effects, which can provide training data for Generative AI, AIGC, AI model training, intelligent audio tool development, and audio applications.

audio machine-learning deep-learning audio-effect artificial-intelligence datasets music-generation audio-generation aigc

UpdatedJul 8, 2025

diodiogod /TTS-Audio-Suite

Star682

A ComfyUI custom node integration for multi-engine multi-language Text-to-Speech and Voice Conversion. Supports: RVC, Qwen3-TTS, Cozy Voice 3, Step Audio EditX, IndexTTS-2, Chatterbox (classic and multilingual 23-lang), F5-TTS, Higgs Audio 2 and VibeVoice with unlimited text length, SRT timing, Character support, and many audio tools

audio text-to-speech audio-editing tts multi-language rvc voice-conversion audio-processing f5 chatterbox voice-cloning ai-audio audio-generation comfyui f5-tts higgs-audio vibevoice indextts-2 qwen3-tts cozy-voice-3

UpdatedFeb 20, 2026
Python

researchmm /MM-Diffusion

Star451

[CVPR'23] MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

video-generation multi-modality diffusion-models content-creation audio-generation

UpdatedJun 5, 2024
Python

modelscope /FunCodec

Star441

FunCodec is a research-oriented toolkit for audio quantization and downstream applications, such as text-to-speech synthesis, music generation et.al.

tts speech-synthesis codec speech-to-text audio-generation encodec voicecloning audio-quantization

UpdatedJan 25, 2024
Python

Yuan-ManX /audio-development-tools

Star433

Audio Development Tools (ADT) is a project for advancing sound, speech, and music technologies, featuring components for machine learning, sound synthesis, speech and music generation, signal processing, game audio, digital audio workstations (DAWs), and more.

audio music machine-learning deep-learning signal-processing dsp speech artificial-intelligence speech-synthesis music-generation speech-processing audio-processing audio-generation

UpdatedJul 11, 2025

metame-ai /awesome-audio-plaza

Star410

Daily tracking of awesome audio papers, including music generation, zero-shot tts, asr, audio generation

awesome tts music-generation asr audio-generation zero-shot-tts awesome-music-generation

UpdatedNov 2, 2025

Improve this page

Add a description, image, and links to theaudio-generation topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with theaudio-generation topic, visit your repo's landing page and select "manage topics."

Learn more

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

audio-generation

Here are 174 public repositories matching this topic...

mudler /LocalAI

FunAudioLLM /CosyVoice

open-mmlab /Amphion

multimodal-art-projection /YuE

rsxdalv /TTS-WebUI

haoheliu /AudioLDM

vllm-project /vllm-omni

haoheliu /AudioLDM2

archinetai /audio-diffusion-pytorch

archinetai /audio-ai-timeline

FunAudioLLM /FunMusic

declare-lab /tango

NVIDIA /BigVGAN

devnen /Chatterbox-TTS-Server

Yuan-ManX /ai-audio-datasets

diodiogod /TTS-Audio-Suite

researchmm /MM-Diffusion

modelscope /FunCodec

Yuan-ManX /audio-development-tools

metame-ai /awesome-audio-plaza

Improve this page

Add this topic to your repo