proximal-policy-optimization

Star

Here are 232 public repositories matching this topic...

Language:All

Filter by language

All232 Python159 Jupyter Notebook51 C#8 C++5 Classic ASP2 Java1 JavaScript1 PureBasic1 TeX1 ASP.NET1

Sort:Most stars

Sort options

Most stars Fewest stars Most forks Fewest forks Recently updated Least recently updated

MorvanZhou /Reinforcement-learning-with-tensorflow

Star9.2k

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

machine-learning tutorial reinforcement-learning q-learning dqn policy-gradient sarsa tensorflow-tutorials a3c deep-q-network ddpg actor-critic asynchronous-advantage-actor-critic double-dqn prioritized-replay sarsa-lambda dueling-dqn deep-deterministic-policy-gradient proximal-policy-optimization ppo

UpdatedMar 31, 2024
Python

vwxyzjn /cleanrl

Star7.4k

High-quality single file implementation of Deep Reinforcement Learning algorithms with research-friendly features (PPO, DQN, C51, DDPG, TD3, SAC, PPG)

python machine-learning reinforcement-learning deep-learning deep-reinforcement-learning pytorch gym atari actor-critic ale proximal-policy-optimization ppo advantage-actor-critic a2c wandb phasic-policy-gradient

UpdatedApr 8, 2025
Python

OpenRLHF /OpenRLHF

Star7.3k

An Easy-to-use, Scalable and High-performance RLHF Framework based on Ray (PPO & GRPO & REINFORCE++ & vLLM & Ray & Dynamic Sampling & Async Agentic RL)

reinforcement-learning raylib transformers proximal-policy-optimization large-language-models reinforcement-learning-from-human-feedback vllm openai-o1

UpdatedJun 19, 2025
Python

ikostrikov /pytorch-a2c-ppo-acktr-gail

Star3.8k

PyTorch implementation of Advantage Actor Critic (A2C), Proximal Policy Optimization (PPO), Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation (ACKTR) and Generative Adversarial Imitation Learning (GAIL).

reinforcement-learning deep-learning deep-reinforcement-learning pytorch atari hessian second-order continuous-control actor-critic ale mujoco proximal-policy-optimization ppo advantage-actor-critic a2c acktr natural-gradients roboschool kfac kronecker-factored-approximation

UpdatedMay 29, 2022
Python

nikhilbarhate99 /PPO-PyTorch

Star2.1k

Minimal implementation of clipped objective Proximal Policy Optimization (PPO) in PyTorch

reinforcement-learning deep-learning deep-reinforcement-learning pytorch policy-gradient reinforcement-learning-algorithms pytorch-tutorial proximal-policy-optimization ppo pytorch-implmention ppo-pytorch

UpdatedJul 9, 2024
Python

Khrylx /PyTorch-RL

Star1.2k

PyTorch implementation of Deep Reinforcement Learning: Policy Gradient methods (TRPO, PPO, A2C) and Generative Adversarial Imitation Learning (GAIL). Fast Fisher vector product TRPO.

reinforcement-learning deep-reinforcement-learning pytorch generative-adversarial-network policy-gradient trpo fisher-vectors pytorch-rl proximal-policy-optimization ppo a2c

UpdatedFeb 9, 2021
Python

vietnh1009 /Super-mario-bros-PPO-pytorch

Star1.2k

Proximal Policy Optimization (PPO) algorithm for Super Mario Bros

python mario reinforcement-learning ai deep-learning openai-gym python3 pytorch openai gym super-mario-bros proximal-policy-optimization ppo ppo2

UpdatedJul 24, 2021
Python

TianhongDai /reinforcement-learning-algorithms

Star681

This repository contains most of pytorch implementation based classic deep reinforcement learning algorithms, including - DQN, DDQN, Dueling Network, DDPG, SAC, A2C, PPO, TRPO. (More algorithms are still in progress)

algorithm deep-learning atari2600 flappy-bird deep-reinforcement-learning pytorch dqn ddpg sac actor-critic trpo dueling-dqn trust-region-policy-optimization proximal-policy-optimization ppo a2c soft-actor-critic