Movatterモバイル変換

强化学习实战：用PPO算法通关超级马里奥兄弟

前言这个想法其实已经在脑海里酝酿很久了，但是今天决定开个博客记录一下整个思考的过程，不然额也不知道会拖到什么时候才去做这个。

2025-03-08 专业学习

《动手学强化学习》学习笔记【四】

本章内容参考：【【强化学习的数学原理】课程：从零开始到透彻理解（完结）】

2025-02-14 专业学习

日麻牌效率理论札记【其二】

脑子：学会了。手：断幺九！

2025-02-01 生活分享

日麻牌效率理论札记【其一】

科学麻将死路一条。

2025-01-30 生活分享

《动手学强化学习》学习笔记【三】

时序差分算法对于大部分强化学习现实场景（例如电子游戏或者一些复杂物理环境），其马尔可夫...

2024-11-20 专业学习

CS224N 学习随笔【完】

LLM is all you need.

2024-11-12 专业学习

《动手学强化学习》学习笔记【二】

“思想总是走在行动的前面，正如闪电总是走在雷鸣之前。” — — 海涅

2024-11-09 专业学习

【转载】浅谈大模型分布式训练并行技术

转载自：用通俗易懂的方式讲解大模型分布式训练并行技术：概述_大模型训练资源分配-CSDN博客

2024-10-28 科研学习

《动手学强化学习》学习笔记【一】

第一节初探强化学习

2024-10-22 专业学习

OpenAI o1 调查报告

应该整点（伪）技术性文章了。

2024-10-15 科研学习

天泽龟

天泽龟的龟是龟裂的龟哦。

56文章 5分类 14标签

计算机组成原理

强连通分量

20254 202414 202315 202213 202110

强化学习实战：用PPO算法通关超级马里奥兄弟

2025-02-14

《动手学强化学习》学习笔记【四】

2025-02-01

日麻牌效率理论札记【其二】

2025-01-30

日麻牌效率理论札记【其一】

20254 202414 202315 202213 202110

[8]ページ先頭

©2009-2025 Movatter.jp