Movatterモバイル変換


[0]ホーム

URL:


强化学习实战:用PPO算法通关超级马里奥兄弟

前言这个想法其实已经在脑海里酝酿很久了,但是今天决定开个博客记录一下整个思考的过程,不然额也不知道会拖到什么时候才去做这个。

《动手学强化学习》学习笔记【四】

本章内容参考:【【强化学习的数学原理】课程:从零开始到透彻理解(完结)】

日麻牌效率理论札记【其二】

脑子:学会了。手:断幺九!

《动手学强化学习》学习笔记【三】

时序差分算法对于大部分强化学习现实场景(例如电子游戏或者一些复杂物理环境),其马尔可夫...

《动手学强化学习》学习笔记【二】

“思想总是走在行动的前面,正如闪电总是走在雷鸣之前。” — — 海涅

【转载】浅谈大模型分布式训练并行技术

转载自:用通俗易懂的方式讲解大模型分布式训练并行技术:概述_大模型训练 资源分配-CSDN博客

OpenAI o1 调查报告

应该整点(伪)技术性文章了。
author avatar

天泽龟

天泽龟的龟是龟裂的龟哦。


[8]ページ先頭

©2009-2025 Movatter.jp