Movatterモバイル変換
[0]
ホーム
URL:
画像なし
夜間モード
天泽龟的龟壳屋
首页
归档
标签
分类
关于
友链
番剧
强化学习实战:用PPO算法通关超级马里奥兄弟
前言这个想法其实已经在脑海里酝酿很久了,但是今天决定开个博客记录一下整个思考的过程,不然额也不知道会拖到什么时候才去做这个。
2025-03-08
专业学习
继续阅读
《动手学强化学习》学习笔记【四】
本章内容参考:【【强化学习的数学原理】课程:从零开始到透彻理解(完结)】
2025-02-14
专业学习
继续阅读
日麻牌效率理论札记【其二】
脑子:学会了。手:断幺九!
2025-02-01
生活分享
继续阅读
日麻牌效率理论札记【其一】
科学麻将死路一条。
2025-01-30
生活分享
继续阅读
《动手学强化学习》学习笔记【三】
时序差分算法对于大部分强化学习现实场景(例如电子游戏或者一些复杂物理环境),其马尔可夫...
2024-11-20
专业学习
继续阅读
CS224N 学习随笔【完】
LLM is all you need.
2024-11-12
专业学习
继续阅读
《动手学强化学习》学习笔记【二】
“思想总是走在行动的前面,正如闪电总是走在雷鸣之前。” — — 海涅
2024-11-09
专业学习
继续阅读
【转载】浅谈大模型分布式训练并行技术
转载自:用通俗易懂的方式讲解大模型分布式训练并行技术:概述_大模型训练 资源分配-CSDN博客
2024-10-28
科研学习
继续阅读
《动手学强化学习》学习笔记【一】
第一节 初探强化学习
2024-10-22
专业学习
继续阅读
OpenAI o1 调查报告
应该整点(伪)技术性文章了。
2024-10-15
科研学习
继续阅读
下一页
天泽龟
天泽龟的龟是龟裂的龟哦。
56
文章
5
分类
14
标签
分类
生活分享
8
算法竞赛
12
专业学习
26
科研学习
6
社团推送
2
热门标签
计算机组成原理
随笔
强化学习
NLP
操作系统
日麻
字符串
分布式
大模型
多项式
强连通分量
推荐系统
线性基
博弈论
归档
2025
4
2024
14
2023
15
2022
13
2021
10
最近文章
2025-03-08
强化学习实战:用PPO算法通关超级马里奥兄弟
2025-02-14
《动手学强化学习》学习笔记【四】
2025-02-01
日麻牌效率理论札记【其二】
2025-01-30
日麻牌效率理论札记【其一】
归档
2025
4
2024
14
2023
15
2022
13
2021
10
[8]
ページ先頭
©2009-2025
Movatter.jp