Spaces:
Sleeping
Sleeping
A newer version of the Gradio SDK is available:
5.29.0
Hugging Robot Learning
该项目旨在梳理应用于连续动作空间控制的强化学习、模仿学习、以及离线强化学习相关算法,方便进一步学习。
在之前两版本梳理之后,发现,完全根据综述梳理会造成知识不够具体。因此,接下来准备更关注经典算法,而不是单纯的综述。
内容一直在修改,博客中内容为最新版 :exclamation::exclamation::exclamation:
本项目计划分为三个阶段,分别是
- 知识梳理阶段 :point_left: 正在进行:sparkles:
- 算法复现阶段
- 项目优化阶段
知识梳理阶段主要关注知识框架的搭建;算法复现阶段主要关注经典算法的代码复现;项目优化阶段主要关注知识完整性和准确性、排版整洁性、以及代码准确性。
欢迎批评指正~
欢迎一起做项目~
内容导航
基础篇
章节 | 内容 |
---|---|
第一章 | DDPMs:去噪扩散概率模型 |
在线强化学习算法
章节 | 内容 |
---|---|
第一章 | MCAC:蒙特卡洛增强的Actor-Critic算法 |
模仿学习篇
章节 | 内容 |
---|---|
第一章 | 模仿学习简介 |
第二章 | GAIL:生成式对抗模仿学习 |
第三章 | IBC算法 |
第三章 | BeT:一次克隆k个模式 |
第五章 | 扩散策略:通过动作扩散进行的视觉策略学习 |
离线强化学习篇
章节 | 内容 |
---|---|
第一章 | 离线强化学习简介 |
第二章 | 基于策略约束的方法与BCQ算法 |
第三章 | 基于正则化的方法与CQL算法 |
第四章 | 基于不确定性估计的方法与REM算法 |
第五章 | Diffuser:敏捷行为合成的扩散规划器 |
关注我们
扫描下方二维码关注公众号:Datawhale

LICENSE
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
注:默认使用CC 4.0协议,也可根据自身项目情况选用其他协议