RL+LLM Wiki

community

AI & ML interests

None defined yet.

Recent Activity

lvwerra updated a bucket about 4 hours ago

rl-llm-wiki/rl-main-bucket

cmpatino new activity about 11 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:1502.05477 — Trust Region Policy Optimization (TRPO)

lvwerra new activity about 11 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:1707.06347 — Proximal Policy Optimization (PPO)

View all activity

rl-llm-wiki 's buckets 4

rl-llm-wiki/rl-main-bucket

rl-llm-wiki/rl-knowledge-tracer

rl-llm-wiki/rl-the-first-one

rl-llm-wiki/rl-merge-bot