metadata

tags:
  - PandaReachDense-v3
  - ppo
  - deep-reinforcement-learning
  - reinforcement-learning
  - custom-implementation
  - deep-rl-course
model-index:
  - name: Actor-Critic
    results:
      - task:
          type: reinforcement-learning
          name: reinforcement-learning
        dataset:
          name: PandaReachDense-v3
          type: PandaReachDense-v3
        metrics:
          - type: mean_reward
            value: '-1.54 +/- 1.04'
            name: mean_reward
            verified: false

Actor-Critic Agent Playing PandaReachDense-v3

This is a trained model of an A2C agent playing PandaReachDense-v3.

Hyperparameters

hp_seed: 2444
hp_torch_deterministic: True
hp_total_timesteps: 20500
hp_critic_nstep: 1
hp_num_envs: 12
hp_learning_rate_actor: 0.001
hp_learning_rate_critic: 0.005
hp_minlr_actor: 2e-06
hp_minlr_critic: 1e-05
hp_gamma: 0.99
hp_reg_term: 3
hp_batch_size: 64