daenielkim-66
/

a2c-PandaReachDense-v3

Reinforcement Learning

stable-baselines3

PandaReachDense-v3

deep-reinforcement-learning

Eval Results

Model card Files Files and versions Community

daenielkim-66 commited on Apr 29

Commit

0d8b86a

•

1 Parent(s): a471d9b

Update README.md

Browse files

Files changed (1) hide show

README.md +76 -7

README.md CHANGED Viewed

@@ -22,16 +22,85 @@ model-index:
 ---
 # **A2C** Agent playing **PandaReachDense-v3**
 This is a trained model of a **A2C** agent playing **PandaReachDense-v3**
-using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
-## Usage (with Stable-baselines3)
-TODO: Add your code
-```python
-from stable_baselines3 import ...
-from huggingface_sb3 import load_from_hub
-...
 ```

 ---
 # **A2C** Agent playing **PandaReachDense-v3**
+## General information about the project:
 This is a trained model of a **A2C** agent playing **PandaReachDense-v3**
+using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3). It controls a robotic arm to pick up balls.
+### What I did:
+Manually tuned hyperparameters by adding "learning_rate=0.0007, n_steps=5, gamma=0.99, gae_lambda=0.95" to the A2C model.
+```
+model = A2C(policy = "MultiInputPolicy",
+            env = env,
+            learning_rate=0.0007,
+            n_steps=5,
+            gamma=0.99,
+            gae_lambda=0.95,
+            verbose=1)
+```
+## Links to relevant resources such as tutorials.
+Reinforcement Learning Tips and Tricks: https://stable-baselines3.readthedocs.io/en/master/guide/rl_tips.html
+A Github Training Framework : https://github.com/DLR-RM/rl-baselines3-zoo
+Poe (MrProgrammer Bot):
+I tried to follow what this was saying but I had a hard time understanding.
+```
+import gym
+from stable_baselines3 import A2C
+from stable_baselines3.common.envs import DummyVecEnv
+from stable_baselines3.common.evaluation import evaluate_policy
+from stable_baselines3.common.callbacks import EvalCallback
+from stable_baselines3.common.env_checker import check_env
+from stable_baselines3.common.vec_env import VecNormalize
+```
+### Next, load and prepare your environment:
+```
+env = gym.make('your_environment_name')  # Replace with the name of your environment
+env = DummyVecEnv([lambda: env])
+env = VecNormalize(env, norm_obs=True, norm_reward=False, clip_obs=10.)
+```
+### Now, define a function to train and evaluate your A2C agent:
+```
+def train_and_evaluate(hyperparameters):
+    model = A2C("MlpPolicy", env, verbose=0, **hyperparameters)
+    eval_env = gym.make('your_evaluation_environment_name')  # Replace with the name of your evaluation environment
+    eval_env = DummyVecEnv([lambda: eval_env])
+    eval_env = VecNormalize(eval_env, norm_obs=True, norm_reward=False, clip_obs=10.)
+    eval_callback = EvalCallback(eval_env, best_model_save_path='./logs/',
+                                 log_path='./logs/', eval_freq=10000,
+                                 deterministic=True, render=False)
+    model.learn(total_timesteps=int(1e5), callback=eval_callback)
+    mean_reward, _ = evaluate_policy(model, eval_env, n_eval_episodes=10)
+    return mean_reward
+```
+### Now, we can define the hyperparameters grid and start the grid search:
+```
+hyperparameters_grid = {
+    'gamma': [0.99, 0.95],
+    'learning_rate': [0.001, 0.0001],
+    'ent_coef': [0.01, 0.1],
+    # Add other hyperparameters of interest
+}
+best_reward = float('-inf')
+best_hyperparameters = {}
+for hyperparameters in hyperparameters_grid:
+    mean_reward = train_and_evaluate(hyperparameters)
+    if mean_reward > best_reward:
+        best_reward = mean_reward
+        best_hyperparameters = hyperparameters
+print("Best hyperparameters:", best_hyperparameters)
 ```
+In this grid search, we specify a range of values for each hyperparameter of interest. The train_and_evaluate function trains the A2C agent with the given hyperparameters and evaluates its performance. We then update the best hyperparameters if the current combination achieves a higher reward.