CatkinChen
/

nethack-ppo-ablation-baseline

@@ -19,7 +19,7 @@ This repository contains a complete Sequential Skill RL model trained on NetHack
 ### 1. PPO Policy (`ppo_policy.pth`)
 - **Type**: Proximal Policy Optimization agent
-- **Environment**: MiniHack-Room-Random-15x15-v0
 - **Training Steps**: 50,000
 - **Features**:
   - Curiosity-driven exploration: True
@@ -52,7 +52,7 @@ hmm_data = torch.load('hmm_model.pth', map_location=device)
 # Use for inference or continued training
 results = train_online_ppo_with_pretrained_models(
-    env_name="MiniHack-Room-Random-15x15-v0",
     vae_repo_id="CatkinChen/nethack-vae-hmm",
     hmm_repo_id="CatkinChen/nethack-hmm",
     test_mode=True
@@ -61,10 +61,10 @@ results = train_online_ppo_with_pretrained_models(
 ## Training Configuration
-- **Environment**: MiniHack-Room-Random-15x15-v0
 - **Learning Rate**: 0.0005
 - **Batch Size**: 32
-- **Training Time**: 6837.78 seconds
 - **Device**: cuda
 - **Seed**: None
@@ -74,4 +74,4 @@ Training completed successfully with the following configuration:
 - Curiosity-driven exploration: True
 - Random Network Distillation: False
-Generated on: 2025-09-19 14:19:25

 ### 1. PPO Policy (`ppo_policy.pth`)
 - **Type**: Proximal Policy Optimization agent
+- **Environment**: MiniHack-Room-5x5-v0
 - **Training Steps**: 50,000
 - **Features**:
   - Curiosity-driven exploration: True
 # Use for inference or continued training
 results = train_online_ppo_with_pretrained_models(
+    env_name="MiniHack-Room-5x5-v0",
     vae_repo_id="CatkinChen/nethack-vae-hmm",
     hmm_repo_id="CatkinChen/nethack-hmm",
     test_mode=True
 ## Training Configuration
+- **Environment**: MiniHack-Room-5x5-v0
 - **Learning Rate**: 0.0005
 - **Batch Size**: 32
+- **Training Time**: 0.02 seconds
 - **Device**: cuda
 - **Seed**: None
 - Curiosity-driven exploration: True
 - Random Network Distillation: False
+Generated on: 2025-09-19 14:38:50