hishamcse
/

mortal-kombat-3-ppo-diambra

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+replay.mp4 filter=lfs diff=lfs merge=lfs -text

agent.py ADDED Viewed

	@@ -0,0 +1,66 @@

+import os
+import yaml
+import json
+import argparse
+from diambra.arena import Roles, SpaceTypes, load_settings_flat_dict
+from diambra.arena.stable_baselines3.make_sb3_env import make_sb3_env, EnvironmentSettings, WrappersSettings
+from stable_baselines3 import PPO
+def main(cfg_file, trained_model):
+    # Read the cfg file
+    yaml_file = open(cfg_file)
+    params = yaml.load(yaml_file, Loader=yaml.FullLoader)
+    print("Config parameters = ", json.dumps(params, sort_keys=True, indent=4))
+    yaml_file.close()
+    base_path = os.path.dirname(os.path.abspath(__file__))
+    model_folder = os.path.join(base_path, params["folders"]["parent_dir"], params["settings"]["game_id"],
+                                params["folders"]["model_name"], "model")
+    # Settings
+    params["settings"]["action_space"] = SpaceTypes.DISCRETE if params["settings"]["action_space"] == "discrete" else SpaceTypes.MULTI_DISCRETE
+    settings = load_settings_flat_dict(EnvironmentSettings, params["settings"])
+    settings.role = Roles.P1
+    # Wrappers Settings
+    wrappers_settings = load_settings_flat_dict(WrappersSettings, params["wrappers_settings"])
+    wrappers_settings.normalize_reward = False
+    # Create environment
+    env, num_envs = make_sb3_env(settings.game_id, settings, wrappers_settings, no_vec=True)
+    print("Activated {} environment(s)".format(num_envs))
+    # Load the trained agent
+    model_path = os.path.join(model_folder, trained_model)
+    agent = PPO.load(model_path)
+    # Print policy network architecture
+    print("Policy architecture:")
+    print(agent.policy)
+    obs, info = env.reset()
+    while True:
+        action, _ = agent.predict(obs, deterministic=False)
+        obs, reward, terminated, truncated, info = env.step(action.tolist())
+        if terminated or truncated:
+            obs, info = env.reset()
+            if info["env_done"]:
+                break
+    # Close the environment
+    env.close()
+    # Return success
+    return 0
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--cfgFile", type=str, required=True, help="Configuration file")
+    parser.add_argument("--trainedModel", type=str, default="model", help="Model checkpoint")
+    opt = parser.parse_args()
+    print(opt)
+    main(opt.cfgFile, opt.trainedModel)

config.yaml ADDED Viewed

	@@ -0,0 +1,50 @@

+folders:
+  parent_dir: "./results/"
+  model_name: "sr6_128x4_das_nc"
+settings:
+  game_id: "umk3"
+  step_ratio: 6
+  frame_shape: !!python/tuple [128, 128, 1]
+  continue_game: 0.0
+  action_space: "discrete"
+  characters: "Skorpion"
+  difficulty: 5
+wrappers_settings:
+  normalize_reward: true
+  no_attack_buttons_combinations: true
+  stack_frames: 4
+  dilation: 1
+  add_last_action: true
+  stack_actions: 12
+  scale: true
+  exclude_image_scaling: true
+  role_relative: true
+  flatten: true
+  filter_keys: ["action", "own_health", "opp_health", "own_side", "opp_side", "opp_character", "stage", "timer"]
+# optuna results
+# Best hyperparameters: {'gamma': 0.05944028113410932, 'max_grad_norm': 3.5407661656818026,
+# 'exponent_n_steps': 5, 'n_epochs': 14, 'batch_size': 512, 'lr': 0.014638860976621421,
+# 'ent_coef': 2.361611947920214e-06, 'clip_range': 0.3, 'gae_lambda': 0.9520674913500098,
+# 'vf_coef': 0.6420316461542878, 'net_arch': 'medium', 'activation_fn': 'leaky_relu'}
+policy_kwargs:
+  #net_arch: [{ pi: [64, 64], vf: [32, 32] }]
+  net_arch: [256, 256]
+  activation_fn: "leaky_relu"
+ppo_settings:
+  gamma: 0.94
+  model_checkpoint: "660000"     # 0: No checkpoint, else: Load checkpoint (if previously trained)
+  learning_rate: [1.0e-3, 2.5e-6] # To start
+  clip_range: [0.3, 0.015] # To start
+  batch_size: 512 #8 #nminibatches gave different batch size depending on the number of environments: batch_size = (n_steps * n_envs) // nminibatches
+  n_epochs: 14
+  n_steps: 512
+  gae_lambda: 0.9520674913500098
+  ent_coef: 2.361611947920214e-06
+  vf_coef: 0.6420316461542878
+  autosave_freq: 50000
+  time_steps: 1000000

replay.mp4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01dbbd2ee0288f38b4d7c41e2438878fa5d2aedb77ec251c0fc97eadfd852dbc
+size 7377696