Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

.summary/0/events.out.tfevents.1688753657.qgallouedec-MS-7C84 +3 -0
README.md +1 -1
checkpoint_p0/best_000015216_7790592_reward_381.761.pth +3 -0
checkpoint_p0/checkpoint_000019528_9998336.pth +3 -0
checkpoint_p0/checkpoint_000019544_10006528.pth +1 -1
config.json +2 -2
git.diff +219 -74
replay.mp4 +2 -2
sf_log.txt +0 -0

.summary/0/events.out.tfevents.1688753657.qgallouedec-MS-7C84 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:065fccda6004f2a0e31e4a2a6cccbc8f665985b21fbffd96abfb9b0942b70d85
+size 800648

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ model-index:
       type: bin-picking-v2
     metrics:
     - type: mean_reward
-      value: 168.59 +/- 207.20
       name: mean_reward
       verified: false
 ---

       type: bin-picking-v2
     metrics:
     - type: mean_reward
+      value: 402.65 +/- 2.67
       name: mean_reward
       verified: false
 ---

checkpoint_p0/best_000015216_7790592_reward_381.761.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ac417c935acc153a20a232e82408052bbb5b4e40794df2e9aa6a3f15bcf08f7
+size 98239

checkpoint_p0/checkpoint_000019528_9998336.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3b275139d40e357758fd61256fcbf041ee60089899f4f2c424c30be014dc814
+size 98567

checkpoint_p0/checkpoint_000019544_10006528.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f3aad58d66e16763d6e8c9e7dcdc53df4f7c7c3f9fb5e8bcd847343ff9ab654
 size 98567

 version https://git-lfs.github.com/spec/v1
+oid sha256:a964c934fd32046ed2fefc2ca66fef563c63119f7dc43d4ba7b48c75384d6419
 size 98567

config.json CHANGED Viewed

@@ -128,7 +128,7 @@
     "wandb_user": "qgallouedec",
     "wandb_project": "sample_facotry_metaworld"
   },
-  "git_hash": "aed90d9e164e44f91bab1d70c09fac4dee064031",
   "git_repo_name": "https://github.com/huggingface/gia",
-  "wandb_unique_id": "bin-picking-v2_20230707_164044_957676"
 }

     "wandb_user": "qgallouedec",
     "wandb_project": "sample_facotry_metaworld"
   },
+  "git_hash": "dda7c2cbaa4c60ae8940e37f69d814d32339d2fa",
   "git_repo_name": "https://github.com/huggingface/gia",
+  "wandb_unique_id": "bin-picking-v2_20230707_201415_318153"
 }

git.diff CHANGED Viewed

@@ -318,6 +318,96 @@ index 4c3f06b..88b6c45 100644
  ]
 diff --git a/data/envs/metaworld/generate_dataset.py b/data/envs/metaworld/generate_dataset.py
 index e21b237..c2b1907 100644
 --- a/data/envs/metaworld/generate_dataset.py
@@ -333,20 +423,22 @@ index e21b237..c2b1907 100644
              dataset["continuous_observations"][-1].append(observations["obs"].cpu().numpy()[0])
              dataset["continuous_actions"][-1].append(actions[0])
 diff --git a/data/envs/metaworld/generate_dataset_all.sh b/data/envs/metaworld/generate_dataset_all.sh
-index cfdae2f..5db8c4b 100755
 --- a/data/envs/metaworld/generate_dataset_all.sh
 +++ b/data/envs/metaworld/generate_dataset_all.sh
-@@ -2,58 +2,58 @@
  ENVS=(
-     assembly
--    basketball
--    bin-picking
--    box-close
--    button-press-topdown
--    button-press-topdown-wall
--    button-press
--    button-press-wall
 -    coffee-button
 -    coffee-pull
 -    coffee-push
@@ -389,13 +481,6 @@ index cfdae2f..5db8c4b 100755
 -    sweep
 -    window-close
 -    window-open
-+    # basketball
-+    # bin-picking
-+    # box-close
-+    # button-press-topdown
-+    # button-press-topdown-wall
-+    # button-press
-+    # button-press-wall
 +    # coffee-button
 +    # coffee-pull
 +    # coffee-push
@@ -447,7 +532,7 @@ index cfdae2f..5db8c4b 100755
 +    python generate_dataset.py --env $ENV-v2 --experiment $ENV-v2 --train_dir=./train_dir
  done
 diff --git a/data/envs/metaworld/push_all.sh b/data/envs/metaworld/push_all.sh
-index 9d71467..5b05c6d 100755
 --- a/data/envs/metaworld/push_all.sh
 +++ b/data/envs/metaworld/push_all.sh
@@ -2,57 +2,57 @@
@@ -556,13 +641,82 @@ index 9d71467..5b05c6d 100755
  for ENV in "${ENVS[@]}"; do
 -    python enjoy.py --algo=APPO --env $ENV-v2 --experiment $ENV-v2 --train_dir=./train_dir --max_num_episodes=10 --push_to_hub --hf_repository=qgallouedec/sample-factory-$ENV-v2 --save_video --no_render --enjoy_script=enjoy --train_script=train --load_checkpoint_kind best
-+    python enjoy.py --algo=APPO --env $ENV-v2 --experiment $ENV-v2 --train_dir=./train_dir --max_num_episodes=10 --push_to_hub --hf_repository=qgallouedec/$ENV-v2 --save_video --no_render --enjoy_script=enjoy --train_script=train --load_checkpoint_kind best
  done
 diff --git a/data/envs/metaworld/train.py b/data/envs/metaworld/train.py
-index 46dc581..c72f289 100644
 --- a/data/envs/metaworld/train.py
 +++ b/data/envs/metaworld/train.py
-@@ -79,7 +79,7 @@ def override_defaults(parser: argparse.ArgumentParser) -> argparse.ArgumentParse
          num_workers=8,
          num_envs_per_worker=8,
          worker_num_splits=2,
@@ -571,34 +725,18 @@ index 46dc581..c72f289 100644
          encoder_mlp_layers=[64, 64],
          env_frameskip=1,
          nonlinearity="tanh",
-diff --git a/data/envs/metaworld/train_all.sh b/data/envs/metaworld/train_all.sh
-index dbf328a..1b3c4c8 100755
---- a/data/envs/metaworld/train_all.sh
-+++ b/data/envs/metaworld/train_all.sh
-@@ -1,7 +1,7 @@
- #!/bin/bash
- ENVS=(
--    assembly
-+    # assembly
-     basketball
-     bin-picking
-     box-close
-diff --git a/gia/eval/callback.py b/gia/eval/callback.py
-index 5c3a080..4b6198f 100644
---- a/gia/eval/callback.py
-+++ b/gia/eval/callback.py
-@@ -2,10 +2,10 @@ import glob
- import json
- import subprocess
--import wandb
- from accelerate import Accelerator
- from transformers import TrainerCallback, TrainerControl, TrainerState, TrainingArguments
-+import wandb
- from gia.config import Arguments
- from gia.eval.utils import is_slurm_available
 diff --git a/gia/eval/evaluator.py b/gia/eval/evaluator.py
 index 91b645c..3e2cae7 100644
@@ -625,38 +763,33 @@ index 91b645c..3e2cae7 100644
      def evaluate(self, model: GiaModel) -> float:
          return self._evaluate(model)
-diff --git a/gia/eval/mappings.py b/gia/eval/mappings.py
-deleted file mode 100644
-index e7ba9d3..0000000
---- a/gia/eval/mappings.py
-+++ /dev/null
-@@ -1,11 +0,0 @@
--TASK_TO_ENV_MAPPING = {
--    "mujoco-ant": "Ant-v4",
--    "mujoco-halfcheetah": "HalfCheetah-v4",
--    "mujoco-hopper": "Hopper-v4",
--    "mujoco-doublependulum": "InvertedDoublePendulum-v4",
--    "mujoco-pendulum": "InvertedPendulum-v4",
--    "mujoco-reacher": "Reacher-v4",
--    "mujoco-swimmer": "Swimmer-v4",
--    "mujoco-walker": "Walker2d-v4",
--    # Atari etc...
--}
-diff --git a/gia/eval/rl/__init__.py b/gia/eval/rl/__init__.py
-index 36d890b..da5e0c7 100644
---- a/gia/eval/rl/__init__.py
-+++ b/gia/eval/rl/__init__.py
-@@ -1,4 +1,5 @@
-+from .envs.core import make
- from .gym_evaluator import GymEvaluator
--__all__ = ["GymEvaluator"]
-+__all__ = ["GymEvaluator", "make"]
 diff --git a/gia/eval/rl/gia_agent.py b/gia/eval/rl/gia_agent.py
-index f0d0b9b..04b9637 100644
 --- a/gia/eval/rl/gia_agent.py
 +++ b/gia/eval/rl/gia_agent.py
@@ -75,6 +75,11 @@ class GiaAgent:
      ) -> Tuple[Tuple[Tensor, Tensor], ...]:
          return tuple((k[:, :, -self._max_length :], v[:, :, -self._max_length :]) for (k, v) in past_key_values)
@@ -712,3 +845,15 @@ index 1b8ebee..ff7d030 100644
          },
          "random": {
              "mean": 220.65601680730813,

  ]
+diff --git a/data/envs/metaworld/enjoy.py b/data/envs/metaworld/enjoy.py
+deleted file mode 100644
+index 6ec026b..0000000
+--- a/data/envs/metaworld/enjoy.py
++++ /dev/null
+@@ -1,84 +0,0 @@
+-import sys
+-from typing import Dict, Optional
+-
+-import gym
+-import metaworld  # noqa: F401
+-from sample_factory.cfg.arguments import parse_full_cfg, parse_sf_args
+-from sample_factory.enjoy import enjoy
+-from sample_factory.envs.env_utils import register_env
+-
+-
+-ENV_NAMES = [
+-    "assembly-v2",
+-    "basketball-v2",
+-    "bin-picking-v2",
+-    "box-close-v2",
+-    "button-press-topdown-v2",
+-    "button-press-topdown-wall-v2",
+-    "button-press-v2",
+-    "button-press-wall-v2",
+-    "coffee-button-v2",
+-    "coffee-pull-v2",
+-    "coffee-push-v2",
+-    "dial-turn-v2",
+-    "disassemble-v2",
+-    "door-close-v2",
+-    "door-lock-v2",
+-    "door-open-v2",
+-    "door-unlock-v2",
+-    "drawer-close-v2",
+-    "drawer-open-v2",
+-    "faucet-close-v2",
+-    "faucet-open-v2",
+-    "hammer-v2",
+-    "hand-insert-v2",
+-    "handle-press-side-v2",
+-    "handle-press-v2",
+-    "handle-pull-side-v2",
+-    "handle-pull-v2",
+-    "lever-pull-v2",
+-    "peg-insert-side-v2",
+-    "peg-unplug-side-v2",
+-    "pick-out-of-hole-v2",
+-    "pick-place-v2",
+-    "pick-place-wall-v2",
+-    "plate-slide-back-side-v2",
+-    "plate-slide-back-v2",
+-    "plate-slide-side-v2",
+-    "plate-slide-v2",
+-    "push-back-v2",
+-    "push-v2",
+-    "push-wall-v2",
+-    "reach-v2",
+-    "reach-wall-v2",
+-    "shelf-place-v2",
+-    "soccer-v2",
+-    "stick-pull-v2",
+-    "stick-push-v2",
+-    "sweep-into-v2",
+-    "sweep-v2",
+-    "window-close-v2",
+-    "window-open-v2",
+-]
+-
+-
+-def make_custom_env(
+-    full_env_name: str,
+-    cfg: Optional[Dict] = None,
+-    env_config: Optional[Dict] = None,
+-    render_mode: Optional[str] = None,
+-) -> gym.Env:
+-    return gym.make(full_env_name, render_mode=render_mode)
+-
+-
+-def main() -> int:
+-    for env_name in ENV_NAMES:
+-        register_env(env_name, make_custom_env)
+-    parser, _ = parse_sf_args(argv=None, evaluation=True)
+-    cfg = parse_full_cfg(parser)
+-    status = enjoy(cfg)
+-    return status
+-
+-
+-if __name__ == "__main__":
+-    sys.exit(main())
 diff --git a/data/envs/metaworld/generate_dataset.py b/data/envs/metaworld/generate_dataset.py
 index e21b237..c2b1907 100644
 --- a/data/envs/metaworld/generate_dataset.py
              dataset["continuous_observations"][-1].append(observations["obs"].cpu().numpy()[0])
              dataset["continuous_actions"][-1].append(actions[0])
 diff --git a/data/envs/metaworld/generate_dataset_all.sh b/data/envs/metaworld/generate_dataset_all.sh
+index cfdae2f..8720089 100755
 --- a/data/envs/metaworld/generate_dataset_all.sh
 +++ b/data/envs/metaworld/generate_dataset_all.sh
+@@ -1,7 +1,7 @@
+ #!/bin/bash
  ENVS=(
+-    assembly
++    # assembly
+     basketball
+     bin-picking
+     box-close
+@@ -9,51 +9,51 @@ ENVS=(
+     button-press-topdown-wall
+     button-press
+     button-press-wall
 -    coffee-button
 -    coffee-pull
 -    coffee-push
 -    sweep
 -    window-close
 -    window-open
 +    # coffee-button
 +    # coffee-pull
 +    # coffee-push
 +    python generate_dataset.py --env $ENV-v2 --experiment $ENV-v2 --train_dir=./train_dir
  done
 diff --git a/data/envs/metaworld/push_all.sh b/data/envs/metaworld/push_all.sh
+index 9d71467..4fc1fc2 100755
 --- a/data/envs/metaworld/push_all.sh
 +++ b/data/envs/metaworld/push_all.sh
@@ -2,57 +2,57 @@
  for ENV in "${ENVS[@]}"; do
 -    python enjoy.py --algo=APPO --env $ENV-v2 --experiment $ENV-v2 --train_dir=./train_dir --max_num_episodes=10 --push_to_hub --hf_repository=qgallouedec/sample-factory-$ENV-v2 --save_video --no_render --enjoy_script=enjoy --train_script=train --load_checkpoint_kind best
++    python push.py --algo=APPO --env $ENV-v2 --experiment $ENV-v2 --train_dir=./train_dir --max_num_episodes=10 --push_to_hub --hf_repository=qgallouedec/$ENV-v2 --save_video --no_render --enjoy_script=enjoy --train_script=train --load_checkpoint_kind best
  done
 diff --git a/data/envs/metaworld/train.py b/data/envs/metaworld/train.py
+index 46dc581..095414e 100644
 --- a/data/envs/metaworld/train.py
 +++ b/data/envs/metaworld/train.py
+@@ -2,67 +2,13 @@ import argparse
+ import sys
+ from typing import Dict, Optional
+-import gym
++import gymnasium as gym
+ import metaworld  # noqa: F401
+ from sample_factory.cfg.arguments import parse_full_cfg, parse_sf_args
+ from sample_factory.envs.env_utils import register_env
+ from sample_factory.train import run_rl
+-ENV_NAMES = [
+-    "assembly-v2",
+-    "basketball-v2",
+-    "bin-picking-v2",
+-    "box-close-v2",
+-    "button-press-topdown-v2",
+-    "button-press-topdown-wall-v2",
+-    "button-press-v2",
+-    "button-press-wall-v2",
+-    "coffee-button-v2",
+-    "coffee-pull-v2",
+-    "coffee-push-v2",
+-    "dial-turn-v2",
+-    "disassemble-v2",
+-    "door-close-v2",
+-    "door-lock-v2",
+-    "door-open-v2",
+-    "door-unlock-v2",
+-    "drawer-close-v2",
+-    "drawer-open-v2",
+-    "faucet-close-v2",
+-    "faucet-open-v2",
+-    "hammer-v2",
+-    "hand-insert-v2",
+-    "handle-press-side-v2",
+-    "handle-press-v2",
+-    "handle-pull-side-v2",
+-    "handle-pull-v2",
+-    "lever-pull-v2",
+-    "peg-insert-side-v2",
+-    "peg-unplug-side-v2",
+-    "pick-out-of-hole-v2",
+-    "pick-place-v2",
+-    "pick-place-wall-v2",
+-    "plate-slide-back-side-v2",
+-    "plate-slide-back-v2",
+-    "plate-slide-side-v2",
+-    "plate-slide-v2",
+-    "push-back-v2",
+-    "push-v2",
+-    "push-wall-v2",
+-    "reach-v2",
+-    "reach-wall-v2",
+-    "shelf-place-v2",
+-    "soccer-v2",
+-    "stick-pull-v2",
+-    "stick-push-v2",
+-    "sweep-into-v2",
+-    "sweep-v2",
+-    "window-close-v2",
+-    "window-open-v2",
+-]
+-
+-
+ def make_custom_env(
+     full_env_name: str,
+     cfg: Optional[Dict] = None,
+@@ -79,7 +25,7 @@ def override_defaults(parser: argparse.ArgumentParser) -> argparse.ArgumentParse
          num_workers=8,
          num_envs_per_worker=8,
          worker_num_splits=2,
          encoder_mlp_layers=[64, 64],
          env_frameskip=1,
          nonlinearity="tanh",
+@@ -116,11 +62,10 @@ def override_defaults(parser: argparse.ArgumentParser) -> argparse.ArgumentParse
+ def main() -> int:
+-    for env_name in ENV_NAMES:
+-        register_env(env_name, make_custom_env)
+     parser, _ = parse_sf_args(argv=None, evaluation=False)
+     parser = override_defaults(parser)
+     cfg = parse_full_cfg(parser)
++    register_env(cfg.env, make_custom_env)
+     status = run_rl(cfg)
+     return status
 diff --git a/gia/eval/evaluator.py b/gia/eval/evaluator.py
 index 91b645c..3e2cae7 100644
      def evaluate(self, model: GiaModel) -> float:
          return self._evaluate(model)
+diff --git a/gia/eval/rl/envs/core.py b/gia/eval/rl/envs/core.py
+index f1f83f5..ec5e5b2 100644
+--- a/gia/eval/rl/envs/core.py
++++ b/gia/eval/rl/envs/core.py
+@@ -176,7 +176,8 @@ def make(task_name: str, num_envs: int = 1):
+         env = gym.vector.SyncVectorEnv([env_func] * num_envs)
+     elif task_name.startswith("metaworld"):
+-        import gym
++        import gymnasium as gym
++        import metaworld
+         env_id = TASK_TO_ENV_MAPPING[task_name]
+         env = gym.vector.SyncVectorEnv([lambda: gym.make(env_id)] * num_envs)
 diff --git a/gia/eval/rl/gia_agent.py b/gia/eval/rl/gia_agent.py
+index f0d0b9b..ca37721 100644
 --- a/gia/eval/rl/gia_agent.py
 +++ b/gia/eval/rl/gia_agent.py
+@@ -9,7 +9,7 @@ from gia.datasets import GiaDataCollator, Prompter
+ from gia.model.gia_model import GiaModel
+ from gia.processing import GiaProcessor
+-
++import sample_factory.envs.env_utils
+ class GiaAgent:
+     r"""
+     An RL agent that uses Gia to generate actions.
@@ -75,6 +75,11 @@ class GiaAgent:
      ) -> Tuple[Tuple[Tensor, Tensor], ...]:
          return tuple((k[:, :, -self._max_length :], v[:, :, -self._max_length :]) for (k, v) in past_key_values)
          },
          "random": {
              "mean": 220.65601680730813,
+diff --git a/gia/model/gia_model.py b/gia/model/gia_model.py
+index 7683ca5..74e82f3 100644
+--- a/gia/model/gia_model.py
++++ b/gia/model/gia_model.py
+@@ -116,6 +116,7 @@ class GiaModel(PreTrainedModel):
+                 labels[~loss_mask] = -100
+         else:
+             labels = None
++        labels[labels>0] = 0
+         return self.causal_lm_model(
+             inputs_embeds=embeds,
+             attention_mask=attention_mask,

replay.mp4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7d292cb6c8b454365d8a689263ddb710b0149da82dafb6442f0524ee8a0c486
-size 2343193

 version https://git-lfs.github.com/spec/v1
+oid sha256:33b28b88b4780dab4a6e7f78f8c40edba8047630cde2d14b68e05dd2acce8489
+size 674687

sf_log.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff