{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "77b8f875",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-14T14:38:08.084437Z",
     "iopub.status.busy": "2024-05-14T14:38:08.084099Z",
     "iopub.status.idle": "2024-05-14T14:39:09.090683Z",
     "shell.execute_reply": "2024-05-14T14:39:09.089627Z"
    },
    "papermill": {
     "duration": 61.014156,
     "end_time": "2024-05-14T14:39:09.093219",
     "exception": false,
     "start_time": "2024-05-14T14:38:08.079063",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "%%capture\n",
    "!pip install stable-baselines3[extra]\n",
    "!pip install moviepy"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "f547942b",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-14T14:39:09.102103Z",
     "iopub.status.busy": "2024-05-14T14:39:09.101786Z",
     "iopub.status.idle": "2024-05-14T14:39:25.987681Z",
     "shell.execute_reply": "2024-05-14T14:39:25.986695Z"
    },
    "papermill": {
     "duration": 16.892884,
     "end_time": "2024-05-14T14:39:25.990128",
     "exception": false,
     "start_time": "2024-05-14T14:39:09.097244",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "2024-05-14 14:39:16.039893: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered\n",
      "2024-05-14 14:39:16.039990: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered\n",
      "2024-05-14 14:39:16.182583: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered\n"
     ]
    }
   ],
   "source": [
    "from stable_baselines3 import A2C\n",
    "from stable_baselines3.common.monitor import Monitor\n",
    "from stable_baselines3.common.callbacks import BaseCallback, EvalCallback, CallbackList\n",
    "from stable_baselines3.common.logger import Video, HParam, TensorBoardOutputFormat\n",
    "from stable_baselines3.common.evaluation import evaluate_policy\n",
    "\n",
    "from typing import Any, Dict\n",
    "\n",
    "import gymnasium as gym\n",
    "import torch as th\n",
    "import numpy as np\n",
    "\n",
    "# =====File names=====\n",
    "MODEL_FILE_NAME = \"ALE-Pacman-v5\"\n",
    "POLICY_FILE_NAME = \"a2c_policy_pacman_v2\"\n",
    "\n",
    "# =====Model Config=====\n",
    "# Evaluate in 20ths\n",
    "EVAL_CALLBACK_FREQ = 75_000\n",
    "# Record in quarters (the last one won't record, will have to do manually)\n",
    "VIDEO_CALLBACK_FREQ = 375_000\n",
    "FRAMESKIP = 4\n",
    "NUM_TIMESTEPS = 1_500_000\n",
    "\n",
    "# =====Hyperparams=====\n",
    "# The hyperparams should be defined here, however I want to run this just defaults for this run"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "667f65d4",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-14T14:39:25.999620Z",
     "iopub.status.busy": "2024-05-14T14:39:25.998467Z",
     "iopub.status.idle": "2024-05-14T14:39:26.009249Z",
     "shell.execute_reply": "2024-05-14T14:39:26.008540Z"
    },
    "jupyter": {
     "source_hidden": true
    },
    "papermill": {
     "duration": 0.017201,
     "end_time": "2024-05-14T14:39:26.011150",
     "exception": false,
     "start_time": "2024-05-14T14:39:25.993949",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# VideoRecorderCallback\n",
    "# The VideoRecorderCallback should record a video of the agent in the evaluation environment\n",
    "# every render_freq timesteps. It will record one episode. It will also record one episode when\n",
    "# the training has been completed\n",
    "\n",
    "class VideoRecorderCallback(BaseCallback):\n",
    "    def __init__(self, eval_env: gym.Env, render_freq: int, n_eval_episodes: int = 1, deterministic: bool = True):\n",
    "        \"\"\"\n",
    "        Records a video of an agent's trajectory traversing ``eval_env`` and logs it to TensorBoard.\n",
    "        :param eval_env: A gym environment from which the trajectory is recorded\n",
    "        :param render_freq: Render the agent's trajectory every eval_freq call of the callback.\n",
    "        :param n_eval_episodes: Number of episodes to render\n",
    "        :param deterministic: Whether to use deterministic or stochastic policy\n",
    "        \"\"\"\n",
    "        super().__init__()\n",
    "        self._eval_env = eval_env\n",
    "        self._render_freq = render_freq\n",
    "        self._n_eval_episodes = n_eval_episodes\n",
    "        self._deterministic = deterministic\n",
    "\n",
    "    def _on_step(self) -> bool:\n",
    "        if self.n_calls % self._render_freq == 0:\n",
    "            screens = []\n",
    "\n",
    "            def grab_screens(_locals: Dict[str, Any], _globals: Dict[str, Any]) -> None:\n",
    "                \"\"\"\n",
    "                Renders the environment in its current state, recording the screen in the captured `screens` list\n",
    "                :param _locals: A dictionary containing all local variables of the callback's scope\n",
    "                :param _globals: A dictionary containing all global variables of the callback's scope\n",
    "                \"\"\"\n",
    "                screen = self._eval_env.render()\n",
    "                # PyTorch uses CxHxW vs HxWxC gym (and tensorflow) image convention\n",
    "                screens.append(screen.transpose(2, 0, 1))\n",
    "\n",
    "            evaluate_policy(\n",
    "                self.model,\n",
    "                self._eval_env,\n",
    "                callback=grab_screens,\n",
    "                n_eval_episodes=self._n_eval_episodes,\n",
    "                deterministic=self._deterministic,\n",
    "            )\n",
    "            self.logger.record(\n",
    "                \"trajectory/video\",\n",
    "                Video(th.from_numpy(np.array([screens])), fps=60),\n",
    "                exclude=(\"stdout\", \"log\", \"json\", \"csv\"),\n",
    "            )\n",
    "        return True"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "87b4aed5",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-14T14:39:26.018930Z",
     "iopub.status.busy": "2024-05-14T14:39:26.018683Z",
     "iopub.status.idle": "2024-05-14T14:39:26.028115Z",
     "shell.execute_reply": "2024-05-14T14:39:26.027214Z"
    },
    "papermill": {
     "duration": 0.015461,
     "end_time": "2024-05-14T14:39:26.029962",
     "exception": false,
     "start_time": "2024-05-14T14:39:26.014501",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# HParamCallback\n",
    "# This should log the hyperparameters specified and map the metrics that are logged to \n",
    "# the appropriate run.\n",
    "class HParamCallback(BaseCallback):\n",
    "    \"\"\"\n",
    "    Saves the hyperparameters and metrics at the start of the training, and logs them to TensorBoard.\n",
    "    \"\"\"    \n",
    "    def __init__(self):\n",
    "        super().__init__()\n",
    "        \n",
    "\n",
    "    def _on_training_start(self) -> None:\n",
    "                    \n",
    "        hparam_dict = {\n",
    "            \"algorithm\": self.model.__class__.__name__,\n",
    "            \"policy\": self.model.policy.__class__.__name__,\n",
    "            \"environment\": self.model.env.__class__.__name__,\n",
    "            \"learning_rate\": self.model.learning_rate,\n",
    "            \"n_steps\": self.model.n_steps,\n",
    "            \"gamma\": self.model.gamma,\n",
    "            \"gae_lambda\": self.model.gae_lambda,\n",
    "            \"ent_coef\": self.model.ent_coef,\n",
    "            \"vf_coef\": self.model.vf_coef,\n",
    "            \"max_grad_norm\": self.model.max_grad_norm,\n",
    "#             \"rms_prop_eps\": self.model.rms_prop_eps, Threw error, model has no attribute\n",
    "#             \"use_rms_prop\": self.model.use_rms_prop, Threw error, model has no attribute\n",
    "            \"use_sde\": self.model.use_sde,\n",
    "            \"sde_sample_freq\": self.model.sde_sample_freq\n",
    "        }\n",
    "        # define the metrics that will appear in the `HPARAMS` Tensorboard tab by referencing their tag\n",
    "        # Tensorbaord will find & display metrics from the `SCALARS` tab\n",
    "        metric_dict = {\n",
    "            \"eval/mean_ep_length\": 0,\n",
    "            \"eval/mean_reward\": 0,\n",
    "            \"rollout/ep_len_mean\": 0,\n",
    "            \"rollout/ep_rew_mean\": 0,\n",
    "            \"rollout/exploration_rate\": 0,\n",
    "            \"time/_episode_num\": 0,\n",
    "            \"time/fps\": 0,\n",
    "            \"time/total_timesteps\": 0,\n",
    "            \"train/learning_rate\": 0.0,\n",
    "            \"train/loss\": 0.0,\n",
    "            \"train/n_updates\": 0.0,\n",
    "            \"locals/rewards\": 0.0,\n",
    "            \"locals/infos_0_lives\": 0.0,\n",
    "            \"locals/num_collected_steps\": 0.0,\n",
    "            \"locals/num_collected_episodes\": 0.0\n",
    "            }\n",
    "                \n",
    "        self.logger.record(\n",
    "            \"hparams\",\n",
    "            HParam(hparam_dict, metric_dict),\n",
    "            exclude=(\"stdout\", \"log\", \"json\", \"csv\"),\n",
    "        )\n",
    "        \n",
    "    def _on_step(self) -> bool:\n",
    "        return True"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "9ed2f5a4",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-14T14:39:26.037879Z",
     "iopub.status.busy": "2024-05-14T14:39:26.037621Z",
     "iopub.status.idle": "2024-05-14T14:39:26.050066Z",
     "shell.execute_reply": "2024-05-14T14:39:26.049310Z"
    },
    "papermill": {
     "duration": 0.018541,
     "end_time": "2024-05-14T14:39:26.052089",
     "exception": false,
     "start_time": "2024-05-14T14:39:26.033548",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# PlotTensorboardValuesCallback\n",
    "# This callback should log values to tensorboard on every step. \n",
    "# The self.logger class should plot a new scalar value when recording.\n",
    "\n",
    "class PlotTensorboardValuesCallback(BaseCallback):\n",
    "    \"\"\"\n",
    "    Custom callback for plotting additional values in tensorboard.\n",
    "    \"\"\"\n",
    "    def __init__(self, eval_env: gym.Env, train_env: gym.Env, model: A2C, verbose=0):\n",
    "        super().__init__(verbose)\n",
    "        self._eval_env = eval_env\n",
    "        self._train_env = train_env\n",
    "        self._model = model\n",
    "\n",
    "    def _on_training_start(self) -> None:\n",
    "        output_formats = self.logger.output_formats\n",
    "        # Save reference to tensorboard formatter object\n",
    "        # note: the failure case (not formatter found) is not handled here, should be done with try/except.\n",
    "        try:\n",
    "            self.tb_formatter = next(formatter for formatter in output_formats if isinstance(formatter, TensorBoardOutputFormat))\n",
    "        except:\n",
    "            print(\"Exception thrown in tb_formatter initialization.\") \n",
    "            \n",
    "        self.tb_formatter.writer.add_text(\"metadata/eval_env\", str(self._eval_env.metadata), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()\n",
    "        self.tb_formatter.writer.add_text(\"metadata/train_env\", str(self._train_env.metadata), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()\n",
    "        \n",
    "\n",
    "    def _on_step(self) -> bool:\n",
    "        self.logger.record(\"time/_episode_num\", self.model._episode_num, exclude=(\"stdout\", \"log\", \"json\", \"csv\"))\n",
    "        self.logger.record(\"train/n_updates\", self.model._n_updates, exclude=(\"stdout\", \"log\", \"json\", \"csv\"))\n",
    "        self.logger.record(\"locals/rewards\", self.locals[\"rewards\"], exclude=(\"stdout\", \"log\", \"json\", \"csv\"))\n",
    "        self.logger.record(\"locals/infos_0_lives\", self.locals[\"infos\"][0][\"lives\"], exclude=(\"stdout\", \"log\", \"json\", \"csv\"))\n",
    "                    \n",
    "        return True\n",
    "    \n",
    "    def _on_training_end(self) -> None:\n",
    "        self.tb_formatter.writer.add_text(\"metadata/eval_env\", str(self._eval_env.metadata), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()\n",
    "        self.tb_formatter.writer.add_text(\"metadata/train_env\", str(self._train_env.metadata), self.num_timesteps)\n",
    "        self.tb_formatter.writer.flush()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "525312a1",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-14T14:39:26.059687Z",
     "iopub.status.busy": "2024-05-14T14:39:26.059443Z",
     "iopub.status.idle": "2024-05-14T14:39:28.963281Z",
     "shell.execute_reply": "2024-05-14T14:39:28.962460Z"
    },
    "papermill": {
     "duration": 2.910274,
     "end_time": "2024-05-14T14:39:28.965712",
     "exception": false,
     "start_time": "2024-05-14T14:39:26.055438",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "A.L.E: Arcade Learning Environment (version 0.8.1+53f58b7)\n",
      "[Powered by Stella]\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Using cuda device\n",
      "Wrapping the env with a `Monitor` wrapper\n",
      "Wrapping the env in a DummyVecEnv.\n",
      "Wrapping the env in a VecTransposeImage.\n"
     ]
    }
   ],
   "source": [
    "# make the training and evaluation environments\n",
    "eval_env = Monitor(gym.make(\"ALE/Pacman-v5\", render_mode=\"rgb_array\", frameskip=FRAMESKIP))\n",
    "train_env = gym.make(\"ALE/Pacman-v5\", render_mode=\"rgb_array\", frameskip=FRAMESKIP)\n",
    "\n",
    "# Make the model with specified hyperparams\n",
    "model = A2C(\n",
    "    \"CnnPolicy\",\n",
    "    train_env,\n",
    "    verbose=1,\n",
    "    tensorboard_log=\"./\",\n",
    "    )"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "c7362bec",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-14T14:39:28.980070Z",
     "iopub.status.busy": "2024-05-14T14:39:28.979758Z",
     "iopub.status.idle": "2024-05-14T14:39:28.986106Z",
     "shell.execute_reply": "2024-05-14T14:39:28.985240Z"
    },
    "papermill": {
     "duration": 0.013086,
     "end_time": "2024-05-14T14:39:28.988025",
     "exception": false,
     "start_time": "2024-05-14T14:39:28.974939",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# Define the callbacks and put them in a list\n",
    "eval_callback = EvalCallback(\n",
    "    eval_env,\n",
    "    best_model_save_path=\"./best_model/\",\n",
    "    log_path=\"./evals/\",\n",
    "    eval_freq=EVAL_CALLBACK_FREQ,\n",
    "    n_eval_episodes=10,\n",
    "    deterministic=True,\n",
    "    render=False)\n",
    "\n",
    "tbplot_callback = PlotTensorboardValuesCallback(eval_env=eval_env, train_env=train_env, model=model)\n",
    "video_callback = VideoRecorderCallback(eval_env, render_freq=VIDEO_CALLBACK_FREQ)\n",
    "hparam_callback = HParamCallback()\n",
    "\n",
    "callback_list = CallbackList([hparam_callback, eval_callback, video_callback, tbplot_callback])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "0bf6ac3e",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-14T14:39:28.996411Z",
     "iopub.status.busy": "2024-05-14T14:39:28.996164Z",
     "iopub.status.idle": "2024-05-14T16:53:32.533566Z",
     "shell.execute_reply": "2024-05-14T16:53:32.532603Z"
    },
    "papermill": {
     "duration": 8043.543948,
     "end_time": "2024-05-14T16:53:32.535728",
     "exception": false,
     "start_time": "2024-05-14T14:39:28.991780",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Logging to ././tb/_1\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/opt/conda/lib/python3.10/site-packages/stable_baselines3/common/callbacks.py:403: UserWarning: Training and eval env are not of the same type<stable_baselines3.common.vec_env.vec_transpose.VecTransposeImage object at 0x7a2542ed4ee0> != <stable_baselines3.common.vec_env.dummy_vec_env.DummyVecEnv object at 0x7a2542ed5660>\n",
      "  warnings.warn(\"Training and eval env are not of the same type\" f\"{self.training_env} != {self.eval_env}\")\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 11       |\n",
      "| time/                 |          |\n",
      "|    fps                | 106      |\n",
      "|    iterations         | 100      |\n",
      "|    time_elapsed       | 4        |\n",
      "|    total_timesteps    | 500      |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.56    |\n",
      "|    explained_variance | -0.0132  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.011   |\n",
      "|    value_loss         | 5.01e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 455      |\n",
      "|    ep_rew_mean        | 14.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 137      |\n",
      "|    iterations         | 200      |\n",
      "|    time_elapsed       | 7        |\n",
      "|    total_timesteps    | 1000     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.56    |\n",
      "|    explained_variance | -0.774   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0162  |\n",
      "|    value_loss         | 0.000132 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 407      |\n",
      "|    ep_rew_mean        | 12.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 152      |\n",
      "|    iterations         | 300      |\n",
      "|    time_elapsed       | 9        |\n",
      "|    total_timesteps    | 1500     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.59    |\n",
      "|    explained_variance | -5.84    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00152 |\n",
      "|    value_loss         | 1.26e-06 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 411      |\n",
      "|    ep_rew_mean        | 13.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 161      |\n",
      "|    iterations         | 400      |\n",
      "|    time_elapsed       | 12       |\n",
      "|    total_timesteps    | 2000     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.59    |\n",
      "|    explained_variance | 0.00325  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.703    |\n",
      "|    value_loss         | 0.382    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 428      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 167      |\n",
      "|    iterations         | 500      |\n",
      "|    time_elapsed       | 14       |\n",
      "|    total_timesteps    | 2500     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.56    |\n",
      "|    explained_variance | -0.0954  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.018   |\n",
      "|    value_loss         | 0.000125 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 446      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 171      |\n",
      "|    iterations         | 600      |\n",
      "|    time_elapsed       | 17       |\n",
      "|    total_timesteps    | 3000     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0.0864   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0205  |\n",
      "|    value_loss         | 0.000136 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 441      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 174      |\n",
      "|    iterations         | 700      |\n",
      "|    time_elapsed       | 20       |\n",
      "|    total_timesteps    | 3500     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | -0.0631  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0122  |\n",
      "|    value_loss         | 0.00051  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 431      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 175      |\n",
      "|    iterations         | 800      |\n",
      "|    time_elapsed       | 22       |\n",
      "|    total_timesteps    | 4000     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.57    |\n",
      "|    explained_variance | 0.00592  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0162  |\n",
      "|    value_loss         | 0.000125 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 420      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 177      |\n",
      "|    iterations         | 900      |\n",
      "|    time_elapsed       | 25       |\n",
      "|    total_timesteps    | 4500     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.57    |\n",
      "|    explained_variance | -0.00494 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0179  |\n",
      "|    value_loss         | 0.000135 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 413      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 178      |\n",
      "|    iterations         | 1000     |\n",
      "|    time_elapsed       | 27       |\n",
      "|    total_timesteps    | 5000     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.5     |\n",
      "|    explained_variance | 0.0277   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0216  |\n",
      "|    value_loss         | 0.000256 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 412      |\n",
      "|    ep_rew_mean        | 16.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 179      |\n",
      "|    iterations         | 1100     |\n",
      "|    time_elapsed       | 30       |\n",
      "|    total_timesteps    | 5500     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.57    |\n",
      "|    explained_variance | -0.0412  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.02    |\n",
      "|    value_loss         | 0.000183 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 414       |\n",
      "|    ep_rew_mean        | 15.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 180       |\n",
      "|    iterations         | 1200      |\n",
      "|    time_elapsed       | 33        |\n",
      "|    total_timesteps    | 6000      |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.61     |\n",
      "|    explained_variance | -1.36e+05 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.00026   |\n",
      "|    value_loss         | 7.17e-08  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 414       |\n",
      "|    ep_rew_mean        | 15.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 181       |\n",
      "|    iterations         | 1300      |\n",
      "|    time_elapsed       | 35        |\n",
      "|    total_timesteps    | 6500      |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.61     |\n",
      "|    explained_variance | -1.35e+05 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.000355  |\n",
      "|    value_loss         | 2.79e-07  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 417      |\n",
      "|    ep_rew_mean        | 15.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 181      |\n",
      "|    iterations         | 1400     |\n",
      "|    time_elapsed       | 38       |\n",
      "|    total_timesteps    | 7000     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.61    |\n",
      "|    explained_variance | 0.0745   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0122  |\n",
      "|    value_loss         | 6.94e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 416      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 181      |\n",
      "|    iterations         | 1500     |\n",
      "|    time_elapsed       | 41       |\n",
      "|    total_timesteps    | 7500     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.6     |\n",
      "|    explained_variance | -5.94    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.00255  |\n",
      "|    value_loss         | 3.32e-06 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 413      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 182      |\n",
      "|    iterations         | 1600     |\n",
      "|    time_elapsed       | 43       |\n",
      "|    total_timesteps    | 8000     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.709   |\n",
      "|    explained_variance | -0.00824 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.99     |\n",
      "|    value_loss         | 1.74     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 423      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 182      |\n",
      "|    iterations         | 1700     |\n",
      "|    time_elapsed       | 46       |\n",
      "|    total_timesteps    | 8500     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.51    |\n",
      "|    explained_variance | 0.000707 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.46     |\n",
      "|    value_loss         | 1.17     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 428      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 183      |\n",
      "|    iterations         | 1800     |\n",
      "|    time_elapsed       | 49       |\n",
      "|    total_timesteps    | 9000     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.42    |\n",
      "|    explained_variance | -0.066   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0109  |\n",
      "|    value_loss         | 7.25e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 430      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 183      |\n",
      "|    iterations         | 1900     |\n",
      "|    time_elapsed       | 51       |\n",
      "|    total_timesteps    | 9500     |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.845   |\n",
      "|    explained_variance | -0.00447 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.097    |\n",
      "|    value_loss         | 0.366    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 430       |\n",
      "|    ep_rew_mean        | 17        |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 2000      |\n",
      "|    time_elapsed       | 54        |\n",
      "|    total_timesteps    | 10000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.57     |\n",
      "|    explained_variance | -1.37e+03 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.00143   |\n",
      "|    value_loss         | 9.6e-07   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 436      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 2100     |\n",
      "|    time_elapsed       | 56       |\n",
      "|    total_timesteps    | 10500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.06    |\n",
      "|    explained_variance | -2.62    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.00169  |\n",
      "|    value_loss         | 3.75e-06 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 449       |\n",
      "|    ep_rew_mean        | 18.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 2200      |\n",
      "|    time_elapsed       | 59        |\n",
      "|    total_timesteps    | 11000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.6      |\n",
      "|    explained_variance | -1.79     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000226 |\n",
      "|    value_loss         | 4.92e-08  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 450      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 2300     |\n",
      "|    time_elapsed       | 62       |\n",
      "|    total_timesteps    | 11500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.6     |\n",
      "|    explained_variance | 0.202    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0143  |\n",
      "|    value_loss         | 8.97e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 448      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 2400     |\n",
      "|    time_elapsed       | 64       |\n",
      "|    total_timesteps    | 12000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.61    |\n",
      "|    explained_variance | 0.0616   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0113  |\n",
      "|    value_loss         | 6.16e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 444      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 2500     |\n",
      "|    time_elapsed       | 67       |\n",
      "|    total_timesteps    | 12500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0639  |\n",
      "|    explained_variance | 0.00382  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.00124  |\n",
      "|    value_loss         | 0.155    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 446      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 2600     |\n",
      "|    time_elapsed       | 69       |\n",
      "|    total_timesteps    | 13000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.55    |\n",
      "|    explained_variance | -0.00718 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.47     |\n",
      "|    value_loss         | 0.914    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 443      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 2700     |\n",
      "|    time_elapsed       | 72       |\n",
      "|    total_timesteps    | 13500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.56    |\n",
      "|    explained_variance | -0.00157 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.228    |\n",
      "|    value_loss         | 0.195    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 441      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 2800     |\n",
      "|    time_elapsed       | 74       |\n",
      "|    total_timesteps    | 14000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | -23.8    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -6e-05   |\n",
      "|    value_loss         | 2.79e-08 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 441      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 2900     |\n",
      "|    time_elapsed       | 77       |\n",
      "|    total_timesteps    | 14500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.5     |\n",
      "|    explained_variance | -0.0602  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00265 |\n",
      "|    value_loss         | 5.45e-06 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 441      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 3000     |\n",
      "|    time_elapsed       | 80       |\n",
      "|    total_timesteps    | 15000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.55    |\n",
      "|    explained_variance | -0.00776 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.046   |\n",
      "|    value_loss         | 0.00125  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 442       |\n",
      "|    ep_rew_mean        | 17.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 3100      |\n",
      "|    time_elapsed       | 82        |\n",
      "|    total_timesteps    | 15500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.178    |\n",
      "|    explained_variance | -45.9     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.79e-06 |\n",
      "|    value_loss         | 4.32e-09  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 440      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 3200     |\n",
      "|    time_elapsed       | 85       |\n",
      "|    total_timesteps    | 16000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0.203    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0171  |\n",
      "|    value_loss         | 0.000215 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 439      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 3300     |\n",
      "|    time_elapsed       | 87       |\n",
      "|    total_timesteps    | 16500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.52    |\n",
      "|    explained_variance | 0.723    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0027   |\n",
      "|    value_loss         | 3.7e-06  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 440      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 3400     |\n",
      "|    time_elapsed       | 90       |\n",
      "|    total_timesteps    | 17000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.55    |\n",
      "|    explained_variance | -34.1    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.00595  |\n",
      "|    value_loss         | 2.05e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 442      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 3500     |\n",
      "|    time_elapsed       | 92       |\n",
      "|    total_timesteps    | 17500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.58    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0139  |\n",
      "|    value_loss         | 9.3e-05  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 442      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 3600     |\n",
      "|    time_elapsed       | 95       |\n",
      "|    total_timesteps    | 18000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.6     |\n",
      "|    explained_variance | 0.0341   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0161  |\n",
      "|    value_loss         | 0.000122 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 441      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 3700     |\n",
      "|    time_elapsed       | 98       |\n",
      "|    total_timesteps    | 18500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.6     |\n",
      "|    explained_variance | -100     |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00164 |\n",
      "|    value_loss         | 1.73e-06 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 441      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 3800     |\n",
      "|    time_elapsed       | 100      |\n",
      "|    total_timesteps    | 19000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.836   |\n",
      "|    explained_variance | 0.0178   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.018   |\n",
      "|    value_loss         | 0.00133  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 439      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 3900     |\n",
      "|    time_elapsed       | 103      |\n",
      "|    total_timesteps    | 19500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.55    |\n",
      "|    explained_variance | 0.133    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0152  |\n",
      "|    value_loss         | 7.41e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 440      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 4000     |\n",
      "|    time_elapsed       | 105      |\n",
      "|    total_timesteps    | 20000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.6     |\n",
      "|    explained_variance | 0.0084   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.63     |\n",
      "|    value_loss         | 0.947    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 442      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 4100     |\n",
      "|    time_elapsed       | 108      |\n",
      "|    total_timesteps    | 20500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.241   |\n",
      "|    explained_variance | 0.0138   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00396 |\n",
      "|    value_loss         | 0.00842  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 446      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 4200     |\n",
      "|    time_elapsed       | 110      |\n",
      "|    total_timesteps    | 21000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.965   |\n",
      "|    explained_variance | 0.00993  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0183  |\n",
      "|    value_loss         | 0.000601 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 446      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 4300     |\n",
      "|    time_elapsed       | 113      |\n",
      "|    total_timesteps    | 21500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.443   |\n",
      "|    explained_variance | 0.0419   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0188  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 449      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 4400     |\n",
      "|    time_elapsed       | 116      |\n",
      "|    total_timesteps    | 22000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.33    |\n",
      "|    explained_variance | 0.034    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00496 |\n",
      "|    value_loss         | 5.16e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 449      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 4500     |\n",
      "|    time_elapsed       | 118      |\n",
      "|    total_timesteps    | 22500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.54    |\n",
      "|    explained_variance | 0.00387  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0118  |\n",
      "|    value_loss         | 4.92e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 449      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 4600     |\n",
      "|    time_elapsed       | 121      |\n",
      "|    total_timesteps    | 23000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.58    |\n",
      "|    explained_variance | 0.0921   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00986 |\n",
      "|    value_loss         | 4.99e-05 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 455       |\n",
      "|    ep_rew_mean        | 17.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 189       |\n",
      "|    iterations         | 4700      |\n",
      "|    time_elapsed       | 123       |\n",
      "|    total_timesteps    | 23500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.6      |\n",
      "|    explained_variance | -0.000367 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 2.39      |\n",
      "|    value_loss         | 3.1       |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 455      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 4800     |\n",
      "|    time_elapsed       | 126      |\n",
      "|    total_timesteps    | 24000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.58    |\n",
      "|    explained_variance | -0.0291  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0218  |\n",
      "|    value_loss         | 0.000252 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 457      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 4900     |\n",
      "|    time_elapsed       | 129      |\n",
      "|    total_timesteps    | 24500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.61    |\n",
      "|    explained_variance | 0.179    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00737 |\n",
      "|    value_loss         | 2.68e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 460      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 5000     |\n",
      "|    time_elapsed       | 131      |\n",
      "|    total_timesteps    | 25000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.187   |\n",
      "|    explained_variance | -0.6     |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.000281 |\n",
      "|    value_loss         | 8.78e-05 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 455       |\n",
      "|    ep_rew_mean        | 17.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 189       |\n",
      "|    iterations         | 5100      |\n",
      "|    time_elapsed       | 134       |\n",
      "|    total_timesteps    | 25500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0313   |\n",
      "|    explained_variance | -2        |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.21e-06 |\n",
      "|    value_loss         | 2.38e-07  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 453       |\n",
      "|    ep_rew_mean        | 17.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 189       |\n",
      "|    iterations         | 5200      |\n",
      "|    time_elapsed       | 137       |\n",
      "|    total_timesteps    | 26000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0245   |\n",
      "|    explained_variance | -274      |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -3.33e-05 |\n",
      "|    value_loss         | 0.000145  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 449      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 5300     |\n",
      "|    time_elapsed       | 139      |\n",
      "|    total_timesteps    | 26500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.59    |\n",
      "|    explained_variance | -0.0324  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0157  |\n",
      "|    value_loss         | 0.000109 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 447      |\n",
      "|    ep_rew_mean        | 16.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 5400     |\n",
      "|    time_elapsed       | 142      |\n",
      "|    total_timesteps    | 27000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.6     |\n",
      "|    explained_variance | -0.00192 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.25     |\n",
      "|    value_loss         | 0.734    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 447      |\n",
      "|    ep_rew_mean        | 16.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 5500     |\n",
      "|    time_elapsed       | 144      |\n",
      "|    total_timesteps    | 27500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.6     |\n",
      "|    explained_variance | -0.0449  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0168  |\n",
      "|    value_loss         | 0.000173 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 447      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 5600     |\n",
      "|    time_elapsed       | 147      |\n",
      "|    total_timesteps    | 28000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.61    |\n",
      "|    explained_variance | 0.00227  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0133  |\n",
      "|    value_loss         | 9.27e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 444      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 5700     |\n",
      "|    time_elapsed       | 150      |\n",
      "|    total_timesteps    | 28500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.53    |\n",
      "|    explained_variance | -0.0242  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.024   |\n",
      "|    value_loss         | 0.000232 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 446      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 5800     |\n",
      "|    time_elapsed       | 152      |\n",
      "|    total_timesteps    | 29000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.41    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00455 |\n",
      "|    value_loss         | 1.59e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 446      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 5900     |\n",
      "|    time_elapsed       | 155      |\n",
      "|    total_timesteps    | 29500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.58    |\n",
      "|    explained_variance | 0.00656  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.022   |\n",
      "|    value_loss         | 0.000219 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 450      |\n",
      "|    ep_rew_mean        | 16.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 6000     |\n",
      "|    time_elapsed       | 157      |\n",
      "|    total_timesteps    | 30000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.59    |\n",
      "|    explained_variance | 0.0198   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0232  |\n",
      "|    value_loss         | 0.00023  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 449      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 6100     |\n",
      "|    time_elapsed       | 160      |\n",
      "|    total_timesteps    | 30500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.6     |\n",
      "|    explained_variance | -0.0101  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.57     |\n",
      "|    value_loss         | 0.936    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 449      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 6200     |\n",
      "|    time_elapsed       | 163      |\n",
      "|    total_timesteps    | 31000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.57    |\n",
      "|    explained_variance | 0.0475   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0323  |\n",
      "|    value_loss         | 0.000592 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 449      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 6300     |\n",
      "|    time_elapsed       | 165      |\n",
      "|    total_timesteps    | 31500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.422   |\n",
      "|    explained_variance | -0.246   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0147  |\n",
      "|    value_loss         | 0.000843 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 450      |\n",
      "|    ep_rew_mean        | 16.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 6400     |\n",
      "|    time_elapsed       | 168      |\n",
      "|    total_timesteps    | 32000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.967   |\n",
      "|    explained_variance | -0.00343 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.614    |\n",
      "|    value_loss         | 1.31     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 450      |\n",
      "|    ep_rew_mean        | 16.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 6500     |\n",
      "|    time_elapsed       | 170      |\n",
      "|    total_timesteps    | 32500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | -0.103   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0068  |\n",
      "|    value_loss         | 5.54e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 448      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 6600     |\n",
      "|    time_elapsed       | 173      |\n",
      "|    total_timesteps    | 33000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.45    |\n",
      "|    explained_variance | 0.0128   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0131  |\n",
      "|    value_loss         | 0.000192 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 447      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 6700     |\n",
      "|    time_elapsed       | 176      |\n",
      "|    total_timesteps    | 33500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.53    |\n",
      "|    explained_variance | 0.00121  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0189  |\n",
      "|    value_loss         | 0.000124 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 447      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 6800     |\n",
      "|    time_elapsed       | 178      |\n",
      "|    total_timesteps    | 34000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0.00518  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.37     |\n",
      "|    value_loss         | 0.579    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 446      |\n",
      "|    ep_rew_mean        | 16.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 6900     |\n",
      "|    time_elapsed       | 181      |\n",
      "|    total_timesteps    | 34500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.33    |\n",
      "|    explained_variance | 4.89e-05 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.243    |\n",
      "|    value_loss         | 0.376    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 445      |\n",
      "|    ep_rew_mean        | 16.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 7000     |\n",
      "|    time_elapsed       | 183      |\n",
      "|    total_timesteps    | 35000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.46    |\n",
      "|    explained_variance | 0.000902 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.604    |\n",
      "|    value_loss         | 0.392    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 445      |\n",
      "|    ep_rew_mean        | 16.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 7100     |\n",
      "|    time_elapsed       | 186      |\n",
      "|    total_timesteps    | 35500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.39    |\n",
      "|    explained_variance | 0.000447 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0199  |\n",
      "|    value_loss         | 0.000329 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 448      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 7200     |\n",
      "|    time_elapsed       | 188      |\n",
      "|    total_timesteps    | 36000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.5     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0134  |\n",
      "|    value_loss         | 8.9e-05  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 448      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 7300     |\n",
      "|    time_elapsed       | 191      |\n",
      "|    total_timesteps    | 36500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.669   |\n",
      "|    explained_variance | 0.00212  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00427 |\n",
      "|    value_loss         | 4.88e-05 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 448       |\n",
      "|    ep_rew_mean        | 16.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 7400      |\n",
      "|    time_elapsed       | 194       |\n",
      "|    total_timesteps    | 37000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.241    |\n",
      "|    explained_variance | 0         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.59e-05 |\n",
      "|    value_loss         | 1.29e-07  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 447       |\n",
      "|    ep_rew_mean        | 16.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 7500      |\n",
      "|    time_elapsed       | 196       |\n",
      "|    total_timesteps    | 37500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.188    |\n",
      "|    explained_variance | 0         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -9.49e-07 |\n",
      "|    value_loss         | 8.48e-10  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 446       |\n",
      "|    ep_rew_mean        | 16.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 7600      |\n",
      "|    time_elapsed       | 199       |\n",
      "|    total_timesteps    | 38000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.12     |\n",
      "|    explained_variance | 0         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -2.41e-05 |\n",
      "|    value_loss         | 1.67e-06  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 445       |\n",
      "|    ep_rew_mean        | 16        |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 7700      |\n",
      "|    time_elapsed       | 201       |\n",
      "|    total_timesteps    | 38500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0847   |\n",
      "|    explained_variance | 0         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000694 |\n",
      "|    value_loss         | 4.22e-07  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 443       |\n",
      "|    ep_rew_mean        | 15.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 7800      |\n",
      "|    time_elapsed       | 204       |\n",
      "|    total_timesteps    | 39000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0545   |\n",
      "|    explained_variance | 1         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.44e-07 |\n",
      "|    value_loss         | 4.5e-10   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 442       |\n",
      "|    ep_rew_mean        | 15.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 7900      |\n",
      "|    time_elapsed       | 206       |\n",
      "|    total_timesteps    | 39500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.045    |\n",
      "|    explained_variance | 0         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -2.48e-06 |\n",
      "|    value_loss         | 1.82e-07  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 442       |\n",
      "|    ep_rew_mean        | 15.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 8000      |\n",
      "|    time_elapsed       | 209       |\n",
      "|    total_timesteps    | 40000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0419   |\n",
      "|    explained_variance | -5.47e+04 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -9.96e-08 |\n",
      "|    value_loss         | 9.79e-10  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 440      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 8100     |\n",
      "|    time_elapsed       | 212      |\n",
      "|    total_timesteps    | 40500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.129   |\n",
      "|    explained_variance | 0.0019   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.00862  |\n",
      "|    value_loss         | 0.387    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 439       |\n",
      "|    ep_rew_mean        | 15        |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 8200      |\n",
      "|    time_elapsed       | 214       |\n",
      "|    total_timesteps    | 41000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.143    |\n",
      "|    explained_variance | -53       |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -7.83e-06 |\n",
      "|    value_loss         | 1.27e-07  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 438      |\n",
      "|    ep_rew_mean        | 14.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 8300     |\n",
      "|    time_elapsed       | 217      |\n",
      "|    total_timesteps    | 41500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0933  |\n",
      "|    explained_variance | -3.23    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 5.62e-06 |\n",
      "|    value_loss         | 1.78e-07 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 438       |\n",
      "|    ep_rew_mean        | 14.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 8400      |\n",
      "|    time_elapsed       | 220       |\n",
      "|    total_timesteps    | 42000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.191    |\n",
      "|    explained_variance | -0.0566   |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -4.13e-05 |\n",
      "|    value_loss         | 1.76e-06  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 437       |\n",
      "|    ep_rew_mean        | 14.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 8500      |\n",
      "|    time_elapsed       | 222       |\n",
      "|    total_timesteps    | 42500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.158    |\n",
      "|    explained_variance | -5.6e-05  |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000382 |\n",
      "|    value_loss         | 0.000229  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 437      |\n",
      "|    ep_rew_mean        | 14.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 8600     |\n",
      "|    time_elapsed       | 225      |\n",
      "|    total_timesteps    | 43000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0806  |\n",
      "|    explained_variance | -0.0122  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -5.8e-05 |\n",
      "|    value_loss         | 2.71e-05 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 437       |\n",
      "|    ep_rew_mean        | 14.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 8700      |\n",
      "|    time_elapsed       | 227       |\n",
      "|    total_timesteps    | 43500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0564   |\n",
      "|    explained_variance | -2.04e+03 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.32e-06 |\n",
      "|    value_loss         | 6.33e-08  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 436       |\n",
      "|    ep_rew_mean        | 14.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 8800      |\n",
      "|    time_elapsed       | 230       |\n",
      "|    total_timesteps    | 44000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0384   |\n",
      "|    explained_variance | 0         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -8.72e-07 |\n",
      "|    value_loss         | 3.43e-08  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 434      |\n",
      "|    ep_rew_mean        | 14.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 8900     |\n",
      "|    time_elapsed       | 233      |\n",
      "|    total_timesteps    | 44500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0379  |\n",
      "|    explained_variance | -0.988   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.8e-06  |\n",
      "|    value_loss         | 1.49e-07 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 435      |\n",
      "|    ep_rew_mean        | 14.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 9000     |\n",
      "|    time_elapsed       | 235      |\n",
      "|    total_timesteps    | 45000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0553  |\n",
      "|    explained_variance | -1.19    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.83e-06 |\n",
      "|    value_loss         | 6.38e-08 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 433      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 190      |\n",
      "|    iterations         | 9100     |\n",
      "|    time_elapsed       | 238      |\n",
      "|    total_timesteps    | 45500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.113   |\n",
      "|    explained_variance | 0.2      |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -7.4e-05 |\n",
      "|    value_loss         | 1.9e-05  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 431       |\n",
      "|    ep_rew_mean        | 13.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 190       |\n",
      "|    iterations         | 9200      |\n",
      "|    time_elapsed       | 240       |\n",
      "|    total_timesteps    | 46000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.101    |\n",
      "|    explained_variance | -81.2     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -3.21e-05 |\n",
      "|    value_loss         | 5.6e-06   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 431       |\n",
      "|    ep_rew_mean        | 13.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 9300      |\n",
      "|    time_elapsed       | 243       |\n",
      "|    total_timesteps    | 46500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0339   |\n",
      "|    explained_variance | -7.2e+03  |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -6.27e-07 |\n",
      "|    value_loss         | 1.07e-07  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 431       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 9400      |\n",
      "|    time_elapsed       | 246       |\n",
      "|    total_timesteps    | 47000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0571   |\n",
      "|    explained_variance | 0.0575    |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -3.65e-05 |\n",
      "|    value_loss         | 2.39e-05  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 431      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 9500     |\n",
      "|    time_elapsed       | 248      |\n",
      "|    total_timesteps    | 47500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0319  |\n",
      "|    explained_variance | 0.378    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.01e-07 |\n",
      "|    value_loss         | 3.51e-09 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 431       |\n",
      "|    ep_rew_mean        | 12.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 9600      |\n",
      "|    time_elapsed       | 251       |\n",
      "|    total_timesteps    | 48000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0398   |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.68e-07 |\n",
      "|    value_loss         | 1.17e-09  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 430       |\n",
      "|    ep_rew_mean        | 12.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 9700      |\n",
      "|    time_elapsed       | 253       |\n",
      "|    total_timesteps    | 48500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.264    |\n",
      "|    explained_variance | -3.79     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000418 |\n",
      "|    value_loss         | 9.51e-05  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 430      |\n",
      "|    ep_rew_mean        | 12.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 9800     |\n",
      "|    time_elapsed       | 256      |\n",
      "|    total_timesteps    | 49000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.054   |\n",
      "|    explained_variance | -261     |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 3.09e-06 |\n",
      "|    value_loss         | 5.02e-07 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 429      |\n",
      "|    ep_rew_mean        | 12.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 9900     |\n",
      "|    time_elapsed       | 258      |\n",
      "|    total_timesteps    | 49500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.09    |\n",
      "|    explained_variance | -14.2    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 4.4e-06  |\n",
      "|    value_loss         | 1.42e-07 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 429       |\n",
      "|    ep_rew_mean        | 12.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 10000     |\n",
      "|    time_elapsed       | 261       |\n",
      "|    total_timesteps    | 50000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0174   |\n",
      "|    explained_variance | 0.452     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -4.48e-06 |\n",
      "|    value_loss         | 5.39e-06  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 428       |\n",
      "|    ep_rew_mean        | 12.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 10100     |\n",
      "|    time_elapsed       | 264       |\n",
      "|    total_timesteps    | 50500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.00939  |\n",
      "|    explained_variance | 0         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -5.94e-08 |\n",
      "|    value_loss         | 3.91e-09  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 428       |\n",
      "|    ep_rew_mean        | 12.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 10200     |\n",
      "|    time_elapsed       | 266       |\n",
      "|    total_timesteps    | 51000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0105   |\n",
      "|    explained_variance | 0         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -4.44e-07 |\n",
      "|    value_loss         | 1.49e-07  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 424      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 10300    |\n",
      "|    time_elapsed       | 269      |\n",
      "|    total_timesteps    | 51500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0477  |\n",
      "|    explained_variance | -12.6    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -5.1e-05 |\n",
      "|    value_loss         | 9.61e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 423      |\n",
      "|    ep_rew_mean        | 11.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 10400    |\n",
      "|    time_elapsed       | 271      |\n",
      "|    total_timesteps    | 52000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0348  |\n",
      "|    explained_variance | -116     |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.86e-07 |\n",
      "|    value_loss         | 5.44e-09 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 417       |\n",
      "|    ep_rew_mean        | 10.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 10500     |\n",
      "|    time_elapsed       | 274       |\n",
      "|    total_timesteps    | 52500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0508   |\n",
      "|    explained_variance | 0         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.29e-06 |\n",
      "|    value_loss         | 4.14e-08  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 416       |\n",
      "|    ep_rew_mean        | 10.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 10600     |\n",
      "|    time_elapsed       | 276       |\n",
      "|    total_timesteps    | 53000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0241   |\n",
      "|    explained_variance | -3.17     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -4.54e-06 |\n",
      "|    value_loss         | 2.68e-06  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 416      |\n",
      "|    ep_rew_mean        | 10.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 10700    |\n",
      "|    time_elapsed       | 279      |\n",
      "|    total_timesteps    | 53500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.019   |\n",
      "|    explained_variance | 0.368    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.06e-07 |\n",
      "|    value_loss         | 9.54e-09 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 415       |\n",
      "|    ep_rew_mean        | 10.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 10800     |\n",
      "|    time_elapsed       | 282       |\n",
      "|    total_timesteps    | 54000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.034    |\n",
      "|    explained_variance | 0.429     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.07e-05 |\n",
      "|    value_loss         | 7.07e-06  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 413       |\n",
      "|    ep_rew_mean        | 10.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 10900     |\n",
      "|    time_elapsed       | 284       |\n",
      "|    total_timesteps    | 54500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0317   |\n",
      "|    explained_variance | 0         |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -2.57e-06 |\n",
      "|    value_loss         | 4.86e-07  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 413      |\n",
      "|    ep_rew_mean        | 10.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 11000    |\n",
      "|    time_elapsed       | 287      |\n",
      "|    total_timesteps    | 55000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.58    |\n",
      "|    explained_variance | 0.00194  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.16     |\n",
      "|    value_loss         | 0.74     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 415       |\n",
      "|    ep_rew_mean        | 10.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 11100     |\n",
      "|    time_elapsed       | 289       |\n",
      "|    total_timesteps    | 55500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.143    |\n",
      "|    explained_variance | -0.000642 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.12      |\n",
      "|    value_loss         | 2.09      |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 415       |\n",
      "|    ep_rew_mean        | 10.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 11200     |\n",
      "|    time_elapsed       | 292       |\n",
      "|    total_timesteps    | 56000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0776   |\n",
      "|    explained_variance | -90.7     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.05e-05 |\n",
      "|    value_loss         | 1.48e-06  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 414       |\n",
      "|    ep_rew_mean        | 9.87      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 11300     |\n",
      "|    time_elapsed       | 295       |\n",
      "|    total_timesteps    | 56500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0516   |\n",
      "|    explained_variance | 0.77      |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -7.31e-05 |\n",
      "|    value_loss         | 0.000303  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 414      |\n",
      "|    ep_rew_mean        | 9.78     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 11400    |\n",
      "|    time_elapsed       | 297      |\n",
      "|    total_timesteps    | 57000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0993  |\n",
      "|    explained_variance | -0.0146  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -3.6e-05 |\n",
      "|    value_loss         | 6.39e-06 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 414      |\n",
      "|    ep_rew_mean        | 9.7      |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 11500    |\n",
      "|    time_elapsed       | 300      |\n",
      "|    total_timesteps    | 57500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.033   |\n",
      "|    explained_variance | -382     |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.06e-06 |\n",
      "|    value_loss         | 1.84e-07 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 412      |\n",
      "|    ep_rew_mean        | 9.38     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 11600    |\n",
      "|    time_elapsed       | 303      |\n",
      "|    total_timesteps    | 58000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | -0.445   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.102   |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 412      |\n",
      "|    ep_rew_mean        | 9.38     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 11700    |\n",
      "|    time_elapsed       | 305      |\n",
      "|    total_timesteps    | 58500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.59    |\n",
      "|    explained_variance | 0.192    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0401  |\n",
      "|    value_loss         | 0.000786 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 415      |\n",
      "|    ep_rew_mean        | 9.86     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 11800    |\n",
      "|    time_elapsed       | 308      |\n",
      "|    total_timesteps    | 59000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.56    |\n",
      "|    explained_variance | -0.0214  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00998 |\n",
      "|    value_loss         | 4.7e-05  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 415      |\n",
      "|    ep_rew_mean        | 9.91     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 11900    |\n",
      "|    time_elapsed       | 310      |\n",
      "|    total_timesteps    | 59500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.487   |\n",
      "|    explained_variance | -0.0525  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00578 |\n",
      "|    value_loss         | 3.14e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 414      |\n",
      "|    ep_rew_mean        | 9.86     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 12000    |\n",
      "|    time_elapsed       | 313      |\n",
      "|    total_timesteps    | 60000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.59    |\n",
      "|    explained_variance | 0.0409   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0317  |\n",
      "|    value_loss         | 0.000422 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 414       |\n",
      "|    ep_rew_mean        | 9.84      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 12100     |\n",
      "|    time_elapsed       | 315       |\n",
      "|    total_timesteps    | 60500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0978   |\n",
      "|    explained_variance | -9.45     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.45e-05 |\n",
      "|    value_loss         | 1.87e-06  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 415      |\n",
      "|    ep_rew_mean        | 9.81     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 12200    |\n",
      "|    time_elapsed       | 318      |\n",
      "|    total_timesteps    | 61000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00445 |\n",
      "|    value_loss         | 1.64e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 414      |\n",
      "|    ep_rew_mean        | 9.71     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 12300    |\n",
      "|    time_elapsed       | 321      |\n",
      "|    total_timesteps    | 61500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0.00419  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0029  |\n",
      "|    value_loss         | 7.08e-06 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 413      |\n",
      "|    ep_rew_mean        | 9.69     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 12400    |\n",
      "|    time_elapsed       | 323      |\n",
      "|    total_timesteps    | 62000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.6     |\n",
      "|    explained_variance | 0.000323 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.91     |\n",
      "|    value_loss         | 0.574    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 414      |\n",
      "|    ep_rew_mean        | 10.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 12500    |\n",
      "|    time_elapsed       | 326      |\n",
      "|    total_timesteps    | 62500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.418   |\n",
      "|    explained_variance | 0.0173   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0006  |\n",
      "|    value_loss         | 5.04e-05 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 414       |\n",
      "|    ep_rew_mean        | 10.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 12600     |\n",
      "|    time_elapsed       | 328       |\n",
      "|    total_timesteps    | 63000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.365    |\n",
      "|    explained_variance | 1.19e-07  |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000989 |\n",
      "|    value_loss         | 0.000192  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 413      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 12700    |\n",
      "|    time_elapsed       | 331      |\n",
      "|    total_timesteps    | 63500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.177   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 5.04e-07 |\n",
      "|    value_loss         | 3.02e-10 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 412       |\n",
      "|    ep_rew_mean        | 10.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 12800     |\n",
      "|    time_elapsed       | 334       |\n",
      "|    total_timesteps    | 64000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0954   |\n",
      "|    explained_variance | -16.4     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -3.77e-06 |\n",
      "|    value_loss         | 9.8e-08   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 408      |\n",
      "|    ep_rew_mean        | 10.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 12900    |\n",
      "|    time_elapsed       | 336      |\n",
      "|    total_timesteps    | 64500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0705  |\n",
      "|    explained_variance | -0.0405  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.00832  |\n",
      "|    value_loss         | 0.809    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 408      |\n",
      "|    ep_rew_mean        | 10.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 13000    |\n",
      "|    time_elapsed       | 339      |\n",
      "|    total_timesteps    | 65000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0.441    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.859    |\n",
      "|    value_loss         | 0.999    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 406      |\n",
      "|    ep_rew_mean        | 10       |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 13100    |\n",
      "|    time_elapsed       | 341      |\n",
      "|    total_timesteps    | 65500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.47    |\n",
      "|    explained_variance | 0.0912   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00137  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 406      |\n",
      "|    ep_rew_mean        | 10.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 13200    |\n",
      "|    time_elapsed       | 344      |\n",
      "|    total_timesteps    | 66000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.56    |\n",
      "|    explained_variance | 0.0208   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0135  |\n",
      "|    value_loss         | 9.95e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 407      |\n",
      "|    ep_rew_mean        | 10.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 13300    |\n",
      "|    time_elapsed       | 347      |\n",
      "|    total_timesteps    | 66500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.33    |\n",
      "|    explained_variance | 0.0435   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0105  |\n",
      "|    value_loss         | 4.23e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 408      |\n",
      "|    ep_rew_mean        | 10.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 13400    |\n",
      "|    time_elapsed       | 349      |\n",
      "|    total_timesteps    | 67000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.48    |\n",
      "|    explained_variance | -0.0235  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00701 |\n",
      "|    value_loss         | 3.39e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 410      |\n",
      "|    ep_rew_mean        | 10.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 13500    |\n",
      "|    time_elapsed       | 352      |\n",
      "|    total_timesteps    | 67500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.49    |\n",
      "|    explained_variance | 0.0157   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.515    |\n",
      "|    value_loss         | 0.369    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 412      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 13600    |\n",
      "|    time_elapsed       | 354      |\n",
      "|    total_timesteps    | 68000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.87    |\n",
      "|    explained_variance | 0.0187   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0568  |\n",
      "|    value_loss         | 0.00274  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 411      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 13700    |\n",
      "|    time_elapsed       | 357      |\n",
      "|    total_timesteps    | 68500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0.0684   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0084  |\n",
      "|    value_loss         | 9.15e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 411      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 13800    |\n",
      "|    time_elapsed       | 360      |\n",
      "|    total_timesteps    | 69000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.493   |\n",
      "|    explained_variance | -0.00582 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00183 |\n",
      "|    value_loss         | 0.000299 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 410       |\n",
      "|    ep_rew_mean        | 10.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 13900     |\n",
      "|    time_elapsed       | 362       |\n",
      "|    total_timesteps    | 69500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.271    |\n",
      "|    explained_variance | 0.0349    |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -8.32e-05 |\n",
      "|    value_loss         | 2.85e-06  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 409      |\n",
      "|    ep_rew_mean        | 10.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 14000    |\n",
      "|    time_elapsed       | 365      |\n",
      "|    total_timesteps    | 70000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | -0.00775 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0206  |\n",
      "|    value_loss         | 0.000471 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 407       |\n",
      "|    ep_rew_mean        | 10.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 14100     |\n",
      "|    time_elapsed       | 367       |\n",
      "|    total_timesteps    | 70500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.115    |\n",
      "|    explained_variance | -6.49     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000153 |\n",
      "|    value_loss         | 6.92e-05  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 407      |\n",
      "|    ep_rew_mean        | 9.98     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 14200    |\n",
      "|    time_elapsed       | 370      |\n",
      "|    total_timesteps    | 71000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.113   |\n",
      "|    explained_variance | -5.56    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -6e-06   |\n",
      "|    value_loss         | 2.99e-07 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 406      |\n",
      "|    ep_rew_mean        | 9.86     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 14300    |\n",
      "|    time_elapsed       | 373      |\n",
      "|    total_timesteps    | 71500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.449   |\n",
      "|    explained_variance | -0.053   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00042 |\n",
      "|    value_loss         | 1.59e-06 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 406       |\n",
      "|    ep_rew_mean        | 9.7       |\n",
      "| time/                 |           |\n",
      "|    fps                | 191       |\n",
      "|    iterations         | 14400     |\n",
      "|    time_elapsed       | 375       |\n",
      "|    total_timesteps    | 72000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.259    |\n",
      "|    explained_variance | 0.0448    |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000187 |\n",
      "|    value_loss         | 1.37e-05  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 405      |\n",
      "|    ep_rew_mean        | 9.68     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 14500    |\n",
      "|    time_elapsed       | 378      |\n",
      "|    total_timesteps    | 72500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.296   |\n",
      "|    explained_variance | -0.0444  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0125   |\n",
      "|    value_loss         | 0.192    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 405      |\n",
      "|    ep_rew_mean        | 9.65     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 14600    |\n",
      "|    time_elapsed       | 380      |\n",
      "|    total_timesteps    | 73000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.188   |\n",
      "|    explained_variance | -0.146   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00074 |\n",
      "|    value_loss         | 0.000485 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 406      |\n",
      "|    ep_rew_mean        | 9.73     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 14700    |\n",
      "|    time_elapsed       | 383      |\n",
      "|    total_timesteps    | 73500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.327   |\n",
      "|    explained_variance | -0.00902 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00102 |\n",
      "|    value_loss         | 0.000241 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 407      |\n",
      "|    ep_rew_mean        | 9.73     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 14800    |\n",
      "|    time_elapsed       | 386      |\n",
      "|    total_timesteps    | 74000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.55    |\n",
      "|    explained_variance | 0.0313   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00213 |\n",
      "|    value_loss         | 0.000248 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 406      |\n",
      "|    ep_rew_mean        | 9.77     |\n",
      "| time/                 |          |\n",
      "|    fps                | 191      |\n",
      "|    iterations         | 14900    |\n",
      "|    time_elapsed       | 388      |\n",
      "|    total_timesteps    | 74500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.59    |\n",
      "|    explained_variance | -0.267   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00528 |\n",
      "|    value_loss         | 1.78e-05 |\n",
      "------------------------------------\n",
      "Eval num_timesteps=75000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "-------------------------------------\n",
      "| eval/                 |           |\n",
      "|    mean_ep_length     | 420       |\n",
      "|    mean_reward        | 1         |\n",
      "| time/                 |           |\n",
      "|    total_timesteps    | 75000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.101    |\n",
      "|    explained_variance | -72       |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000101 |\n",
      "|    value_loss         | 4.75e-05  |\n",
      "-------------------------------------\n",
      "New best mean reward!\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 406      |\n",
      "|    ep_rew_mean     | 9.68     |\n",
      "| time/              |          |\n",
      "|    fps             | 186      |\n",
      "|    iterations      | 15000    |\n",
      "|    time_elapsed    | 402      |\n",
      "|    total_timesteps | 75000    |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 405      |\n",
      "|    ep_rew_mean        | 9.6      |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 15100    |\n",
      "|    time_elapsed       | 404      |\n",
      "|    total_timesteps    | 75500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0.107    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0401  |\n",
      "|    value_loss         | 0.000408 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 406      |\n",
      "|    ep_rew_mean        | 9.55     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 15200    |\n",
      "|    time_elapsed       | 407      |\n",
      "|    total_timesteps    | 76000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.52    |\n",
      "|    explained_variance | -0.0484  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0206  |\n",
      "|    value_loss         | 0.000225 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 402      |\n",
      "|    ep_rew_mean        | 9.4      |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 15300    |\n",
      "|    time_elapsed       | 410      |\n",
      "|    total_timesteps    | 76500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.4     |\n",
      "|    explained_variance | 0.509    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.727   |\n",
      "|    value_loss         | 0.366    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 402      |\n",
      "|    ep_rew_mean        | 9.43     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 15400    |\n",
      "|    time_elapsed       | 412      |\n",
      "|    total_timesteps    | 77000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.687   |\n",
      "|    explained_variance | -0.0212  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0101  |\n",
      "|    value_loss         | 0.000613 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 402      |\n",
      "|    ep_rew_mean        | 9.42     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 15500    |\n",
      "|    time_elapsed       | 415      |\n",
      "|    total_timesteps    | 77500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.936   |\n",
      "|    explained_variance | -0.038   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0046  |\n",
      "|    value_loss         | 2.49e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 400      |\n",
      "|    ep_rew_mean        | 9.37     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 15600    |\n",
      "|    time_elapsed       | 418      |\n",
      "|    total_timesteps    | 78000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.201   |\n",
      "|    explained_variance | -0.078   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.678    |\n",
      "|    value_loss         | 0.648    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 400       |\n",
      "|    ep_rew_mean        | 9.38      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 15700     |\n",
      "|    time_elapsed       | 420       |\n",
      "|    total_timesteps    | 78500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.323    |\n",
      "|    explained_variance | -36.8     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000301 |\n",
      "|    value_loss         | 3.05e-05  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 400       |\n",
      "|    ep_rew_mean        | 9.39      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 15800     |\n",
      "|    time_elapsed       | 423       |\n",
      "|    total_timesteps    | 79000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.266    |\n",
      "|    explained_variance | -0.00674  |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000138 |\n",
      "|    value_loss         | 5.29e-06  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 400      |\n",
      "|    ep_rew_mean        | 9.4      |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 15900    |\n",
      "|    time_elapsed       | 425      |\n",
      "|    total_timesteps    | 79500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.6     |\n",
      "|    explained_variance | 0.0184   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0237  |\n",
      "|    value_loss         | 0.000271 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 401      |\n",
      "|    ep_rew_mean        | 9.62     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 16000    |\n",
      "|    time_elapsed       | 428      |\n",
      "|    total_timesteps    | 80000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.59    |\n",
      "|    explained_variance | -0.0433  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0305  |\n",
      "|    value_loss         | 0.000477 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 401      |\n",
      "|    ep_rew_mean        | 9.71     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 16100    |\n",
      "|    time_elapsed       | 431      |\n",
      "|    total_timesteps    | 80500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.87    |\n",
      "|    explained_variance | -0.0604  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0111  |\n",
      "|    value_loss         | 0.000729 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 401      |\n",
      "|    ep_rew_mean        | 9.95     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 16200    |\n",
      "|    time_elapsed       | 433      |\n",
      "|    total_timesteps    | 81000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.867   |\n",
      "|    explained_variance | -0.0492  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.171    |\n",
      "|    value_loss         | 0.415    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 401      |\n",
      "|    ep_rew_mean        | 10.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 16300    |\n",
      "|    time_elapsed       | 436      |\n",
      "|    total_timesteps    | 81500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | -0.866   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00196 |\n",
      "|    value_loss         | 1.8e-06  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 402      |\n",
      "|    ep_rew_mean        | 10.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 16400    |\n",
      "|    time_elapsed       | 438      |\n",
      "|    total_timesteps    | 82000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.971   |\n",
      "|    explained_variance | 0.171    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00605 |\n",
      "|    value_loss         | 5.7e-05  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 401      |\n",
      "|    ep_rew_mean        | 10.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 16500    |\n",
      "|    time_elapsed       | 441      |\n",
      "|    total_timesteps    | 82500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.996   |\n",
      "|    explained_variance | 0.106    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.00131  |\n",
      "|    value_loss         | 1.12e-06 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 401      |\n",
      "|    ep_rew_mean        | 10.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 16600    |\n",
      "|    time_elapsed       | 444      |\n",
      "|    total_timesteps    | 83000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.04    |\n",
      "|    explained_variance | -0.173   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0187  |\n",
      "|    value_loss         | 0.0002   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 399      |\n",
      "|    ep_rew_mean        | 10.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 16700    |\n",
      "|    time_elapsed       | 446      |\n",
      "|    total_timesteps    | 83500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.882   |\n",
      "|    explained_variance | 0.318    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0112  |\n",
      "|    value_loss         | 5.27e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 398      |\n",
      "|    ep_rew_mean        | 10.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 16800    |\n",
      "|    time_elapsed       | 449      |\n",
      "|    total_timesteps    | 84000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.451   |\n",
      "|    explained_variance | 0.0354   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.024   |\n",
      "|    value_loss         | 0.00109  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 399      |\n",
      "|    ep_rew_mean        | 10.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 16900    |\n",
      "|    time_elapsed       | 452      |\n",
      "|    total_timesteps    | 84500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.8     |\n",
      "|    explained_variance | -0.0302  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.09     |\n",
      "|    value_loss         | 2.07     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 399      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 17000    |\n",
      "|    time_elapsed       | 454      |\n",
      "|    total_timesteps    | 85000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.303   |\n",
      "|    explained_variance | 0.000249 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00144 |\n",
      "|    value_loss         | 0.000453 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 400       |\n",
      "|    ep_rew_mean        | 10.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 17100     |\n",
      "|    time_elapsed       | 457       |\n",
      "|    total_timesteps    | 85500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0504   |\n",
      "|    explained_variance | -8.83     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -4.32e-05 |\n",
      "|    value_loss         | 8.54e-05  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 400       |\n",
      "|    ep_rew_mean        | 10.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 17200     |\n",
      "|    time_elapsed       | 459       |\n",
      "|    total_timesteps    | 86000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.00249  |\n",
      "|    explained_variance | -0.235    |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.62e-08 |\n",
      "|    value_loss         | 6.06e-09  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 400      |\n",
      "|    ep_rew_mean        | 10.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 17300    |\n",
      "|    time_elapsed       | 462      |\n",
      "|    total_timesteps    | 86500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.00351 |\n",
      "|    explained_variance | -3.11    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 8.43e-07 |\n",
      "|    value_loss         | 1.17e-05 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 399       |\n",
      "|    ep_rew_mean        | 10.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 17400     |\n",
      "|    time_elapsed       | 465       |\n",
      "|    total_timesteps    | 87000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.00819  |\n",
      "|    explained_variance | 0.0723    |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.38e-06 |\n",
      "|    value_loss         | 2.74e-06  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 399      |\n",
      "|    ep_rew_mean        | 10.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 17500    |\n",
      "|    time_elapsed       | 467      |\n",
      "|    total_timesteps    | 87500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.00418 |\n",
      "|    explained_variance | -0.705   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 3.34e-07 |\n",
      "|    value_loss         | 7.22e-07 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 399      |\n",
      "|    ep_rew_mean        | 10.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 17600    |\n",
      "|    time_elapsed       | 470      |\n",
      "|    total_timesteps    | 88000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0579  |\n",
      "|    explained_variance | -0.213   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.00719  |\n",
      "|    value_loss         | 1.67     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 399      |\n",
      "|    ep_rew_mean        | 10.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 17700    |\n",
      "|    time_elapsed       | 473      |\n",
      "|    total_timesteps    | 88500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.00663 |\n",
      "|    explained_variance | -10.3    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 7.22e-07 |\n",
      "|    value_loss         | 2.35e-06 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 399      |\n",
      "|    ep_rew_mean        | 10.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 17800    |\n",
      "|    time_elapsed       | 475      |\n",
      "|    total_timesteps    | 89000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.00567 |\n",
      "|    explained_variance | -1.31    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.73e-07 |\n",
      "|    value_loss         | 3.65e-07 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 399       |\n",
      "|    ep_rew_mean        | 10.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 17900     |\n",
      "|    time_elapsed       | 478       |\n",
      "|    total_timesteps    | 89500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0272   |\n",
      "|    explained_variance | -1.36     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -2.18e-05 |\n",
      "|    value_loss         | 4.73e-05  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 399       |\n",
      "|    ep_rew_mean        | 10.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 18000     |\n",
      "|    time_elapsed       | 481       |\n",
      "|    total_timesteps    | 90000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0895   |\n",
      "|    explained_variance | -0.00105  |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -7.17e-05 |\n",
      "|    value_loss         | 3.13e-05  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 399      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 18100    |\n",
      "|    time_elapsed       | 483      |\n",
      "|    total_timesteps    | 90500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.176   |\n",
      "|    explained_variance | -1.04    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -4.2e-05 |\n",
      "|    value_loss         | 2.51e-06 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 399      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 18200    |\n",
      "|    time_elapsed       | 486      |\n",
      "|    total_timesteps    | 91000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.0805  |\n",
      "|    explained_variance | -4.88    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 6.48e-05 |\n",
      "|    value_loss         | 5.8e-05  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 399       |\n",
      "|    ep_rew_mean        | 10.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 18300     |\n",
      "|    time_elapsed       | 489       |\n",
      "|    total_timesteps    | 91500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.091    |\n",
      "|    explained_variance | 0.00415   |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.000119 |\n",
      "|    value_loss         | 8.25e-05  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 400       |\n",
      "|    ep_rew_mean        | 10.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 18400     |\n",
      "|    time_elapsed       | 491       |\n",
      "|    total_timesteps    | 92000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0607   |\n",
      "|    explained_variance | 0.0644    |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -8.92e-06 |\n",
      "|    value_loss         | 1.15e-06  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 400       |\n",
      "|    ep_rew_mean        | 10.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 18500     |\n",
      "|    time_elapsed       | 494       |\n",
      "|    total_timesteps    | 92500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0311   |\n",
      "|    explained_variance | 0.471     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.02e-05 |\n",
      "|    value_loss         | 6.98e-06  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 400      |\n",
      "|    ep_rew_mean        | 10.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 18600    |\n",
      "|    time_elapsed       | 496      |\n",
      "|    total_timesteps    | 93000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | -0.084   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00497 |\n",
      "|    value_loss         | 2.49e-05 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 401       |\n",
      "|    ep_rew_mean        | 10.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 18700     |\n",
      "|    time_elapsed       | 499       |\n",
      "|    total_timesteps    | 93500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0158   |\n",
      "|    explained_variance | -71.2     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.89e-07 |\n",
      "|    value_loss         | 1.67e-06  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 401       |\n",
      "|    ep_rew_mean        | 10.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 18800     |\n",
      "|    time_elapsed       | 501       |\n",
      "|    total_timesteps    | 94000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0146   |\n",
      "|    explained_variance | -2.21     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.17e-06 |\n",
      "|    value_loss         | 9.43e-07  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 401      |\n",
      "|    ep_rew_mean        | 10.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 18900    |\n",
      "|    time_elapsed       | 504      |\n",
      "|    total_timesteps    | 94500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.103   |\n",
      "|    explained_variance | 0.258    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.000233 |\n",
      "|    value_loss         | 0.000192 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 401       |\n",
      "|    ep_rew_mean        | 10.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 19000     |\n",
      "|    time_elapsed       | 507       |\n",
      "|    total_timesteps    | 95000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0208   |\n",
      "|    explained_variance | -19.5     |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -8.31e-06 |\n",
      "|    value_loss         | 1.07e-05  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 401       |\n",
      "|    ep_rew_mean        | 10.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 19100     |\n",
      "|    time_elapsed       | 509       |\n",
      "|    total_timesteps    | 95500     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.00601  |\n",
      "|    explained_variance | -1.63e+03 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -4.46e-07 |\n",
      "|    value_loss         | 9.27e-07  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 398       |\n",
      "|    ep_rew_mean        | 10.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 19200     |\n",
      "|    time_elapsed       | 512       |\n",
      "|    total_timesteps    | 96000     |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.0557   |\n",
      "|    explained_variance | -0.179    |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -6.21e-05 |\n",
      "|    value_loss         | 6.77e-05  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 399      |\n",
      "|    ep_rew_mean        | 10.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 19300    |\n",
      "|    time_elapsed       | 514      |\n",
      "|    total_timesteps    | 96500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.42    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0351  |\n",
      "|    value_loss         | 0.000767 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 400      |\n",
      "|    ep_rew_mean        | 11       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 19400    |\n",
      "|    time_elapsed       | 517      |\n",
      "|    total_timesteps    | 97000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.39    |\n",
      "|    explained_variance | 0.186    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0432  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 400      |\n",
      "|    ep_rew_mean        | 11       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 19500    |\n",
      "|    time_elapsed       | 520      |\n",
      "|    total_timesteps    | 97500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.5     |\n",
      "|    explained_variance | 0.00668  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0228  |\n",
      "|    value_loss         | 0.000246 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 404      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 19600    |\n",
      "|    time_elapsed       | 522      |\n",
      "|    total_timesteps    | 98000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.801   |\n",
      "|    explained_variance | -0.0599  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00407 |\n",
      "|    value_loss         | 0.000186 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 403      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 19700    |\n",
      "|    time_elapsed       | 525      |\n",
      "|    total_timesteps    | 98500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.978   |\n",
      "|    explained_variance | 0.0505   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00808 |\n",
      "|    value_loss         | 6.03e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 397      |\n",
      "|    ep_rew_mean        | 11.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 19800    |\n",
      "|    time_elapsed       | 527      |\n",
      "|    total_timesteps    | 99000    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.276   |\n",
      "|    explained_variance | 0.0509   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0339   |\n",
      "|    value_loss         | 0.508    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 397      |\n",
      "|    ep_rew_mean        | 11.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 19900    |\n",
      "|    time_elapsed       | 530      |\n",
      "|    total_timesteps    | 99500    |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.48    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0118  |\n",
      "|    value_loss         | 5.67e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 398      |\n",
      "|    ep_rew_mean        | 11.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 20000    |\n",
      "|    time_elapsed       | 533      |\n",
      "|    total_timesteps    | 100000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.35    |\n",
      "|    explained_variance | -1.85    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0112  |\n",
      "|    value_loss         | 5.14e-05 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 396      |\n",
      "|    ep_rew_mean        | 11.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 20100    |\n",
      "|    time_elapsed       | 535      |\n",
      "|    total_timesteps    | 100500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.58    |\n",
      "|    explained_variance | -0.0531  |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0216  |\n",
      "|    value_loss         | 0.000178 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 395      |\n",
      "|    ep_rew_mean        | 11.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 20200    |\n",
      "|    time_elapsed       | 538      |\n",
      "|    total_timesteps    | 101000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.57    |\n",
      "|    explained_variance | 0.372    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0354  |\n",
      "|    value_loss         | 0.00049  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 395      |\n",
      "|    ep_rew_mean        | 11.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 20300    |\n",
      "|    time_elapsed       | 540      |\n",
      "|    total_timesteps    | 101500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.59    |\n",
      "|    explained_variance | 0.0317   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0315  |\n",
      "|    value_loss         | 0.000407 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 390      |\n",
      "|    ep_rew_mean        | 9.98     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 20400    |\n",
      "|    time_elapsed       | 543      |\n",
      "|    total_timesteps    | 102000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.41    |\n",
      "|    explained_variance | -15.1    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.191   |\n",
      "|    value_loss         | 0.0168   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 390      |\n",
      "|    ep_rew_mean        | 10       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 20500    |\n",
      "|    time_elapsed       | 546      |\n",
      "|    total_timesteps    | 102500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.56    |\n",
      "|    explained_variance | 0.0045   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0349  |\n",
      "|    value_loss         | 0.000579 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 389      |\n",
      "|    ep_rew_mean        | 10       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 20600    |\n",
      "|    time_elapsed       | 548      |\n",
      "|    total_timesteps    | 103000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.49    |\n",
      "|    explained_variance | -0.157   |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0618  |\n",
      "|    value_loss         | 0.00154  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 390      |\n",
      "|    ep_rew_mean        | 10.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 20700    |\n",
      "|    time_elapsed       | 551      |\n",
      "|    total_timesteps    | 103500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.42    |\n",
      "|    explained_variance | -140     |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0323  |\n",
      "|    value_loss         | 0.000463 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 390      |\n",
      "|    ep_rew_mean        | 10.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 20800    |\n",
      "|    time_elapsed       | 553      |\n",
      "|    total_timesteps    | 104000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.57    |\n",
      "|    explained_variance | 0.038    |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.55     |\n",
      "|    value_loss         | 3.62     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 391      |\n",
      "|    ep_rew_mean        | 10.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 20900    |\n",
      "|    time_elapsed       | 556      |\n",
      "|    total_timesteps    | 104500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0709  |\n",
      "|    value_loss         | 0.00299  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 21000    |\n",
      "|    time_elapsed       | 559      |\n",
      "|    total_timesteps    | 105000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0305  |\n",
      "|    value_loss         | 0.00239  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 391       |\n",
      "|    ep_rew_mean        | 10.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 21100     |\n",
      "|    time_elapsed       | 561       |\n",
      "|    total_timesteps    | 105500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.14     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0669   |\n",
      "|    value_loss         | 0.00251   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 21200    |\n",
      "|    time_elapsed       | 564      |\n",
      "|    total_timesteps    | 106000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0393  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 21300    |\n",
      "|    time_elapsed       | 566      |\n",
      "|    total_timesteps    | 106500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0309  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 389      |\n",
      "|    ep_rew_mean        | 10.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 21400    |\n",
      "|    time_elapsed       | 569      |\n",
      "|    total_timesteps    | 107000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.896   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.888    |\n",
      "|    value_loss         | 0.346    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 391      |\n",
      "|    ep_rew_mean        | 10.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 21500    |\n",
      "|    time_elapsed       | 571      |\n",
      "|    total_timesteps    | 107500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.793   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.41     |\n",
      "|    value_loss         | 1.42     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 390      |\n",
      "|    ep_rew_mean        | 10.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 21600    |\n",
      "|    time_elapsed       | 574      |\n",
      "|    total_timesteps    | 108000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.801   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0573  |\n",
      "|    value_loss         | 0.00262  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 390      |\n",
      "|    ep_rew_mean        | 10.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 21700    |\n",
      "|    time_elapsed       | 576      |\n",
      "|    total_timesteps    | 108500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.898   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.064   |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 391      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 21800    |\n",
      "|    time_elapsed       | 579      |\n",
      "|    total_timesteps    | 109000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.834   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0779  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 21900    |\n",
      "|    time_elapsed       | 582      |\n",
      "|    total_timesteps    | 109500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.795   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0332  |\n",
      "|    value_loss         | 0.00155  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 22000    |\n",
      "|    time_elapsed       | 584      |\n",
      "|    total_timesteps    | 110000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.766   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00861 |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 391      |\n",
      "|    ep_rew_mean        | 10.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 22100    |\n",
      "|    time_elapsed       | 587      |\n",
      "|    total_timesteps    | 110500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.744   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00825 |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 391      |\n",
      "|    ep_rew_mean        | 10.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 22200    |\n",
      "|    time_elapsed       | 589      |\n",
      "|    total_timesteps    | 111000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.573   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00621 |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 393      |\n",
      "|    ep_rew_mean        | 11       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 22300    |\n",
      "|    time_elapsed       | 592      |\n",
      "|    total_timesteps    | 111500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.564   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00597 |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 393      |\n",
      "|    ep_rew_mean        | 11       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 22400    |\n",
      "|    time_elapsed       | 594      |\n",
      "|    total_timesteps    | 112000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.618   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0243  |\n",
      "|    value_loss         | 0.00149  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 391      |\n",
      "|    ep_rew_mean        | 10.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 22500    |\n",
      "|    time_elapsed       | 597      |\n",
      "|    total_timesteps    | 112500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.672   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0137  |\n",
      "|    value_loss         | 0.00114  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 22600    |\n",
      "|    time_elapsed       | 600      |\n",
      "|    total_timesteps    | 113000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.645   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00523 |\n",
      "|    value_loss         | 0.00105  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 392       |\n",
      "|    ep_rew_mean        | 10.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 188       |\n",
      "|    iterations         | 22700     |\n",
      "|    time_elapsed       | 602       |\n",
      "|    total_timesteps    | 113500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.571    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0189   |\n",
      "|    value_loss         | 0.000856  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 22800    |\n",
      "|    time_elapsed       | 605      |\n",
      "|    total_timesteps    | 114000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.472   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00246 |\n",
      "|    value_loss         | 0.000574 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 22900    |\n",
      "|    time_elapsed       | 607      |\n",
      "|    total_timesteps    | 114500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.431   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0293  |\n",
      "|    value_loss         | 0.204    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 23000    |\n",
      "|    time_elapsed       | 610      |\n",
      "|    total_timesteps    | 115000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.341   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00171 |\n",
      "|    value_loss         | 0.000656 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 23100    |\n",
      "|    time_elapsed       | 613      |\n",
      "|    total_timesteps    | 115500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.353   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00135 |\n",
      "|    value_loss         | 0.000371 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 392      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 23200    |\n",
      "|    time_elapsed       | 615      |\n",
      "|    total_timesteps    | 116000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.416   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00147 |\n",
      "|    value_loss         | 0.000281 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 391       |\n",
      "|    ep_rew_mean        | 10.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 188       |\n",
      "|    iterations         | 23300     |\n",
      "|    time_elapsed       | 618       |\n",
      "|    total_timesteps    | 116500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.385    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.00104  |\n",
      "|    value_loss         | 0.000169  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 393      |\n",
      "|    ep_rew_mean        | 10.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 23400    |\n",
      "|    time_elapsed       | 620      |\n",
      "|    total_timesteps    | 117000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.56    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00167 |\n",
      "|    value_loss         | 0.000156 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 393      |\n",
      "|    ep_rew_mean        | 10.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 23500    |\n",
      "|    time_elapsed       | 623      |\n",
      "|    total_timesteps    | 117500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.528   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00197 |\n",
      "|    value_loss         | 0.000262 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 393      |\n",
      "|    ep_rew_mean        | 10.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 23600    |\n",
      "|    time_elapsed       | 626      |\n",
      "|    total_timesteps    | 118000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.588   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00275 |\n",
      "|    value_loss         | 0.000376 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 394      |\n",
      "|    ep_rew_mean        | 10.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 23700    |\n",
      "|    time_elapsed       | 628      |\n",
      "|    total_timesteps    | 118500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.613   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.156    |\n",
      "|    value_loss         | 1.31     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 395       |\n",
      "|    ep_rew_mean        | 10.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 188       |\n",
      "|    iterations         | 23800     |\n",
      "|    time_elapsed       | 631       |\n",
      "|    total_timesteps    | 119000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.602    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0165   |\n",
      "|    value_loss         | 0.000672  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 395      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 23900    |\n",
      "|    time_elapsed       | 633      |\n",
      "|    total_timesteps    | 119500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.776   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00564 |\n",
      "|    value_loss         | 0.000692 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 396      |\n",
      "|    ep_rew_mean        | 10.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 24000    |\n",
      "|    time_elapsed       | 636      |\n",
      "|    total_timesteps    | 120000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.699   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0268  |\n",
      "|    value_loss         | 0.00115  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 396      |\n",
      "|    ep_rew_mean        | 10.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 24100    |\n",
      "|    time_elapsed       | 639      |\n",
      "|    total_timesteps    | 120500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.663   |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0255  |\n",
      "|    value_loss         | 0.000885 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 396      |\n",
      "|    ep_rew_mean        | 10.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 24200    |\n",
      "|    time_elapsed       | 641      |\n",
      "|    total_timesteps    | 121000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.702   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00686 |\n",
      "|    value_loss         | 0.00136  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 395      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 24300    |\n",
      "|    time_elapsed       | 644      |\n",
      "|    total_timesteps    | 121500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.889   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.049   |\n",
      "|    value_loss         | 0.00122  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 396      |\n",
      "|    ep_rew_mean        | 10.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 24400    |\n",
      "|    time_elapsed       | 646      |\n",
      "|    total_timesteps    | 122000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.903   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0454  |\n",
      "|    value_loss         | 0.00121  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 396      |\n",
      "|    ep_rew_mean        | 10.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 24500    |\n",
      "|    time_elapsed       | 649      |\n",
      "|    total_timesteps    | 122500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.975   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0242  |\n",
      "|    value_loss         | 0.00118  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 398      |\n",
      "|    ep_rew_mean        | 10.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 24600    |\n",
      "|    time_elapsed       | 652      |\n",
      "|    total_timesteps    | 123000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.08    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.204   |\n",
      "|    value_loss         | 0.479    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 400      |\n",
      "|    ep_rew_mean        | 10.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 24700    |\n",
      "|    time_elapsed       | 654      |\n",
      "|    total_timesteps    | 123500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.12     |\n",
      "|    value_loss         | 1.68     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 401      |\n",
      "|    ep_rew_mean        | 10.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 24800    |\n",
      "|    time_elapsed       | 657      |\n",
      "|    total_timesteps    | 124000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0357  |\n",
      "|    value_loss         | 0.00145  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 402      |\n",
      "|    ep_rew_mean        | 11       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 24900    |\n",
      "|    time_elapsed       | 659      |\n",
      "|    total_timesteps    | 124500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.508    |\n",
      "|    value_loss         | 0.529    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 402      |\n",
      "|    ep_rew_mean        | 11       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 25000    |\n",
      "|    time_elapsed       | 662      |\n",
      "|    total_timesteps    | 125000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0385  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 405       |\n",
      "|    ep_rew_mean        | 11.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 188       |\n",
      "|    iterations         | 25100     |\n",
      "|    time_elapsed       | 664       |\n",
      "|    total_timesteps    | 125500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.07     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -1.03     |\n",
      "|    value_loss         | 1.46      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 404      |\n",
      "|    ep_rew_mean        | 11.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 25200    |\n",
      "|    time_elapsed       | 667      |\n",
      "|    total_timesteps    | 126000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0162  |\n",
      "|    value_loss         | 0.00155  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 405      |\n",
      "|    ep_rew_mean        | 11.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 25300    |\n",
      "|    time_elapsed       | 669      |\n",
      "|    total_timesteps    | 126500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0266  |\n",
      "|    value_loss         | 0.00147  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 405      |\n",
      "|    ep_rew_mean        | 11.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 25400    |\n",
      "|    time_elapsed       | 672      |\n",
      "|    total_timesteps    | 127000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0344  |\n",
      "|    value_loss         | 0.00145  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 407      |\n",
      "|    ep_rew_mean        | 11.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 25500    |\n",
      "|    time_elapsed       | 675      |\n",
      "|    total_timesteps    | 127500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.06    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0645  |\n",
      "|    value_loss         | 0.00147  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 409       |\n",
      "|    ep_rew_mean        | 11.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 188       |\n",
      "|    iterations         | 25600     |\n",
      "|    time_elapsed       | 677       |\n",
      "|    total_timesteps    | 128000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.17     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0457   |\n",
      "|    value_loss         | 0.0015    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 410      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 25700    |\n",
      "|    time_elapsed       | 680      |\n",
      "|    total_timesteps    | 128500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0283  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 411      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 25800    |\n",
      "|    time_elapsed       | 682      |\n",
      "|    total_timesteps    | 129000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0599  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 412      |\n",
      "|    ep_rew_mean        | 12.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 25900    |\n",
      "|    time_elapsed       | 685      |\n",
      "|    total_timesteps    | 129500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0236  |\n",
      "|    value_loss         | 0.00169  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 414      |\n",
      "|    ep_rew_mean        | 12.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 26000    |\n",
      "|    time_elapsed       | 688      |\n",
      "|    total_timesteps    | 130000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.022   |\n",
      "|    value_loss         | 0.00146  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 414      |\n",
      "|    ep_rew_mean        | 12.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 26100    |\n",
      "|    time_elapsed       | 690      |\n",
      "|    total_timesteps    | 130500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0534  |\n",
      "|    value_loss         | 0.00175  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 415      |\n",
      "|    ep_rew_mean        | 12.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 26200    |\n",
      "|    time_elapsed       | 693      |\n",
      "|    total_timesteps    | 131000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0511  |\n",
      "|    value_loss         | 0.0016   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 416      |\n",
      "|    ep_rew_mean        | 12.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 26300    |\n",
      "|    time_elapsed       | 695      |\n",
      "|    total_timesteps    | 131500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.09    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0392  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 418      |\n",
      "|    ep_rew_mean        | 12.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 26400    |\n",
      "|    time_elapsed       | 698      |\n",
      "|    total_timesteps    | 132000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.06    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0207  |\n",
      "|    value_loss         | 0.00177  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 421      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 26500    |\n",
      "|    time_elapsed       | 701      |\n",
      "|    total_timesteps    | 132500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0365  |\n",
      "|    value_loss         | 0.0016   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 422      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 26600    |\n",
      "|    time_elapsed       | 703      |\n",
      "|    total_timesteps    | 133000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0232  |\n",
      "|    value_loss         | 0.00152  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 424      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 26700    |\n",
      "|    time_elapsed       | 706      |\n",
      "|    total_timesteps    | 133500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0626  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 424      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 26800    |\n",
      "|    time_elapsed       | 708      |\n",
      "|    total_timesteps    | 134000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.06    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0168  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 428      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 26900    |\n",
      "|    time_elapsed       | 711      |\n",
      "|    total_timesteps    | 134500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.06    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.121   |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 430      |\n",
      "|    ep_rew_mean        | 13.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 27000    |\n",
      "|    time_elapsed       | 714      |\n",
      "|    total_timesteps    | 135000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0524  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 430      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 27100    |\n",
      "|    time_elapsed       | 716      |\n",
      "|    total_timesteps    | 135500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.61     |\n",
      "|    value_loss         | 0.893    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 431      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 27200    |\n",
      "|    time_elapsed       | 719      |\n",
      "|    total_timesteps    | 136000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.09    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.706    |\n",
      "|    value_loss         | 1.27     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 433      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 27300    |\n",
      "|    time_elapsed       | 722      |\n",
      "|    total_timesteps    | 136500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.09    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0429  |\n",
      "|    value_loss         | 0.00175  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 433      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 27400    |\n",
      "|    time_elapsed       | 724      |\n",
      "|    total_timesteps    | 137000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.643    |\n",
      "|    value_loss         | 2.01     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 435      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 27500    |\n",
      "|    time_elapsed       | 727      |\n",
      "|    total_timesteps    | 137500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.08    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0413  |\n",
      "|    value_loss         | 0.00167  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 436       |\n",
      "|    ep_rew_mean        | 14.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 189       |\n",
      "|    iterations         | 27600     |\n",
      "|    time_elapsed       | 729       |\n",
      "|    total_timesteps    | 138000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.06     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0265   |\n",
      "|    value_loss         | 0.00194   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 437      |\n",
      "|    ep_rew_mean        | 14.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 27700    |\n",
      "|    time_elapsed       | 732      |\n",
      "|    total_timesteps    | 138500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.077   |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 439      |\n",
      "|    ep_rew_mean        | 14.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 27800    |\n",
      "|    time_elapsed       | 735      |\n",
      "|    total_timesteps    | 139000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.02    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0209  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 440      |\n",
      "|    ep_rew_mean        | 14.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 27900    |\n",
      "|    time_elapsed       | 737      |\n",
      "|    total_timesteps    | 139500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.999   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0418  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 442      |\n",
      "|    ep_rew_mean        | 14.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 28000    |\n",
      "|    time_elapsed       | 740      |\n",
      "|    total_timesteps    | 140000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.01    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.055   |\n",
      "|    value_loss         | 0.00151  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 443      |\n",
      "|    ep_rew_mean        | 14.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 28100    |\n",
      "|    time_elapsed       | 742      |\n",
      "|    total_timesteps    | 140500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.07    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0379  |\n",
      "|    value_loss         | 0.0016   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 443      |\n",
      "|    ep_rew_mean        | 14.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 28200    |\n",
      "|    time_elapsed       | 745      |\n",
      "|    total_timesteps    | 141000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0296  |\n",
      "|    value_loss         | 0.00151  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 443      |\n",
      "|    ep_rew_mean        | 14.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 28300    |\n",
      "|    time_elapsed       | 747      |\n",
      "|    total_timesteps    | 141500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0348  |\n",
      "|    value_loss         | 0.00172  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 441      |\n",
      "|    ep_rew_mean        | 14.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 28400    |\n",
      "|    time_elapsed       | 750      |\n",
      "|    total_timesteps    | 142000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0367  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 445      |\n",
      "|    ep_rew_mean        | 14.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 28500    |\n",
      "|    time_elapsed       | 753      |\n",
      "|    total_timesteps    | 142500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0429  |\n",
      "|    value_loss         | 0.0014   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 446      |\n",
      "|    ep_rew_mean        | 14.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 28600    |\n",
      "|    time_elapsed       | 755      |\n",
      "|    total_timesteps    | 143000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0555  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 448      |\n",
      "|    ep_rew_mean        | 14.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 28700    |\n",
      "|    time_elapsed       | 758      |\n",
      "|    total_timesteps    | 143500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0508  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 451      |\n",
      "|    ep_rew_mean        | 14.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 28800    |\n",
      "|    time_elapsed       | 760      |\n",
      "|    total_timesteps    | 144000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0573  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 452      |\n",
      "|    ep_rew_mean        | 15       |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 28900    |\n",
      "|    time_elapsed       | 763      |\n",
      "|    total_timesteps    | 144500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.1     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 452       |\n",
      "|    ep_rew_mean        | 15        |\n",
      "| time/                 |           |\n",
      "|    fps                | 189       |\n",
      "|    iterations         | 29000     |\n",
      "|    time_elapsed       | 766       |\n",
      "|    total_timesteps    | 145000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.17     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0687   |\n",
      "|    value_loss         | 0.00176   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 453      |\n",
      "|    ep_rew_mean        | 14.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 29100    |\n",
      "|    time_elapsed       | 768      |\n",
      "|    total_timesteps    | 145500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0606  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 456      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 29200    |\n",
      "|    time_elapsed       | 771      |\n",
      "|    total_timesteps    | 146000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0432  |\n",
      "|    value_loss         | 0.00154  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 457      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 29300    |\n",
      "|    time_elapsed       | 773      |\n",
      "|    total_timesteps    | 146500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0594  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 459      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 29400    |\n",
      "|    time_elapsed       | 776      |\n",
      "|    total_timesteps    | 147000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.111   |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 460      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 29500    |\n",
      "|    time_elapsed       | 779      |\n",
      "|    total_timesteps    | 147500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0373  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 461       |\n",
      "|    ep_rew_mean        | 15.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 189       |\n",
      "|    iterations         | 29600     |\n",
      "|    time_elapsed       | 781       |\n",
      "|    total_timesteps    | 148000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.06     |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.044     |\n",
      "|    value_loss         | 0.176     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 463      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 29700    |\n",
      "|    time_elapsed       | 784      |\n",
      "|    total_timesteps    | 148500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.985   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0149  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 463      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 29800    |\n",
      "|    time_elapsed       | 786      |\n",
      "|    total_timesteps    | 149000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.907   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0404  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 464      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 189      |\n",
      "|    iterations         | 29900    |\n",
      "|    time_elapsed       | 789      |\n",
      "|    total_timesteps    | 149500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.862   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0764  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=150000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 150000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.914   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.339   |\n",
      "|    value_loss         | 1.33     |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 464      |\n",
      "|    ep_rew_mean     | 15.4     |\n",
      "| time/              |          |\n",
      "|    fps             | 186      |\n",
      "|    iterations      | 30000    |\n",
      "|    time_elapsed    | 802      |\n",
      "|    total_timesteps | 150000   |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 464      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 30100    |\n",
      "|    time_elapsed       | 805      |\n",
      "|    total_timesteps    | 150500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.705   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00843 |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 464       |\n",
      "|    ep_rew_mean        | 15.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 30200     |\n",
      "|    time_elapsed       | 808       |\n",
      "|    total_timesteps    | 151000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.734    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0155   |\n",
      "|    value_loss         | 0.00187   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 464      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 30300    |\n",
      "|    time_elapsed       | 810      |\n",
      "|    total_timesteps    | 151500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.852   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0415  |\n",
      "|    value_loss         | 0.00171  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 464      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 30400    |\n",
      "|    time_elapsed       | 813      |\n",
      "|    total_timesteps    | 152000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.852   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.052   |\n",
      "|    value_loss         | 0.00143  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 465      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 30500    |\n",
      "|    time_elapsed       | 815      |\n",
      "|    total_timesteps    | 152500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.845   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0362  |\n",
      "|    value_loss         | 0.00133  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 466      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 30600    |\n",
      "|    time_elapsed       | 818      |\n",
      "|    total_timesteps    | 153000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.728   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0405  |\n",
      "|    value_loss         | 0.00159  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 468      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 30700    |\n",
      "|    time_elapsed       | 821      |\n",
      "|    total_timesteps    | 153500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.806   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.12     |\n",
      "|    value_loss         | 0.898    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 469      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 30800    |\n",
      "|    time_elapsed       | 823      |\n",
      "|    total_timesteps    | 154000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.761   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0394  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 469      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 30900    |\n",
      "|    time_elapsed       | 826      |\n",
      "|    total_timesteps    | 154500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.796   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0308  |\n",
      "|    value_loss         | 0.00159  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 470      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 31000    |\n",
      "|    time_elapsed       | 829      |\n",
      "|    total_timesteps    | 155000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.882   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0146  |\n",
      "|    value_loss         | 0.00131  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 471      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 31100    |\n",
      "|    time_elapsed       | 831      |\n",
      "|    total_timesteps    | 155500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.823   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0253  |\n",
      "|    value_loss         | 0.00143  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 472      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 31200    |\n",
      "|    time_elapsed       | 834      |\n",
      "|    total_timesteps    | 156000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.769   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.088    |\n",
      "|    value_loss         | 0.358    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 471       |\n",
      "|    ep_rew_mean        | 15.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 31300     |\n",
      "|    time_elapsed       | 836       |\n",
      "|    total_timesteps    | 156500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.808    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.046    |\n",
      "|    value_loss         | 0.00138   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 473      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 31400    |\n",
      "|    time_elapsed       | 839      |\n",
      "|    total_timesteps    | 157000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.708   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0202   |\n",
      "|    value_loss         | 0.176    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 31500    |\n",
      "|    time_elapsed       | 842      |\n",
      "|    total_timesteps    | 157500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.697   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00739 |\n",
      "|    value_loss         | 0.00156  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 475       |\n",
      "|    ep_rew_mean        | 15.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 31600     |\n",
      "|    time_elapsed       | 844       |\n",
      "|    total_timesteps    | 158000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.618    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.00674  |\n",
      "|    value_loss         | 0.00186   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 31700    |\n",
      "|    time_elapsed       | 847      |\n",
      "|    total_timesteps    | 158500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.734   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0081  |\n",
      "|    value_loss         | 0.00158  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 473      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 31800    |\n",
      "|    time_elapsed       | 849      |\n",
      "|    total_timesteps    | 159000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.659   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.013   |\n",
      "|    value_loss         | 0.00155  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 474      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 31900    |\n",
      "|    time_elapsed       | 852      |\n",
      "|    total_timesteps    | 159500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.674   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0455  |\n",
      "|    value_loss         | 0.00132  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 474      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 32000    |\n",
      "|    time_elapsed       | 855      |\n",
      "|    total_timesteps    | 160000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.726   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.167    |\n",
      "|    value_loss         | 0.718    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 473      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 32100    |\n",
      "|    time_elapsed       | 857      |\n",
      "|    total_timesteps    | 160500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.685   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0651  |\n",
      "|    value_loss         | 0.00166  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 474      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 32200    |\n",
      "|    time_elapsed       | 860      |\n",
      "|    total_timesteps    | 161000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.723   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00765 |\n",
      "|    value_loss         | 0.00148  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 32300    |\n",
      "|    time_elapsed       | 862      |\n",
      "|    total_timesteps    | 161500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.76    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0635  |\n",
      "|    value_loss         | 0.00152  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 32400    |\n",
      "|    time_elapsed       | 865      |\n",
      "|    total_timesteps    | 162000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.791   |\n",
      "|    explained_variance | 2.38e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0248  |\n",
      "|    value_loss         | 0.00144  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 15.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 32500    |\n",
      "|    time_elapsed       | 868      |\n",
      "|    total_timesteps    | 162500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.796   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0306  |\n",
      "|    value_loss         | 0.00147  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 478      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 32600    |\n",
      "|    time_elapsed       | 870      |\n",
      "|    total_timesteps    | 163000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.743   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0311  |\n",
      "|    value_loss         | 0.00129  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 479      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 32700    |\n",
      "|    time_elapsed       | 873      |\n",
      "|    total_timesteps    | 163500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.663   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0389  |\n",
      "|    value_loss         | 0.00151  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 480       |\n",
      "|    ep_rew_mean        | 16        |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 32800     |\n",
      "|    time_elapsed       | 875       |\n",
      "|    total_timesteps    | 164000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.649    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.699     |\n",
      "|    value_loss         | 0.892     |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 480       |\n",
      "|    ep_rew_mean        | 16        |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 32900     |\n",
      "|    time_elapsed       | 878       |\n",
      "|    total_timesteps    | 164500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.588    |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0061   |\n",
      "|    value_loss         | 0.00173   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 481      |\n",
      "|    ep_rew_mean        | 16.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 33000    |\n",
      "|    time_elapsed       | 881      |\n",
      "|    total_timesteps    | 165000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.619   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0338  |\n",
      "|    value_loss         | 0.00157  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 482      |\n",
      "|    ep_rew_mean        | 16.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 33100    |\n",
      "|    time_elapsed       | 883      |\n",
      "|    total_timesteps    | 165500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.723   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0326  |\n",
      "|    value_loss         | 0.00129  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 483      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 33200    |\n",
      "|    time_elapsed       | 886      |\n",
      "|    total_timesteps    | 166000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.767   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.78     |\n",
      "|    value_loss         | 1.84     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 483      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 33300    |\n",
      "|    time_elapsed       | 889      |\n",
      "|    total_timesteps    | 166500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.784   |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00936 |\n",
      "|    value_loss         | 0.00165  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 33400    |\n",
      "|    time_elapsed       | 891      |\n",
      "|    total_timesteps    | 167000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.833   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.06    |\n",
      "|    value_loss         | 0.00153  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 33500    |\n",
      "|    time_elapsed       | 894      |\n",
      "|    total_timesteps    | 167500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.879   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0247  |\n",
      "|    value_loss         | 0.00132  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 33600    |\n",
      "|    time_elapsed       | 896      |\n",
      "|    total_timesteps    | 168000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.783   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.149   |\n",
      "|    value_loss         | 0.619    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 33700    |\n",
      "|    time_elapsed       | 899      |\n",
      "|    total_timesteps    | 168500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.794   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00954 |\n",
      "|    value_loss         | 0.00162  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 33800    |\n",
      "|    time_elapsed       | 902      |\n",
      "|    total_timesteps    | 169000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.792   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00861 |\n",
      "|    value_loss         | 0.00133  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 489      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 33900    |\n",
      "|    time_elapsed       | 904      |\n",
      "|    total_timesteps    | 169500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.888   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0092  |\n",
      "|    value_loss         | 0.00103  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 489      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 34000    |\n",
      "|    time_elapsed       | 907      |\n",
      "|    total_timesteps    | 170000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.757   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.013   |\n",
      "|    value_loss         | 0.00138  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 34100    |\n",
      "|    time_elapsed       | 909      |\n",
      "|    total_timesteps    | 170500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.796   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.025   |\n",
      "|    value_loss         | 0.00112  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 34200    |\n",
      "|    time_elapsed       | 912      |\n",
      "|    total_timesteps    | 171000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.721   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0253  |\n",
      "|    value_loss         | 0.00133  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 34300    |\n",
      "|    time_elapsed       | 915      |\n",
      "|    total_timesteps    | 171500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.642   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00622 |\n",
      "|    value_loss         | 0.00136  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 34400    |\n",
      "|    time_elapsed       | 917      |\n",
      "|    total_timesteps    | 172000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.629   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0211  |\n",
      "|    value_loss         | 0.00124  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 34500    |\n",
      "|    time_elapsed       | 920      |\n",
      "|    total_timesteps    | 172500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.649   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0191  |\n",
      "|    value_loss         | 0.00124  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 34600    |\n",
      "|    time_elapsed       | 922      |\n",
      "|    total_timesteps    | 173000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.675   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00104  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 34700    |\n",
      "|    time_elapsed       | 925      |\n",
      "|    total_timesteps    | 173500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.551   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00486 |\n",
      "|    value_loss         | 0.00129  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 34800    |\n",
      "|    time_elapsed       | 928      |\n",
      "|    total_timesteps    | 174000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.503   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00456 |\n",
      "|    value_loss         | 0.0015   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 16.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 34900    |\n",
      "|    time_elapsed       | 930      |\n",
      "|    total_timesteps    | 174500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.692   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0301  |\n",
      "|    value_loss         | 0.00114  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 16.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 35000    |\n",
      "|    time_elapsed       | 933      |\n",
      "|    total_timesteps    | 175000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.74    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0351  |\n",
      "|    value_loss         | 0.00102  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 16.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 35100    |\n",
      "|    time_elapsed       | 935      |\n",
      "|    total_timesteps    | 175500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.738   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0076  |\n",
      "|    value_loss         | 0.00128  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 16.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 35200    |\n",
      "|    time_elapsed       | 938      |\n",
      "|    total_timesteps    | 176000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.74    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0506  |\n",
      "|    value_loss         | 0.00105  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 16.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 35300    |\n",
      "|    time_elapsed       | 940      |\n",
      "|    total_timesteps    | 176500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.613   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0567  |\n",
      "|    value_loss         | 0.000954 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 16.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 35400    |\n",
      "|    time_elapsed       | 943      |\n",
      "|    total_timesteps    | 177000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.746   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00655 |\n",
      "|    value_loss         | 0.000916 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 16.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 35500    |\n",
      "|    time_elapsed       | 946      |\n",
      "|    total_timesteps    | 177500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.648   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00535 |\n",
      "|    value_loss         | 0.000948 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 16       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 35600    |\n",
      "|    time_elapsed       | 948      |\n",
      "|    total_timesteps    | 178000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.626   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.173    |\n",
      "|    value_loss         | 0.903    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 16       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 35700    |\n",
      "|    time_elapsed       | 951      |\n",
      "|    total_timesteps    | 178500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.617   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0226  |\n",
      "|    value_loss         | 0.000964 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 16       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 35800    |\n",
      "|    time_elapsed       | 953      |\n",
      "|    total_timesteps    | 179000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.536   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0108   |\n",
      "|    value_loss         | 0.182    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 16.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 35900    |\n",
      "|    time_elapsed       | 956      |\n",
      "|    total_timesteps    | 179500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.647   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.028   |\n",
      "|    value_loss         | 0.00106  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 16       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 36000    |\n",
      "|    time_elapsed       | 959      |\n",
      "|    total_timesteps    | 180000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.619   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0102  |\n",
      "|    value_loss         | 0.000975 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 16       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 36100    |\n",
      "|    time_elapsed       | 961      |\n",
      "|    total_timesteps    | 180500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.669   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00571 |\n",
      "|    value_loss         | 0.000986 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 15.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 36200    |\n",
      "|    time_elapsed       | 964      |\n",
      "|    total_timesteps    | 181000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.683   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0065  |\n",
      "|    value_loss         | 0.00119  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 15.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 36300    |\n",
      "|    time_elapsed       | 966      |\n",
      "|    total_timesteps    | 181500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.608   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00507 |\n",
      "|    value_loss         | 0.00105  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 490       |\n",
      "|    ep_rew_mean        | 15.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 36400     |\n",
      "|    time_elapsed       | 969       |\n",
      "|    total_timesteps    | 182000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.635    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.00567  |\n",
      "|    value_loss         | 0.00114   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 490      |\n",
      "|    ep_rew_mean        | 15.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 36500    |\n",
      "|    time_elapsed       | 971      |\n",
      "|    total_timesteps    | 182500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.656   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0057  |\n",
      "|    value_loss         | 0.00104  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 36600    |\n",
      "|    time_elapsed       | 974      |\n",
      "|    total_timesteps    | 183000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.656   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0242   |\n",
      "|    value_loss         | 0.183    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 36700    |\n",
      "|    time_elapsed       | 977      |\n",
      "|    total_timesteps    | 183500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.642   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0177  |\n",
      "|    value_loss         | 0.000761 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 36800    |\n",
      "|    time_elapsed       | 979      |\n",
      "|    total_timesteps    | 184000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.647   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0182  |\n",
      "|    value_loss         | 0.000964 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 36900    |\n",
      "|    time_elapsed       | 982      |\n",
      "|    total_timesteps    | 184500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.609   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00454 |\n",
      "|    value_loss         | 0.000826 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 37000    |\n",
      "|    time_elapsed       | 985      |\n",
      "|    total_timesteps    | 185000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.679   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00519 |\n",
      "|    value_loss         | 0.000777 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 482      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 37100    |\n",
      "|    time_elapsed       | 987      |\n",
      "|    total_timesteps    | 185500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.647   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0294  |\n",
      "|    value_loss         | 0.000911 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 482      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 37200    |\n",
      "|    time_elapsed       | 990      |\n",
      "|    total_timesteps    | 186000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.628   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00574 |\n",
      "|    value_loss         | 0.00119  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 482      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 37300    |\n",
      "|    time_elapsed       | 992      |\n",
      "|    total_timesteps    | 186500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.779   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.04     |\n",
      "|    value_loss         | 0.91     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 481       |\n",
      "|    ep_rew_mean        | 15        |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 37400     |\n",
      "|    time_elapsed       | 995       |\n",
      "|    total_timesteps    | 187000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.74     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.00783  |\n",
      "|    value_loss         | 0.00128   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 481      |\n",
      "|    ep_rew_mean        | 15       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 37500    |\n",
      "|    time_elapsed       | 998      |\n",
      "|    total_timesteps    | 187500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.809   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0231  |\n",
      "|    value_loss         | 0.00108  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 479      |\n",
      "|    ep_rew_mean        | 15       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 37600    |\n",
      "|    time_elapsed       | 1000     |\n",
      "|    total_timesteps    | 188000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.807   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0446  |\n",
      "|    value_loss         | 0.00126  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 480      |\n",
      "|    ep_rew_mean        | 15       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 37700    |\n",
      "|    time_elapsed       | 1003     |\n",
      "|    total_timesteps    | 188500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.691   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0123  |\n",
      "|    value_loss         | 0.00125  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 480       |\n",
      "|    ep_rew_mean        | 15        |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 37800     |\n",
      "|    time_elapsed       | 1005      |\n",
      "|    total_timesteps    | 189000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.805    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0502   |\n",
      "|    value_loss         | 0.00112   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 480      |\n",
      "|    ep_rew_mean        | 14.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 37900    |\n",
      "|    time_elapsed       | 1008     |\n",
      "|    total_timesteps    | 189500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.8     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0573  |\n",
      "|    value_loss         | 0.00104  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 480      |\n",
      "|    ep_rew_mean        | 14.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 38000    |\n",
      "|    time_elapsed       | 1011     |\n",
      "|    total_timesteps    | 190000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.878   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00877 |\n",
      "|    value_loss         | 0.000918 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 14.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 38100    |\n",
      "|    time_elapsed       | 1013     |\n",
      "|    total_timesteps    | 190500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.975   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0439  |\n",
      "|    value_loss         | 0.00091  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 478      |\n",
      "|    ep_rew_mean        | 14.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 38200    |\n",
      "|    time_elapsed       | 1016     |\n",
      "|    total_timesteps    | 191000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.943   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0645  |\n",
      "|    value_loss         | 0.00105  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 476      |\n",
      "|    ep_rew_mean        | 14.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 38300    |\n",
      "|    time_elapsed       | 1019     |\n",
      "|    total_timesteps    | 191500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.01    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0544  |\n",
      "|    value_loss         | 0.000975 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 14.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 38400    |\n",
      "|    time_elapsed       | 1021     |\n",
      "|    total_timesteps    | 192000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1       |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0398  |\n",
      "|    value_loss         | 0.000858 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 14.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 38500    |\n",
      "|    time_elapsed       | 1024     |\n",
      "|    total_timesteps    | 192500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.05    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0293  |\n",
      "|    value_loss         | 0.000709 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 14.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 38600    |\n",
      "|    time_elapsed       | 1026     |\n",
      "|    total_timesteps    | 193000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.999   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0331  |\n",
      "|    value_loss         | 0.000874 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 14       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 38700    |\n",
      "|    time_elapsed       | 1029     |\n",
      "|    total_timesteps    | 193500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.999   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.025   |\n",
      "|    value_loss         | 0.000889 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 474      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 38800    |\n",
      "|    time_elapsed       | 1032     |\n",
      "|    total_timesteps    | 194000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.02    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0189  |\n",
      "|    value_loss         | 0.000796 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 474      |\n",
      "|    ep_rew_mean        | 13.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 38900    |\n",
      "|    time_elapsed       | 1034     |\n",
      "|    total_timesteps    | 194500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.04    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0361  |\n",
      "|    value_loss         | 0.000771 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 473      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 39000    |\n",
      "|    time_elapsed       | 1037     |\n",
      "|    total_timesteps    | 195000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.04    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0126  |\n",
      "|    value_loss         | 0.000677 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 473      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 39100    |\n",
      "|    time_elapsed       | 1039     |\n",
      "|    total_timesteps    | 195500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.02    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0298  |\n",
      "|    value_loss         | 0.000836 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 473      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 39200    |\n",
      "|    time_elapsed       | 1042     |\n",
      "|    total_timesteps    | 196000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.05    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.71     |\n",
      "|    value_loss         | 1.31     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 474      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 39300    |\n",
      "|    time_elapsed       | 1045     |\n",
      "|    total_timesteps    | 196500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0276  |\n",
      "|    value_loss         | 0.000822 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 39400    |\n",
      "|    time_elapsed       | 1047     |\n",
      "|    total_timesteps    | 197000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.08    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0206  |\n",
      "|    value_loss         | 0.000894 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 39500    |\n",
      "|    time_elapsed       | 1050     |\n",
      "|    total_timesteps    | 197500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.01    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.447    |\n",
      "|    value_loss         | 0.36     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 476      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 39600    |\n",
      "|    time_elapsed       | 1052     |\n",
      "|    total_timesteps    | 198000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.01    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0346  |\n",
      "|    value_loss         | 0.00142  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 476      |\n",
      "|    ep_rew_mean        | 13.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 39700    |\n",
      "|    time_elapsed       | 1055     |\n",
      "|    total_timesteps    | 198500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.988   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0339  |\n",
      "|    value_loss         | 0.00133  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 476      |\n",
      "|    ep_rew_mean        | 13.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 39800    |\n",
      "|    time_elapsed       | 1057     |\n",
      "|    total_timesteps    | 199000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.977   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0153  |\n",
      "|    value_loss         | 0.00114  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 476      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 39900    |\n",
      "|    time_elapsed       | 1060     |\n",
      "|    total_timesteps    | 199500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.971   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.000865 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 477       |\n",
      "|    ep_rew_mean        | 13.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 188       |\n",
      "|    iterations         | 40000     |\n",
      "|    time_elapsed       | 1063      |\n",
      "|    total_timesteps    | 200000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.02     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0108   |\n",
      "|    value_loss         | 0.000782  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 40100    |\n",
      "|    time_elapsed       | 1065     |\n",
      "|    total_timesteps    | 200500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.07    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0178  |\n",
      "|    value_loss         | 0.000899 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 40200    |\n",
      "|    time_elapsed       | 1068     |\n",
      "|    total_timesteps    | 201000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0157  |\n",
      "|    value_loss         | 0.000852 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 40300    |\n",
      "|    time_elapsed       | 1070     |\n",
      "|    total_timesteps    | 201500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.06    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0177  |\n",
      "|    value_loss         | 0.000881 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 40400    |\n",
      "|    time_elapsed       | 1073     |\n",
      "|    total_timesteps    | 202000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0334  |\n",
      "|    value_loss         | 0.000727 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 13.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 40500    |\n",
      "|    time_elapsed       | 1076     |\n",
      "|    total_timesteps    | 202500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.1     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0215  |\n",
      "|    value_loss         | 0.000746 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 40600    |\n",
      "|    time_elapsed       | 1078     |\n",
      "|    total_timesteps    | 203000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0429  |\n",
      "|    value_loss         | 0.0009   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 476      |\n",
      "|    ep_rew_mean        | 13.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 40700    |\n",
      "|    time_elapsed       | 1081     |\n",
      "|    total_timesteps    | 203500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.12    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0293  |\n",
      "|    value_loss         | 0.000879 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 476      |\n",
      "|    ep_rew_mean        | 13.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 40800    |\n",
      "|    time_elapsed       | 1083     |\n",
      "|    total_timesteps    | 204000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.08    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0212  |\n",
      "|    value_loss         | 0.00101  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 476      |\n",
      "|    ep_rew_mean        | 13.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 40900    |\n",
      "|    time_elapsed       | 1086     |\n",
      "|    total_timesteps    | 204500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0251  |\n",
      "|    value_loss         | 0.000904 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 41000    |\n",
      "|    time_elapsed       | 1088     |\n",
      "|    total_timesteps    | 205000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.12    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0313  |\n",
      "|    value_loss         | 0.000846 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 475      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 41100    |\n",
      "|    time_elapsed       | 1091     |\n",
      "|    total_timesteps    | 205500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.07    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0324  |\n",
      "|    value_loss         | 0.000841 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 476      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 41200    |\n",
      "|    time_elapsed       | 1094     |\n",
      "|    total_timesteps    | 206000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.12    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0137  |\n",
      "|    value_loss         | 0.000818 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 476       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 188       |\n",
      "|    iterations         | 41300     |\n",
      "|    time_elapsed       | 1096      |\n",
      "|    total_timesteps    | 206500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.13     |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0366   |\n",
      "|    value_loss         | 0.00071   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 41400    |\n",
      "|    time_elapsed       | 1099     |\n",
      "|    total_timesteps    | 207000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0198  |\n",
      "|    value_loss         | 0.000722 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 477      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 41500    |\n",
      "|    time_elapsed       | 1102     |\n",
      "|    total_timesteps    | 207500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.0007   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 481      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 41600    |\n",
      "|    time_elapsed       | 1104     |\n",
      "|    total_timesteps    | 208000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0356  |\n",
      "|    value_loss         | 0.000623 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 482      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 41700    |\n",
      "|    time_elapsed       | 1107     |\n",
      "|    total_timesteps    | 208500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.398    |\n",
      "|    value_loss         | 0.369    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 482      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 41800    |\n",
      "|    time_elapsed       | 1109     |\n",
      "|    total_timesteps    | 209000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0274  |\n",
      "|    value_loss         | 0.00054  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 482      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 41900    |\n",
      "|    time_elapsed       | 1112     |\n",
      "|    total_timesteps    | 209500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.476    |\n",
      "|    value_loss         | 0.369    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 481      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 42000    |\n",
      "|    time_elapsed       | 1115     |\n",
      "|    total_timesteps    | 210000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0925   |\n",
      "|    value_loss         | 0.183    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 481      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 42100    |\n",
      "|    time_elapsed       | 1117     |\n",
      "|    total_timesteps    | 210500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0222  |\n",
      "|    value_loss         | 0.000733 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 42200    |\n",
      "|    time_elapsed       | 1120     |\n",
      "|    total_timesteps    | 211000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 2.38e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0445  |\n",
      "|    value_loss         | 0.00074  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 42300    |\n",
      "|    time_elapsed       | 1122     |\n",
      "|    total_timesteps    | 211500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.018   |\n",
      "|    value_loss         | 0.000665 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 42400    |\n",
      "|    time_elapsed       | 1125     |\n",
      "|    total_timesteps    | 212000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0361  |\n",
      "|    value_loss         | 0.00079  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 483      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 42500    |\n",
      "|    time_elapsed       | 1128     |\n",
      "|    total_timesteps    | 212500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.029   |\n",
      "|    value_loss         | 0.000702 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 42600    |\n",
      "|    time_elapsed       | 1130     |\n",
      "|    total_timesteps    | 213000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0212  |\n",
      "|    value_loss         | 0.0007   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 484       |\n",
      "|    ep_rew_mean        | 12.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 188       |\n",
      "|    iterations         | 42700     |\n",
      "|    time_elapsed       | 1133      |\n",
      "|    total_timesteps    | 213500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.16     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 2.45      |\n",
      "|    value_loss         | 2.63      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 42800    |\n",
      "|    time_elapsed       | 1135     |\n",
      "|    total_timesteps    | 214000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.929    |\n",
      "|    value_loss         | 0.557    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 12.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 42900    |\n",
      "|    time_elapsed       | 1138     |\n",
      "|    total_timesteps    | 214500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0207  |\n",
      "|    value_loss         | 0.000398 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 12.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 43000    |\n",
      "|    time_elapsed       | 1141     |\n",
      "|    total_timesteps    | 215000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0258  |\n",
      "|    value_loss         | 0.000498 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 43100    |\n",
      "|    time_elapsed       | 1143     |\n",
      "|    total_timesteps    | 215500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0261  |\n",
      "|    value_loss         | 0.00062  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 43200    |\n",
      "|    time_elapsed       | 1146     |\n",
      "|    total_timesteps    | 216000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0281  |\n",
      "|    value_loss         | 0.000579 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 43300    |\n",
      "|    time_elapsed       | 1148     |\n",
      "|    total_timesteps    | 216500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0162  |\n",
      "|    value_loss         | 0.000739 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 43400    |\n",
      "|    time_elapsed       | 1151     |\n",
      "|    total_timesteps    | 217000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0409  |\n",
      "|    value_loss         | 0.00076  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 43500    |\n",
      "|    time_elapsed       | 1153     |\n",
      "|    total_timesteps    | 217500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0293  |\n",
      "|    value_loss         | 0.000882 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 43600    |\n",
      "|    time_elapsed       | 1156     |\n",
      "|    total_timesteps    | 218000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0284  |\n",
      "|    value_loss         | 0.000809 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 43700    |\n",
      "|    time_elapsed       | 1159     |\n",
      "|    total_timesteps    | 218500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.617    |\n",
      "|    value_loss         | 0.728    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 43800    |\n",
      "|    time_elapsed       | 1161     |\n",
      "|    total_timesteps    | 219000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.08    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0392  |\n",
      "|    value_loss         | 0.00101  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 486       |\n",
      "|    ep_rew_mean        | 12.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 188       |\n",
      "|    iterations         | 43900     |\n",
      "|    time_elapsed       | 1164      |\n",
      "|    total_timesteps    | 219500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.13     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.024    |\n",
      "|    value_loss         | 0.000866  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 44000    |\n",
      "|    time_elapsed       | 1166     |\n",
      "|    total_timesteps    | 220000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0362  |\n",
      "|    value_loss         | 0.00101  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 44100    |\n",
      "|    time_elapsed       | 1169     |\n",
      "|    total_timesteps    | 220500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0365  |\n",
      "|    value_loss         | 0.000971 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 44200    |\n",
      "|    time_elapsed       | 1172     |\n",
      "|    total_timesteps    | 221000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0271  |\n",
      "|    value_loss         | 0.00113  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 487       |\n",
      "|    ep_rew_mean        | 13        |\n",
      "| time/                 |           |\n",
      "|    fps                | 188       |\n",
      "|    iterations         | 44300     |\n",
      "|    time_elapsed       | 1174      |\n",
      "|    total_timesteps    | 221500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0358   |\n",
      "|    value_loss         | 0.00121   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 44400    |\n",
      "|    time_elapsed       | 1177     |\n",
      "|    total_timesteps    | 222000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.12    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0361  |\n",
      "|    value_loss         | 0.00139  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 44500    |\n",
      "|    time_elapsed       | 1179     |\n",
      "|    total_timesteps    | 222500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0278  |\n",
      "|    value_loss         | 0.00128  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 489      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 44600    |\n",
      "|    time_elapsed       | 1182     |\n",
      "|    total_timesteps    | 223000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0307  |\n",
      "|    value_loss         | 0.0013   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 490      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 44700    |\n",
      "|    time_elapsed       | 1184     |\n",
      "|    total_timesteps    | 223500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.1     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0321  |\n",
      "|    value_loss         | 0.00116  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 44800    |\n",
      "|    time_elapsed       | 1187     |\n",
      "|    total_timesteps    | 224000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.04    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0709   |\n",
      "|    value_loss         | 0.179    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 44900    |\n",
      "|    time_elapsed       | 1190     |\n",
      "|    total_timesteps    | 224500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.968   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0271  |\n",
      "|    value_loss         | 0.00162  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=225000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 225000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.932   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0332  |\n",
      "|    value_loss         | 0.00157  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 493      |\n",
      "|    ep_rew_mean     | 13.2     |\n",
      "| time/              |          |\n",
      "|    fps             | 186      |\n",
      "|    iterations      | 45000    |\n",
      "|    time_elapsed    | 1203     |\n",
      "|    total_timesteps | 225000   |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 45100    |\n",
      "|    time_elapsed       | 1206     |\n",
      "|    total_timesteps    | 225500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.862   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0484  |\n",
      "|    value_loss         | 0.00142  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 45200    |\n",
      "|    time_elapsed       | 1208     |\n",
      "|    total_timesteps    | 226000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.888   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.693    |\n",
      "|    value_loss         | 0.36     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 45300    |\n",
      "|    time_elapsed       | 1211     |\n",
      "|    total_timesteps    | 226500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.909   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0151  |\n",
      "|    value_loss         | 0.000935 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 494       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 45400     |\n",
      "|    time_elapsed       | 1213      |\n",
      "|    total_timesteps    | 227000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.944    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0129   |\n",
      "|    value_loss         | 0.000921  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 494       |\n",
      "|    ep_rew_mean        | 13.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 45500     |\n",
      "|    time_elapsed       | 1216      |\n",
      "|    total_timesteps    | 227500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.953    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0273   |\n",
      "|    value_loss         | 0.000919  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 45600    |\n",
      "|    time_elapsed       | 1219     |\n",
      "|    total_timesteps    | 228000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.911   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00963 |\n",
      "|    value_loss         | 0.000906 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 45700    |\n",
      "|    time_elapsed       | 1221     |\n",
      "|    total_timesteps    | 228500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.938   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0187  |\n",
      "|    value_loss         | 0.000762 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 493       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 45800     |\n",
      "|    time_elapsed       | 1224      |\n",
      "|    total_timesteps    | 229000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.911    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0214   |\n",
      "|    value_loss         | 0.000961  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 494       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 45900     |\n",
      "|    time_elapsed       | 1226      |\n",
      "|    total_timesteps    | 229500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.95     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0626   |\n",
      "|    value_loss         | 0.000849  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 46000    |\n",
      "|    time_elapsed       | 1229     |\n",
      "|    total_timesteps    | 230000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.956   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.027   |\n",
      "|    value_loss         | 0.000805 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 46100    |\n",
      "|    time_elapsed       | 1232     |\n",
      "|    total_timesteps    | 230500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.975   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0217  |\n",
      "|    value_loss         | 0.000834 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 494       |\n",
      "|    ep_rew_mean        | 13        |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 46200     |\n",
      "|    time_elapsed       | 1234      |\n",
      "|    total_timesteps    | 231000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.03     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.018    |\n",
      "|    value_loss         | 0.00068   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 46300    |\n",
      "|    time_elapsed       | 1237     |\n",
      "|    total_timesteps    | 231500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.02    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.998    |\n",
      "|    value_loss         | 0.549    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 46400    |\n",
      "|    time_elapsed       | 1239     |\n",
      "|    total_timesteps    | 232000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.03    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.044   |\n",
      "|    value_loss         | 0.000808 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 46500    |\n",
      "|    time_elapsed       | 1242     |\n",
      "|    total_timesteps    | 232500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.01    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.015   |\n",
      "|    value_loss         | 0.000767 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 46600    |\n",
      "|    time_elapsed       | 1245     |\n",
      "|    total_timesteps    | 233000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.978   |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.62     |\n",
      "|    value_loss         | 3.01     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 46700    |\n",
      "|    time_elapsed       | 1247     |\n",
      "|    total_timesteps    | 233500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.928   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0414  |\n",
      "|    value_loss         | 0.000853 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 46800    |\n",
      "|    time_elapsed       | 1250     |\n",
      "|    total_timesteps    | 234000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.949   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0174  |\n",
      "|    value_loss         | 0.000887 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 496       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 46900     |\n",
      "|    time_elapsed       | 1252      |\n",
      "|    total_timesteps    | 234500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.918    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0351   |\n",
      "|    value_loss         | 0.000762  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 497       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 47000     |\n",
      "|    time_elapsed       | 1255      |\n",
      "|    total_timesteps    | 235000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.963    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0313   |\n",
      "|    value_loss         | 0.000815  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 497      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 47100    |\n",
      "|    time_elapsed       | 1258     |\n",
      "|    total_timesteps    | 235500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.936   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0306  |\n",
      "|    value_loss         | 0.000837 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 498      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 47200    |\n",
      "|    time_elapsed       | 1260     |\n",
      "|    total_timesteps    | 236000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.959   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.012   |\n",
      "|    value_loss         | 0.000744 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 498      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 47300    |\n",
      "|    time_elapsed       | 1263     |\n",
      "|    total_timesteps    | 236500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.993   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0318  |\n",
      "|    value_loss         | 0.000636 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 498      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 47400    |\n",
      "|    time_elapsed       | 1265     |\n",
      "|    total_timesteps    | 237000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1       |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0238  |\n",
      "|    value_loss         | 0.000578 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 498       |\n",
      "|    ep_rew_mean        | 12.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 47500     |\n",
      "|    time_elapsed       | 1268      |\n",
      "|    total_timesteps    | 237500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.915    |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0413   |\n",
      "|    value_loss         | 0.000851  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 499      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 47600    |\n",
      "|    time_elapsed       | 1271     |\n",
      "|    total_timesteps    | 238000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.98    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0149  |\n",
      "|    value_loss         | 0.000831 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 500      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 47700    |\n",
      "|    time_elapsed       | 1273     |\n",
      "|    total_timesteps    | 238500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.941   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0113  |\n",
      "|    value_loss         | 0.00108  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 47800    |\n",
      "|    time_elapsed       | 1276     |\n",
      "|    total_timesteps    | 239000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.904   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0129  |\n",
      "|    value_loss         | 0.00104  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 501       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 47900     |\n",
      "|    time_elapsed       | 1278      |\n",
      "|    total_timesteps    | 239500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.934    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0308   |\n",
      "|    value_loss         | 0.000934  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 48000    |\n",
      "|    time_elapsed       | 1281     |\n",
      "|    total_timesteps    | 240000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.918   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0298  |\n",
      "|    value_loss         | 0.00106  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 501       |\n",
      "|    ep_rew_mean        | 13.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 48100     |\n",
      "|    time_elapsed       | 1284      |\n",
      "|    total_timesteps    | 240500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.901    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0103   |\n",
      "|    value_loss         | 0.00106   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 48200    |\n",
      "|    time_elapsed       | 1286     |\n",
      "|    total_timesteps    | 241000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.861   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00108  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 501       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 48300     |\n",
      "|    time_elapsed       | 1289      |\n",
      "|    total_timesteps    | 241500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.883    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0123   |\n",
      "|    value_loss         | 0.000991  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 48400    |\n",
      "|    time_elapsed       | 1291     |\n",
      "|    total_timesteps    | 242000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.96    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0238  |\n",
      "|    value_loss         | 0.00103  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 503      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 48500    |\n",
      "|    time_elapsed       | 1294     |\n",
      "|    total_timesteps    | 242500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.966   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.04     |\n",
      "|    value_loss         | 0.544    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 502       |\n",
      "|    ep_rew_mean        | 13.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 48600     |\n",
      "|    time_elapsed       | 1297      |\n",
      "|    total_timesteps    | 243000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.987    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0117   |\n",
      "|    value_loss         | 0.00101   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 48700    |\n",
      "|    time_elapsed       | 1299     |\n",
      "|    total_timesteps    | 243500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.06    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.351    |\n",
      "|    value_loss         | 0.727    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 48800    |\n",
      "|    time_elapsed       | 1302     |\n",
      "|    total_timesteps    | 244000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.08    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0195  |\n",
      "|    value_loss         | 0.000924 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 503      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 48900    |\n",
      "|    time_elapsed       | 1305     |\n",
      "|    total_timesteps    | 244500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.03    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0397  |\n",
      "|    value_loss         | 0.00104  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 503      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 49000    |\n",
      "|    time_elapsed       | 1307     |\n",
      "|    total_timesteps    | 245000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.06    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0291  |\n",
      "|    value_loss         | 0.000992 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 49100    |\n",
      "|    time_elapsed       | 1310     |\n",
      "|    total_timesteps    | 245500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.05    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0126  |\n",
      "|    value_loss         | 0.000939 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 49200    |\n",
      "|    time_elapsed       | 1313     |\n",
      "|    total_timesteps    | 246000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.96    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0286  |\n",
      "|    value_loss         | 0.00114  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 49300    |\n",
      "|    time_elapsed       | 1315     |\n",
      "|    total_timesteps    | 246500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.948   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0331  |\n",
      "|    value_loss         | 0.00107  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 49400    |\n",
      "|    time_elapsed       | 1318     |\n",
      "|    total_timesteps    | 247000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.944   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0298  |\n",
      "|    value_loss         | 0.00126  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 49500    |\n",
      "|    time_elapsed       | 1320     |\n",
      "|    total_timesteps    | 247500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.913   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0263  |\n",
      "|    value_loss         | 0.00121  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 49600    |\n",
      "|    time_elapsed       | 1323     |\n",
      "|    total_timesteps    | 248000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.92    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0345  |\n",
      "|    value_loss         | 0.0014   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 504       |\n",
      "|    ep_rew_mean        | 13.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 49700     |\n",
      "|    time_elapsed       | 1326      |\n",
      "|    total_timesteps    | 248500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.999    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0118   |\n",
      "|    value_loss         | 0.000987  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 504      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 49800    |\n",
      "|    time_elapsed       | 1328     |\n",
      "|    total_timesteps    | 249000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.02    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0389  |\n",
      "|    value_loss         | 0.00104  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 505      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 49900    |\n",
      "|    time_elapsed       | 1331     |\n",
      "|    total_timesteps    | 249500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.1     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.2      |\n",
      "|    value_loss         | 0.907    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 504      |\n",
      "|    ep_rew_mean        | 13.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 50000    |\n",
      "|    time_elapsed       | 1333     |\n",
      "|    total_timesteps    | 250000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.1     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.34     |\n",
      "|    value_loss         | 1.29     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 504       |\n",
      "|    ep_rew_mean        | 13.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 50100     |\n",
      "|    time_elapsed       | 1336      |\n",
      "|    total_timesteps    | 250500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.05     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0334   |\n",
      "|    value_loss         | 0.00109   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 504      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 50200    |\n",
      "|    time_elapsed       | 1338     |\n",
      "|    total_timesteps    | 251000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.969   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0302  |\n",
      "|    value_loss         | 0.0011   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 504      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 50300    |\n",
      "|    time_elapsed       | 1341     |\n",
      "|    total_timesteps    | 251500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.934   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0304  |\n",
      "|    value_loss         | 0.00115  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 503      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 50400    |\n",
      "|    time_elapsed       | 1344     |\n",
      "|    total_timesteps    | 252000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.91    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0215  |\n",
      "|    value_loss         | 0.00108  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 503      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 50500    |\n",
      "|    time_elapsed       | 1346     |\n",
      "|    total_timesteps    | 252500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.896   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.463    |\n",
      "|    value_loss         | 2.03     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 503       |\n",
      "|    ep_rew_mean        | 13.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 50600     |\n",
      "|    time_elapsed       | 1349      |\n",
      "|    total_timesteps    | 253000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.951    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.134     |\n",
      "|    value_loss         | 0.363     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 503      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 50700    |\n",
      "|    time_elapsed       | 1351     |\n",
      "|    total_timesteps    | 253500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.797   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0296  |\n",
      "|    value_loss         | 0.00117  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 503       |\n",
      "|    ep_rew_mean        | 13.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 50800     |\n",
      "|    time_elapsed       | 1354      |\n",
      "|    total_timesteps    | 254000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.826    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0202   |\n",
      "|    value_loss         | 0.000983  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 504      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 50900    |\n",
      "|    time_elapsed       | 1357     |\n",
      "|    total_timesteps    | 254500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.901   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0264  |\n",
      "|    value_loss         | 0.000828 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 504       |\n",
      "|    ep_rew_mean        | 13.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 51000     |\n",
      "|    time_elapsed       | 1359      |\n",
      "|    total_timesteps    | 255000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.87     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0262   |\n",
      "|    value_loss         | 0.000784  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 505      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 51100    |\n",
      "|    time_elapsed       | 1362     |\n",
      "|    total_timesteps    | 255500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.851   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0289  |\n",
      "|    value_loss         | 0.000842 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 504      |\n",
      "|    ep_rew_mean        | 13.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 51200    |\n",
      "|    time_elapsed       | 1364     |\n",
      "|    total_timesteps    | 256000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.766   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00722 |\n",
      "|    value_loss         | 0.000943 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 504      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 51300    |\n",
      "|    time_elapsed       | 1367     |\n",
      "|    total_timesteps    | 256500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.751   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0919   |\n",
      "|    value_loss         | 0.359    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 506       |\n",
      "|    ep_rew_mean        | 13.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 51400     |\n",
      "|    time_elapsed       | 1370      |\n",
      "|    total_timesteps    | 257000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.737    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0115   |\n",
      "|    value_loss         | 0.00121   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 507      |\n",
      "|    ep_rew_mean        | 13.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 51500    |\n",
      "|    time_elapsed       | 1372     |\n",
      "|    total_timesteps    | 257500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.758   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00772 |\n",
      "|    value_loss         | 0.00111  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 507      |\n",
      "|    ep_rew_mean        | 13.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 51600    |\n",
      "|    time_elapsed       | 1375     |\n",
      "|    total_timesteps    | 258000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.767   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00785 |\n",
      "|    value_loss         | 0.00114  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 504      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 51700    |\n",
      "|    time_elapsed       | 1377     |\n",
      "|    total_timesteps    | 258500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.791   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.022   |\n",
      "|    value_loss         | 0.00101  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 504       |\n",
      "|    ep_rew_mean        | 13.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 51800     |\n",
      "|    time_elapsed       | 1380      |\n",
      "|    total_timesteps    | 259000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.902    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.017    |\n",
      "|    value_loss         | 0.000869  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 504      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 51900    |\n",
      "|    time_elapsed       | 1383     |\n",
      "|    total_timesteps    | 259500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.899   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0367  |\n",
      "|    value_loss         | 0.000855 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 504      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 52000    |\n",
      "|    time_elapsed       | 1385     |\n",
      "|    total_timesteps    | 260000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.935   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0323  |\n",
      "|    value_loss         | 0.000685 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 505      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 52100    |\n",
      "|    time_elapsed       | 1388     |\n",
      "|    total_timesteps    | 260500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.941   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0381  |\n",
      "|    value_loss         | 0.000741 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 52200    |\n",
      "|    time_elapsed       | 1390     |\n",
      "|    total_timesteps    | 261000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.919   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.336    |\n",
      "|    value_loss         | 0.909    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 52300    |\n",
      "|    time_elapsed       | 1393     |\n",
      "|    total_timesteps    | 261500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.923   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0358  |\n",
      "|    value_loss         | 0.000797 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 52400    |\n",
      "|    time_elapsed       | 1396     |\n",
      "|    total_timesteps    | 262000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.883   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0317  |\n",
      "|    value_loss         | 0.000824 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 52500    |\n",
      "|    time_elapsed       | 1398     |\n",
      "|    total_timesteps    | 262500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.861   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0189  |\n",
      "|    value_loss         | 0.000811 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 52600    |\n",
      "|    time_elapsed       | 1401     |\n",
      "|    total_timesteps    | 263000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.895   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0406  |\n",
      "|    value_loss         | 0.00078  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 52700    |\n",
      "|    time_elapsed       | 1403     |\n",
      "|    total_timesteps    | 263500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.853   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0248  |\n",
      "|    value_loss         | 0.000849 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 52800    |\n",
      "|    time_elapsed       | 1406     |\n",
      "|    total_timesteps    | 264000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.953   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0578  |\n",
      "|    value_loss         | 0.000767 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 52900    |\n",
      "|    time_elapsed       | 1408     |\n",
      "|    total_timesteps    | 264500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.925   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0149  |\n",
      "|    value_loss         | 0.000656 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 501       |\n",
      "|    ep_rew_mean        | 13.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 53000     |\n",
      "|    time_elapsed       | 1411      |\n",
      "|    total_timesteps    | 265000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.893    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0469   |\n",
      "|    value_loss         | 0.000682  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 497      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 53100    |\n",
      "|    time_elapsed       | 1414     |\n",
      "|    total_timesteps    | 265500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1       |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.027   |\n",
      "|    value_loss         | 0.000606 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 497      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 53200    |\n",
      "|    time_elapsed       | 1416     |\n",
      "|    total_timesteps    | 266000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.907   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0256  |\n",
      "|    value_loss         | 0.000737 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 497      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 53300    |\n",
      "|    time_elapsed       | 1419     |\n",
      "|    total_timesteps    | 266500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.917   |\n",
      "|    explained_variance | 2.98e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.59     |\n",
      "|    value_loss         | 2.05     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 498      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 53400    |\n",
      "|    time_elapsed       | 1422     |\n",
      "|    total_timesteps    | 267000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.889   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.547    |\n",
      "|    value_loss         | 1.13     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 498      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 53500    |\n",
      "|    time_elapsed       | 1424     |\n",
      "|    total_timesteps    | 267500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.895   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0273  |\n",
      "|    value_loss         | 0.000604 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 499      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 53600    |\n",
      "|    time_elapsed       | 1427     |\n",
      "|    total_timesteps    | 268000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.849   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.622    |\n",
      "|    value_loss         | 0.184    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 498      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 53700    |\n",
      "|    time_elapsed       | 1429     |\n",
      "|    total_timesteps    | 268500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.897   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.194    |\n",
      "|    value_loss         | 0.55     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 499      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 53800    |\n",
      "|    time_elapsed       | 1432     |\n",
      "|    total_timesteps    | 269000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.883   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.12     |\n",
      "|    value_loss         | 2.05     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 500      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 53900    |\n",
      "|    time_elapsed       | 1435     |\n",
      "|    total_timesteps    | 269500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.9     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00808 |\n",
      "|    value_loss         | 0.000687 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 499       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 54000     |\n",
      "|    time_elapsed       | 1437      |\n",
      "|    total_timesteps    | 270000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.914    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0162   |\n",
      "|    value_loss         | 0.000779  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 498       |\n",
      "|    ep_rew_mean        | 13        |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 54100     |\n",
      "|    time_elapsed       | 1440      |\n",
      "|    total_timesteps    | 270500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.878    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.47      |\n",
      "|    value_loss         | 0.548     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 498      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 54200    |\n",
      "|    time_elapsed       | 1442     |\n",
      "|    total_timesteps    | 271000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.854   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00862 |\n",
      "|    value_loss         | 0.000882 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 498      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 54300    |\n",
      "|    time_elapsed       | 1445     |\n",
      "|    total_timesteps    | 271500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.926   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0286  |\n",
      "|    value_loss         | 0.000861 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 496       |\n",
      "|    ep_rew_mean        | 12.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 54400     |\n",
      "|    time_elapsed       | 1448      |\n",
      "|    total_timesteps    | 272000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.964    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0251   |\n",
      "|    value_loss         | 0.000786  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 54500    |\n",
      "|    time_elapsed       | 1450     |\n",
      "|    total_timesteps    | 272500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.995   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0166  |\n",
      "|    value_loss         | 0.000776 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 54600    |\n",
      "|    time_elapsed       | 1453     |\n",
      "|    total_timesteps    | 273000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.93    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0284  |\n",
      "|    value_loss         | 0.000645 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 54700    |\n",
      "|    time_elapsed       | 1456     |\n",
      "|    total_timesteps    | 273500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.934   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0166  |\n",
      "|    value_loss         | 0.000653 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 497      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 54800    |\n",
      "|    time_elapsed       | 1458     |\n",
      "|    total_timesteps    | 274000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.924   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0261  |\n",
      "|    value_loss         | 0.000609 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 54900    |\n",
      "|    time_elapsed       | 1461     |\n",
      "|    total_timesteps    | 274500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.897   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.261    |\n",
      "|    value_loss         | 0.736    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 55000    |\n",
      "|    time_elapsed       | 1463     |\n",
      "|    total_timesteps    | 275000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.822   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0192  |\n",
      "|    value_loss         | 0.000669 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 55100    |\n",
      "|    time_elapsed       | 1466     |\n",
      "|    total_timesteps    | 275500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.782   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0201  |\n",
      "|    value_loss         | 0.000769 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 55200    |\n",
      "|    time_elapsed       | 1469     |\n",
      "|    total_timesteps    | 276000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.816   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.038   |\n",
      "|    value_loss         | 0.000881 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 55300    |\n",
      "|    time_elapsed       | 1471     |\n",
      "|    total_timesteps    | 276500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.837   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0134  |\n",
      "|    value_loss         | 0.00084  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 55400    |\n",
      "|    time_elapsed       | 1474     |\n",
      "|    total_timesteps    | 277000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.909   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00889 |\n",
      "|    value_loss         | 0.000751 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 55500    |\n",
      "|    time_elapsed       | 1477     |\n",
      "|    total_timesteps    | 277500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.929   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00875 |\n",
      "|    value_loss         | 0.000655 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 55600    |\n",
      "|    time_elapsed       | 1479     |\n",
      "|    total_timesteps    | 278000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.955   |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0454  |\n",
      "|    value_loss         | 0.000775 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 55700    |\n",
      "|    time_elapsed       | 1482     |\n",
      "|    total_timesteps    | 278500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.915   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00859 |\n",
      "|    value_loss         | 0.000679 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 55800    |\n",
      "|    time_elapsed       | 1484     |\n",
      "|    total_timesteps    | 279000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.945   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00872 |\n",
      "|    value_loss         | 0.000607 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 55900    |\n",
      "|    time_elapsed       | 1487     |\n",
      "|    total_timesteps    | 279500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.88    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0129  |\n",
      "|    value_loss         | 0.000745 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 56000    |\n",
      "|    time_elapsed       | 1490     |\n",
      "|    total_timesteps    | 280000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.925   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0354  |\n",
      "|    value_loss         | 0.000666 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 56100    |\n",
      "|    time_elapsed       | 1492     |\n",
      "|    total_timesteps    | 280500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.874   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00838 |\n",
      "|    value_loss         | 0.000701 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 56200    |\n",
      "|    time_elapsed       | 1495     |\n",
      "|    total_timesteps    | 281000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.843   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0134  |\n",
      "|    value_loss         | 0.000613 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 56300    |\n",
      "|    time_elapsed       | 1497     |\n",
      "|    total_timesteps    | 281500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.841   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00681 |\n",
      "|    value_loss         | 0.000536 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 56400    |\n",
      "|    time_elapsed       | 1500     |\n",
      "|    total_timesteps    | 282000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.812   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.328   |\n",
      "|    value_loss         | 0.292    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 56500    |\n",
      "|    time_elapsed       | 1503     |\n",
      "|    total_timesteps    | 282500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.755   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.556    |\n",
      "|    value_loss         | 1.3      |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 56600    |\n",
      "|    time_elapsed       | 1505     |\n",
      "|    total_timesteps    | 283000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.775   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0237  |\n",
      "|    value_loss         | 0.000751 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 56700    |\n",
      "|    time_elapsed       | 1508     |\n",
      "|    total_timesteps    | 283500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.813   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.018   |\n",
      "|    value_loss         | 0.000674 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 56800    |\n",
      "|    time_elapsed       | 1510     |\n",
      "|    total_timesteps    | 284000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.848   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0164  |\n",
      "|    value_loss         | 0.000719 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 492       |\n",
      "|    ep_rew_mean        | 12.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 56900     |\n",
      "|    time_elapsed       | 1513      |\n",
      "|    total_timesteps    | 284500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.926    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0311   |\n",
      "|    value_loss         | 0.000688  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 57000    |\n",
      "|    time_elapsed       | 1516     |\n",
      "|    total_timesteps    | 285000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.918   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0276  |\n",
      "|    value_loss         | 0.000671 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 57100    |\n",
      "|    time_elapsed       | 1518     |\n",
      "|    total_timesteps    | 285500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.873   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0172  |\n",
      "|    value_loss         | 0.000754 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 57200    |\n",
      "|    time_elapsed       | 1521     |\n",
      "|    total_timesteps    | 286000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.934   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0313  |\n",
      "|    value_loss         | 0.000674 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 57300    |\n",
      "|    time_elapsed       | 1523     |\n",
      "|    total_timesteps    | 286500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.934   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.035   |\n",
      "|    value_loss         | 0.000634 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 57400    |\n",
      "|    time_elapsed       | 1526     |\n",
      "|    total_timesteps    | 287000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.923   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00838 |\n",
      "|    value_loss         | 0.000604 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 57500    |\n",
      "|    time_elapsed       | 1529     |\n",
      "|    total_timesteps    | 287500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.946   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0329  |\n",
      "|    value_loss         | 0.000669 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 490      |\n",
      "|    ep_rew_mean        | 12.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 57600    |\n",
      "|    time_elapsed       | 1531     |\n",
      "|    total_timesteps    | 288000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.9     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0201  |\n",
      "|    value_loss         | 0.000633 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 490      |\n",
      "|    ep_rew_mean        | 12.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 57700    |\n",
      "|    time_elapsed       | 1534     |\n",
      "|    total_timesteps    | 288500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.872   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00961 |\n",
      "|    value_loss         | 0.000609 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 12.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 188      |\n",
      "|    iterations         | 57800    |\n",
      "|    time_elapsed       | 1537     |\n",
      "|    total_timesteps    | 289000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.817   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0163  |\n",
      "|    value_loss         | 0.000675 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 12.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 57900    |\n",
      "|    time_elapsed       | 1539     |\n",
      "|    total_timesteps    | 289500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.837   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.54     |\n",
      "|    value_loss         | 1.31     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 12.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 58000    |\n",
      "|    time_elapsed       | 1542     |\n",
      "|    total_timesteps    | 290000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.883   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.016   |\n",
      "|    value_loss         | 0.000639 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 492       |\n",
      "|    ep_rew_mean        | 12.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 58100     |\n",
      "|    time_elapsed       | 1545      |\n",
      "|    total_timesteps    | 290500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.909    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.43      |\n",
      "|    value_loss         | 2.06      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 12.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 58200    |\n",
      "|    time_elapsed       | 1548     |\n",
      "|    total_timesteps    | 291000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.92    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00863 |\n",
      "|    value_loss         | 0.00062  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 489      |\n",
      "|    ep_rew_mean        | 12.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 58300    |\n",
      "|    time_elapsed       | 1551     |\n",
      "|    total_timesteps    | 291500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.886   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00765 |\n",
      "|    value_loss         | 0.000564 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 489      |\n",
      "|    ep_rew_mean        | 12.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 58400    |\n",
      "|    time_elapsed       | 1553     |\n",
      "|    total_timesteps    | 292000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.932   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00716 |\n",
      "|    value_loss         | 0.000415 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 12.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 58500    |\n",
      "|    time_elapsed       | 1556     |\n",
      "|    total_timesteps    | 292500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.947   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0132  |\n",
      "|    value_loss         | 0.000419 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 489      |\n",
      "|    ep_rew_mean        | 12.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 58600    |\n",
      "|    time_elapsed       | 1559     |\n",
      "|    total_timesteps    | 293000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.929   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.016   |\n",
      "|    value_loss         | 0.000604 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 490      |\n",
      "|    ep_rew_mean        | 12.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 58700    |\n",
      "|    time_elapsed       | 1562     |\n",
      "|    total_timesteps    | 293500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.916   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.014   |\n",
      "|    value_loss         | 0.000593 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 12.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 58800    |\n",
      "|    time_elapsed       | 1564     |\n",
      "|    total_timesteps    | 294000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.94    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0398  |\n",
      "|    value_loss         | 0.000655 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 12.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 58900    |\n",
      "|    time_elapsed       | 1567     |\n",
      "|    total_timesteps    | 294500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.962   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0181  |\n",
      "|    value_loss         | 0.000607 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 491       |\n",
      "|    ep_rew_mean        | 12.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 59000     |\n",
      "|    time_elapsed       | 1570      |\n",
      "|    total_timesteps    | 295000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.01     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0172   |\n",
      "|    value_loss         | 0.00053   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 491       |\n",
      "|    ep_rew_mean        | 12.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 59100     |\n",
      "|    time_elapsed       | 1573      |\n",
      "|    total_timesteps    | 295500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.99     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0149   |\n",
      "|    value_loss         | 0.000572  |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 491       |\n",
      "|    ep_rew_mean        | 12.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 59200     |\n",
      "|    time_elapsed       | 1575      |\n",
      "|    total_timesteps    | 296000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.966    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0515   |\n",
      "|    value_loss         | 0.000727  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 12.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 59300    |\n",
      "|    time_elapsed       | 1578     |\n",
      "|    total_timesteps    | 296500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.895   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0441  |\n",
      "|    value_loss         | 0.000723 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 489      |\n",
      "|    ep_rew_mean        | 12.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 59400    |\n",
      "|    time_elapsed       | 1581     |\n",
      "|    total_timesteps    | 297000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.843   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.022   |\n",
      "|    value_loss         | 0.000696 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 12       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 59500    |\n",
      "|    time_elapsed       | 1583     |\n",
      "|    total_timesteps    | 297500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.886   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00822 |\n",
      "|    value_loss         | 0.000694 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 12       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 59600    |\n",
      "|    time_elapsed       | 1586     |\n",
      "|    total_timesteps    | 298000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.898   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0318  |\n",
      "|    value_loss         | 0.000744 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 12       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 59700    |\n",
      "|    time_elapsed       | 1589     |\n",
      "|    total_timesteps    | 298500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.935   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00889 |\n",
      "|    value_loss         | 0.000683 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 59800    |\n",
      "|    time_elapsed       | 1592     |\n",
      "|    total_timesteps    | 299000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.967   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0156  |\n",
      "|    value_loss         | 0.000691 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 59900    |\n",
      "|    time_elapsed       | 1594     |\n",
      "|    total_timesteps    | 299500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.941   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.36     |\n",
      "|    value_loss         | 2.61     |\n",
      "------------------------------------\n",
      "Eval num_timesteps=300000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 300000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.932   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.872    |\n",
      "|    value_loss         | 1.3      |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 486      |\n",
      "|    ep_rew_mean     | 11.9     |\n",
      "| time/              |          |\n",
      "|    fps             | 186      |\n",
      "|    iterations      | 60000    |\n",
      "|    time_elapsed    | 1608     |\n",
      "|    total_timesteps | 300000   |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 60100    |\n",
      "|    time_elapsed       | 1611     |\n",
      "|    total_timesteps    | 300500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.934   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0221  |\n",
      "|    value_loss         | 0.0009   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 12       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 60200    |\n",
      "|    time_elapsed       | 1613     |\n",
      "|    total_timesteps    | 301000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.927   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0402  |\n",
      "|    value_loss         | 0.000899 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 12.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 60300    |\n",
      "|    time_elapsed       | 1616     |\n",
      "|    total_timesteps    | 301500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.918   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.471    |\n",
      "|    value_loss         | 0.545    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 12       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 60400    |\n",
      "|    time_elapsed       | 1619     |\n",
      "|    total_timesteps    | 302000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1       |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0111  |\n",
      "|    value_loss         | 0.000848 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 12       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 60500    |\n",
      "|    time_elapsed       | 1622     |\n",
      "|    total_timesteps    | 302500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.952   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.019   |\n",
      "|    value_loss         | 0.000829 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 12.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 60600    |\n",
      "|    time_elapsed       | 1624     |\n",
      "|    total_timesteps    | 303000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.952   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.29     |\n",
      "|    value_loss         | 0.908    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 12.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 60700    |\n",
      "|    time_elapsed       | 1627     |\n",
      "|    total_timesteps    | 303500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.906   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0577  |\n",
      "|    value_loss         | 0.000949 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 12.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 60800    |\n",
      "|    time_elapsed       | 1629     |\n",
      "|    total_timesteps    | 304000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.835   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0455  |\n",
      "|    value_loss         | 0.00105  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 12.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 60900    |\n",
      "|    time_elapsed       | 1632     |\n",
      "|    total_timesteps    | 304500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.924   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.016   |\n",
      "|    value_loss         | 0.00103  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 12.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 61000    |\n",
      "|    time_elapsed       | 1635     |\n",
      "|    total_timesteps    | 305000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.927   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0106  |\n",
      "|    value_loss         | 0.00103  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 483      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 61100    |\n",
      "|    time_elapsed       | 1637     |\n",
      "|    total_timesteps    | 305500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.898   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.00108  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 61200    |\n",
      "|    time_elapsed       | 1640     |\n",
      "|    total_timesteps    | 306000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.832   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0217  |\n",
      "|    value_loss         | 0.00106  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 61300    |\n",
      "|    time_elapsed       | 1643     |\n",
      "|    total_timesteps    | 306500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.78    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0191  |\n",
      "|    value_loss         | 0.00116  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 61400    |\n",
      "|    time_elapsed       | 1645     |\n",
      "|    total_timesteps    | 307000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.796   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0201  |\n",
      "|    value_loss         | 0.00104  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 483      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 61500    |\n",
      "|    time_elapsed       | 1648     |\n",
      "|    total_timesteps    | 307500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.811   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00843 |\n",
      "|    value_loss         | 0.00107  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 483      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 61600    |\n",
      "|    time_elapsed       | 1651     |\n",
      "|    total_timesteps    | 308000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.801   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.023   |\n",
      "|    value_loss         | 0.00107  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 483      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 61700    |\n",
      "|    time_elapsed       | 1653     |\n",
      "|    total_timesteps    | 308500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.819   |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0214  |\n",
      "|    value_loss         | 0.00107  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 483      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 61800    |\n",
      "|    time_elapsed       | 1656     |\n",
      "|    total_timesteps    | 309000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.876   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0362  |\n",
      "|    value_loss         | 0.000981 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 61900    |\n",
      "|    time_elapsed       | 1658     |\n",
      "|    total_timesteps    | 309500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.845   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0126  |\n",
      "|    value_loss         | 0.00112  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 62000    |\n",
      "|    time_elapsed       | 1661     |\n",
      "|    total_timesteps    | 310000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.885   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0375  |\n",
      "|    value_loss         | 0.00103  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 62100    |\n",
      "|    time_elapsed       | 1664     |\n",
      "|    total_timesteps    | 310500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.864   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0253  |\n",
      "|    value_loss         | 0.000988 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 62200    |\n",
      "|    time_elapsed       | 1666     |\n",
      "|    total_timesteps    | 311000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.854   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0361  |\n",
      "|    value_loss         | 0.00103  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 62300    |\n",
      "|    time_elapsed       | 1669     |\n",
      "|    total_timesteps    | 311500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.882   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0172  |\n",
      "|    value_loss         | 0.000904 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 486       |\n",
      "|    ep_rew_mean        | 11.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 62400     |\n",
      "|    time_elapsed       | 1672      |\n",
      "|    total_timesteps    | 312000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.782    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.00805  |\n",
      "|    value_loss         | 0.00107   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 62500    |\n",
      "|    time_elapsed       | 1674     |\n",
      "|    total_timesteps    | 312500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.796   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00857 |\n",
      "|    value_loss         | 0.00113  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 62600    |\n",
      "|    time_elapsed       | 1677     |\n",
      "|    total_timesteps    | 313000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.762   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00758 |\n",
      "|    value_loss         | 0.00102  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 62700    |\n",
      "|    time_elapsed       | 1680     |\n",
      "|    total_timesteps    | 313500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.741   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.191    |\n",
      "|    value_loss         | 0.724    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 488       |\n",
      "|    ep_rew_mean        | 12        |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 62800     |\n",
      "|    time_elapsed       | 1682      |\n",
      "|    total_timesteps    | 314000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.807    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0285   |\n",
      "|    value_loss         | 0.000928  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 489      |\n",
      "|    ep_rew_mean        | 12       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 62900    |\n",
      "|    time_elapsed       | 1685     |\n",
      "|    total_timesteps    | 314500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.845   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0414  |\n",
      "|    value_loss         | 0.000893 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 490       |\n",
      "|    ep_rew_mean        | 12        |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 63000     |\n",
      "|    time_elapsed       | 1688      |\n",
      "|    total_timesteps    | 315000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.862    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0421   |\n",
      "|    value_loss         | 0.000768  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 12       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 63100    |\n",
      "|    time_elapsed       | 1690     |\n",
      "|    total_timesteps    | 315500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.917   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0415  |\n",
      "|    value_loss         | 0.000853 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 490      |\n",
      "|    ep_rew_mean        | 12       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 63200    |\n",
      "|    time_elapsed       | 1693     |\n",
      "|    total_timesteps    | 316000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.94    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0184  |\n",
      "|    value_loss         | 0.000767 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 489      |\n",
      "|    ep_rew_mean        | 12       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 63300    |\n",
      "|    time_elapsed       | 1695     |\n",
      "|    total_timesteps    | 316500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.927   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0337  |\n",
      "|    value_loss         | 0.000757 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 63400    |\n",
      "|    time_elapsed       | 1698     |\n",
      "|    total_timesteps    | 317000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.959   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00972 |\n",
      "|    value_loss         | 0.00074  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 63500    |\n",
      "|    time_elapsed       | 1701     |\n",
      "|    total_timesteps    | 317500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.01    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0307  |\n",
      "|    value_loss         | 0.000718 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 63600    |\n",
      "|    time_elapsed       | 1703     |\n",
      "|    total_timesteps    | 318000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1       |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0197  |\n",
      "|    value_loss         | 0.000714 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 63700    |\n",
      "|    time_elapsed       | 1706     |\n",
      "|    total_timesteps    | 318500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.959   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0232  |\n",
      "|    value_loss         | 0.000691 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 63800    |\n",
      "|    time_elapsed       | 1708     |\n",
      "|    total_timesteps    | 319000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.01    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0432  |\n",
      "|    value_loss         | 0.000638 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 63900    |\n",
      "|    time_elapsed       | 1711     |\n",
      "|    total_timesteps    | 319500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.964   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.00897 |\n",
      "|    value_loss         | 0.000617 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 64000    |\n",
      "|    time_elapsed       | 1714     |\n",
      "|    total_timesteps    | 320000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.969   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0261  |\n",
      "|    value_loss         | 0.000614 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 64100    |\n",
      "|    time_elapsed       | 1716     |\n",
      "|    total_timesteps    | 320500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.975   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.26     |\n",
      "|    value_loss         | 0.917    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 64200    |\n",
      "|    time_elapsed       | 1719     |\n",
      "|    total_timesteps    | 321000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.975   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0103  |\n",
      "|    value_loss         | 0.000773 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 64300    |\n",
      "|    time_elapsed       | 1721     |\n",
      "|    total_timesteps    | 321500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.987   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0255  |\n",
      "|    value_loss         | 0.000711 |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 484       |\n",
      "|    ep_rew_mean        | 11.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 64400     |\n",
      "|    time_elapsed       | 1724      |\n",
      "|    total_timesteps    | 322000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.954    |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0137   |\n",
      "|    value_loss         | 0.000802  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 64500    |\n",
      "|    time_elapsed       | 1727     |\n",
      "|    total_timesteps    | 322500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.953   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0184  |\n",
      "|    value_loss         | 0.000775 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 64600    |\n",
      "|    time_elapsed       | 1729     |\n",
      "|    total_timesteps    | 323000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.02    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0294  |\n",
      "|    value_loss         | 0.000751 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 64700    |\n",
      "|    time_elapsed       | 1732     |\n",
      "|    total_timesteps    | 323500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.02    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0126  |\n",
      "|    value_loss         | 0.000694 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 64800    |\n",
      "|    time_elapsed       | 1734     |\n",
      "|    total_timesteps    | 324000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.02    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0318  |\n",
      "|    value_loss         | 0.000743 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 64900    |\n",
      "|    time_elapsed       | 1737     |\n",
      "|    total_timesteps    | 324500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.01    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0302  |\n",
      "|    value_loss         | 0.000672 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 65000    |\n",
      "|    time_elapsed       | 1740     |\n",
      "|    total_timesteps    | 325000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.954   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.01    |\n",
      "|    value_loss         | 0.000832 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 11.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 65100    |\n",
      "|    time_elapsed       | 1742     |\n",
      "|    total_timesteps    | 325500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.883   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0122  |\n",
      "|    value_loss         | 0.00095  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 65200    |\n",
      "|    time_elapsed       | 1745     |\n",
      "|    total_timesteps    | 326000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.902   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0248  |\n",
      "|    value_loss         | 0.00106  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 485       |\n",
      "|    ep_rew_mean        | 11.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 65300     |\n",
      "|    time_elapsed       | 1747      |\n",
      "|    total_timesteps    | 326500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -0.93     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0103   |\n",
      "|    value_loss         | 0.000961  |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 485      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 65400    |\n",
      "|    time_elapsed       | 1750     |\n",
      "|    total_timesteps    | 327000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.936   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0341  |\n",
      "|    value_loss         | 0.000951 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 65500    |\n",
      "|    time_elapsed       | 1752     |\n",
      "|    total_timesteps    | 327500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.927   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0354  |\n",
      "|    value_loss         | 0.00103  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 65600    |\n",
      "|    time_elapsed       | 1755     |\n",
      "|    total_timesteps    | 328000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.936   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0105  |\n",
      "|    value_loss         | 0.00094  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 65700    |\n",
      "|    time_elapsed       | 1758     |\n",
      "|    total_timesteps    | 328500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.947   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.04    |\n",
      "|    value_loss         | 0.000961 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 65800    |\n",
      "|    time_elapsed       | 1760     |\n",
      "|    total_timesteps    | 329000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.982   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0168  |\n",
      "|    value_loss         | 0.00101  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 65900    |\n",
      "|    time_elapsed       | 1763     |\n",
      "|    total_timesteps    | 329500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.943   |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0406  |\n",
      "|    value_loss         | 0.00108  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 66000    |\n",
      "|    time_elapsed       | 1765     |\n",
      "|    total_timesteps    | 330000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -0.98    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0446  |\n",
      "|    value_loss         | 0.00104  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 66100    |\n",
      "|    time_elapsed       | 1768     |\n",
      "|    total_timesteps    | 330500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1       |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0198  |\n",
      "|    value_loss         | 0.00105  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 66200    |\n",
      "|    time_elapsed       | 1771     |\n",
      "|    total_timesteps    | 331000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.03    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0424  |\n",
      "|    value_loss         | 0.00103  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 66300    |\n",
      "|    time_elapsed       | 1773     |\n",
      "|    total_timesteps    | 331500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.08    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0335  |\n",
      "|    value_loss         | 0.000904 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 488      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 66400    |\n",
      "|    time_elapsed       | 1776     |\n",
      "|    total_timesteps    | 332000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.08    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0231  |\n",
      "|    value_loss         | 0.000974 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 66500    |\n",
      "|    time_elapsed       | 1778     |\n",
      "|    total_timesteps    | 332500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.09    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0146  |\n",
      "|    value_loss         | 0.00102  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 66600    |\n",
      "|    time_elapsed       | 1781     |\n",
      "|    total_timesteps    | 333000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.07    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0645  |\n",
      "|    value_loss         | 0.000976 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 66700    |\n",
      "|    time_elapsed       | 1783     |\n",
      "|    total_timesteps    | 333500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.09    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0259  |\n",
      "|    value_loss         | 0.000935 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 66800    |\n",
      "|    time_elapsed       | 1786     |\n",
      "|    total_timesteps    | 334000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.02     |\n",
      "|    value_loss         | 1.3      |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 483      |\n",
      "|    ep_rew_mean        | 11.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 66900    |\n",
      "|    time_elapsed       | 1789     |\n",
      "|    total_timesteps    | 334500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0374  |\n",
      "|    value_loss         | 0.000939 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 67000    |\n",
      "|    time_elapsed       | 1791     |\n",
      "|    total_timesteps    | 335000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0277  |\n",
      "|    value_loss         | 0.000911 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 484      |\n",
      "|    ep_rew_mean        | 11.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 67100    |\n",
      "|    time_elapsed       | 1794     |\n",
      "|    total_timesteps    | 335500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0328  |\n",
      "|    value_loss         | 0.000954 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 67200    |\n",
      "|    time_elapsed       | 1796     |\n",
      "|    total_timesteps    | 336000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0336  |\n",
      "|    value_loss         | 0.00106  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 67300    |\n",
      "|    time_elapsed       | 1799     |\n",
      "|    total_timesteps    | 336500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.015   |\n",
      "|    value_loss         | 0.000974 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 67400    |\n",
      "|    time_elapsed       | 1802     |\n",
      "|    total_timesteps    | 337000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0281  |\n",
      "|    value_loss         | 0.00104  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 487      |\n",
      "|    ep_rew_mean        | 11.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 67500    |\n",
      "|    time_elapsed       | 1804     |\n",
      "|    total_timesteps    | 337500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0341  |\n",
      "|    value_loss         | 0.00107  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 486      |\n",
      "|    ep_rew_mean        | 11.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 67600    |\n",
      "|    time_elapsed       | 1807     |\n",
      "|    total_timesteps    | 338000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 37.1     |\n",
      "|    value_loss         | 383      |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 489      |\n",
      "|    ep_rew_mean        | 12.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 67700    |\n",
      "|    time_elapsed       | 1809     |\n",
      "|    total_timesteps    | 338500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0412  |\n",
      "|    value_loss         | 0.00115  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 12.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 67800    |\n",
      "|    time_elapsed       | 1812     |\n",
      "|    total_timesteps    | 339000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00133  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 491       |\n",
      "|    ep_rew_mean        | 12.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 67900     |\n",
      "|    time_elapsed       | 1815      |\n",
      "|    total_timesteps    | 339500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0467   |\n",
      "|    value_loss         | 0.00133   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 12.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 68000    |\n",
      "|    time_elapsed       | 1817     |\n",
      "|    total_timesteps    | 340000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0376  |\n",
      "|    value_loss         | 0.00123  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 12.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 68100    |\n",
      "|    time_elapsed       | 1820     |\n",
      "|    total_timesteps    | 340500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.045   |\n",
      "|    value_loss         | 0.00127  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 12.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 68200    |\n",
      "|    time_elapsed       | 1822     |\n",
      "|    total_timesteps    | 341000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0218  |\n",
      "|    value_loss         | 0.00126  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 495       |\n",
      "|    ep_rew_mean        | 12.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 68300     |\n",
      "|    time_elapsed       | 1825      |\n",
      "|    total_timesteps    | 341500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.022    |\n",
      "|    value_loss         | 0.00123   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 68400    |\n",
      "|    time_elapsed       | 1828     |\n",
      "|    total_timesteps    | 342000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.1      |\n",
      "|    value_loss         | 0.903    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 68500    |\n",
      "|    time_elapsed       | 1830     |\n",
      "|    total_timesteps    | 342500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0527  |\n",
      "|    value_loss         | 0.00125  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 12.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 68600    |\n",
      "|    time_elapsed       | 1833     |\n",
      "|    total_timesteps    | 343000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0453  |\n",
      "|    value_loss         | 0.00134  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 493       |\n",
      "|    ep_rew_mean        | 12.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 68700     |\n",
      "|    time_elapsed       | 1835      |\n",
      "|    total_timesteps    | 343500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0354   |\n",
      "|    value_loss         | 0.00133   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 68800    |\n",
      "|    time_elapsed       | 1838     |\n",
      "|    total_timesteps    | 344000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0325  |\n",
      "|    value_loss         | 0.00128  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 68900    |\n",
      "|    time_elapsed       | 1840     |\n",
      "|    total_timesteps    | 344500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.994    |\n",
      "|    value_loss         | 0.901    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 69000    |\n",
      "|    time_elapsed       | 1843     |\n",
      "|    total_timesteps    | 345000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0304  |\n",
      "|    value_loss         | 0.00121  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 491      |\n",
      "|    ep_rew_mean        | 12.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 69100    |\n",
      "|    time_elapsed       | 1846     |\n",
      "|    total_timesteps    | 345500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.33    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.32     |\n",
      "|    value_loss         | 2.03     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 12.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 69200    |\n",
      "|    time_elapsed       | 1848     |\n",
      "|    total_timesteps    | 346000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0383  |\n",
      "|    value_loss         | 0.00123  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 69300    |\n",
      "|    time_elapsed       | 1851     |\n",
      "|    total_timesteps    | 346500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0241  |\n",
      "|    value_loss         | 0.00126  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 69400    |\n",
      "|    time_elapsed       | 1853     |\n",
      "|    total_timesteps    | 347000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 2.38e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00144  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 492      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 69500    |\n",
      "|    time_elapsed       | 1856     |\n",
      "|    total_timesteps    | 347500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0369  |\n",
      "|    value_loss         | 0.00136  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 69600    |\n",
      "|    time_elapsed       | 1858     |\n",
      "|    total_timesteps    | 348000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0462  |\n",
      "|    value_loss         | 0.00134  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 69700    |\n",
      "|    time_elapsed       | 1861     |\n",
      "|    total_timesteps    | 348500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0551  |\n",
      "|    value_loss         | 0.00137  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 69800    |\n",
      "|    time_elapsed       | 1864     |\n",
      "|    total_timesteps    | 349000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0325  |\n",
      "|    value_loss         | 0.00123  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 69900    |\n",
      "|    time_elapsed       | 1866     |\n",
      "|    total_timesteps    | 349500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00125  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 70000    |\n",
      "|    time_elapsed       | 1869     |\n",
      "|    total_timesteps    | 350000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0482  |\n",
      "|    value_loss         | 0.00132  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 495      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 70100    |\n",
      "|    time_elapsed       | 1871     |\n",
      "|    total_timesteps    | 350500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0476  |\n",
      "|    value_loss         | 0.0013   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 70200    |\n",
      "|    time_elapsed       | 1874     |\n",
      "|    total_timesteps    | 351000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0322  |\n",
      "|    value_loss         | 0.00125  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 70300    |\n",
      "|    time_elapsed       | 1876     |\n",
      "|    total_timesteps    | 351500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.33    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0247  |\n",
      "|    value_loss         | 0.00117  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 494      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 70400    |\n",
      "|    time_elapsed       | 1879     |\n",
      "|    total_timesteps    | 352000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.32    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0343  |\n",
      "|    value_loss         | 0.00125  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 493      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 70500    |\n",
      "|    time_elapsed       | 1881     |\n",
      "|    total_timesteps    | 352500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.32    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.572    |\n",
      "|    value_loss         | 0.537    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 495       |\n",
      "|    ep_rew_mean        | 13.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 70600     |\n",
      "|    time_elapsed       | 1884      |\n",
      "|    total_timesteps    | 353000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.29     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0522   |\n",
      "|    value_loss         | 0.00143   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 70700    |\n",
      "|    time_elapsed       | 1886     |\n",
      "|    total_timesteps    | 353500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0281  |\n",
      "|    value_loss         | 0.00132  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 70800    |\n",
      "|    time_elapsed       | 1889     |\n",
      "|    total_timesteps    | 354000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0469  |\n",
      "|    value_loss         | 0.00129  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 13.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 70900    |\n",
      "|    time_elapsed       | 1892     |\n",
      "|    total_timesteps    | 354500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0418  |\n",
      "|    value_loss         | 0.00137  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 497      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 71000    |\n",
      "|    time_elapsed       | 1894     |\n",
      "|    total_timesteps    | 355000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.06    |\n",
      "|    value_loss         | 0.00139  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 496      |\n",
      "|    ep_rew_mean        | 13.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 71100    |\n",
      "|    time_elapsed       | 1897     |\n",
      "|    total_timesteps    | 355500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0448  |\n",
      "|    value_loss         | 0.00132  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 497      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 71200    |\n",
      "|    time_elapsed       | 1899     |\n",
      "|    total_timesteps    | 356000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0464  |\n",
      "|    value_loss         | 0.00156  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 497      |\n",
      "|    ep_rew_mean        | 13.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 71300    |\n",
      "|    time_elapsed       | 1902     |\n",
      "|    total_timesteps    | 356500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0499  |\n",
      "|    value_loss         | 0.00162  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 498       |\n",
      "|    ep_rew_mean        | 13.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 71400     |\n",
      "|    time_elapsed       | 1904      |\n",
      "|    total_timesteps    | 357000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 2.48      |\n",
      "|    value_loss         | 2.4       |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 71500    |\n",
      "|    time_elapsed       | 1907     |\n",
      "|    total_timesteps    | 357500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0432  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 500      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 71600    |\n",
      "|    time_elapsed       | 1909     |\n",
      "|    total_timesteps    | 358000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0551  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 71700    |\n",
      "|    time_elapsed       | 1912     |\n",
      "|    total_timesteps    | 358500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.059   |\n",
      "|    value_loss         | 0.00174  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 71800    |\n",
      "|    time_elapsed       | 1915     |\n",
      "|    total_timesteps    | 359000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0394  |\n",
      "|    value_loss         | 0.00163  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 500      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 71900    |\n",
      "|    time_elapsed       | 1917     |\n",
      "|    total_timesteps    | 359500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0573  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 499      |\n",
      "|    ep_rew_mean        | 13.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 72000    |\n",
      "|    time_elapsed       | 1920     |\n",
      "|    total_timesteps    | 360000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0229  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 72100    |\n",
      "|    time_elapsed       | 1923     |\n",
      "|    total_timesteps    | 360500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0497  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 72200    |\n",
      "|    time_elapsed       | 1925     |\n",
      "|    total_timesteps    | 361000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0484  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 502      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 72300    |\n",
      "|    time_elapsed       | 1928     |\n",
      "|    total_timesteps    | 361500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0494  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 500      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 72400    |\n",
      "|    time_elapsed       | 1930     |\n",
      "|    total_timesteps    | 362000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0415  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 72500    |\n",
      "|    time_elapsed       | 1933     |\n",
      "|    total_timesteps    | 362500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0399  |\n",
      "|    value_loss         | 0.00174  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 72600    |\n",
      "|    time_elapsed       | 1936     |\n",
      "|    total_timesteps    | 363000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0465  |\n",
      "|    value_loss         | 0.00164  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 72700    |\n",
      "|    time_elapsed       | 1938     |\n",
      "|    total_timesteps    | 363500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0335  |\n",
      "|    value_loss         | 0.00164  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 500       |\n",
      "|    ep_rew_mean        | 13.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 72800     |\n",
      "|    time_elapsed       | 1941      |\n",
      "|    total_timesteps    | 364000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.1      |\n",
      "|    value_loss         | 0.00156   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 499      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 72900    |\n",
      "|    time_elapsed       | 1943     |\n",
      "|    total_timesteps    | 364500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0358  |\n",
      "|    value_loss         | 0.00151  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 499      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 73000    |\n",
      "|    time_elapsed       | 1946     |\n",
      "|    total_timesteps    | 365000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.028   |\n",
      "|    value_loss         | 0.00148  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 499      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 73100    |\n",
      "|    time_elapsed       | 1949     |\n",
      "|    total_timesteps    | 365500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0536  |\n",
      "|    value_loss         | 0.00138  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 499      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 73200    |\n",
      "|    time_elapsed       | 1951     |\n",
      "|    total_timesteps    | 366000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0334  |\n",
      "|    value_loss         | 0.00139  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 499      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 73300    |\n",
      "|    time_elapsed       | 1954     |\n",
      "|    total_timesteps    | 366500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0387  |\n",
      "|    value_loss         | 0.00129  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 500      |\n",
      "|    ep_rew_mean        | 13.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 73400    |\n",
      "|    time_elapsed       | 1956     |\n",
      "|    total_timesteps    | 367000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0411  |\n",
      "|    value_loss         | 0.0012   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 14       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 73500    |\n",
      "|    time_elapsed       | 1959     |\n",
      "|    total_timesteps    | 367500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.046   |\n",
      "|    value_loss         | 0.00128  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 14       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 73600    |\n",
      "|    time_elapsed       | 1962     |\n",
      "|    total_timesteps    | 368000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0302  |\n",
      "|    value_loss         | 0.00127  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 14       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 73700    |\n",
      "|    time_elapsed       | 1964     |\n",
      "|    total_timesteps    | 368500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0376  |\n",
      "|    value_loss         | 0.00128  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 501      |\n",
      "|    ep_rew_mean        | 14.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 73800    |\n",
      "|    time_elapsed       | 1967     |\n",
      "|    total_timesteps    | 369000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.052   |\n",
      "|    value_loss         | 0.00142  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 502       |\n",
      "|    ep_rew_mean        | 14.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 187       |\n",
      "|    iterations         | 73900     |\n",
      "|    time_elapsed       | 1969      |\n",
      "|    total_timesteps    | 369500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0479   |\n",
      "|    value_loss         | 0.00143   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 505      |\n",
      "|    ep_rew_mean        | 14.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 74000    |\n",
      "|    time_elapsed       | 1972     |\n",
      "|    total_timesteps    | 370000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0399  |\n",
      "|    value_loss         | 0.00131  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 503      |\n",
      "|    ep_rew_mean        | 14.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 74100    |\n",
      "|    time_elapsed       | 1975     |\n",
      "|    total_timesteps    | 370500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0589  |\n",
      "|    value_loss         | 0.00124  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 503      |\n",
      "|    ep_rew_mean        | 14.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 74200    |\n",
      "|    time_elapsed       | 1977     |\n",
      "|    total_timesteps    | 371000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0525  |\n",
      "|    value_loss         | 0.00122  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 503      |\n",
      "|    ep_rew_mean        | 14.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 74300    |\n",
      "|    time_elapsed       | 1980     |\n",
      "|    total_timesteps    | 371500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0522  |\n",
      "|    value_loss         | 0.00151  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 505      |\n",
      "|    ep_rew_mean        | 14.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 74400    |\n",
      "|    time_elapsed       | 1983     |\n",
      "|    total_timesteps    | 372000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0508  |\n",
      "|    value_loss         | 0.00154  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 506      |\n",
      "|    ep_rew_mean        | 14.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 74500    |\n",
      "|    time_elapsed       | 1985     |\n",
      "|    total_timesteps    | 372500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.806    |\n",
      "|    value_loss         | 0.891    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 507      |\n",
      "|    ep_rew_mean        | 14.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 74600    |\n",
      "|    time_elapsed       | 1988     |\n",
      "|    total_timesteps    | 373000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00153  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 508      |\n",
      "|    ep_rew_mean        | 15       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 74700    |\n",
      "|    time_elapsed       | 1991     |\n",
      "|    total_timesteps    | 373500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0485  |\n",
      "|    value_loss         | 0.00156  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 507      |\n",
      "|    ep_rew_mean        | 15       |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 74800    |\n",
      "|    time_elapsed       | 1993     |\n",
      "|    total_timesteps    | 374000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0398  |\n",
      "|    value_loss         | 0.00156  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 508      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 187      |\n",
      "|    iterations         | 74900    |\n",
      "|    time_elapsed       | 1996     |\n",
      "|    total_timesteps    | 374500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0455  |\n",
      "|    value_loss         | 0.00151  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=375000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 375000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0353  |\n",
      "|    value_loss         | 0.00161  |\n",
      "------------------------------------\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/opt/conda/lib/python3.10/site-packages/gymnasium/utils/passive_env_checker.py:335: UserWarning: \u001b[33mWARN: No render fps was declared in the environment (env.metadata['render_fps'] is None or not defined), rendering may occur at inconsistent fps.\u001b[0m\n",
      "  logger.warn(\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 508      |\n",
      "|    ep_rew_mean     | 15.1     |\n",
      "| time/              |          |\n",
      "|    fps             | 186      |\n",
      "|    iterations      | 75000    |\n",
      "|    time_elapsed    | 2010     |\n",
      "|    total_timesteps | 375000   |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 509      |\n",
      "|    ep_rew_mean        | 15.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 75100    |\n",
      "|    time_elapsed       | 2016     |\n",
      "|    total_timesteps    | 375500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0603  |\n",
      "|    value_loss         | 0.00163  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 510       |\n",
      "|    ep_rew_mean        | 15.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 75200     |\n",
      "|    time_elapsed       | 2019      |\n",
      "|    total_timesteps    | 376000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0521   |\n",
      "|    value_loss         | 0.00145   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 511      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 75300    |\n",
      "|    time_elapsed       | 2021     |\n",
      "|    total_timesteps    | 376500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.234    |\n",
      "|    value_loss         | 0.355    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 511      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 75400    |\n",
      "|    time_elapsed       | 2024     |\n",
      "|    total_timesteps    | 377000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0407  |\n",
      "|    value_loss         | 0.00146  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 510      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 75500    |\n",
      "|    time_elapsed       | 2027     |\n",
      "|    total_timesteps    | 377500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0439  |\n",
      "|    value_loss         | 0.0015   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 510      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 75600    |\n",
      "|    time_elapsed       | 2029     |\n",
      "|    total_timesteps    | 378000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.268    |\n",
      "|    value_loss         | 0.179    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 511      |\n",
      "|    ep_rew_mean        | 15.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 75700    |\n",
      "|    time_elapsed       | 2032     |\n",
      "|    total_timesteps    | 378500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0563  |\n",
      "|    value_loss         | 0.00149  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 512      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 75800    |\n",
      "|    time_elapsed       | 2035     |\n",
      "|    total_timesteps    | 379000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.041   |\n",
      "|    value_loss         | 0.00159  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 512      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 75900    |\n",
      "|    time_elapsed       | 2037     |\n",
      "|    total_timesteps    | 379500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00163  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 512      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 76000    |\n",
      "|    time_elapsed       | 2040     |\n",
      "|    total_timesteps    | 380000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0481  |\n",
      "|    value_loss         | 0.00149  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 509      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 76100    |\n",
      "|    time_elapsed       | 2043     |\n",
      "|    total_timesteps    | 380500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0369  |\n",
      "|    value_loss         | 0.00156  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 510      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 76200    |\n",
      "|    time_elapsed       | 2046     |\n",
      "|    total_timesteps    | 381000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0341  |\n",
      "|    value_loss         | 0.00145  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 510      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 76300    |\n",
      "|    time_elapsed       | 2048     |\n",
      "|    total_timesteps    | 381500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00146  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 509      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 76400    |\n",
      "|    time_elapsed       | 2051     |\n",
      "|    total_timesteps    | 382000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.00143  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 509      |\n",
      "|    ep_rew_mean        | 15.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 76500    |\n",
      "|    time_elapsed       | 2053     |\n",
      "|    total_timesteps    | 382500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0597  |\n",
      "|    value_loss         | 0.00144  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 509      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 76600    |\n",
      "|    time_elapsed       | 2056     |\n",
      "|    total_timesteps    | 383000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.034   |\n",
      "|    value_loss         | 0.00132  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 510      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 76700    |\n",
      "|    time_elapsed       | 2059     |\n",
      "|    total_timesteps    | 383500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0377  |\n",
      "|    value_loss         | 0.00146  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 510      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 76800    |\n",
      "|    time_elapsed       | 2061     |\n",
      "|    total_timesteps    | 384000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0465  |\n",
      "|    value_loss         | 0.00138  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 512      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 76900    |\n",
      "|    time_elapsed       | 2064     |\n",
      "|    total_timesteps    | 384500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0315  |\n",
      "|    value_loss         | 0.00159  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 512      |\n",
      "|    ep_rew_mean        | 15.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 77000    |\n",
      "|    time_elapsed       | 2067     |\n",
      "|    total_timesteps    | 385000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.05    |\n",
      "|    value_loss         | 0.00158  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 512      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 77100    |\n",
      "|    time_elapsed       | 2070     |\n",
      "|    total_timesteps    | 385500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0491  |\n",
      "|    value_loss         | 0.00153  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 512      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 77200    |\n",
      "|    time_elapsed       | 2072     |\n",
      "|    total_timesteps    | 386000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.044   |\n",
      "|    value_loss         | 0.00149  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 512      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 77300    |\n",
      "|    time_elapsed       | 2075     |\n",
      "|    total_timesteps    | 386500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0353  |\n",
      "|    value_loss         | 0.00164  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 511      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 77400    |\n",
      "|    time_elapsed       | 2078     |\n",
      "|    total_timesteps    | 387000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0562  |\n",
      "|    value_loss         | 0.00179  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 511      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 77500    |\n",
      "|    time_elapsed       | 2081     |\n",
      "|    total_timesteps    | 387500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0438  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 513      |\n",
      "|    ep_rew_mean        | 15.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 77600    |\n",
      "|    time_elapsed       | 2083     |\n",
      "|    total_timesteps    | 388000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0568  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 513      |\n",
      "|    ep_rew_mean        | 15.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 77700    |\n",
      "|    time_elapsed       | 2086     |\n",
      "|    total_timesteps    | 388500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0455  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 514      |\n",
      "|    ep_rew_mean        | 16.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 77800    |\n",
      "|    time_elapsed       | 2089     |\n",
      "|    total_timesteps    | 389000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.101    |\n",
      "|    value_loss         | 0.175    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 511      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 77900    |\n",
      "|    time_elapsed       | 2091     |\n",
      "|    total_timesteps    | 389500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0581  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 510      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 78000    |\n",
      "|    time_elapsed       | 2094     |\n",
      "|    total_timesteps    | 390000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0527  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 508      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 78100    |\n",
      "|    time_elapsed       | 2097     |\n",
      "|    total_timesteps    | 390500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.531    |\n",
      "|    value_loss         | 0.53     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 509      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 78200    |\n",
      "|    time_elapsed       | 2099     |\n",
      "|    total_timesteps    | 391000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.24     |\n",
      "|    value_loss         | 0.177    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 508       |\n",
      "|    ep_rew_mean        | 15.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 78300     |\n",
      "|    time_elapsed       | 2102      |\n",
      "|    total_timesteps    | 391500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.11      |\n",
      "|    value_loss         | 1.27      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 507      |\n",
      "|    ep_rew_mean        | 15.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 78400    |\n",
      "|    time_elapsed       | 2105     |\n",
      "|    total_timesteps    | 392000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0503  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 507      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 78500    |\n",
      "|    time_elapsed       | 2107     |\n",
      "|    total_timesteps    | 392500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0773  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 507       |\n",
      "|    ep_rew_mean        | 15.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 78600     |\n",
      "|    time_elapsed       | 2110      |\n",
      "|    total_timesteps    | 393000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0575   |\n",
      "|    value_loss         | 0.00186   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 508      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 78700    |\n",
      "|    time_elapsed       | 2113     |\n",
      "|    total_timesteps    | 393500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.01     |\n",
      "|    value_loss         | 1.27     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 509      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 78800    |\n",
      "|    time_elapsed       | 2115     |\n",
      "|    total_timesteps    | 394000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0417  |\n",
      "|    value_loss         | 0.00169  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 508      |\n",
      "|    ep_rew_mean        | 15.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 78900    |\n",
      "|    time_elapsed       | 2118     |\n",
      "|    total_timesteps    | 394500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0514  |\n",
      "|    value_loss         | 0.00171  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 509       |\n",
      "|    ep_rew_mean        | 15.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 79000     |\n",
      "|    time_elapsed       | 2121      |\n",
      "|    total_timesteps    | 395000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0654   |\n",
      "|    value_loss         | 0.00166   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 509      |\n",
      "|    ep_rew_mean        | 15.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 79100    |\n",
      "|    time_elapsed       | 2123     |\n",
      "|    total_timesteps    | 395500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.385    |\n",
      "|    value_loss         | 0.354    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 509      |\n",
      "|    ep_rew_mean        | 15.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 79200    |\n",
      "|    time_elapsed       | 2126     |\n",
      "|    total_timesteps    | 396000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0481  |\n",
      "|    value_loss         | 0.00166  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 510      |\n",
      "|    ep_rew_mean        | 15.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 79300    |\n",
      "|    time_elapsed       | 2128     |\n",
      "|    total_timesteps    | 396500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0547  |\n",
      "|    value_loss         | 0.00153  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 510      |\n",
      "|    ep_rew_mean        | 15.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 79400    |\n",
      "|    time_elapsed       | 2131     |\n",
      "|    total_timesteps    | 397000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.758    |\n",
      "|    value_loss         | 0.535    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 510      |\n",
      "|    ep_rew_mean        | 15.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 79500    |\n",
      "|    time_elapsed       | 2134     |\n",
      "|    total_timesteps    | 397500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0444  |\n",
      "|    value_loss         | 0.00161  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 511      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 79600    |\n",
      "|    time_elapsed       | 2136     |\n",
      "|    total_timesteps    | 398000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.912   |\n",
      "|    value_loss         | 1.01     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 511      |\n",
      "|    ep_rew_mean        | 15.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 79700    |\n",
      "|    time_elapsed       | 2139     |\n",
      "|    total_timesteps    | 398500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0495  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 513      |\n",
      "|    ep_rew_mean        | 15.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 79800    |\n",
      "|    time_elapsed       | 2142     |\n",
      "|    total_timesteps    | 399000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0362  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 512      |\n",
      "|    ep_rew_mean        | 15.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 79900    |\n",
      "|    time_elapsed       | 2144     |\n",
      "|    total_timesteps    | 399500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0626  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 514       |\n",
      "|    ep_rew_mean        | 16.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 80000     |\n",
      "|    time_elapsed       | 2147      |\n",
      "|    total_timesteps    | 400000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0358   |\n",
      "|    value_loss         | 0.00204   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 514      |\n",
      "|    ep_rew_mean        | 16.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 80100    |\n",
      "|    time_elapsed       | 2150     |\n",
      "|    total_timesteps    | 400500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0491  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 513      |\n",
      "|    ep_rew_mean        | 16       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 80200    |\n",
      "|    time_elapsed       | 2152     |\n",
      "|    total_timesteps    | 401000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0361  |\n",
      "|    value_loss         | 0.00174  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 513       |\n",
      "|    ep_rew_mean        | 16.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 80300     |\n",
      "|    time_elapsed       | 2155      |\n",
      "|    total_timesteps    | 401500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0488   |\n",
      "|    value_loss         | 0.00188   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 513      |\n",
      "|    ep_rew_mean        | 16.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 80400    |\n",
      "|    time_elapsed       | 2158     |\n",
      "|    total_timesteps    | 402000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0367  |\n",
      "|    value_loss         | 0.00169  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 514      |\n",
      "|    ep_rew_mean        | 16.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 80500    |\n",
      "|    time_elapsed       | 2160     |\n",
      "|    total_timesteps    | 402500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0769  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 514      |\n",
      "|    ep_rew_mean        | 16.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 80600    |\n",
      "|    time_elapsed       | 2163     |\n",
      "|    total_timesteps    | 403000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0491  |\n",
      "|    value_loss         | 0.00172  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 515      |\n",
      "|    ep_rew_mean        | 16.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 80700    |\n",
      "|    time_elapsed       | 2166     |\n",
      "|    total_timesteps    | 403500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00177  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 80800    |\n",
      "|    time_elapsed       | 2169     |\n",
      "|    total_timesteps    | 404000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.367    |\n",
      "|    value_loss         | 0.352    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 80900    |\n",
      "|    time_elapsed       | 2171     |\n",
      "|    total_timesteps    | 404500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0599  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 81000    |\n",
      "|    time_elapsed       | 2174     |\n",
      "|    total_timesteps    | 405000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0428  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 517       |\n",
      "|    ep_rew_mean        | 16.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 81100     |\n",
      "|    time_elapsed       | 2177      |\n",
      "|    total_timesteps    | 405500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0396   |\n",
      "|    value_loss         | 0.00184   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 81200    |\n",
      "|    time_elapsed       | 2179     |\n",
      "|    total_timesteps    | 406000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0486  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 81300    |\n",
      "|    time_elapsed       | 2182     |\n",
      "|    total_timesteps    | 406500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0372  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 81400    |\n",
      "|    time_elapsed       | 2185     |\n",
      "|    total_timesteps    | 407000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0366  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 81500    |\n",
      "|    time_elapsed       | 2187     |\n",
      "|    total_timesteps    | 407500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0372  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 81600    |\n",
      "|    time_elapsed       | 2190     |\n",
      "|    total_timesteps    | 408000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0404  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 81700    |\n",
      "|    time_elapsed       | 2193     |\n",
      "|    total_timesteps    | 408500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.07    |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 515      |\n",
      "|    ep_rew_mean        | 16.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 81800    |\n",
      "|    time_elapsed       | 2195     |\n",
      "|    total_timesteps    | 409000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.047   |\n",
      "|    value_loss         | 0.00165  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 81900    |\n",
      "|    time_elapsed       | 2198     |\n",
      "|    total_timesteps    | 409500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0487  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 82000    |\n",
      "|    time_elapsed       | 2201     |\n",
      "|    total_timesteps    | 410000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.056   |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 517       |\n",
      "|    ep_rew_mean        | 16.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 82100     |\n",
      "|    time_elapsed       | 2203      |\n",
      "|    total_timesteps    | 410500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0345   |\n",
      "|    value_loss         | 0.00181   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 82200    |\n",
      "|    time_elapsed       | 2206     |\n",
      "|    total_timesteps    | 411000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.00174  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 82300    |\n",
      "|    time_elapsed       | 2209     |\n",
      "|    total_timesteps    | 411500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0549  |\n",
      "|    value_loss         | 0.00174  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 82400    |\n",
      "|    time_elapsed       | 2211     |\n",
      "|    total_timesteps    | 412000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0533  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 82500    |\n",
      "|    time_elapsed       | 2214     |\n",
      "|    total_timesteps    | 412500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.00171  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 82600    |\n",
      "|    time_elapsed       | 2217     |\n",
      "|    total_timesteps    | 413000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0396  |\n",
      "|    value_loss         | 0.00138  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 82700    |\n",
      "|    time_elapsed       | 2219     |\n",
      "|    total_timesteps    | 413500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.34    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00107  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 82800    |\n",
      "|    time_elapsed       | 2222     |\n",
      "|    total_timesteps    | 414000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.37    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0383  |\n",
      "|    value_loss         | 0.000806 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 82900    |\n",
      "|    time_elapsed       | 2224     |\n",
      "|    total_timesteps    | 414500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.35    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0386  |\n",
      "|    value_loss         | 0.000909 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 83000    |\n",
      "|    time_elapsed       | 2227     |\n",
      "|    total_timesteps    | 415000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.35    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0343  |\n",
      "|    value_loss         | 0.000956 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 83100    |\n",
      "|    time_elapsed       | 2230     |\n",
      "|    total_timesteps    | 415500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.35    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0408  |\n",
      "|    value_loss         | 0.000961 |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 16.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 83200    |\n",
      "|    time_elapsed       | 2233     |\n",
      "|    total_timesteps    | 416000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.33    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0484  |\n",
      "|    value_loss         | 0.00104  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 83300    |\n",
      "|    time_elapsed       | 2235     |\n",
      "|    total_timesteps    | 416500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.34    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0389  |\n",
      "|    value_loss         | 0.00103  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 540       |\n",
      "|    ep_rew_mean        | 16.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 83400     |\n",
      "|    time_elapsed       | 2238      |\n",
      "|    total_timesteps    | 417000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.32     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0338   |\n",
      "|    value_loss         | 0.00105   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 16.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 83500     |\n",
      "|    time_elapsed       | 2241      |\n",
      "|    total_timesteps    | 417500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.32     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0324   |\n",
      "|    value_loss         | 0.00107   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 16.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 83600    |\n",
      "|    time_elapsed       | 2243     |\n",
      "|    total_timesteps    | 418000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0281  |\n",
      "|    value_loss         | 0.00123  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 16.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 83700    |\n",
      "|    time_elapsed       | 2246     |\n",
      "|    total_timesteps    | 418500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0413  |\n",
      "|    value_loss         | 0.00132  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 83800    |\n",
      "|    time_elapsed       | 2249     |\n",
      "|    total_timesteps    | 419000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.05    |\n",
      "|    value_loss         | 0.00133  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 83900    |\n",
      "|    time_elapsed       | 2251     |\n",
      "|    total_timesteps    | 419500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0399  |\n",
      "|    value_loss         | 0.00135  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 84000    |\n",
      "|    time_elapsed       | 2254     |\n",
      "|    total_timesteps    | 420000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0357  |\n",
      "|    value_loss         | 0.00141  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 17.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 84100     |\n",
      "|    time_elapsed       | 2257      |\n",
      "|    total_timesteps    | 420500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.28     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0513   |\n",
      "|    value_loss         | 0.00144   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 84200    |\n",
      "|    time_elapsed       | 2259     |\n",
      "|    total_timesteps    | 421000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0304  |\n",
      "|    value_loss         | 0.00153  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 17.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 84300     |\n",
      "|    time_elapsed       | 2262      |\n",
      "|    total_timesteps    | 421500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0346   |\n",
      "|    value_loss         | 0.00164   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 84400    |\n",
      "|    time_elapsed       | 2265     |\n",
      "|    total_timesteps    | 422000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0361  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 84500    |\n",
      "|    time_elapsed       | 2267     |\n",
      "|    total_timesteps    | 422500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0546  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 84600    |\n",
      "|    time_elapsed       | 2270     |\n",
      "|    total_timesteps    | 423000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0466  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 17.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 84700     |\n",
      "|    time_elapsed       | 2273      |\n",
      "|    total_timesteps    | 423500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0352   |\n",
      "|    value_loss         | 0.00185   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 84800    |\n",
      "|    time_elapsed       | 2275     |\n",
      "|    total_timesteps    | 424000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.049   |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 84900    |\n",
      "|    time_elapsed       | 2278     |\n",
      "|    total_timesteps    | 424500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 85000    |\n",
      "|    time_elapsed       | 2281     |\n",
      "|    total_timesteps    | 425000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.932    |\n",
      "|    value_loss         | 0.884    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 85100    |\n",
      "|    time_elapsed       | 2283     |\n",
      "|    total_timesteps    | 425500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.061   |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 85200    |\n",
      "|    time_elapsed       | 2286     |\n",
      "|    total_timesteps    | 426000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0679  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 85300    |\n",
      "|    time_elapsed       | 2289     |\n",
      "|    total_timesteps    | 426500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0527  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 85400    |\n",
      "|    time_elapsed       | 2291     |\n",
      "|    total_timesteps    | 427000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0424  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 17.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 85500     |\n",
      "|    time_elapsed       | 2294      |\n",
      "|    total_timesteps    | 427500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.045    |\n",
      "|    value_loss         | 0.00215   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 542       |\n",
      "|    ep_rew_mean        | 17.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 85600     |\n",
      "|    time_elapsed       | 2297      |\n",
      "|    total_timesteps    | 428000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0479   |\n",
      "|    value_loss         | 0.00223   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 85700    |\n",
      "|    time_elapsed       | 2299     |\n",
      "|    total_timesteps    | 428500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0577  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 85800    |\n",
      "|    time_elapsed       | 2302     |\n",
      "|    total_timesteps    | 429000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0724  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 85900    |\n",
      "|    time_elapsed       | 2305     |\n",
      "|    total_timesteps    | 429500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0387  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 86000    |\n",
      "|    time_elapsed       | 2307     |\n",
      "|    total_timesteps    | 430000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0649  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 86100    |\n",
      "|    time_elapsed       | 2310     |\n",
      "|    total_timesteps    | 430500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0407  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 86200    |\n",
      "|    time_elapsed       | 2313     |\n",
      "|    total_timesteps    | 431000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0599  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 86300    |\n",
      "|    time_elapsed       | 2315     |\n",
      "|    total_timesteps    | 431500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0386  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 86400    |\n",
      "|    time_elapsed       | 2318     |\n",
      "|    total_timesteps    | 432000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0539  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 542       |\n",
      "|    ep_rew_mean        | 17.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 86500     |\n",
      "|    time_elapsed       | 2320      |\n",
      "|    total_timesteps    | 432500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0543   |\n",
      "|    value_loss         | 0.00208   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 86600    |\n",
      "|    time_elapsed       | 2323     |\n",
      "|    total_timesteps    | 433000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0396  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 86700    |\n",
      "|    time_elapsed       | 2326     |\n",
      "|    total_timesteps    | 433500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0556  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 86800    |\n",
      "|    time_elapsed       | 2328     |\n",
      "|    total_timesteps    | 434000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.053   |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 86900    |\n",
      "|    time_elapsed       | 2331     |\n",
      "|    total_timesteps    | 434500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0559  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 87000    |\n",
      "|    time_elapsed       | 2334     |\n",
      "|    total_timesteps    | 435000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.042   |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 87100    |\n",
      "|    time_elapsed       | 2336     |\n",
      "|    total_timesteps    | 435500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.241   |\n",
      "|    value_loss         | 0.322    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 87200    |\n",
      "|    time_elapsed       | 2339     |\n",
      "|    total_timesteps    | 436000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0427  |\n",
      "|    value_loss         | 0.00175  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 87300    |\n",
      "|    time_elapsed       | 2342     |\n",
      "|    total_timesteps    | 436500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -1.23    |\n",
      "|    value_loss         | 1.01     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 87400    |\n",
      "|    time_elapsed       | 2344     |\n",
      "|    total_timesteps    | 437000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0579  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 87500    |\n",
      "|    time_elapsed       | 2347     |\n",
      "|    total_timesteps    | 437500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.041   |\n",
      "|    value_loss         | 0.00179  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 87600    |\n",
      "|    time_elapsed       | 2350     |\n",
      "|    total_timesteps    | 438000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0338  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 87700    |\n",
      "|    time_elapsed       | 2352     |\n",
      "|    total_timesteps    | 438500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.96     |\n",
      "|    value_loss         | 0.888    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 87800    |\n",
      "|    time_elapsed       | 2355     |\n",
      "|    total_timesteps    | 439000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0649  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 87900    |\n",
      "|    time_elapsed       | 2358     |\n",
      "|    total_timesteps    | 439500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.535    |\n",
      "|    value_loss         | 0.527    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 88000    |\n",
      "|    time_elapsed       | 2360     |\n",
      "|    total_timesteps    | 440000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.2      |\n",
      "|    value_loss         | 2        |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 88100    |\n",
      "|    time_elapsed       | 2363     |\n",
      "|    total_timesteps    | 440500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0391  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 88200    |\n",
      "|    time_elapsed       | 2366     |\n",
      "|    total_timesteps    | 441000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0645  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 88300    |\n",
      "|    time_elapsed       | 2368     |\n",
      "|    total_timesteps    | 441500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0502  |\n",
      "|    value_loss         | 0.00248  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 88400    |\n",
      "|    time_elapsed       | 2371     |\n",
      "|    total_timesteps    | 442000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0377  |\n",
      "|    value_loss         | 0.00256  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 88500    |\n",
      "|    time_elapsed       | 2373     |\n",
      "|    total_timesteps    | 442500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0507  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 88600    |\n",
      "|    time_elapsed       | 2376     |\n",
      "|    total_timesteps    | 443000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0641  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 88700    |\n",
      "|    time_elapsed       | 2379     |\n",
      "|    total_timesteps    | 443500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0621  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 88800    |\n",
      "|    time_elapsed       | 2381     |\n",
      "|    total_timesteps    | 444000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0478  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 88900    |\n",
      "|    time_elapsed       | 2384     |\n",
      "|    total_timesteps    | 444500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0579  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 542       |\n",
      "|    ep_rew_mean        | 18        |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 89000     |\n",
      "|    time_elapsed       | 2387      |\n",
      "|    total_timesteps    | 445000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0384   |\n",
      "|    value_loss         | 0.00206   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 89100    |\n",
      "|    time_elapsed       | 2389     |\n",
      "|    total_timesteps    | 445500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0522  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 89200    |\n",
      "|    time_elapsed       | 2392     |\n",
      "|    total_timesteps    | 446000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0337  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 89300    |\n",
      "|    time_elapsed       | 2395     |\n",
      "|    total_timesteps    | 446500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0556  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 89400    |\n",
      "|    time_elapsed       | 2397     |\n",
      "|    total_timesteps    | 447000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0398  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 89500    |\n",
      "|    time_elapsed       | 2400     |\n",
      "|    total_timesteps    | 447500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0494  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 89600    |\n",
      "|    time_elapsed       | 2403     |\n",
      "|    total_timesteps    | 448000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.045   |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 89700    |\n",
      "|    time_elapsed       | 2405     |\n",
      "|    total_timesteps    | 448500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0443  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 89800    |\n",
      "|    time_elapsed       | 2408     |\n",
      "|    total_timesteps    | 449000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0605  |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 89900    |\n",
      "|    time_elapsed       | 2411     |\n",
      "|    total_timesteps    | 449500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0482  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=450000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 450000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0508  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 545      |\n",
      "|    ep_rew_mean     | 18.1     |\n",
      "| time/              |          |\n",
      "|    fps             | 185      |\n",
      "|    iterations      | 90000    |\n",
      "|    time_elapsed    | 2424     |\n",
      "|    total_timesteps | 450000   |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 90100    |\n",
      "|    time_elapsed       | 2427     |\n",
      "|    total_timesteps    | 450500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0297  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 90200    |\n",
      "|    time_elapsed       | 2429     |\n",
      "|    total_timesteps    | 451000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0686  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 90300    |\n",
      "|    time_elapsed       | 2432     |\n",
      "|    total_timesteps    | 451500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0807  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 90400    |\n",
      "|    time_elapsed       | 2435     |\n",
      "|    total_timesteps    | 452000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0821  |\n",
      "|    value_loss         | 0.00239  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 90500    |\n",
      "|    time_elapsed       | 2437     |\n",
      "|    total_timesteps    | 452500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0372  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 90600    |\n",
      "|    time_elapsed       | 2440     |\n",
      "|    total_timesteps    | 453000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0429  |\n",
      "|    value_loss         | 0.0025   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 90700    |\n",
      "|    time_elapsed       | 2443     |\n",
      "|    total_timesteps    | 453500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.036   |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 90800    |\n",
      "|    time_elapsed       | 2445     |\n",
      "|    total_timesteps    | 454000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0358  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 90900    |\n",
      "|    time_elapsed       | 2448     |\n",
      "|    total_timesteps    | 454500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0338  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 91000    |\n",
      "|    time_elapsed       | 2451     |\n",
      "|    total_timesteps    | 455000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00243  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 91100    |\n",
      "|    time_elapsed       | 2453     |\n",
      "|    total_timesteps    | 455500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0599  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 91200    |\n",
      "|    time_elapsed       | 2456     |\n",
      "|    total_timesteps    | 456000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.476    |\n",
      "|    value_loss         | 0.348    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 91300    |\n",
      "|    time_elapsed       | 2458     |\n",
      "|    total_timesteps    | 456500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0557  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 91400    |\n",
      "|    time_elapsed       | 2461     |\n",
      "|    total_timesteps    | 457000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0484  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 91500    |\n",
      "|    time_elapsed       | 2464     |\n",
      "|    total_timesteps    | 457500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0714  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 91600    |\n",
      "|    time_elapsed       | 2466     |\n",
      "|    total_timesteps    | 458000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0474  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 91700    |\n",
      "|    time_elapsed       | 2469     |\n",
      "|    total_timesteps    | 458500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0459  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 91800    |\n",
      "|    time_elapsed       | 2472     |\n",
      "|    total_timesteps    | 459000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.049   |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 545       |\n",
      "|    ep_rew_mean        | 18.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 91900     |\n",
      "|    time_elapsed       | 2474      |\n",
      "|    total_timesteps    | 459500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0428   |\n",
      "|    value_loss         | 0.00203   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 92000    |\n",
      "|    time_elapsed       | 2477     |\n",
      "|    total_timesteps    | 460000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.24     |\n",
      "|    value_loss         | 1.26     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 92100    |\n",
      "|    time_elapsed       | 2480     |\n",
      "|    total_timesteps    | 460500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0695  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 92200    |\n",
      "|    time_elapsed       | 2482     |\n",
      "|    total_timesteps    | 461000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0503  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 92300    |\n",
      "|    time_elapsed       | 2485     |\n",
      "|    total_timesteps    | 461500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0575  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 92400    |\n",
      "|    time_elapsed       | 2488     |\n",
      "|    total_timesteps    | 462000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.052   |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 92500    |\n",
      "|    time_elapsed       | 2490     |\n",
      "|    total_timesteps    | 462500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.84     |\n",
      "|    value_loss         | 0.705    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 92600    |\n",
      "|    time_elapsed       | 2493     |\n",
      "|    total_timesteps    | 463000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.035   |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 92700    |\n",
      "|    time_elapsed       | 2495     |\n",
      "|    total_timesteps    | 463500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0438  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 92800    |\n",
      "|    time_elapsed       | 2498     |\n",
      "|    total_timesteps    | 464000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0556  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 92900    |\n",
      "|    time_elapsed       | 2501     |\n",
      "|    total_timesteps    | 464500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0329  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 93000    |\n",
      "|    time_elapsed       | 2503     |\n",
      "|    total_timesteps    | 465000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0489  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 93100    |\n",
      "|    time_elapsed       | 2506     |\n",
      "|    total_timesteps    | 465500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.353    |\n",
      "|    value_loss         | 0.349    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 93200    |\n",
      "|    time_elapsed       | 2509     |\n",
      "|    total_timesteps    | 466000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0471  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 18.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 93300     |\n",
      "|    time_elapsed       | 2511      |\n",
      "|    total_timesteps    | 466500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.17     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0414   |\n",
      "|    value_loss         | 0.00198   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 93400    |\n",
      "|    time_elapsed       | 2514     |\n",
      "|    total_timesteps    | 467000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0353  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 521       |\n",
      "|    ep_rew_mean        | 18.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 93500     |\n",
      "|    time_elapsed       | 2517      |\n",
      "|    total_timesteps    | 467500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.14     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.056    |\n",
      "|    value_loss         | 0.00217   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 93600    |\n",
      "|    time_elapsed       | 2519     |\n",
      "|    total_timesteps    | 468000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0402  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 93700    |\n",
      "|    time_elapsed       | 2522     |\n",
      "|    total_timesteps    | 468500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0478  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 521       |\n",
      "|    ep_rew_mean        | 18.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 93800     |\n",
      "|    time_elapsed       | 2525      |\n",
      "|    total_timesteps    | 469000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.16     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.07     |\n",
      "|    value_loss         | 0.00211   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 93900    |\n",
      "|    time_elapsed       | 2527     |\n",
      "|    total_timesteps    | 469500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0491  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 94000    |\n",
      "|    time_elapsed       | 2530     |\n",
      "|    total_timesteps    | 470000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0845  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 94100    |\n",
      "|    time_elapsed       | 2533     |\n",
      "|    total_timesteps    | 470500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.771   |\n",
      "|    value_loss         | 0.396    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 523       |\n",
      "|    ep_rew_mean        | 18.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 94200     |\n",
      "|    time_elapsed       | 2535      |\n",
      "|    total_timesteps    | 471000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.15     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0884   |\n",
      "|    value_loss         | 0.00217   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 94300    |\n",
      "|    time_elapsed       | 2538     |\n",
      "|    total_timesteps    | 471500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -1.27    |\n",
      "|    value_loss         | 1.11     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 94400    |\n",
      "|    time_elapsed       | 2540     |\n",
      "|    total_timesteps    | 472000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0353  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 94500    |\n",
      "|    time_elapsed       | 2543     |\n",
      "|    total_timesteps    | 472500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0481  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 94600    |\n",
      "|    time_elapsed       | 2546     |\n",
      "|    total_timesteps    | 473000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0469  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 94700    |\n",
      "|    time_elapsed       | 2549     |\n",
      "|    total_timesteps    | 473500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.07     |\n",
      "|    value_loss         | 0.711    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 94800    |\n",
      "|    time_elapsed       | 2551     |\n",
      "|    total_timesteps    | 474000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -1.12    |\n",
      "|    value_loss         | 0.916    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 519       |\n",
      "|    ep_rew_mean        | 17.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 94900     |\n",
      "|    time_elapsed       | 2554      |\n",
      "|    total_timesteps    | 474500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.028    |\n",
      "|    value_loss         | 0.00157   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 95000    |\n",
      "|    time_elapsed       | 2556     |\n",
      "|    total_timesteps    | 475000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0349  |\n",
      "|    value_loss         | 0.00169  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 95100    |\n",
      "|    time_elapsed       | 2559     |\n",
      "|    total_timesteps    | 475500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.898    |\n",
      "|    value_loss         | 0.712    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 95200    |\n",
      "|    time_elapsed       | 2562     |\n",
      "|    total_timesteps    | 476000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0603  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 95300    |\n",
      "|    time_elapsed       | 2564     |\n",
      "|    total_timesteps    | 476500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0473  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 95400    |\n",
      "|    time_elapsed       | 2567     |\n",
      "|    total_timesteps    | 477000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0355  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 95500    |\n",
      "|    time_elapsed       | 2570     |\n",
      "|    total_timesteps    | 477500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0459  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 95600    |\n",
      "|    time_elapsed       | 2572     |\n",
      "|    total_timesteps    | 478000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0424  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 95700    |\n",
      "|    time_elapsed       | 2575     |\n",
      "|    total_timesteps    | 478500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.764    |\n",
      "|    value_loss         | 1.27     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 95800    |\n",
      "|    time_elapsed       | 2578     |\n",
      "|    total_timesteps    | 479000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 95900    |\n",
      "|    time_elapsed       | 2581     |\n",
      "|    total_timesteps    | 479500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0733  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 520       |\n",
      "|    ep_rew_mean        | 17.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 96000     |\n",
      "|    time_elapsed       | 2583      |\n",
      "|    total_timesteps    | 480000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.17     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0405   |\n",
      "|    value_loss         | 0.00185   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 96100    |\n",
      "|    time_elapsed       | 2586     |\n",
      "|    total_timesteps    | 480500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0269  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 96200    |\n",
      "|    time_elapsed       | 2588     |\n",
      "|    total_timesteps    | 481000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0406  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 96300    |\n",
      "|    time_elapsed       | 2591     |\n",
      "|    total_timesteps    | 481500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0465  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 96400    |\n",
      "|    time_elapsed       | 2594     |\n",
      "|    total_timesteps    | 482000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0544  |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 96500    |\n",
      "|    time_elapsed       | 2596     |\n",
      "|    total_timesteps    | 482500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0409  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 96600    |\n",
      "|    time_elapsed       | 2599     |\n",
      "|    total_timesteps    | 483000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0331  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 96700    |\n",
      "|    time_elapsed       | 2601     |\n",
      "|    total_timesteps    | 483500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0446  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 96800    |\n",
      "|    time_elapsed       | 2604     |\n",
      "|    total_timesteps    | 484000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0309  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 96900    |\n",
      "|    time_elapsed       | 2607     |\n",
      "|    total_timesteps    | 484500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0381  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 97000    |\n",
      "|    time_elapsed       | 2609     |\n",
      "|    total_timesteps    | 485000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0623  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 97100    |\n",
      "|    time_elapsed       | 2612     |\n",
      "|    total_timesteps    | 485500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 97200    |\n",
      "|    time_elapsed       | 2615     |\n",
      "|    total_timesteps    | 486000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0344  |\n",
      "|    value_loss         | 0.00168  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 97300    |\n",
      "|    time_elapsed       | 2617     |\n",
      "|    total_timesteps    | 486500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0582  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 97400    |\n",
      "|    time_elapsed       | 2620     |\n",
      "|    total_timesteps    | 487000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0375  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 97500    |\n",
      "|    time_elapsed       | 2623     |\n",
      "|    total_timesteps    | 487500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0424  |\n",
      "|    value_loss         | 0.00171  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 97600    |\n",
      "|    time_elapsed       | 2625     |\n",
      "|    total_timesteps    | 488000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0365  |\n",
      "|    value_loss         | 0.00179  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 97700    |\n",
      "|    time_elapsed       | 2628     |\n",
      "|    total_timesteps    | 488500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0489  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 97800    |\n",
      "|    time_elapsed       | 2631     |\n",
      "|    total_timesteps    | 489000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0613  |\n",
      "|    value_loss         | 0.00171  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 97900    |\n",
      "|    time_elapsed       | 2633     |\n",
      "|    total_timesteps    | 489500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.048   |\n",
      "|    value_loss         | 0.00172  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 98000    |\n",
      "|    time_elapsed       | 2636     |\n",
      "|    total_timesteps    | 490000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.34     |\n",
      "|    value_loss         | 0.889    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 98100    |\n",
      "|    time_elapsed       | 2639     |\n",
      "|    total_timesteps    | 490500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.03     |\n",
      "|    value_loss         | 2.01     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 520       |\n",
      "|    ep_rew_mean        | 17.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 98200     |\n",
      "|    time_elapsed       | 2642      |\n",
      "|    total_timesteps    | 491000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.738     |\n",
      "|    value_loss         | 0.711     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 98300    |\n",
      "|    time_elapsed       | 2644     |\n",
      "|    total_timesteps    | 491500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.51     |\n",
      "|    value_loss         | 1.27     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 98400    |\n",
      "|    time_elapsed       | 2647     |\n",
      "|    total_timesteps    | 492000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.01     |\n",
      "|    value_loss         | 0.71     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 98500    |\n",
      "|    time_elapsed       | 2650     |\n",
      "|    total_timesteps    | 492500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0478  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 98600    |\n",
      "|    time_elapsed       | 2652     |\n",
      "|    total_timesteps    | 493000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0436  |\n",
      "|    value_loss         | 0.00179  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 517       |\n",
      "|    ep_rew_mean        | 16.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 98700     |\n",
      "|    time_elapsed       | 2655      |\n",
      "|    total_timesteps    | 493500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.627     |\n",
      "|    value_loss         | 0.709     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 98800    |\n",
      "|    time_elapsed       | 2658     |\n",
      "|    total_timesteps    | 494000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0411  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 98900    |\n",
      "|    time_elapsed       | 2660     |\n",
      "|    total_timesteps    | 494500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.08    |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 519       |\n",
      "|    ep_rew_mean        | 17        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 99000     |\n",
      "|    time_elapsed       | 2663      |\n",
      "|    total_timesteps    | 495000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.15     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0502   |\n",
      "|    value_loss         | 0.00187   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 99100    |\n",
      "|    time_elapsed       | 2666     |\n",
      "|    total_timesteps    | 495500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0536  |\n",
      "|    value_loss         | 0.00168  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 99200    |\n",
      "|    time_elapsed       | 2668     |\n",
      "|    total_timesteps    | 496000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.048   |\n",
      "|    value_loss         | 0.00156  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 16.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 99300    |\n",
      "|    time_elapsed       | 2671     |\n",
      "|    total_timesteps    | 496500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0247  |\n",
      "|    value_loss         | 0.00155  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 99400    |\n",
      "|    time_elapsed       | 2674     |\n",
      "|    total_timesteps    | 497000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0476  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 99500    |\n",
      "|    time_elapsed       | 2676     |\n",
      "|    total_timesteps    | 497500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0611  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 518       |\n",
      "|    ep_rew_mean        | 16.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 99600     |\n",
      "|    time_elapsed       | 2679      |\n",
      "|    total_timesteps    | 498000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.16     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0636   |\n",
      "|    value_loss         | 0.00184   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 99700    |\n",
      "|    time_elapsed       | 2682     |\n",
      "|    total_timesteps    | 498500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 99800    |\n",
      "|    time_elapsed       | 2684     |\n",
      "|    total_timesteps    | 499000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.059   |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 99900    |\n",
      "|    time_elapsed       | 2687     |\n",
      "|    total_timesteps    | 499500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0472  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 100000   |\n",
      "|    time_elapsed       | 2690     |\n",
      "|    total_timesteps    | 500000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0405  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 100100   |\n",
      "|    time_elapsed       | 2692     |\n",
      "|    total_timesteps    | 500500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0392  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 100200   |\n",
      "|    time_elapsed       | 2695     |\n",
      "|    total_timesteps    | 501000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0465  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 100300   |\n",
      "|    time_elapsed       | 2698     |\n",
      "|    total_timesteps    | 501500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0257  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 100400   |\n",
      "|    time_elapsed       | 2700     |\n",
      "|    total_timesteps    | 502000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0471  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 100500   |\n",
      "|    time_elapsed       | 2703     |\n",
      "|    total_timesteps    | 502500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0656  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 100600   |\n",
      "|    time_elapsed       | 2706     |\n",
      "|    total_timesteps    | 503000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0395  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 100700   |\n",
      "|    time_elapsed       | 2708     |\n",
      "|    total_timesteps    | 503500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0286  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 516      |\n",
      "|    ep_rew_mean        | 16.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 100800   |\n",
      "|    time_elapsed       | 2711     |\n",
      "|    total_timesteps    | 504000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0368  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 515      |\n",
      "|    ep_rew_mean        | 16.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 100900   |\n",
      "|    time_elapsed       | 2714     |\n",
      "|    total_timesteps    | 504500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.039   |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 515      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 101000   |\n",
      "|    time_elapsed       | 2716     |\n",
      "|    total_timesteps    | 505000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.115   |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 513      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 101100   |\n",
      "|    time_elapsed       | 2719     |\n",
      "|    total_timesteps    | 505500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0327  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 513       |\n",
      "|    ep_rew_mean        | 16.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 101200    |\n",
      "|    time_elapsed       | 2722      |\n",
      "|    total_timesteps    | 506000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.14     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.083    |\n",
      "|    value_loss         | 0.00238   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 514      |\n",
      "|    ep_rew_mean        | 16.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 101300   |\n",
      "|    time_elapsed       | 2724     |\n",
      "|    total_timesteps    | 506500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.052   |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 514      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 101400   |\n",
      "|    time_elapsed       | 2727     |\n",
      "|    total_timesteps    | 507000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0788  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 515       |\n",
      "|    ep_rew_mean        | 16.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 101500    |\n",
      "|    time_elapsed       | 2729      |\n",
      "|    total_timesteps    | 507500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.13     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0727   |\n",
      "|    value_loss         | 0.00238   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 515      |\n",
      "|    ep_rew_mean        | 16.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 101600   |\n",
      "|    time_elapsed       | 2732     |\n",
      "|    total_timesteps    | 508000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.5      |\n",
      "|    value_loss         | 0.877    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 517       |\n",
      "|    ep_rew_mean        | 17        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 101700    |\n",
      "|    time_elapsed       | 2735      |\n",
      "|    total_timesteps    | 508500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.15     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0596   |\n",
      "|    value_loss         | 0.00229   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 516      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 101800   |\n",
      "|    time_elapsed       | 2737     |\n",
      "|    total_timesteps    | 509000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0299  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 101900   |\n",
      "|    time_elapsed       | 2740     |\n",
      "|    total_timesteps    | 509500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0411  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 518       |\n",
      "|    ep_rew_mean        | 17        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 102000    |\n",
      "|    time_elapsed       | 2743      |\n",
      "|    total_timesteps    | 510000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.34      |\n",
      "|    value_loss         | 1.26      |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 518       |\n",
      "|    ep_rew_mean        | 17.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 102100    |\n",
      "|    time_elapsed       | 2745      |\n",
      "|    total_timesteps    | 510500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.17     |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.999     |\n",
      "|    value_loss         | 0.883     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 102200   |\n",
      "|    time_elapsed       | 2748     |\n",
      "|    total_timesteps    | 511000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0624  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 102300   |\n",
      "|    time_elapsed       | 2751     |\n",
      "|    total_timesteps    | 511500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0531  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 102400   |\n",
      "|    time_elapsed       | 2753     |\n",
      "|    total_timesteps    | 512000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0483  |\n",
      "|    value_loss         | 0.00234  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 102500   |\n",
      "|    time_elapsed       | 2756     |\n",
      "|    total_timesteps    | 512500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0606  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 102600   |\n",
      "|    time_elapsed       | 2759     |\n",
      "|    total_timesteps    | 513000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0426  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 102700   |\n",
      "|    time_elapsed       | 2761     |\n",
      "|    total_timesteps    | 513500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0327  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 102800   |\n",
      "|    time_elapsed       | 2764     |\n",
      "|    total_timesteps    | 514000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0479  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 102900   |\n",
      "|    time_elapsed       | 2767     |\n",
      "|    total_timesteps    | 514500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.601    |\n",
      "|    value_loss         | 0.524    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 103000   |\n",
      "|    time_elapsed       | 2769     |\n",
      "|    total_timesteps    | 515000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0551  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 519       |\n",
      "|    ep_rew_mean        | 17.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 103100    |\n",
      "|    time_elapsed       | 2772      |\n",
      "|    total_timesteps    | 515500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.15     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0397   |\n",
      "|    value_loss         | 0.00207   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 103200   |\n",
      "|    time_elapsed       | 2775     |\n",
      "|    total_timesteps    | 516000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0299  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 103300   |\n",
      "|    time_elapsed       | 2777     |\n",
      "|    total_timesteps    | 516500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.198    |\n",
      "|    value_loss         | 0.174    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 103400   |\n",
      "|    time_elapsed       | 2780     |\n",
      "|    total_timesteps    | 517000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0437  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 103500   |\n",
      "|    time_elapsed       | 2782     |\n",
      "|    total_timesteps    | 517500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.482    |\n",
      "|    value_loss         | 0.349    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 519       |\n",
      "|    ep_rew_mean        | 17.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 103600    |\n",
      "|    time_elapsed       | 2785      |\n",
      "|    total_timesteps    | 518000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.14     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0612   |\n",
      "|    value_loss         | 0.00235   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 103700   |\n",
      "|    time_elapsed       | 2788     |\n",
      "|    total_timesteps    | 518500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.12    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0517  |\n",
      "|    value_loss         | 0.00244  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 103800   |\n",
      "|    time_elapsed       | 2790     |\n",
      "|    total_timesteps    | 519000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0291  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 103900   |\n",
      "|    time_elapsed       | 2793     |\n",
      "|    total_timesteps    | 519500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0344  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 104000   |\n",
      "|    time_elapsed       | 2796     |\n",
      "|    total_timesteps    | 520000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.041   |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 104100   |\n",
      "|    time_elapsed       | 2798     |\n",
      "|    total_timesteps    | 520500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0347  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 104200   |\n",
      "|    time_elapsed       | 2801     |\n",
      "|    total_timesteps    | 521000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0302  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 519       |\n",
      "|    ep_rew_mean        | 17.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 104300    |\n",
      "|    time_elapsed       | 2804      |\n",
      "|    total_timesteps    | 521500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.14     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0362   |\n",
      "|    value_loss         | 0.0022    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 104400   |\n",
      "|    time_elapsed       | 2806     |\n",
      "|    total_timesteps    | 522000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.051   |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 104500   |\n",
      "|    time_elapsed       | 2809     |\n",
      "|    total_timesteps    | 522500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0625  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 516      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 104600   |\n",
      "|    time_elapsed       | 2812     |\n",
      "|    total_timesteps    | 523000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0518  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 104700   |\n",
      "|    time_elapsed       | 2814     |\n",
      "|    total_timesteps    | 523500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0485  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 516      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 104800   |\n",
      "|    time_elapsed       | 2817     |\n",
      "|    total_timesteps    | 524000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0442  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 517       |\n",
      "|    ep_rew_mean        | 17.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 104900    |\n",
      "|    time_elapsed       | 2820      |\n",
      "|    total_timesteps    | 524500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0628   |\n",
      "|    value_loss         | 0.00189   |\n",
      "-------------------------------------\n",
      "Eval num_timesteps=525000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 525000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.06     |\n",
      "|    value_loss         | 0.705    |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 517      |\n",
      "|    ep_rew_mean     | 17.2     |\n",
      "| time/              |          |\n",
      "|    fps             | 185      |\n",
      "|    iterations      | 105000   |\n",
      "|    time_elapsed    | 2833     |\n",
      "|    total_timesteps | 525000   |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 517      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 105100   |\n",
      "|    time_elapsed       | 2836     |\n",
      "|    total_timesteps    | 525500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0346  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 520       |\n",
      "|    ep_rew_mean        | 17.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 105200    |\n",
      "|    time_elapsed       | 2838      |\n",
      "|    total_timesteps    | 526000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0681   |\n",
      "|    value_loss         | 0.00169   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 105300   |\n",
      "|    time_elapsed       | 2841     |\n",
      "|    total_timesteps    | 526500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0583  |\n",
      "|    value_loss         | 0.00175  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 105400   |\n",
      "|    time_elapsed       | 2843     |\n",
      "|    total_timesteps    | 527000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0358  |\n",
      "|    value_loss         | 0.00179  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 105500   |\n",
      "|    time_elapsed       | 2846     |\n",
      "|    total_timesteps    | 527500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.226   |\n",
      "|    value_loss         | 0.33     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 105600   |\n",
      "|    time_elapsed       | 2849     |\n",
      "|    total_timesteps    | 528000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0504  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 518       |\n",
      "|    ep_rew_mean        | 17.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 105700    |\n",
      "|    time_elapsed       | 2851      |\n",
      "|    total_timesteps    | 528500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0426   |\n",
      "|    value_loss         | 0.00208   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 105800   |\n",
      "|    time_elapsed       | 2854     |\n",
      "|    total_timesteps    | 529000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0798  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 105900   |\n",
      "|    time_elapsed       | 2857     |\n",
      "|    total_timesteps    | 529500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0579  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 106000   |\n",
      "|    time_elapsed       | 2859     |\n",
      "|    total_timesteps    | 530000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0442  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 519       |\n",
      "|    ep_rew_mean        | 17.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 106100    |\n",
      "|    time_elapsed       | 2862      |\n",
      "|    total_timesteps    | 530500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0533   |\n",
      "|    value_loss         | 0.00204   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 106200   |\n",
      "|    time_elapsed       | 2865     |\n",
      "|    total_timesteps    | 531000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 520       |\n",
      "|    ep_rew_mean        | 17.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 106300    |\n",
      "|    time_elapsed       | 2867      |\n",
      "|    total_timesteps    | 531500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0379   |\n",
      "|    value_loss         | 0.00215   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 106400   |\n",
      "|    time_elapsed       | 2870     |\n",
      "|    total_timesteps    | 532000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.496    |\n",
      "|    value_loss         | 0.522    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 106500   |\n",
      "|    time_elapsed       | 2872     |\n",
      "|    total_timesteps    | 532500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0517  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 106600   |\n",
      "|    time_elapsed       | 2875     |\n",
      "|    total_timesteps    | 533000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0547  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 106700   |\n",
      "|    time_elapsed       | 2878     |\n",
      "|    total_timesteps    | 533500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0495  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 106800   |\n",
      "|    time_elapsed       | 2880     |\n",
      "|    total_timesteps    | 534000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0614  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 106900   |\n",
      "|    time_elapsed       | 2883     |\n",
      "|    total_timesteps    | 534500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.97     |\n",
      "|    value_loss         | 0.703    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 520       |\n",
      "|    ep_rew_mean        | 17.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 107000    |\n",
      "|    time_elapsed       | 2886      |\n",
      "|    total_timesteps    | 535000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0522   |\n",
      "|    value_loss         | 0.00206   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 107100   |\n",
      "|    time_elapsed       | 2888     |\n",
      "|    total_timesteps    | 535500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.91     |\n",
      "|    value_loss         | 0.704    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 107200   |\n",
      "|    time_elapsed       | 2891     |\n",
      "|    total_timesteps    | 536000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0411  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 107300   |\n",
      "|    time_elapsed       | 2894     |\n",
      "|    total_timesteps    | 536500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.9      |\n",
      "|    value_loss         | 0.704    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 107400   |\n",
      "|    time_elapsed       | 2897     |\n",
      "|    total_timesteps    | 537000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0479  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 522       |\n",
      "|    ep_rew_mean        | 17.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 107500    |\n",
      "|    time_elapsed       | 2899      |\n",
      "|    total_timesteps    | 537500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0491   |\n",
      "|    value_loss         | 0.00186   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 107600   |\n",
      "|    time_elapsed       | 2902     |\n",
      "|    total_timesteps    | 538000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.08     |\n",
      "|    value_loss         | 0.887    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 107700   |\n",
      "|    time_elapsed       | 2904     |\n",
      "|    total_timesteps    | 538500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.699    |\n",
      "|    value_loss         | 0.53     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 107800   |\n",
      "|    time_elapsed       | 2907     |\n",
      "|    total_timesteps    | 539000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.874    |\n",
      "|    value_loss         | 0.889    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 107900   |\n",
      "|    time_elapsed       | 2910     |\n",
      "|    total_timesteps    | 539500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0414  |\n",
      "|    value_loss         | 0.00167  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 108000   |\n",
      "|    time_elapsed       | 2912     |\n",
      "|    total_timesteps    | 540000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.662    |\n",
      "|    value_loss         | 0.532    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 108100   |\n",
      "|    time_elapsed       | 2915     |\n",
      "|    total_timesteps    | 540500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00161  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 108200   |\n",
      "|    time_elapsed       | 2917     |\n",
      "|    total_timesteps    | 541000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.27     |\n",
      "|    value_loss         | 0.889    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 108300   |\n",
      "|    time_elapsed       | 2920     |\n",
      "|    total_timesteps    | 541500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0484  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 523       |\n",
      "|    ep_rew_mean        | 17.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 108400    |\n",
      "|    time_elapsed       | 2923      |\n",
      "|    total_timesteps    | 542000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.34      |\n",
      "|    value_loss         | 1.67      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 108500   |\n",
      "|    time_elapsed       | 2925     |\n",
      "|    total_timesteps    | 542500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0515  |\n",
      "|    value_loss         | 0.00159  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 521       |\n",
      "|    ep_rew_mean        | 17.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 108600    |\n",
      "|    time_elapsed       | 2928      |\n",
      "|    total_timesteps    | 543000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0415   |\n",
      "|    value_loss         | 0.00166   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 108700   |\n",
      "|    time_elapsed       | 2930     |\n",
      "|    total_timesteps    | 543500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.993    |\n",
      "|    value_loss         | 0.71     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 108800   |\n",
      "|    time_elapsed       | 2933     |\n",
      "|    total_timesteps    | 544000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0471  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 521       |\n",
      "|    ep_rew_mean        | 17.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 108900    |\n",
      "|    time_elapsed       | 2936      |\n",
      "|    total_timesteps    | 544500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.18      |\n",
      "|    value_loss         | 0.177     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 109000   |\n",
      "|    time_elapsed       | 2938     |\n",
      "|    total_timesteps    | 545000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0409  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 109100   |\n",
      "|    time_elapsed       | 2941     |\n",
      "|    total_timesteps    | 545500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.22     |\n",
      "|    value_loss         | 0.891    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 109200   |\n",
      "|    time_elapsed       | 2944     |\n",
      "|    total_timesteps    | 546000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00172  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 109300   |\n",
      "|    time_elapsed       | 2946     |\n",
      "|    total_timesteps    | 546500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0635  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 109400   |\n",
      "|    time_elapsed       | 2949     |\n",
      "|    total_timesteps    | 547000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.898    |\n",
      "|    value_loss         | 0.71     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 109500   |\n",
      "|    time_elapsed       | 2952     |\n",
      "|    total_timesteps    | 547500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0577  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 109600   |\n",
      "|    time_elapsed       | 2954     |\n",
      "|    total_timesteps    | 548000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0548  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 109700   |\n",
      "|    time_elapsed       | 2957     |\n",
      "|    total_timesteps    | 548500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0545  |\n",
      "|    value_loss         | 0.00179  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 109800   |\n",
      "|    time_elapsed       | 2960     |\n",
      "|    total_timesteps    | 549000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0416  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 109900   |\n",
      "|    time_elapsed       | 2962     |\n",
      "|    total_timesteps    | 549500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0503  |\n",
      "|    value_loss         | 0.00172  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 110000   |\n",
      "|    time_elapsed       | 2965     |\n",
      "|    total_timesteps    | 550000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0488  |\n",
      "|    value_loss         | 0.00163  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 110100   |\n",
      "|    time_elapsed       | 2968     |\n",
      "|    total_timesteps    | 550500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0862  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 110200   |\n",
      "|    time_elapsed       | 2970     |\n",
      "|    total_timesteps    | 551000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0392  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 110300   |\n",
      "|    time_elapsed       | 2973     |\n",
      "|    total_timesteps    | 551500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 110400   |\n",
      "|    time_elapsed       | 2975     |\n",
      "|    total_timesteps    | 552000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0383  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 110500   |\n",
      "|    time_elapsed       | 2978     |\n",
      "|    total_timesteps    | 552500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0414  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 110600   |\n",
      "|    time_elapsed       | 2981     |\n",
      "|    total_timesteps    | 553000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0471  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 110700   |\n",
      "|    time_elapsed       | 2983     |\n",
      "|    total_timesteps    | 553500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 110800   |\n",
      "|    time_elapsed       | 2986     |\n",
      "|    total_timesteps    | 554000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0554  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 110900   |\n",
      "|    time_elapsed       | 2989     |\n",
      "|    total_timesteps    | 554500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0519  |\n",
      "|    value_loss         | 0.00164  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 523       |\n",
      "|    ep_rew_mean        | 17.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 111000    |\n",
      "|    time_elapsed       | 2992      |\n",
      "|    total_timesteps    | 555000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0436   |\n",
      "|    value_loss         | 0.0019    |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 523       |\n",
      "|    ep_rew_mean        | 17.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 111100    |\n",
      "|    time_elapsed       | 2994      |\n",
      "|    total_timesteps    | 555500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.813     |\n",
      "|    value_loss         | 0.528     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 111200   |\n",
      "|    time_elapsed       | 2997     |\n",
      "|    total_timesteps    | 556000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0634  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 111300   |\n",
      "|    time_elapsed       | 2999     |\n",
      "|    total_timesteps    | 556500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0573  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 111400   |\n",
      "|    time_elapsed       | 3002     |\n",
      "|    total_timesteps    | 557000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0401  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 111500   |\n",
      "|    time_elapsed       | 3005     |\n",
      "|    total_timesteps    | 557500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0478  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 111600   |\n",
      "|    time_elapsed       | 3007     |\n",
      "|    total_timesteps    | 558000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0442  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 524       |\n",
      "|    ep_rew_mean        | 17.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 111700    |\n",
      "|    time_elapsed       | 3010      |\n",
      "|    total_timesteps    | 558500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.28     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.8       |\n",
      "|    value_loss         | 2.01      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 111800   |\n",
      "|    time_elapsed       | 3013     |\n",
      "|    total_timesteps    | 559000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0486  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 525       |\n",
      "|    ep_rew_mean        | 17.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 111900    |\n",
      "|    time_elapsed       | 3015      |\n",
      "|    total_timesteps    | 559500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0579   |\n",
      "|    value_loss         | 0.00189   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 112000   |\n",
      "|    time_elapsed       | 3018     |\n",
      "|    total_timesteps    | 560000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.048   |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 112100   |\n",
      "|    time_elapsed       | 3021     |\n",
      "|    total_timesteps    | 560500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.83     |\n",
      "|    value_loss         | 2.57     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 112200   |\n",
      "|    time_elapsed       | 3023     |\n",
      "|    total_timesteps    | 561000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0595  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 112300   |\n",
      "|    time_elapsed       | 3026     |\n",
      "|    total_timesteps    | 561500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.32     |\n",
      "|    value_loss         | 2.01     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 112400   |\n",
      "|    time_elapsed       | 3028     |\n",
      "|    total_timesteps    | 562000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0473  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 112500   |\n",
      "|    time_elapsed       | 3031     |\n",
      "|    total_timesteps    | 562500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 112600   |\n",
      "|    time_elapsed       | 3034     |\n",
      "|    total_timesteps    | 563000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0655  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 520       |\n",
      "|    ep_rew_mean        | 17.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 112700    |\n",
      "|    time_elapsed       | 3036      |\n",
      "|    total_timesteps    | 563500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.28     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0542   |\n",
      "|    value_loss         | 0.00179   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 518      |\n",
      "|    ep_rew_mean        | 17       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 112800   |\n",
      "|    time_elapsed       | 3039     |\n",
      "|    total_timesteps    | 564000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0399  |\n",
      "|    value_loss         | 0.00168  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 112900   |\n",
      "|    time_elapsed       | 3042     |\n",
      "|    total_timesteps    | 564500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0604  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 520       |\n",
      "|    ep_rew_mean        | 17.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 113000    |\n",
      "|    time_elapsed       | 3044      |\n",
      "|    total_timesteps    | 565000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0491   |\n",
      "|    value_loss         | 0.00207   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 113100   |\n",
      "|    time_elapsed       | 3047     |\n",
      "|    total_timesteps    | 565500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.133    |\n",
      "|    value_loss         | 0.174    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 113200   |\n",
      "|    time_elapsed       | 3050     |\n",
      "|    total_timesteps    | 566000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0482  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 113300   |\n",
      "|    time_elapsed       | 3052     |\n",
      "|    total_timesteps    | 566500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0628  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 113400   |\n",
      "|    time_elapsed       | 3055     |\n",
      "|    total_timesteps    | 567000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0391  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 519       |\n",
      "|    ep_rew_mean        | 17.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 113500    |\n",
      "|    time_elapsed       | 3058      |\n",
      "|    total_timesteps    | 567500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0478   |\n",
      "|    value_loss         | 0.00217   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 113600   |\n",
      "|    time_elapsed       | 3060     |\n",
      "|    total_timesteps    | 568000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0422  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 113700   |\n",
      "|    time_elapsed       | 3063     |\n",
      "|    total_timesteps    | 568500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.307    |\n",
      "|    value_loss         | 0.173    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 113800   |\n",
      "|    time_elapsed       | 3066     |\n",
      "|    total_timesteps    | 569000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0425  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 113900   |\n",
      "|    time_elapsed       | 3068     |\n",
      "|    total_timesteps    | 569500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0584  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 521       |\n",
      "|    ep_rew_mean        | 17.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 114000    |\n",
      "|    time_elapsed       | 3071      |\n",
      "|    total_timesteps    | 570000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.064    |\n",
      "|    value_loss         | 0.00208   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 521       |\n",
      "|    ep_rew_mean        | 17.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 114100    |\n",
      "|    time_elapsed       | 3074      |\n",
      "|    total_timesteps    | 570500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0442   |\n",
      "|    value_loss         | 0.00224   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 114200   |\n",
      "|    time_elapsed       | 3076     |\n",
      "|    total_timesteps    | 571000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0673  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 114300   |\n",
      "|    time_elapsed       | 3079     |\n",
      "|    total_timesteps    | 571500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0835  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 114400   |\n",
      "|    time_elapsed       | 3082     |\n",
      "|    total_timesteps    | 572000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0588  |\n",
      "|    value_loss         | 0.00235  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 114500   |\n",
      "|    time_elapsed       | 3084     |\n",
      "|    total_timesteps    | 572500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0629  |\n",
      "|    value_loss         | 0.00243  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 114600   |\n",
      "|    time_elapsed       | 3087     |\n",
      "|    total_timesteps    | 573000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.745    |\n",
      "|    value_loss         | 0.702    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 114700   |\n",
      "|    time_elapsed       | 3090     |\n",
      "|    total_timesteps    | 573500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0473  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 524       |\n",
      "|    ep_rew_mean        | 17.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 114800    |\n",
      "|    time_elapsed       | 3092      |\n",
      "|    total_timesteps    | 574000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.28     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0492   |\n",
      "|    value_loss         | 0.00199   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 114900   |\n",
      "|    time_elapsed       | 3095     |\n",
      "|    total_timesteps    | 574500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0412  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 525       |\n",
      "|    ep_rew_mean        | 17.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 115000    |\n",
      "|    time_elapsed       | 3098      |\n",
      "|    total_timesteps    | 575000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0478   |\n",
      "|    value_loss         | 0.00187   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 525       |\n",
      "|    ep_rew_mean        | 17.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 115100    |\n",
      "|    time_elapsed       | 3100      |\n",
      "|    total_timesteps    | 575500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0525   |\n",
      "|    value_loss         | 0.00191   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 115200   |\n",
      "|    time_elapsed       | 3103     |\n",
      "|    total_timesteps    | 576000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0403  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 115300   |\n",
      "|    time_elapsed       | 3106     |\n",
      "|    total_timesteps    | 576500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0425  |\n",
      "|    value_loss         | 0.00179  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 115400   |\n",
      "|    time_elapsed       | 3108     |\n",
      "|    total_timesteps    | 577000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0397  |\n",
      "|    value_loss         | 0.00177  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 115500   |\n",
      "|    time_elapsed       | 3111     |\n",
      "|    total_timesteps    | 577500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0455  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 115600   |\n",
      "|    time_elapsed       | 3114     |\n",
      "|    total_timesteps    | 578000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0413  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 115700   |\n",
      "|    time_elapsed       | 3116     |\n",
      "|    total_timesteps    | 578500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 115800   |\n",
      "|    time_elapsed       | 3119     |\n",
      "|    total_timesteps    | 579000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0571  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 115900   |\n",
      "|    time_elapsed       | 3122     |\n",
      "|    total_timesteps    | 579500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0602  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 116000   |\n",
      "|    time_elapsed       | 3124     |\n",
      "|    total_timesteps    | 580000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0537  |\n",
      "|    value_loss         | 0.00179  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 116100   |\n",
      "|    time_elapsed       | 3127     |\n",
      "|    total_timesteps    | 580500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0498  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 116200   |\n",
      "|    time_elapsed       | 3130     |\n",
      "|    total_timesteps    | 581000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0535  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 116300   |\n",
      "|    time_elapsed       | 3132     |\n",
      "|    total_timesteps    | 581500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0441  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 116400   |\n",
      "|    time_elapsed       | 3135     |\n",
      "|    total_timesteps    | 582000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0456  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 116500   |\n",
      "|    time_elapsed       | 3138     |\n",
      "|    total_timesteps    | 582500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0523  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 116600   |\n",
      "|    time_elapsed       | 3140     |\n",
      "|    total_timesteps    | 583000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0558  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 116700   |\n",
      "|    time_elapsed       | 3143     |\n",
      "|    total_timesteps    | 583500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0659  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 116800   |\n",
      "|    time_elapsed       | 3146     |\n",
      "|    total_timesteps    | 584000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0598  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 116900   |\n",
      "|    time_elapsed       | 3148     |\n",
      "|    total_timesteps    | 584500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0446  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 523       |\n",
      "|    ep_rew_mean        | 17.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 117000    |\n",
      "|    time_elapsed       | 3151      |\n",
      "|    total_timesteps    | 585000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0415   |\n",
      "|    value_loss         | 0.00201   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 117100   |\n",
      "|    time_elapsed       | 3154     |\n",
      "|    total_timesteps    | 585500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0412  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 525       |\n",
      "|    ep_rew_mean        | 17.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 117200    |\n",
      "|    time_elapsed       | 3156      |\n",
      "|    total_timesteps    | 586000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0474   |\n",
      "|    value_loss         | 0.00186   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 117300   |\n",
      "|    time_elapsed       | 3159     |\n",
      "|    total_timesteps    | 586500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0479  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 117400   |\n",
      "|    time_elapsed       | 3162     |\n",
      "|    total_timesteps    | 587000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0384  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 117500   |\n",
      "|    time_elapsed       | 3164     |\n",
      "|    total_timesteps    | 587500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0661  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 117600   |\n",
      "|    time_elapsed       | 3167     |\n",
      "|    total_timesteps    | 588000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0459  |\n",
      "|    value_loss         | 0.00177  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 117700   |\n",
      "|    time_elapsed       | 3170     |\n",
      "|    total_timesteps    | 588500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0617  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 117800   |\n",
      "|    time_elapsed       | 3173     |\n",
      "|    total_timesteps    | 589000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0505  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 117900   |\n",
      "|    time_elapsed       | 3175     |\n",
      "|    total_timesteps    | 589500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.19     |\n",
      "|    value_loss         | 0.885    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 118000   |\n",
      "|    time_elapsed       | 3178     |\n",
      "|    total_timesteps    | 590000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0512  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 118100   |\n",
      "|    time_elapsed       | 3181     |\n",
      "|    total_timesteps    | 590500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.15     |\n",
      "|    value_loss         | 1.49     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 118200   |\n",
      "|    time_elapsed       | 3184     |\n",
      "|    total_timesteps    | 591000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.83     |\n",
      "|    value_loss         | 2        |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 523       |\n",
      "|    ep_rew_mean        | 17.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 118300    |\n",
      "|    time_elapsed       | 3186      |\n",
      "|    total_timesteps    | 591500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.042    |\n",
      "|    value_loss         | 0.00178   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 523       |\n",
      "|    ep_rew_mean        | 17.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 118400    |\n",
      "|    time_elapsed       | 3189      |\n",
      "|    total_timesteps    | 592000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0521   |\n",
      "|    value_loss         | 0.00192   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 118500   |\n",
      "|    time_elapsed       | 3192     |\n",
      "|    total_timesteps    | 592500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0616  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 118600   |\n",
      "|    time_elapsed       | 3194     |\n",
      "|    total_timesteps    | 593000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0349  |\n",
      "|    value_loss         | 0.00177  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 118700   |\n",
      "|    time_elapsed       | 3197     |\n",
      "|    total_timesteps    | 593500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0458  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 118800   |\n",
      "|    time_elapsed       | 3200     |\n",
      "|    total_timesteps    | 594000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.04    |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 118900   |\n",
      "|    time_elapsed       | 3202     |\n",
      "|    total_timesteps    | 594500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0518  |\n",
      "|    value_loss         | 0.00171  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 119000   |\n",
      "|    time_elapsed       | 3205     |\n",
      "|    total_timesteps    | 595000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0483  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 119100   |\n",
      "|    time_elapsed       | 3208     |\n",
      "|    total_timesteps    | 595500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0461  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 119200   |\n",
      "|    time_elapsed       | 3210     |\n",
      "|    total_timesteps    | 596000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.763    |\n",
      "|    value_loss         | 0.71     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 119300   |\n",
      "|    time_elapsed       | 3213     |\n",
      "|    total_timesteps    | 596500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.718    |\n",
      "|    value_loss         | 0.531    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 119400   |\n",
      "|    time_elapsed       | 3216     |\n",
      "|    total_timesteps    | 597000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0446  |\n",
      "|    value_loss         | 0.00172  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 119500   |\n",
      "|    time_elapsed       | 3218     |\n",
      "|    total_timesteps    | 597500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0413  |\n",
      "|    value_loss         | 0.00169  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 119600   |\n",
      "|    time_elapsed       | 3221     |\n",
      "|    total_timesteps    | 598000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0536  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 119700   |\n",
      "|    time_elapsed       | 3223     |\n",
      "|    total_timesteps    | 598500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0415  |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 119800   |\n",
      "|    time_elapsed       | 3226     |\n",
      "|    total_timesteps    | 599000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0501  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 119900   |\n",
      "|    time_elapsed       | 3229     |\n",
      "|    total_timesteps    | 599500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.037   |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=600000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 600000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0539  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 527      |\n",
      "|    ep_rew_mean     | 18.1     |\n",
      "| time/              |          |\n",
      "|    fps             | 185      |\n",
      "|    iterations      | 120000   |\n",
      "|    time_elapsed    | 3243     |\n",
      "|    total_timesteps | 600000   |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 120100   |\n",
      "|    time_elapsed       | 3245     |\n",
      "|    total_timesteps    | 600500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.24     |\n",
      "|    value_loss         | 0.344    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 527       |\n",
      "|    ep_rew_mean        | 18.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 120200    |\n",
      "|    time_elapsed       | 3248      |\n",
      "|    total_timesteps    | 601000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0511   |\n",
      "|    value_loss         | 0.00286   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 529       |\n",
      "|    ep_rew_mean        | 18.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 120300    |\n",
      "|    time_elapsed       | 3251      |\n",
      "|    total_timesteps    | 601500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0625   |\n",
      "|    value_loss         | 0.00292   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 120400   |\n",
      "|    time_elapsed       | 3253     |\n",
      "|    total_timesteps    | 602000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0438  |\n",
      "|    value_loss         | 0.00271  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 120500   |\n",
      "|    time_elapsed       | 3256     |\n",
      "|    total_timesteps    | 602500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.794    |\n",
      "|    value_loss         | 0.512    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 120600    |\n",
      "|    time_elapsed       | 3259      |\n",
      "|    total_timesteps    | 603000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.17     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.363     |\n",
      "|    value_loss         | 0.17      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 120700   |\n",
      "|    time_elapsed       | 3262     |\n",
      "|    total_timesteps    | 603500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0784  |\n",
      "|    value_loss         | 0.00284  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 120800   |\n",
      "|    time_elapsed       | 3264     |\n",
      "|    total_timesteps    | 604000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.219    |\n",
      "|    value_loss         | 0.342    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 120900   |\n",
      "|    time_elapsed       | 3267     |\n",
      "|    total_timesteps    | 604500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.92     |\n",
      "|    value_loss         | 2.54     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 121000   |\n",
      "|    time_elapsed       | 3270     |\n",
      "|    total_timesteps    | 605000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0618  |\n",
      "|    value_loss         | 0.00281  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 121100   |\n",
      "|    time_elapsed       | 3273     |\n",
      "|    total_timesteps    | 605500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0634  |\n",
      "|    value_loss         | 0.00285  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 121200   |\n",
      "|    time_elapsed       | 3275     |\n",
      "|    total_timesteps    | 606000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0542  |\n",
      "|    value_loss         | 0.00259  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 121300   |\n",
      "|    time_elapsed       | 3278     |\n",
      "|    total_timesteps    | 606500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0947   |\n",
      "|    value_loss         | 0.172    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 121400   |\n",
      "|    time_elapsed       | 3281     |\n",
      "|    total_timesteps    | 607000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0803  |\n",
      "|    value_loss         | 0.00258  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 121500   |\n",
      "|    time_elapsed       | 3283     |\n",
      "|    total_timesteps    | 607500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.333    |\n",
      "|    value_loss         | 0.173    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 121600    |\n",
      "|    time_elapsed       | 3286      |\n",
      "|    total_timesteps    | 608000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0376   |\n",
      "|    value_loss         | 0.00259   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 121700   |\n",
      "|    time_elapsed       | 3289     |\n",
      "|    total_timesteps    | 608500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0363  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 121800   |\n",
      "|    time_elapsed       | 3291     |\n",
      "|    total_timesteps    | 609000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0727  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 121900   |\n",
      "|    time_elapsed       | 3294     |\n",
      "|    total_timesteps    | 609500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.487    |\n",
      "|    value_loss         | 0.52     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 122000    |\n",
      "|    time_elapsed       | 3297      |\n",
      "|    total_timesteps    | 610000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0349   |\n",
      "|    value_loss         | 0.00232   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 122100   |\n",
      "|    time_elapsed       | 3300     |\n",
      "|    total_timesteps    | 610500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 122200   |\n",
      "|    time_elapsed       | 3302     |\n",
      "|    total_timesteps    | 611000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0688  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 122300   |\n",
      "|    time_elapsed       | 3305     |\n",
      "|    total_timesteps    | 611500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0625  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 122400   |\n",
      "|    time_elapsed       | 3308     |\n",
      "|    total_timesteps    | 612000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0588  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 122500   |\n",
      "|    time_elapsed       | 3310     |\n",
      "|    total_timesteps    | 612500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0413  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 528       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 122600    |\n",
      "|    time_elapsed       | 3313      |\n",
      "|    total_timesteps    | 613000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0856   |\n",
      "|    value_loss         | 0.00231   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 122700   |\n",
      "|    time_elapsed       | 3316     |\n",
      "|    total_timesteps    | 613500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.055   |\n",
      "|    value_loss         | 0.00242  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 527       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 122800    |\n",
      "|    time_elapsed       | 3318      |\n",
      "|    total_timesteps    | 614000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0453   |\n",
      "|    value_loss         | 0.00234   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 122900   |\n",
      "|    time_elapsed       | 3321     |\n",
      "|    total_timesteps    | 614500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0407  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 123000   |\n",
      "|    time_elapsed       | 3324     |\n",
      "|    total_timesteps    | 615000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 123100   |\n",
      "|    time_elapsed       | 3327     |\n",
      "|    total_timesteps    | 615500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0351  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 123200   |\n",
      "|    time_elapsed       | 3329     |\n",
      "|    total_timesteps    | 616000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0449  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 123300   |\n",
      "|    time_elapsed       | 3332     |\n",
      "|    total_timesteps    | 616500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0383  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 123400   |\n",
      "|    time_elapsed       | 3335     |\n",
      "|    total_timesteps    | 617000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0391  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 123500   |\n",
      "|    time_elapsed       | 3337     |\n",
      "|    total_timesteps    | 617500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0378  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 123600   |\n",
      "|    time_elapsed       | 3340     |\n",
      "|    total_timesteps    | 618000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0508  |\n",
      "|    value_loss         | 0.00238  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 123700   |\n",
      "|    time_elapsed       | 3343     |\n",
      "|    total_timesteps    | 618500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0527  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 123800   |\n",
      "|    time_elapsed       | 3345     |\n",
      "|    total_timesteps    | 619000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0525  |\n",
      "|    value_loss         | 0.00241  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 123900   |\n",
      "|    time_elapsed       | 3348     |\n",
      "|    total_timesteps    | 619500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0378  |\n",
      "|    value_loss         | 0.00235  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 124000   |\n",
      "|    time_elapsed       | 3350     |\n",
      "|    total_timesteps    | 620000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.338    |\n",
      "|    value_loss         | 0.345    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 124100   |\n",
      "|    time_elapsed       | 3353     |\n",
      "|    total_timesteps    | 620500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.853    |\n",
      "|    value_loss         | 1.26     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 124200   |\n",
      "|    time_elapsed       | 3356     |\n",
      "|    total_timesteps    | 621000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0811  |\n",
      "|    value_loss         | 0.00253  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 124300   |\n",
      "|    time_elapsed       | 3358     |\n",
      "|    total_timesteps    | 621500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0701  |\n",
      "|    value_loss         | 0.00245  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 124400   |\n",
      "|    time_elapsed       | 3361     |\n",
      "|    total_timesteps    | 622000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.052   |\n",
      "|    value_loss         | 0.00242  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 124500   |\n",
      "|    time_elapsed       | 3364     |\n",
      "|    total_timesteps    | 622500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0458  |\n",
      "|    value_loss         | 0.00266  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 124600   |\n",
      "|    time_elapsed       | 3366     |\n",
      "|    total_timesteps    | 623000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0375  |\n",
      "|    value_loss         | 0.00257  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 124700   |\n",
      "|    time_elapsed       | 3369     |\n",
      "|    total_timesteps    | 623500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.225    |\n",
      "|    value_loss         | 0.343    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 124800   |\n",
      "|    time_elapsed       | 3371     |\n",
      "|    total_timesteps    | 624000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0336  |\n",
      "|    value_loss         | 0.0027   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 124900   |\n",
      "|    time_elapsed       | 3374     |\n",
      "|    total_timesteps    | 624500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0406  |\n",
      "|    value_loss         | 0.00273  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 125000   |\n",
      "|    time_elapsed       | 3377     |\n",
      "|    total_timesteps    | 625000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0608  |\n",
      "|    value_loss         | 0.0027   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 19.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 125100    |\n",
      "|    time_elapsed       | 3379      |\n",
      "|    total_timesteps    | 625500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0475   |\n",
      "|    value_loss         | 0.00257   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 125200   |\n",
      "|    time_elapsed       | 3382     |\n",
      "|    total_timesteps    | 626000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.568    |\n",
      "|    value_loss         | 0.519    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 125300   |\n",
      "|    time_elapsed       | 3384     |\n",
      "|    total_timesteps    | 626500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0385  |\n",
      "|    value_loss         | 0.00252  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 125400   |\n",
      "|    time_elapsed       | 3387     |\n",
      "|    total_timesteps    | 627000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.00263  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 125500   |\n",
      "|    time_elapsed       | 3390     |\n",
      "|    total_timesteps    | 627500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.332    |\n",
      "|    value_loss         | 0.345    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 125600   |\n",
      "|    time_elapsed       | 3392     |\n",
      "|    total_timesteps    | 628000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.39     |\n",
      "|    value_loss         | 0.345    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 125700   |\n",
      "|    time_elapsed       | 3395     |\n",
      "|    total_timesteps    | 628500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.959   |\n",
      "|    value_loss         | 0.899    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 125800   |\n",
      "|    time_elapsed       | 3397     |\n",
      "|    total_timesteps    | 629000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0495  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 125900   |\n",
      "|    time_elapsed       | 3400     |\n",
      "|    total_timesteps    | 629500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0827  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 126000   |\n",
      "|    time_elapsed       | 3403     |\n",
      "|    total_timesteps    | 630000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.35     |\n",
      "|    value_loss         | 0.699    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 126100   |\n",
      "|    time_elapsed       | 3405     |\n",
      "|    total_timesteps    | 630500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0454  |\n",
      "|    value_loss         | 0.00243  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 126200   |\n",
      "|    time_elapsed       | 3408     |\n",
      "|    total_timesteps    | 631000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0419  |\n",
      "|    value_loss         | 0.00252  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 126300   |\n",
      "|    time_elapsed       | 3410     |\n",
      "|    total_timesteps    | 631500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.257    |\n",
      "|    value_loss         | 0.345    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 126400   |\n",
      "|    time_elapsed       | 3413     |\n",
      "|    total_timesteps    | 632000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0371  |\n",
      "|    value_loss         | 0.00263  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 126500   |\n",
      "|    time_elapsed       | 3416     |\n",
      "|    total_timesteps    | 632500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0352  |\n",
      "|    value_loss         | 0.00248  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 126600   |\n",
      "|    time_elapsed       | 3418     |\n",
      "|    total_timesteps    | 633000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 19.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 126700    |\n",
      "|    time_elapsed       | 3421      |\n",
      "|    total_timesteps    | 633500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0731   |\n",
      "|    value_loss         | 0.00252   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 126800   |\n",
      "|    time_elapsed       | 3424     |\n",
      "|    total_timesteps    | 634000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.062   |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 126900   |\n",
      "|    time_elapsed       | 3426     |\n",
      "|    total_timesteps    | 634500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0535  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 127000   |\n",
      "|    time_elapsed       | 3429     |\n",
      "|    total_timesteps    | 635000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0517  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 127100   |\n",
      "|    time_elapsed       | 3431     |\n",
      "|    total_timesteps    | 635500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0755  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 127200   |\n",
      "|    time_elapsed       | 3434     |\n",
      "|    total_timesteps    | 636000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 127300   |\n",
      "|    time_elapsed       | 3437     |\n",
      "|    total_timesteps    | 636500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0575  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 19.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 127400    |\n",
      "|    time_elapsed       | 3439      |\n",
      "|    total_timesteps    | 637000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0454   |\n",
      "|    value_loss         | 0.00244   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 127500   |\n",
      "|    time_elapsed       | 3442     |\n",
      "|    total_timesteps    | 637500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0542  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 127600   |\n",
      "|    time_elapsed       | 3444     |\n",
      "|    total_timesteps    | 638000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0555  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 127700   |\n",
      "|    time_elapsed       | 3447     |\n",
      "|    total_timesteps    | 638500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.975    |\n",
      "|    value_loss         | 0.881    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 127800   |\n",
      "|    time_elapsed       | 3450     |\n",
      "|    total_timesteps    | 639000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0773  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 127900   |\n",
      "|    time_elapsed       | 3452     |\n",
      "|    total_timesteps    | 639500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0373  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 128000   |\n",
      "|    time_elapsed       | 3455     |\n",
      "|    total_timesteps    | 640000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0494  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 128100   |\n",
      "|    time_elapsed       | 3457     |\n",
      "|    total_timesteps    | 640500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0471  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 128200   |\n",
      "|    time_elapsed       | 3460     |\n",
      "|    total_timesteps    | 641000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0408  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 128300   |\n",
      "|    time_elapsed       | 3463     |\n",
      "|    total_timesteps    | 641500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0522  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 128400   |\n",
      "|    time_elapsed       | 3465     |\n",
      "|    total_timesteps    | 642000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0502  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 19.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 128500    |\n",
      "|    time_elapsed       | 3468      |\n",
      "|    total_timesteps    | 642500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0473   |\n",
      "|    value_loss         | 0.00228   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 128600   |\n",
      "|    time_elapsed       | 3470     |\n",
      "|    total_timesteps    | 643000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0464  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 128700   |\n",
      "|    time_elapsed       | 3473     |\n",
      "|    total_timesteps    | 643500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0419  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 128800   |\n",
      "|    time_elapsed       | 3476     |\n",
      "|    total_timesteps    | 644000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.43     |\n",
      "|    value_loss         | 1.82     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 536       |\n",
      "|    ep_rew_mean        | 19.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 128900    |\n",
      "|    time_elapsed       | 3478      |\n",
      "|    total_timesteps    | 644500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0434   |\n",
      "|    value_loss         | 0.00226   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 129000   |\n",
      "|    time_elapsed       | 3481     |\n",
      "|    total_timesteps    | 645000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.059   |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 19.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 129100    |\n",
      "|    time_elapsed       | 3484      |\n",
      "|    total_timesteps    | 645500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0678   |\n",
      "|    value_loss         | 0.00215   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 129200   |\n",
      "|    time_elapsed       | 3486     |\n",
      "|    total_timesteps    | 646000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 129300   |\n",
      "|    time_elapsed       | 3489     |\n",
      "|    total_timesteps    | 646500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0438  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 129400   |\n",
      "|    time_elapsed       | 3492     |\n",
      "|    total_timesteps    | 647000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0585  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 129500   |\n",
      "|    time_elapsed       | 3494     |\n",
      "|    total_timesteps    | 647500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 129600   |\n",
      "|    time_elapsed       | 3497     |\n",
      "|    total_timesteps    | 648000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0504  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 129700   |\n",
      "|    time_elapsed       | 3499     |\n",
      "|    total_timesteps    | 648500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0426  |\n",
      "|    value_loss         | 0.00254  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 129800   |\n",
      "|    time_elapsed       | 3502     |\n",
      "|    total_timesteps    | 649000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.046   |\n",
      "|    value_loss         | 0.00261  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 129900   |\n",
      "|    time_elapsed       | 3505     |\n",
      "|    total_timesteps    | 649500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0493  |\n",
      "|    value_loss         | 0.00249  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 130000   |\n",
      "|    time_elapsed       | 3507     |\n",
      "|    total_timesteps    | 650000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0422  |\n",
      "|    value_loss         | 0.00252  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 130100   |\n",
      "|    time_elapsed       | 3510     |\n",
      "|    total_timesteps    | 650500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.044   |\n",
      "|    value_loss         | 0.0025   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 20.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 130200    |\n",
      "|    time_elapsed       | 3512      |\n",
      "|    total_timesteps    | 651000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0589   |\n",
      "|    value_loss         | 0.00232   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 130300   |\n",
      "|    time_elapsed       | 3515     |\n",
      "|    total_timesteps    | 651500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0411  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 130400   |\n",
      "|    time_elapsed       | 3517     |\n",
      "|    total_timesteps    | 652000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0622  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 130500   |\n",
      "|    time_elapsed       | 3520     |\n",
      "|    total_timesteps    | 652500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0672  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 130600   |\n",
      "|    time_elapsed       | 3523     |\n",
      "|    total_timesteps    | 653000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0725  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 130700   |\n",
      "|    time_elapsed       | 3525     |\n",
      "|    total_timesteps    | 653500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0502  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 130800   |\n",
      "|    time_elapsed       | 3528     |\n",
      "|    total_timesteps    | 654000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0499  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 130900   |\n",
      "|    time_elapsed       | 3530     |\n",
      "|    total_timesteps    | 654500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0671  |\n",
      "|    value_loss         | 0.0026   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 131000   |\n",
      "|    time_elapsed       | 3533     |\n",
      "|    total_timesteps    | 655000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0623  |\n",
      "|    value_loss         | 0.00253  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 20        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 131100    |\n",
      "|    time_elapsed       | 3536      |\n",
      "|    total_timesteps    | 655500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0638   |\n",
      "|    value_loss         | 0.00235   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 131200   |\n",
      "|    time_elapsed       | 3538     |\n",
      "|    total_timesteps    | 656000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.073   |\n",
      "|    value_loss         | 0.00238  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 131300   |\n",
      "|    time_elapsed       | 3541     |\n",
      "|    total_timesteps    | 656500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.01     |\n",
      "|    value_loss         | 0.877    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 131400   |\n",
      "|    time_elapsed       | 3543     |\n",
      "|    total_timesteps    | 657000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0686  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 131500   |\n",
      "|    time_elapsed       | 3546     |\n",
      "|    total_timesteps    | 657500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0393  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 131600   |\n",
      "|    time_elapsed       | 3548     |\n",
      "|    total_timesteps    | 658000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.78     |\n",
      "|    value_loss         | 2.95     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 131700   |\n",
      "|    time_elapsed       | 3551     |\n",
      "|    total_timesteps    | 658500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0478  |\n",
      "|    value_loss         | 0.00245  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 131800   |\n",
      "|    time_elapsed       | 3553     |\n",
      "|    total_timesteps    | 659000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.829    |\n",
      "|    value_loss         | 0.518    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 131900   |\n",
      "|    time_elapsed       | 3556     |\n",
      "|    total_timesteps    | 659500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0624  |\n",
      "|    value_loss         | 0.00271  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 132000   |\n",
      "|    time_elapsed       | 3559     |\n",
      "|    total_timesteps    | 660000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0654  |\n",
      "|    value_loss         | 0.00258  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 132100   |\n",
      "|    time_elapsed       | 3561     |\n",
      "|    total_timesteps    | 660500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0722  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 132200   |\n",
      "|    time_elapsed       | 3564     |\n",
      "|    total_timesteps    | 661000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0454  |\n",
      "|    value_loss         | 0.00288  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 132300   |\n",
      "|    time_elapsed       | 3567     |\n",
      "|    total_timesteps    | 661500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0618  |\n",
      "|    value_loss         | 0.00271  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 132400   |\n",
      "|    time_elapsed       | 3569     |\n",
      "|    total_timesteps    | 662000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.54     |\n",
      "|    value_loss         | 2.54     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 132500   |\n",
      "|    time_elapsed       | 3572     |\n",
      "|    total_timesteps    | 662500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0343  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 132600   |\n",
      "|    time_elapsed       | 3574     |\n",
      "|    total_timesteps    | 663000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0628  |\n",
      "|    value_loss         | 0.00254  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 132700   |\n",
      "|    time_elapsed       | 3577     |\n",
      "|    total_timesteps    | 663500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0607  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 132800   |\n",
      "|    time_elapsed       | 3580     |\n",
      "|    total_timesteps    | 664000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0647  |\n",
      "|    value_loss         | 0.00239  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 132900   |\n",
      "|    time_elapsed       | 3582     |\n",
      "|    total_timesteps    | 664500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.041   |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 133000   |\n",
      "|    time_elapsed       | 3585     |\n",
      "|    total_timesteps    | 665000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 20.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 133100    |\n",
      "|    time_elapsed       | 3588      |\n",
      "|    total_timesteps    | 665500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0581   |\n",
      "|    value_loss         | 0.00216   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 133200   |\n",
      "|    time_elapsed       | 3590     |\n",
      "|    total_timesteps    | 666000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0463  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 133300    |\n",
      "|    time_elapsed       | 3593      |\n",
      "|    total_timesteps    | 666500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.254     |\n",
      "|    value_loss         | 0.349     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 133400   |\n",
      "|    time_elapsed       | 3596     |\n",
      "|    total_timesteps    | 667000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.043   |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 133500   |\n",
      "|    time_elapsed       | 3598     |\n",
      "|    total_timesteps    | 667500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0492  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 133600   |\n",
      "|    time_elapsed       | 3601     |\n",
      "|    total_timesteps    | 668000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.482    |\n",
      "|    value_loss         | 0.348    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 543       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 133700    |\n",
      "|    time_elapsed       | 3603      |\n",
      "|    total_timesteps    | 668500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0353   |\n",
      "|    value_loss         | 0.00204   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 543       |\n",
      "|    ep_rew_mean        | 20.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 133800    |\n",
      "|    time_elapsed       | 3606      |\n",
      "|    total_timesteps    | 669000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0493   |\n",
      "|    value_loss         | 0.00198   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 133900   |\n",
      "|    time_elapsed       | 3608     |\n",
      "|    total_timesteps    | 669500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0477  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 134000   |\n",
      "|    time_elapsed       | 3611     |\n",
      "|    total_timesteps    | 670000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.02     |\n",
      "|    value_loss         | 1.27     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 543       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 134100    |\n",
      "|    time_elapsed       | 3614      |\n",
      "|    total_timesteps    | 670500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0512   |\n",
      "|    value_loss         | 0.00189   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 134200   |\n",
      "|    time_elapsed       | 3616     |\n",
      "|    total_timesteps    | 671000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.033   |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 134300   |\n",
      "|    time_elapsed       | 3619     |\n",
      "|    total_timesteps    | 671500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.038   |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 134400   |\n",
      "|    time_elapsed       | 3621     |\n",
      "|    total_timesteps    | 672000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.754    |\n",
      "|    value_loss         | 0.704    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 134500   |\n",
      "|    time_elapsed       | 3624     |\n",
      "|    total_timesteps    | 672500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0443  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 134600   |\n",
      "|    time_elapsed       | 3627     |\n",
      "|    total_timesteps    | 673000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0743  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 134700   |\n",
      "|    time_elapsed       | 3629     |\n",
      "|    total_timesteps    | 673500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.19     |\n",
      "|    value_loss         | 1.09     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 134800   |\n",
      "|    time_elapsed       | 3632     |\n",
      "|    total_timesteps    | 674000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0468  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 134900   |\n",
      "|    time_elapsed       | 3635     |\n",
      "|    total_timesteps    | 674500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -1.18    |\n",
      "|    value_loss         | 1.19     |\n",
      "------------------------------------\n",
      "Eval num_timesteps=675000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 675000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0493  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 540      |\n",
      "|    ep_rew_mean     | 19.8     |\n",
      "| time/              |          |\n",
      "|    fps             | 184      |\n",
      "|    iterations      | 135000   |\n",
      "|    time_elapsed    | 3648     |\n",
      "|    total_timesteps | 675000   |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 135100   |\n",
      "|    time_elapsed       | 3651     |\n",
      "|    total_timesteps    | 675500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0578  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 540       |\n",
      "|    ep_rew_mean        | 19.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 135200    |\n",
      "|    time_elapsed       | 3654      |\n",
      "|    total_timesteps    | 676000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.15     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0472   |\n",
      "|    value_loss         | 0.00245   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 135300   |\n",
      "|    time_elapsed       | 3656     |\n",
      "|    total_timesteps    | 676500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0603  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 135400   |\n",
      "|    time_elapsed       | 3659     |\n",
      "|    total_timesteps    | 677000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0482  |\n",
      "|    value_loss         | 0.00239  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 19.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 135500    |\n",
      "|    time_elapsed       | 3662      |\n",
      "|    total_timesteps    | 677500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.16     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0456   |\n",
      "|    value_loss         | 0.00236   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 135600   |\n",
      "|    time_elapsed       | 3665     |\n",
      "|    total_timesteps    | 678000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0559  |\n",
      "|    value_loss         | 0.00241  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 135700   |\n",
      "|    time_elapsed       | 3667     |\n",
      "|    total_timesteps    | 678500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00242  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 135800   |\n",
      "|    time_elapsed       | 3670     |\n",
      "|    total_timesteps    | 679000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0499  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 135900   |\n",
      "|    time_elapsed       | 3673     |\n",
      "|    total_timesteps    | 679500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0573  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 136000   |\n",
      "|    time_elapsed       | 3676     |\n",
      "|    total_timesteps    | 680000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0562  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 136100   |\n",
      "|    time_elapsed       | 3678     |\n",
      "|    total_timesteps    | 680500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0262  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 136200   |\n",
      "|    time_elapsed       | 3681     |\n",
      "|    total_timesteps    | 681000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0446  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 136300   |\n",
      "|    time_elapsed       | 3684     |\n",
      "|    total_timesteps    | 681500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0665  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 136400   |\n",
      "|    time_elapsed       | 3687     |\n",
      "|    total_timesteps    | 682000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0323  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 136500   |\n",
      "|    time_elapsed       | 3689     |\n",
      "|    total_timesteps    | 682500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0271  |\n",
      "|    value_loss         | 0.00241  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 136600   |\n",
      "|    time_elapsed       | 3692     |\n",
      "|    total_timesteps    | 683000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0565  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 136700   |\n",
      "|    time_elapsed       | 3695     |\n",
      "|    total_timesteps    | 683500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.044   |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 136800   |\n",
      "|    time_elapsed       | 3698     |\n",
      "|    total_timesteps    | 684000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0357  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 136900   |\n",
      "|    time_elapsed       | 3700     |\n",
      "|    total_timesteps    | 684500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0683  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 543       |\n",
      "|    ep_rew_mean        | 19.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 137000    |\n",
      "|    time_elapsed       | 3703      |\n",
      "|    total_timesteps    | 685000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.225     |\n",
      "|    value_loss         | 0.351     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 137100   |\n",
      "|    time_elapsed       | 3706     |\n",
      "|    total_timesteps    | 685500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0402  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 137200   |\n",
      "|    time_elapsed       | 3708     |\n",
      "|    total_timesteps    | 686000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0688  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 137300   |\n",
      "|    time_elapsed       | 3711     |\n",
      "|    total_timesteps    | 686500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0503  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 137400   |\n",
      "|    time_elapsed       | 3714     |\n",
      "|    total_timesteps    | 687000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0534  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 137500   |\n",
      "|    time_elapsed       | 3717     |\n",
      "|    total_timesteps    | 687500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0242  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 137600   |\n",
      "|    time_elapsed       | 3719     |\n",
      "|    total_timesteps    | 688000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0571  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 137700   |\n",
      "|    time_elapsed       | 3722     |\n",
      "|    total_timesteps    | 688500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0312  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 137800   |\n",
      "|    time_elapsed       | 3724     |\n",
      "|    total_timesteps    | 689000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0464  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 137900   |\n",
      "|    time_elapsed       | 3727     |\n",
      "|    total_timesteps    | 689500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0386  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 138000   |\n",
      "|    time_elapsed       | 3730     |\n",
      "|    total_timesteps    | 690000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0503  |\n",
      "|    value_loss         | 0.00175  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 138100   |\n",
      "|    time_elapsed       | 3732     |\n",
      "|    total_timesteps    | 690500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0383  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 138200   |\n",
      "|    time_elapsed       | 3735     |\n",
      "|    total_timesteps    | 691000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0264  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 138300   |\n",
      "|    time_elapsed       | 3737     |\n",
      "|    total_timesteps    | 691500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 138400   |\n",
      "|    time_elapsed       | 3740     |\n",
      "|    total_timesteps    | 692000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0422  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 138500   |\n",
      "|    time_elapsed       | 3743     |\n",
      "|    total_timesteps    | 692500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0255  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 138600   |\n",
      "|    time_elapsed       | 3745     |\n",
      "|    total_timesteps    | 693000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.62     |\n",
      "|    value_loss         | 2.55     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 138700   |\n",
      "|    time_elapsed       | 3748     |\n",
      "|    total_timesteps    | 693500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.12    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0459  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 138800   |\n",
      "|    time_elapsed       | 3751     |\n",
      "|    total_timesteps    | 694000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0397  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 138900   |\n",
      "|    time_elapsed       | 3753     |\n",
      "|    total_timesteps    | 694500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0476  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 139000   |\n",
      "|    time_elapsed       | 3756     |\n",
      "|    total_timesteps    | 695000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0389  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 139100   |\n",
      "|    time_elapsed       | 3759     |\n",
      "|    total_timesteps    | 695500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0272  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 139200   |\n",
      "|    time_elapsed       | 3761     |\n",
      "|    total_timesteps    | 696000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.1     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 139300   |\n",
      "|    time_elapsed       | 3764     |\n",
      "|    total_timesteps    | 696500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.411    |\n",
      "|    value_loss         | 0.703    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 139400   |\n",
      "|    time_elapsed       | 3766     |\n",
      "|    total_timesteps    | 697000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.1     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 139500   |\n",
      "|    time_elapsed       | 3769     |\n",
      "|    total_timesteps    | 697500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.09    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0318  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 139600   |\n",
      "|    time_elapsed       | 3772     |\n",
      "|    total_timesteps    | 698000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.07    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0801  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 19.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 139700    |\n",
      "|    time_elapsed       | 3774      |\n",
      "|    total_timesteps    | 698500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.08     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0448   |\n",
      "|    value_loss         | 0.00249   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 139800   |\n",
      "|    time_elapsed       | 3777     |\n",
      "|    total_timesteps    | 699000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.07    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0389  |\n",
      "|    value_loss         | 0.00256  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 139900   |\n",
      "|    time_elapsed       | 3780     |\n",
      "|    total_timesteps    | 699500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.08    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0593  |\n",
      "|    value_loss         | 0.00249  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 140000    |\n",
      "|    time_elapsed       | 3782      |\n",
      "|    total_timesteps    | 700000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.1      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0618   |\n",
      "|    value_loss         | 0.00227   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 140100   |\n",
      "|    time_elapsed       | 3785     |\n",
      "|    total_timesteps    | 700500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.1     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.256    |\n",
      "|    value_loss         | 0.173    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 140200   |\n",
      "|    time_elapsed       | 3787     |\n",
      "|    total_timesteps    | 701000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.12    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0367  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 140300   |\n",
      "|    time_elapsed       | 3790     |\n",
      "|    total_timesteps    | 701500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.1     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0612  |\n",
      "|    value_loss         | 0.00234  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 140400   |\n",
      "|    time_elapsed       | 3793     |\n",
      "|    total_timesteps    | 702000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0367  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 140500   |\n",
      "|    time_elapsed       | 3795     |\n",
      "|    total_timesteps    | 702500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.071   |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 140600   |\n",
      "|    time_elapsed       | 3798     |\n",
      "|    total_timesteps    | 703000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0742  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 140700   |\n",
      "|    time_elapsed       | 3800     |\n",
      "|    total_timesteps    | 703500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0341  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 140800    |\n",
      "|    time_elapsed       | 3803      |\n",
      "|    total_timesteps    | 704000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.12     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0375   |\n",
      "|    value_loss         | 0.00215   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 140900   |\n",
      "|    time_elapsed       | 3806     |\n",
      "|    total_timesteps    | 704500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.12    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0353  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 141000   |\n",
      "|    time_elapsed       | 3808     |\n",
      "|    total_timesteps    | 705000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.05     |\n",
      "|    value_loss         | 0.701    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 141100   |\n",
      "|    time_elapsed       | 3811     |\n",
      "|    total_timesteps    | 705500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0289  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 141200   |\n",
      "|    time_elapsed       | 3814     |\n",
      "|    total_timesteps    | 706000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.789    |\n",
      "|    value_loss         | 0.701    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 141300   |\n",
      "|    time_elapsed       | 3816     |\n",
      "|    total_timesteps    | 706500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.12    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0227  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 141400   |\n",
      "|    time_elapsed       | 3819     |\n",
      "|    total_timesteps    | 707000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0371  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 141500   |\n",
      "|    time_elapsed       | 3821     |\n",
      "|    total_timesteps    | 707500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.11    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0264  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 141600   |\n",
      "|    time_elapsed       | 3824     |\n",
      "|    total_timesteps    | 708000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0558  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 141700   |\n",
      "|    time_elapsed       | 3827     |\n",
      "|    total_timesteps    | 708500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.044   |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 531       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 141800    |\n",
      "|    time_elapsed       | 3829      |\n",
      "|    total_timesteps    | 709000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.14     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.323     |\n",
      "|    value_loss         | 0.175     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 141900   |\n",
      "|    time_elapsed       | 3832     |\n",
      "|    total_timesteps    | 709500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0243  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 142000   |\n",
      "|    time_elapsed       | 3835     |\n",
      "|    total_timesteps    | 710000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0378  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 142100   |\n",
      "|    time_elapsed       | 3837     |\n",
      "|    total_timesteps    | 710500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0352  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 142200   |\n",
      "|    time_elapsed       | 3840     |\n",
      "|    total_timesteps    | 711000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0612  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 142300   |\n",
      "|    time_elapsed       | 3842     |\n",
      "|    total_timesteps    | 711500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.14    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0359  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 142400   |\n",
      "|    time_elapsed       | 3845     |\n",
      "|    total_timesteps    | 712000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0617  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 142500   |\n",
      "|    time_elapsed       | 3848     |\n",
      "|    total_timesteps    | 712500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0401  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 142600   |\n",
      "|    time_elapsed       | 3850     |\n",
      "|    total_timesteps    | 713000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0338  |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 531       |\n",
      "|    ep_rew_mean        | 18.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 142700    |\n",
      "|    time_elapsed       | 3853      |\n",
      "|    total_timesteps    | 713500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0547   |\n",
      "|    value_loss         | 0.00186   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 142800   |\n",
      "|    time_elapsed       | 3855     |\n",
      "|    total_timesteps    | 714000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0409  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 142900   |\n",
      "|    time_elapsed       | 3858     |\n",
      "|    total_timesteps    | 714500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0436  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 143000   |\n",
      "|    time_elapsed       | 3861     |\n",
      "|    total_timesteps    | 715000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0362  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 143100   |\n",
      "|    time_elapsed       | 3863     |\n",
      "|    total_timesteps    | 715500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0443  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 143200   |\n",
      "|    time_elapsed       | 3866     |\n",
      "|    total_timesteps    | 716000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.332    |\n",
      "|    value_loss         | 0.526    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 143300   |\n",
      "|    time_elapsed       | 3869     |\n",
      "|    total_timesteps    | 716500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0312  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 143400   |\n",
      "|    time_elapsed       | 3871     |\n",
      "|    total_timesteps    | 717000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0419  |\n",
      "|    value_loss         | 0.00177  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 143500   |\n",
      "|    time_elapsed       | 3874     |\n",
      "|    total_timesteps    | 717500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0438  |\n",
      "|    value_loss         | 0.00177  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 143600   |\n",
      "|    time_elapsed       | 3876     |\n",
      "|    total_timesteps    | 718000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0682  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 143700   |\n",
      "|    time_elapsed       | 3879     |\n",
      "|    total_timesteps    | 718500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0493  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 143800   |\n",
      "|    time_elapsed       | 3882     |\n",
      "|    total_timesteps    | 719000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0459  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 143900   |\n",
      "|    time_elapsed       | 3884     |\n",
      "|    total_timesteps    | 719500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.316    |\n",
      "|    value_loss         | 0.521    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 144000   |\n",
      "|    time_elapsed       | 3887     |\n",
      "|    total_timesteps    | 720000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.13    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.05    |\n",
      "|    value_loss         | 0.00251  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 144100   |\n",
      "|    time_elapsed       | 3889     |\n",
      "|    total_timesteps    | 720500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0429  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 144200   |\n",
      "|    time_elapsed       | 3892     |\n",
      "|    total_timesteps    | 721000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0344  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 144300   |\n",
      "|    time_elapsed       | 3895     |\n",
      "|    total_timesteps    | 721500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0611  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 144400   |\n",
      "|    time_elapsed       | 3897     |\n",
      "|    total_timesteps    | 722000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.86     |\n",
      "|    value_loss         | 1.27     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 144500   |\n",
      "|    time_elapsed       | 3900     |\n",
      "|    total_timesteps    | 722500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0595  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 144600   |\n",
      "|    time_elapsed       | 3902     |\n",
      "|    total_timesteps    | 723000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.7      |\n",
      "|    value_loss         | 1.45     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 144700   |\n",
      "|    time_elapsed       | 3905     |\n",
      "|    total_timesteps    | 723500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.483    |\n",
      "|    value_loss         | 0.35     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 144800   |\n",
      "|    time_elapsed       | 3908     |\n",
      "|    total_timesteps    | 724000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0464  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 144900   |\n",
      "|    time_elapsed       | 3910     |\n",
      "|    total_timesteps    | 724500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0303  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 145000   |\n",
      "|    time_elapsed       | 3913     |\n",
      "|    total_timesteps    | 725000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0359  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 145100   |\n",
      "|    time_elapsed       | 3915     |\n",
      "|    total_timesteps    | 725500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.00238  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 145200   |\n",
      "|    time_elapsed       | 3918     |\n",
      "|    total_timesteps    | 726000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0394  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 145300   |\n",
      "|    time_elapsed       | 3921     |\n",
      "|    total_timesteps    | 726500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0299  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 145400   |\n",
      "|    time_elapsed       | 3923     |\n",
      "|    total_timesteps    | 727000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0358  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 528       |\n",
      "|    ep_rew_mean        | 18.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 145500    |\n",
      "|    time_elapsed       | 3926      |\n",
      "|    total_timesteps    | 727500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.041    |\n",
      "|    value_loss         | 0.00201   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 527       |\n",
      "|    ep_rew_mean        | 18.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 145600    |\n",
      "|    time_elapsed       | 3929      |\n",
      "|    total_timesteps    | 728000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0493   |\n",
      "|    value_loss         | 0.00203   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 527       |\n",
      "|    ep_rew_mean        | 18.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 145700    |\n",
      "|    time_elapsed       | 3931      |\n",
      "|    total_timesteps    | 728500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0453   |\n",
      "|    value_loss         | 0.00184   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 145800   |\n",
      "|    time_elapsed       | 3934     |\n",
      "|    total_timesteps    | 729000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0513  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 145900   |\n",
      "|    time_elapsed       | 3936     |\n",
      "|    total_timesteps    | 729500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.718    |\n",
      "|    value_loss         | 0.704    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 146000   |\n",
      "|    time_elapsed       | 3939     |\n",
      "|    total_timesteps    | 730000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.16    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0481  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 146100   |\n",
      "|    time_elapsed       | 3942     |\n",
      "|    total_timesteps    | 730500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.15    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0693  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 146200   |\n",
      "|    time_elapsed       | 3944     |\n",
      "|    total_timesteps    | 731000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.891    |\n",
      "|    value_loss         | 0.527    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 146300   |\n",
      "|    time_elapsed       | 3947     |\n",
      "|    total_timesteps    | 731500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0736  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 146400   |\n",
      "|    time_elapsed       | 3949     |\n",
      "|    total_timesteps    | 732000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0542  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 146500   |\n",
      "|    time_elapsed       | 3952     |\n",
      "|    total_timesteps    | 732500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0319  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 146600   |\n",
      "|    time_elapsed       | 3955     |\n",
      "|    total_timesteps    | 733000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0474  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 146700   |\n",
      "|    time_elapsed       | 3957     |\n",
      "|    total_timesteps    | 733500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 146800   |\n",
      "|    time_elapsed       | 3960     |\n",
      "|    total_timesteps    | 734000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0528  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 146900   |\n",
      "|    time_elapsed       | 3963     |\n",
      "|    total_timesteps    | 734500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.042   |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 147000   |\n",
      "|    time_elapsed       | 3965     |\n",
      "|    total_timesteps    | 735000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0389  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 147100   |\n",
      "|    time_elapsed       | 3968     |\n",
      "|    total_timesteps    | 735500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0326  |\n",
      "|    value_loss         | 0.00168  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 147200   |\n",
      "|    time_elapsed       | 3971     |\n",
      "|    total_timesteps    | 736000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.27     |\n",
      "|    value_loss         | 2.96     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 147300   |\n",
      "|    time_elapsed       | 3973     |\n",
      "|    total_timesteps    | 736500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0318  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 147400   |\n",
      "|    time_elapsed       | 3976     |\n",
      "|    total_timesteps    | 737000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0366  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 147500   |\n",
      "|    time_elapsed       | 3979     |\n",
      "|    total_timesteps    | 737500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.879    |\n",
      "|    value_loss         | 0.885    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 147600   |\n",
      "|    time_elapsed       | 3981     |\n",
      "|    total_timesteps    | 738000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.39     |\n",
      "|    value_loss         | 2.01     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 519      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 147700   |\n",
      "|    time_elapsed       | 3984     |\n",
      "|    total_timesteps    | 738500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.866    |\n",
      "|    value_loss         | 1.27     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 519       |\n",
      "|    ep_rew_mean        | 17.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 147800    |\n",
      "|    time_elapsed       | 3986      |\n",
      "|    total_timesteps    | 739000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.07     |\n",
      "|    value_loss         | 0.00189   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 147900   |\n",
      "|    time_elapsed       | 3989     |\n",
      "|    total_timesteps    | 739500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0704  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 148000   |\n",
      "|    time_elapsed       | 3992     |\n",
      "|    total_timesteps    | 740000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0395  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 519       |\n",
      "|    ep_rew_mean        | 17.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 148100    |\n",
      "|    time_elapsed       | 3994      |\n",
      "|    total_timesteps    | 740500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0452   |\n",
      "|    value_loss         | 0.00197   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 148200   |\n",
      "|    time_elapsed       | 3997     |\n",
      "|    total_timesteps    | 741000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0527  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 148300   |\n",
      "|    time_elapsed       | 4000     |\n",
      "|    total_timesteps    | 741500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0562  |\n",
      "|    value_loss         | 0.00165  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 520      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 148400   |\n",
      "|    time_elapsed       | 4002     |\n",
      "|    total_timesteps    | 742000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0504  |\n",
      "|    value_loss         | 0.00172  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 148500   |\n",
      "|    time_elapsed       | 4005     |\n",
      "|    total_timesteps    | 742500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0318  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 523       |\n",
      "|    ep_rew_mean        | 18.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 148600    |\n",
      "|    time_elapsed       | 4007      |\n",
      "|    total_timesteps    | 743000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0257   |\n",
      "|    value_loss         | 0.00198   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 148700   |\n",
      "|    time_elapsed       | 4010     |\n",
      "|    total_timesteps    | 743500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0542  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 148800   |\n",
      "|    time_elapsed       | 4012     |\n",
      "|    total_timesteps    | 744000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0414  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 148900   |\n",
      "|    time_elapsed       | 4015     |\n",
      "|    total_timesteps    | 744500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.61     |\n",
      "|    value_loss         | 0.887    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 149000   |\n",
      "|    time_elapsed       | 4018     |\n",
      "|    total_timesteps    | 745000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0377  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 528       |\n",
      "|    ep_rew_mean        | 18.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 149100    |\n",
      "|    time_elapsed       | 4020      |\n",
      "|    total_timesteps    | 745500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0368   |\n",
      "|    value_loss         | 0.00209   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 149200   |\n",
      "|    time_elapsed       | 4023     |\n",
      "|    total_timesteps    | 746000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0625  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 526       |\n",
      "|    ep_rew_mean        | 18.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 149300    |\n",
      "|    time_elapsed       | 4025      |\n",
      "|    total_timesteps    | 746500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0395   |\n",
      "|    value_loss         | 0.00215   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 149400   |\n",
      "|    time_elapsed       | 4028     |\n",
      "|    total_timesteps    | 747000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0692  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 149500   |\n",
      "|    time_elapsed       | 4030     |\n",
      "|    total_timesteps    | 747500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.05    |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 149600   |\n",
      "|    time_elapsed       | 4033     |\n",
      "|    total_timesteps    | 748000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0835  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 149700   |\n",
      "|    time_elapsed       | 4036     |\n",
      "|    total_timesteps    | 748500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.01     |\n",
      "|    value_loss         | 1.99     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 149800   |\n",
      "|    time_elapsed       | 4038     |\n",
      "|    total_timesteps    | 749000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0446  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 525       |\n",
      "|    ep_rew_mean        | 18.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 149900    |\n",
      "|    time_elapsed       | 4041      |\n",
      "|    total_timesteps    | 749500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0552   |\n",
      "|    value_loss         | 0.00224   |\n",
      "-------------------------------------\n",
      "Eval num_timesteps=750000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 750000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0638  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 526      |\n",
      "|    ep_rew_mean     | 18.5     |\n",
      "| time/              |          |\n",
      "|    fps             | 184      |\n",
      "|    iterations      | 150000   |\n",
      "|    time_elapsed    | 4055     |\n",
      "|    total_timesteps | 750000   |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 150100   |\n",
      "|    time_elapsed       | 4060     |\n",
      "|    total_timesteps    | 750500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0371  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 150200   |\n",
      "|    time_elapsed       | 4062     |\n",
      "|    total_timesteps    | 751000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0585  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 150300   |\n",
      "|    time_elapsed       | 4065     |\n",
      "|    total_timesteps    | 751500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0428  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 150400   |\n",
      "|    time_elapsed       | 4068     |\n",
      "|    total_timesteps    | 752000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.798    |\n",
      "|    value_loss         | 0.529    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 150500   |\n",
      "|    time_elapsed       | 4070     |\n",
      "|    total_timesteps    | 752500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.045   |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 150600   |\n",
      "|    time_elapsed       | 4073     |\n",
      "|    total_timesteps    | 753000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0719  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 150700   |\n",
      "|    time_elapsed       | 4075     |\n",
      "|    total_timesteps    | 753500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0383  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 522       |\n",
      "|    ep_rew_mean        | 18        |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 150800    |\n",
      "|    time_elapsed       | 4078      |\n",
      "|    total_timesteps    | 754000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.0957    |\n",
      "|    value_loss         | 0.175     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 150900   |\n",
      "|    time_elapsed       | 4080     |\n",
      "|    total_timesteps    | 754500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0521  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 151000   |\n",
      "|    time_elapsed       | 4083     |\n",
      "|    total_timesteps    | 755000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0452  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 151100   |\n",
      "|    time_elapsed       | 4086     |\n",
      "|    total_timesteps    | 755500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 526       |\n",
      "|    ep_rew_mean        | 18.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 151200    |\n",
      "|    time_elapsed       | 4088      |\n",
      "|    total_timesteps    | 756000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0625   |\n",
      "|    value_loss         | 0.00205   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 151300   |\n",
      "|    time_elapsed       | 4091     |\n",
      "|    total_timesteps    | 756500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.542    |\n",
      "|    value_loss         | 0.526    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 151400   |\n",
      "|    time_elapsed       | 4094     |\n",
      "|    total_timesteps    | 757000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0491  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 151500   |\n",
      "|    time_elapsed       | 4096     |\n",
      "|    total_timesteps    | 757500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.408    |\n",
      "|    value_loss         | 0.525    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 151600   |\n",
      "|    time_elapsed       | 4099     |\n",
      "|    total_timesteps    | 758000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0389  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 151700   |\n",
      "|    time_elapsed       | 4101     |\n",
      "|    total_timesteps    | 758500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0606  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 151800   |\n",
      "|    time_elapsed       | 4104     |\n",
      "|    total_timesteps    | 759000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 151900   |\n",
      "|    time_elapsed       | 4106     |\n",
      "|    total_timesteps    | 759500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0413  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 152000   |\n",
      "|    time_elapsed       | 4109     |\n",
      "|    total_timesteps    | 760000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0472  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 152100   |\n",
      "|    time_elapsed       | 4112     |\n",
      "|    total_timesteps    | 760500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0411  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 527       |\n",
      "|    ep_rew_mean        | 18.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 152200    |\n",
      "|    time_elapsed       | 4114      |\n",
      "|    total_timesteps    | 761000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0367   |\n",
      "|    value_loss         | 0.00217   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 152300   |\n",
      "|    time_elapsed       | 4117     |\n",
      "|    total_timesteps    | 761500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0644  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 525       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 184       |\n",
      "|    iterations         | 152400    |\n",
      "|    time_elapsed       | 4120      |\n",
      "|    total_timesteps    | 762000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0455   |\n",
      "|    value_loss         | 0.00193   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 152500   |\n",
      "|    time_elapsed       | 4122     |\n",
      "|    total_timesteps    | 762500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 152600   |\n",
      "|    time_elapsed       | 4125     |\n",
      "|    total_timesteps    | 763000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0385  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 152700   |\n",
      "|    time_elapsed       | 4127     |\n",
      "|    total_timesteps    | 763500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.636    |\n",
      "|    value_loss         | 0.524    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 152800   |\n",
      "|    time_elapsed       | 4130     |\n",
      "|    total_timesteps    | 764000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.038   |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 152900   |\n",
      "|    time_elapsed       | 4132     |\n",
      "|    total_timesteps    | 764500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.904    |\n",
      "|    value_loss         | 1.27     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 153000   |\n",
      "|    time_elapsed       | 4135     |\n",
      "|    total_timesteps    | 765000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0385  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 153100   |\n",
      "|    time_elapsed       | 4138     |\n",
      "|    total_timesteps    | 765500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0663  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 153200   |\n",
      "|    time_elapsed       | 4140     |\n",
      "|    total_timesteps    | 766000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0497  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 153300   |\n",
      "|    time_elapsed       | 4143     |\n",
      "|    total_timesteps    | 766500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0304  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 153400   |\n",
      "|    time_elapsed       | 4145     |\n",
      "|    total_timesteps    | 767000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0477  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 153500   |\n",
      "|    time_elapsed       | 4148     |\n",
      "|    total_timesteps    | 767500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.122   |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 153600   |\n",
      "|    time_elapsed       | 4151     |\n",
      "|    total_timesteps    | 768000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0435  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 153700   |\n",
      "|    time_elapsed       | 4153     |\n",
      "|    total_timesteps    | 768500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0702  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 521      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 153800   |\n",
      "|    time_elapsed       | 4156     |\n",
      "|    total_timesteps    | 769000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0336  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 153900   |\n",
      "|    time_elapsed       | 4158     |\n",
      "|    total_timesteps    | 769500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0482  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 154000   |\n",
      "|    time_elapsed       | 4161     |\n",
      "|    total_timesteps    | 770000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0666  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 154100   |\n",
      "|    time_elapsed       | 4164     |\n",
      "|    total_timesteps    | 770500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0287  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 523       |\n",
      "|    ep_rew_mean        | 18.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 154200    |\n",
      "|    time_elapsed       | 4166      |\n",
      "|    total_timesteps    | 771000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0533   |\n",
      "|    value_loss         | 0.002     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 154300   |\n",
      "|    time_elapsed       | 4169     |\n",
      "|    total_timesteps    | 771500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0291  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 154400   |\n",
      "|    time_elapsed       | 4171     |\n",
      "|    total_timesteps    | 772000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0503  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 154500   |\n",
      "|    time_elapsed       | 4174     |\n",
      "|    total_timesteps    | 772500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 525       |\n",
      "|    ep_rew_mean        | 18.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 154600    |\n",
      "|    time_elapsed       | 4177      |\n",
      "|    total_timesteps    | 773000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0651   |\n",
      "|    value_loss         | 0.002     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 154700   |\n",
      "|    time_elapsed       | 4179     |\n",
      "|    total_timesteps    | 773500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 154800   |\n",
      "|    time_elapsed       | 4182     |\n",
      "|    total_timesteps    | 774000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0608  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 154900   |\n",
      "|    time_elapsed       | 4185     |\n",
      "|    total_timesteps    | 774500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.01     |\n",
      "|    value_loss         | 0.883    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 155000   |\n",
      "|    time_elapsed       | 4187     |\n",
      "|    total_timesteps    | 775000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.941    |\n",
      "|    value_loss         | 1.66     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 155100   |\n",
      "|    time_elapsed       | 4190     |\n",
      "|    total_timesteps    | 775500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0616  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 155200   |\n",
      "|    time_elapsed       | 4192     |\n",
      "|    total_timesteps    | 776000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.205    |\n",
      "|    value_loss         | 0.176    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 524       |\n",
      "|    ep_rew_mean        | 18.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 155300    |\n",
      "|    time_elapsed       | 4195      |\n",
      "|    total_timesteps    | 776500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.933     |\n",
      "|    value_loss         | 0.527     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 155400   |\n",
      "|    time_elapsed       | 4198     |\n",
      "|    total_timesteps    | 777000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.613    |\n",
      "|    value_loss         | 0.528    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 155500   |\n",
      "|    time_elapsed       | 4200     |\n",
      "|    total_timesteps    | 777500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0516  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 155600   |\n",
      "|    time_elapsed       | 4203     |\n",
      "|    total_timesteps    | 778000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0574  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 155700   |\n",
      "|    time_elapsed       | 4206     |\n",
      "|    total_timesteps    | 778500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.059   |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 522       |\n",
      "|    ep_rew_mean        | 18.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 155800    |\n",
      "|    time_elapsed       | 4208      |\n",
      "|    total_timesteps    | 779000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0647   |\n",
      "|    value_loss         | 0.00173   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 155900   |\n",
      "|    time_elapsed       | 4211     |\n",
      "|    total_timesteps    | 779500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0359  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 156000   |\n",
      "|    time_elapsed       | 4213     |\n",
      "|    total_timesteps    | 780000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0379  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 156100   |\n",
      "|    time_elapsed       | 4216     |\n",
      "|    total_timesteps    | 780500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0698  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 156200   |\n",
      "|    time_elapsed       | 4218     |\n",
      "|    total_timesteps    | 781000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.153   |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 526       |\n",
      "|    ep_rew_mean        | 18.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 156300    |\n",
      "|    time_elapsed       | 4221      |\n",
      "|    total_timesteps    | 781500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0501   |\n",
      "|    value_loss         | 0.00224   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 156400   |\n",
      "|    time_elapsed       | 4224     |\n",
      "|    total_timesteps    | 782000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0587  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 156500   |\n",
      "|    time_elapsed       | 4226     |\n",
      "|    total_timesteps    | 782500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0494  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 156600   |\n",
      "|    time_elapsed       | 4229     |\n",
      "|    total_timesteps    | 783000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0436  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 156700   |\n",
      "|    time_elapsed       | 4231     |\n",
      "|    total_timesteps    | 783500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0822  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 156800   |\n",
      "|    time_elapsed       | 4234     |\n",
      "|    total_timesteps    | 784000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0426  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 156900   |\n",
      "|    time_elapsed       | 4237     |\n",
      "|    total_timesteps    | 784500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0409  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 157000   |\n",
      "|    time_elapsed       | 4239     |\n",
      "|    total_timesteps    | 785000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0622  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 157100   |\n",
      "|    time_elapsed       | 4242     |\n",
      "|    total_timesteps    | 785500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0363  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 157200   |\n",
      "|    time_elapsed       | 4244     |\n",
      "|    total_timesteps    | 786000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0492  |\n",
      "|    value_loss         | 0.00241  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 157300   |\n",
      "|    time_elapsed       | 4247     |\n",
      "|    total_timesteps    | 786500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0555  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 157400   |\n",
      "|    time_elapsed       | 4250     |\n",
      "|    total_timesteps    | 787000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0506  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 157500   |\n",
      "|    time_elapsed       | 4252     |\n",
      "|    total_timesteps    | 787500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0473  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 157600   |\n",
      "|    time_elapsed       | 4255     |\n",
      "|    total_timesteps    | 788000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0724  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 157700   |\n",
      "|    time_elapsed       | 4257     |\n",
      "|    total_timesteps    | 788500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.09     |\n",
      "|    value_loss         | 2.39     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 157800   |\n",
      "|    time_elapsed       | 4260     |\n",
      "|    total_timesteps    | 789000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.404   |\n",
      "|    value_loss         | 0.5      |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 157900   |\n",
      "|    time_elapsed       | 4263     |\n",
      "|    total_timesteps    | 789500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.243   |\n",
      "|    value_loss         | 0.4      |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 158000   |\n",
      "|    time_elapsed       | 4265     |\n",
      "|    total_timesteps    | 790000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0374  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 158100   |\n",
      "|    time_elapsed       | 4268     |\n",
      "|    total_timesteps    | 790500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0387  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 158200   |\n",
      "|    time_elapsed       | 4270     |\n",
      "|    total_timesteps    | 791000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0513  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 158300   |\n",
      "|    time_elapsed       | 4273     |\n",
      "|    total_timesteps    | 791500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 158400   |\n",
      "|    time_elapsed       | 4276     |\n",
      "|    total_timesteps    | 792000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0365  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 158500   |\n",
      "|    time_elapsed       | 4278     |\n",
      "|    total_timesteps    | 792500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0456  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 528       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 158600    |\n",
      "|    time_elapsed       | 4281      |\n",
      "|    total_timesteps    | 793000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.049    |\n",
      "|    value_loss         | 0.00208   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 526       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 158700    |\n",
      "|    time_elapsed       | 4283      |\n",
      "|    total_timesteps    | 793500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.58      |\n",
      "|    value_loss         | 0.879     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 158800   |\n",
      "|    time_elapsed       | 4286     |\n",
      "|    total_timesteps    | 794000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.742    |\n",
      "|    value_loss         | 0.521    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 528       |\n",
      "|    ep_rew_mean        | 19.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 158900    |\n",
      "|    time_elapsed       | 4289      |\n",
      "|    total_timesteps    | 794500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.498     |\n",
      "|    value_loss         | 0.347     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 159000   |\n",
      "|    time_elapsed       | 4291     |\n",
      "|    total_timesteps    | 795000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.05     |\n",
      "|    value_loss         | 0.522    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 159100   |\n",
      "|    time_elapsed       | 4294     |\n",
      "|    total_timesteps    | 795500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0658  |\n",
      "|    value_loss         | 0.00234  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 159200   |\n",
      "|    time_elapsed       | 4296     |\n",
      "|    total_timesteps    | 796000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0554  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 159300   |\n",
      "|    time_elapsed       | 4299     |\n",
      "|    total_timesteps    | 796500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0597  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 526       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 159400    |\n",
      "|    time_elapsed       | 4302      |\n",
      "|    total_timesteps    | 797000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0769   |\n",
      "|    value_loss         | 0.00233   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 159500   |\n",
      "|    time_elapsed       | 4304     |\n",
      "|    total_timesteps    | 797500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0542  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 159600   |\n",
      "|    time_elapsed       | 4307     |\n",
      "|    total_timesteps    | 798000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.00251  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 159700   |\n",
      "|    time_elapsed       | 4309     |\n",
      "|    total_timesteps    | 798500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0407  |\n",
      "|    value_loss         | 0.00263  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 159800   |\n",
      "|    time_elapsed       | 4312     |\n",
      "|    total_timesteps    | 799000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0652  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 159900   |\n",
      "|    time_elapsed       | 4315     |\n",
      "|    total_timesteps    | 799500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.051   |\n",
      "|    value_loss         | 0.00262  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 160000   |\n",
      "|    time_elapsed       | 4317     |\n",
      "|    total_timesteps    | 800000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0616  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 160100   |\n",
      "|    time_elapsed       | 4320     |\n",
      "|    total_timesteps    | 800500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 2.38e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.19     |\n",
      "|    value_loss         | 1.82     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 160200   |\n",
      "|    time_elapsed       | 4323     |\n",
      "|    total_timesteps    | 801000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0396  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 160300   |\n",
      "|    time_elapsed       | 4325     |\n",
      "|    total_timesteps    | 801500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0505  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 160400   |\n",
      "|    time_elapsed       | 4328     |\n",
      "|    total_timesteps    | 802000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0348  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 521       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 160500    |\n",
      "|    time_elapsed       | 4331      |\n",
      "|    total_timesteps    | 802500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.046    |\n",
      "|    value_loss         | 0.00206   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 521       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 160600    |\n",
      "|    time_elapsed       | 4333      |\n",
      "|    total_timesteps    | 803000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.114     |\n",
      "|    value_loss         | 0.174     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 160700   |\n",
      "|    time_elapsed       | 4336     |\n",
      "|    total_timesteps    | 803500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0413  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 160800   |\n",
      "|    time_elapsed       | 4338     |\n",
      "|    total_timesteps    | 804000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.251    |\n",
      "|    value_loss         | 0.348    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 160900   |\n",
      "|    time_elapsed       | 4341     |\n",
      "|    total_timesteps    | 804500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0598  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 161000   |\n",
      "|    time_elapsed       | 4344     |\n",
      "|    total_timesteps    | 805000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0303  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 161100   |\n",
      "|    time_elapsed       | 4346     |\n",
      "|    total_timesteps    | 805500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.08     |\n",
      "|    value_loss         | 0.881    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 161200   |\n",
      "|    time_elapsed       | 4349     |\n",
      "|    total_timesteps    | 806000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.804    |\n",
      "|    value_loss         | 0.521    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 161300   |\n",
      "|    time_elapsed       | 4351     |\n",
      "|    total_timesteps    | 806500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0606  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 522      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 161400   |\n",
      "|    time_elapsed       | 4354     |\n",
      "|    total_timesteps    | 807000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0392  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 161500   |\n",
      "|    time_elapsed       | 4357     |\n",
      "|    total_timesteps    | 807500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.056   |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 524       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 161600    |\n",
      "|    time_elapsed       | 4359      |\n",
      "|    total_timesteps    | 808000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0506   |\n",
      "|    value_loss         | 0.00218   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 523      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 161700   |\n",
      "|    time_elapsed       | 4362     |\n",
      "|    total_timesteps    | 808500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0426  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 161800   |\n",
      "|    time_elapsed       | 4365     |\n",
      "|    total_timesteps    | 809000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.639    |\n",
      "|    value_loss         | 0.701    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 525       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 161900    |\n",
      "|    time_elapsed       | 4367      |\n",
      "|    total_timesteps    | 809500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.034    |\n",
      "|    value_loss         | 0.00221   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 162000   |\n",
      "|    time_elapsed       | 4370     |\n",
      "|    total_timesteps    | 810000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0348  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 162100   |\n",
      "|    time_elapsed       | 4372     |\n",
      "|    total_timesteps    | 810500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0861  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 162200   |\n",
      "|    time_elapsed       | 4375     |\n",
      "|    total_timesteps    | 811000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0532  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 525       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 162300    |\n",
      "|    time_elapsed       | 4378      |\n",
      "|    total_timesteps    | 811500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0526   |\n",
      "|    value_loss         | 0.00199   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 162400   |\n",
      "|    time_elapsed       | 4380     |\n",
      "|    total_timesteps    | 812000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0549  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 162500   |\n",
      "|    time_elapsed       | 4383     |\n",
      "|    total_timesteps    | 812500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0519  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 162600   |\n",
      "|    time_elapsed       | 4385     |\n",
      "|    total_timesteps    | 813000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0818  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 162700   |\n",
      "|    time_elapsed       | 4388     |\n",
      "|    total_timesteps    | 813500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0424  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 162800   |\n",
      "|    time_elapsed       | 4391     |\n",
      "|    total_timesteps    | 814000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0398  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 162900   |\n",
      "|    time_elapsed       | 4393     |\n",
      "|    total_timesteps    | 814500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.27     |\n",
      "|    value_loss         | 1.26     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 163000   |\n",
      "|    time_elapsed       | 4396     |\n",
      "|    total_timesteps    | 815000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0676  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 163100   |\n",
      "|    time_elapsed       | 4399     |\n",
      "|    total_timesteps    | 815500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.06    |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 163200   |\n",
      "|    time_elapsed       | 4401     |\n",
      "|    total_timesteps    | 816000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0675  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 163300   |\n",
      "|    time_elapsed       | 4404     |\n",
      "|    total_timesteps    | 816500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0598  |\n",
      "|    value_loss         | 0.00167  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 163400   |\n",
      "|    time_elapsed       | 4406     |\n",
      "|    total_timesteps    | 817000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.935    |\n",
      "|    value_loss         | 0.707    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 163500   |\n",
      "|    time_elapsed       | 4409     |\n",
      "|    total_timesteps    | 817500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0404  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 163600   |\n",
      "|    time_elapsed       | 4412     |\n",
      "|    total_timesteps    | 818000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0655  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 163700   |\n",
      "|    time_elapsed       | 4414     |\n",
      "|    total_timesteps    | 818500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.09     |\n",
      "|    value_loss         | 0.889    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 163800   |\n",
      "|    time_elapsed       | 4417     |\n",
      "|    total_timesteps    | 819000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.971    |\n",
      "|    value_loss         | 0.89     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 528       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 163900    |\n",
      "|    time_elapsed       | 4420      |\n",
      "|    total_timesteps    | 819500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.93      |\n",
      "|    value_loss         | 1.1       |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 164000   |\n",
      "|    time_elapsed       | 4422     |\n",
      "|    total_timesteps    | 820000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0486  |\n",
      "|    value_loss         | 0.00165  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 164100   |\n",
      "|    time_elapsed       | 4425     |\n",
      "|    total_timesteps    | 820500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0373  |\n",
      "|    value_loss         | 0.00169  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 164200   |\n",
      "|    time_elapsed       | 4427     |\n",
      "|    total_timesteps    | 821000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0443  |\n",
      "|    value_loss         | 0.00158  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 164300   |\n",
      "|    time_elapsed       | 4430     |\n",
      "|    total_timesteps    | 821500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.27     |\n",
      "|    value_loss         | 0.893    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 164400   |\n",
      "|    time_elapsed       | 4433     |\n",
      "|    total_timesteps    | 822000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.17     |\n",
      "|    value_loss         | 0.711    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 164500   |\n",
      "|    time_elapsed       | 4435     |\n",
      "|    total_timesteps    | 822500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0617  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 164600   |\n",
      "|    time_elapsed       | 4438     |\n",
      "|    total_timesteps    | 823000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0333  |\n",
      "|    value_loss         | 0.00168  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 164700   |\n",
      "|    time_elapsed       | 4441     |\n",
      "|    total_timesteps    | 823500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0448  |\n",
      "|    value_loss         | 0.00152  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 164800   |\n",
      "|    time_elapsed       | 4443     |\n",
      "|    total_timesteps    | 824000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0422  |\n",
      "|    value_loss         | 0.00144  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 164900   |\n",
      "|    time_elapsed       | 4446     |\n",
      "|    total_timesteps    | 824500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0379  |\n",
      "|    value_loss         | 0.00148  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=825000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 825000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0334  |\n",
      "|    value_loss         | 0.00146  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 529      |\n",
      "|    ep_rew_mean     | 18.5     |\n",
      "| time/              |          |\n",
      "|    fps             | 184      |\n",
      "|    iterations      | 165000   |\n",
      "|    time_elapsed    | 4459     |\n",
      "|    total_timesteps | 825000   |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 165100   |\n",
      "|    time_elapsed       | 4462     |\n",
      "|    total_timesteps    | 825500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0416  |\n",
      "|    value_loss         | 0.00158  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 165200   |\n",
      "|    time_elapsed       | 4465     |\n",
      "|    total_timesteps    | 826000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0528  |\n",
      "|    value_loss         | 0.00168  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 165300   |\n",
      "|    time_elapsed       | 4467     |\n",
      "|    total_timesteps    | 826500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0757  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 165400   |\n",
      "|    time_elapsed       | 4470     |\n",
      "|    total_timesteps    | 827000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0323  |\n",
      "|    value_loss         | 0.00168  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 165500   |\n",
      "|    time_elapsed       | 4473     |\n",
      "|    total_timesteps    | 827500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0414  |\n",
      "|    value_loss         | 0.00171  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 165600   |\n",
      "|    time_elapsed       | 4475     |\n",
      "|    total_timesteps    | 828000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.295    |\n",
      "|    value_loss         | 0.352    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 184      |\n",
      "|    iterations         | 165700   |\n",
      "|    time_elapsed       | 4478     |\n",
      "|    total_timesteps    | 828500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 165800   |\n",
      "|    time_elapsed       | 4480     |\n",
      "|    total_timesteps    | 829000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.515    |\n",
      "|    value_loss         | 0.53     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 165900   |\n",
      "|    time_elapsed       | 4483     |\n",
      "|    total_timesteps    | 829500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0382  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 166000   |\n",
      "|    time_elapsed       | 4486     |\n",
      "|    total_timesteps    | 830000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.045   |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 166100   |\n",
      "|    time_elapsed       | 4488     |\n",
      "|    total_timesteps    | 830500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0384  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 166200   |\n",
      "|    time_elapsed       | 4491     |\n",
      "|    total_timesteps    | 831000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.06     |\n",
      "|    value_loss         | 2        |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 166300   |\n",
      "|    time_elapsed       | 4494     |\n",
      "|    total_timesteps    | 831500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 166400   |\n",
      "|    time_elapsed       | 4496     |\n",
      "|    total_timesteps    | 832000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0518  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 166500   |\n",
      "|    time_elapsed       | 4499     |\n",
      "|    total_timesteps    | 832500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0414  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 166600   |\n",
      "|    time_elapsed       | 4501     |\n",
      "|    total_timesteps    | 833000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 531       |\n",
      "|    ep_rew_mean        | 18.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 166700    |\n",
      "|    time_elapsed       | 4504      |\n",
      "|    total_timesteps    | 833500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0625   |\n",
      "|    value_loss         | 0.00236   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 166800   |\n",
      "|    time_elapsed       | 4507     |\n",
      "|    total_timesteps    | 834000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0494  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 166900   |\n",
      "|    time_elapsed       | 4509     |\n",
      "|    total_timesteps    | 834500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0575  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 167000    |\n",
      "|    time_elapsed       | 4512      |\n",
      "|    total_timesteps    | 835000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0602   |\n",
      "|    value_loss         | 0.00215   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 167100   |\n",
      "|    time_elapsed       | 4514     |\n",
      "|    total_timesteps    | 835500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.502    |\n",
      "|    value_loss         | 0.526    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 167200   |\n",
      "|    time_elapsed       | 4517     |\n",
      "|    total_timesteps    | 836000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.045   |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 167300   |\n",
      "|    time_elapsed       | 4520     |\n",
      "|    total_timesteps    | 836500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0319  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 167400   |\n",
      "|    time_elapsed       | 4522     |\n",
      "|    total_timesteps    | 837000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0552  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 167500   |\n",
      "|    time_elapsed       | 4525     |\n",
      "|    total_timesteps    | 837500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0329  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 167600   |\n",
      "|    time_elapsed       | 4527     |\n",
      "|    total_timesteps    | 838000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0422  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 167700   |\n",
      "|    time_elapsed       | 4530     |\n",
      "|    total_timesteps    | 838500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0448  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 167800    |\n",
      "|    time_elapsed       | 4533      |\n",
      "|    total_timesteps    | 839000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0744   |\n",
      "|    value_loss         | 0.00217   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 167900   |\n",
      "|    time_elapsed       | 4535     |\n",
      "|    total_timesteps    | 839500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0401  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 168000   |\n",
      "|    time_elapsed       | 4538     |\n",
      "|    total_timesteps    | 840000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0474  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 168100   |\n",
      "|    time_elapsed       | 4540     |\n",
      "|    total_timesteps    | 840500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0577  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 168200   |\n",
      "|    time_elapsed       | 4543     |\n",
      "|    total_timesteps    | 841000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.042   |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 168300   |\n",
      "|    time_elapsed       | 4546     |\n",
      "|    total_timesteps    | 841500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0613  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 168400   |\n",
      "|    time_elapsed       | 4549     |\n",
      "|    total_timesteps    | 842000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0477  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 168500   |\n",
      "|    time_elapsed       | 4551     |\n",
      "|    total_timesteps    | 842500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0565  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 168600   |\n",
      "|    time_elapsed       | 4554     |\n",
      "|    total_timesteps    | 843000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.6      |\n",
      "|    value_loss         | 0.885    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 168700   |\n",
      "|    time_elapsed       | 4557     |\n",
      "|    total_timesteps    | 843500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0402  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 168800   |\n",
      "|    time_elapsed       | 4560     |\n",
      "|    total_timesteps    | 844000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0397  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 168900   |\n",
      "|    time_elapsed       | 4563     |\n",
      "|    total_timesteps    | 844500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0561  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 169000   |\n",
      "|    time_elapsed       | 4565     |\n",
      "|    total_timesteps    | 845000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 169100   |\n",
      "|    time_elapsed       | 4568     |\n",
      "|    total_timesteps    | 845500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0543  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 169200   |\n",
      "|    time_elapsed       | 4571     |\n",
      "|    total_timesteps    | 846000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0402  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 169300   |\n",
      "|    time_elapsed       | 4574     |\n",
      "|    total_timesteps    | 846500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0463  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 169400   |\n",
      "|    time_elapsed       | 4576     |\n",
      "|    total_timesteps    | 847000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.58     |\n",
      "|    value_loss         | 0.524    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 169500   |\n",
      "|    time_elapsed       | 4579     |\n",
      "|    total_timesteps    | 847500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0614  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 169600   |\n",
      "|    time_elapsed       | 4582     |\n",
      "|    total_timesteps    | 848000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0549  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 169700   |\n",
      "|    time_elapsed       | 4584     |\n",
      "|    total_timesteps    | 848500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0438  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 169800   |\n",
      "|    time_elapsed       | 4587     |\n",
      "|    total_timesteps    | 849000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0783  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 169900   |\n",
      "|    time_elapsed       | 4590     |\n",
      "|    total_timesteps    | 849500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0608  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 170000   |\n",
      "|    time_elapsed       | 4592     |\n",
      "|    total_timesteps    | 850000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0657  |\n",
      "|    value_loss         | 0.00239  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 170100   |\n",
      "|    time_elapsed       | 4595     |\n",
      "|    total_timesteps    | 850500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0576  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 170200    |\n",
      "|    time_elapsed       | 4597      |\n",
      "|    total_timesteps    | 851000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0855   |\n",
      "|    value_loss         | 0.00234   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 170300   |\n",
      "|    time_elapsed       | 4600     |\n",
      "|    total_timesteps    | 851500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0525  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 531       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 170400    |\n",
      "|    time_elapsed       | 4603      |\n",
      "|    total_timesteps    | 852000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.516     |\n",
      "|    value_loss         | 0.523     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 170500   |\n",
      "|    time_elapsed       | 4605     |\n",
      "|    total_timesteps    | 852500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0497  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 170600   |\n",
      "|    time_elapsed       | 4608     |\n",
      "|    total_timesteps    | 853000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0803  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 170700   |\n",
      "|    time_elapsed       | 4610     |\n",
      "|    total_timesteps    | 853500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0494  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 170800   |\n",
      "|    time_elapsed       | 4613     |\n",
      "|    total_timesteps    | 854000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 531       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 170900    |\n",
      "|    time_elapsed       | 4616      |\n",
      "|    total_timesteps    | 854500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0519   |\n",
      "|    value_loss         | 0.00209   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 171000   |\n",
      "|    time_elapsed       | 4618     |\n",
      "|    total_timesteps    | 855000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0409  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 171100   |\n",
      "|    time_elapsed       | 4621     |\n",
      "|    total_timesteps    | 855500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0568  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 171200   |\n",
      "|    time_elapsed       | 4623     |\n",
      "|    total_timesteps    | 856000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.52     |\n",
      "|    value_loss         | 0.883    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 171300   |\n",
      "|    time_elapsed       | 4626     |\n",
      "|    total_timesteps    | 856500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0517  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 171400   |\n",
      "|    time_elapsed       | 4628     |\n",
      "|    total_timesteps    | 857000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0546  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 171500   |\n",
      "|    time_elapsed       | 4631     |\n",
      "|    total_timesteps    | 857500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0418  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 171600   |\n",
      "|    time_elapsed       | 4634     |\n",
      "|    total_timesteps    | 858000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0321  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 171700   |\n",
      "|    time_elapsed       | 4636     |\n",
      "|    total_timesteps    | 858500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0541  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 171800   |\n",
      "|    time_elapsed       | 4639     |\n",
      "|    total_timesteps    | 859000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 18.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 171900    |\n",
      "|    time_elapsed       | 4641      |\n",
      "|    total_timesteps    | 859500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.399     |\n",
      "|    value_loss         | 0.345     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 172000   |\n",
      "|    time_elapsed       | 4644     |\n",
      "|    total_timesteps    | 860000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0598  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 172100   |\n",
      "|    time_elapsed       | 4646     |\n",
      "|    total_timesteps    | 860500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.042   |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 172200   |\n",
      "|    time_elapsed       | 4649     |\n",
      "|    total_timesteps    | 861000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.02     |\n",
      "|    value_loss         | 0.702    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 172300   |\n",
      "|    time_elapsed       | 4651     |\n",
      "|    total_timesteps    | 861500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00241  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 172400    |\n",
      "|    time_elapsed       | 4654      |\n",
      "|    total_timesteps    | 862000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0339   |\n",
      "|    value_loss         | 0.00217   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 172500   |\n",
      "|    time_elapsed       | 4657     |\n",
      "|    total_timesteps    | 862500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0582  |\n",
      "|    value_loss         | 0.00269  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 172600   |\n",
      "|    time_elapsed       | 4659     |\n",
      "|    total_timesteps    | 863000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.161    |\n",
      "|    value_loss         | 0.173    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 172700    |\n",
      "|    time_elapsed       | 4662      |\n",
      "|    total_timesteps    | 863500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.055    |\n",
      "|    value_loss         | 0.0024    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 172800   |\n",
      "|    time_elapsed       | 4664     |\n",
      "|    total_timesteps    | 864000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0852  |\n",
      "|    value_loss         | 0.00245  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 172900   |\n",
      "|    time_elapsed       | 4667     |\n",
      "|    total_timesteps    | 864500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.23     |\n",
      "|    value_loss         | 0.698    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 173000   |\n",
      "|    time_elapsed       | 4669     |\n",
      "|    total_timesteps    | 865000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0515  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 173100   |\n",
      "|    time_elapsed       | 4672     |\n",
      "|    total_timesteps    | 865500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0402  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 173200   |\n",
      "|    time_elapsed       | 4675     |\n",
      "|    total_timesteps    | 866000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.063   |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 173300   |\n",
      "|    time_elapsed       | 4677     |\n",
      "|    total_timesteps    | 866500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.04    |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 173400   |\n",
      "|    time_elapsed       | 4680     |\n",
      "|    total_timesteps    | 867000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.05    |\n",
      "|    value_loss         | 0.00241  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 173500   |\n",
      "|    time_elapsed       | 4682     |\n",
      "|    total_timesteps    | 867500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0715  |\n",
      "|    value_loss         | 0.0025   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 173600   |\n",
      "|    time_elapsed       | 4685     |\n",
      "|    total_timesteps    | 868000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0455  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 173700   |\n",
      "|    time_elapsed       | 4687     |\n",
      "|    total_timesteps    | 868500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0425  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 173800   |\n",
      "|    time_elapsed       | 4690     |\n",
      "|    total_timesteps    | 869000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0362  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 173900   |\n",
      "|    time_elapsed       | 4693     |\n",
      "|    total_timesteps    | 869500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0398  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 174000   |\n",
      "|    time_elapsed       | 4695     |\n",
      "|    total_timesteps    | 870000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.25     |\n",
      "|    value_loss         | 0.881    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 174100   |\n",
      "|    time_elapsed       | 4698     |\n",
      "|    total_timesteps    | 870500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0704  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 174200   |\n",
      "|    time_elapsed       | 4700     |\n",
      "|    total_timesteps    | 871000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0563  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 174300   |\n",
      "|    time_elapsed       | 4703     |\n",
      "|    total_timesteps    | 871500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0357  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 174400   |\n",
      "|    time_elapsed       | 4705     |\n",
      "|    total_timesteps    | 872000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0517  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 174500   |\n",
      "|    time_elapsed       | 4708     |\n",
      "|    total_timesteps    | 872500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0407  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 174600   |\n",
      "|    time_elapsed       | 4710     |\n",
      "|    total_timesteps    | 873000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0507  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 174700   |\n",
      "|    time_elapsed       | 4713     |\n",
      "|    total_timesteps    | 873500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0382  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 174800   |\n",
      "|    time_elapsed       | 4716     |\n",
      "|    total_timesteps    | 874000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.483    |\n",
      "|    value_loss         | 0.527    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 174900   |\n",
      "|    time_elapsed       | 4718     |\n",
      "|    total_timesteps    | 874500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0595  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 175000   |\n",
      "|    time_elapsed       | 4721     |\n",
      "|    total_timesteps    | 875000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0419  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 175100   |\n",
      "|    time_elapsed       | 4723     |\n",
      "|    total_timesteps    | 875500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 175200   |\n",
      "|    time_elapsed       | 4726     |\n",
      "|    total_timesteps    | 876000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0469  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 175300   |\n",
      "|    time_elapsed       | 4729     |\n",
      "|    total_timesteps    | 876500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0574  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 175400    |\n",
      "|    time_elapsed       | 4731      |\n",
      "|    total_timesteps    | 877000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0418   |\n",
      "|    value_loss         | 0.0019    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 175500   |\n",
      "|    time_elapsed       | 4734     |\n",
      "|    total_timesteps    | 877500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.051   |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 175600   |\n",
      "|    time_elapsed       | 4736     |\n",
      "|    total_timesteps    | 878000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0425  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 175700   |\n",
      "|    time_elapsed       | 4739     |\n",
      "|    total_timesteps    | 878500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0387  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 175800   |\n",
      "|    time_elapsed       | 4741     |\n",
      "|    total_timesteps    | 879000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0661  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 175900   |\n",
      "|    time_elapsed       | 4744     |\n",
      "|    total_timesteps    | 879500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0503  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 176000    |\n",
      "|    time_elapsed       | 4746      |\n",
      "|    total_timesteps    | 880000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0504   |\n",
      "|    value_loss         | 0.00189   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 176100   |\n",
      "|    time_elapsed       | 4749     |\n",
      "|    total_timesteps    | 880500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.948    |\n",
      "|    value_loss         | 1.1      |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 176200   |\n",
      "|    time_elapsed       | 4752     |\n",
      "|    total_timesteps    | 881000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0456  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 176300   |\n",
      "|    time_elapsed       | 4754     |\n",
      "|    total_timesteps    | 881500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.04    |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 176400   |\n",
      "|    time_elapsed       | 4757     |\n",
      "|    total_timesteps    | 882000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0362  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 176500   |\n",
      "|    time_elapsed       | 4759     |\n",
      "|    total_timesteps    | 882500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0546  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 176600   |\n",
      "|    time_elapsed       | 4762     |\n",
      "|    total_timesteps    | 883000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.992    |\n",
      "|    value_loss         | 0.707    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 176700   |\n",
      "|    time_elapsed       | 4765     |\n",
      "|    total_timesteps    | 883500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0426  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 176800   |\n",
      "|    time_elapsed       | 4767     |\n",
      "|    total_timesteps    | 884000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.533    |\n",
      "|    value_loss         | 0.351    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 176900   |\n",
      "|    time_elapsed       | 4770     |\n",
      "|    total_timesteps    | 884500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0345  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 177000   |\n",
      "|    time_elapsed       | 4772     |\n",
      "|    total_timesteps    | 885000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0603  |\n",
      "|    value_loss         | 0.00177  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 19.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 177100    |\n",
      "|    time_elapsed       | 4775      |\n",
      "|    total_timesteps    | 885500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.29     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0367   |\n",
      "|    value_loss         | 0.00158   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 177200   |\n",
      "|    time_elapsed       | 4777     |\n",
      "|    total_timesteps    | 886000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0365  |\n",
      "|    value_loss         | 0.00169  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 177300   |\n",
      "|    time_elapsed       | 4780     |\n",
      "|    total_timesteps    | 886500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0412  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 177400   |\n",
      "|    time_elapsed       | 4782     |\n",
      "|    total_timesteps    | 887000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0473  |\n",
      "|    value_loss         | 0.00162  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 177500   |\n",
      "|    time_elapsed       | 4785     |\n",
      "|    total_timesteps    | 887500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0439  |\n",
      "|    value_loss         | 0.00167  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 177600   |\n",
      "|    time_elapsed       | 4788     |\n",
      "|    total_timesteps    | 888000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0402  |\n",
      "|    value_loss         | 0.00166  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 177700   |\n",
      "|    time_elapsed       | 4790     |\n",
      "|    total_timesteps    | 888500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.00163  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 177800   |\n",
      "|    time_elapsed       | 4793     |\n",
      "|    total_timesteps    | 889000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.02     |\n",
      "|    value_loss         | 0.893    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 177900   |\n",
      "|    time_elapsed       | 4795     |\n",
      "|    total_timesteps    | 889500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0662  |\n",
      "|    value_loss         | 0.0016   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 178000   |\n",
      "|    time_elapsed       | 4798     |\n",
      "|    total_timesteps    | 890000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00171  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 178100   |\n",
      "|    time_elapsed       | 4801     |\n",
      "|    total_timesteps    | 890500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 178200   |\n",
      "|    time_elapsed       | 4803     |\n",
      "|    total_timesteps    | 891000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.051   |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 178300   |\n",
      "|    time_elapsed       | 4806     |\n",
      "|    total_timesteps    | 891500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.99     |\n",
      "|    value_loss         | 0.706    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 178400   |\n",
      "|    time_elapsed       | 4808     |\n",
      "|    total_timesteps    | 892000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.069   |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 178500   |\n",
      "|    time_elapsed       | 4811     |\n",
      "|    total_timesteps    | 892500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0669  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 178600   |\n",
      "|    time_elapsed       | 4813     |\n",
      "|    total_timesteps    | 893000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0487  |\n",
      "|    value_loss         | 0.00162  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 178700   |\n",
      "|    time_elapsed       | 4816     |\n",
      "|    total_timesteps    | 893500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0366  |\n",
      "|    value_loss         | 0.00174  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 178800   |\n",
      "|    time_elapsed       | 4819     |\n",
      "|    total_timesteps    | 894000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 178900    |\n",
      "|    time_elapsed       | 4821      |\n",
      "|    total_timesteps    | 894500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0468   |\n",
      "|    value_loss         | 0.00199   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 179000   |\n",
      "|    time_elapsed       | 4824     |\n",
      "|    total_timesteps    | 895000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0528  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 179100   |\n",
      "|    time_elapsed       | 4826     |\n",
      "|    total_timesteps    | 895500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0702  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 179200   |\n",
      "|    time_elapsed       | 4829     |\n",
      "|    total_timesteps    | 896000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0572  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 179300   |\n",
      "|    time_elapsed       | 4832     |\n",
      "|    total_timesteps    | 896500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 179400   |\n",
      "|    time_elapsed       | 4834     |\n",
      "|    total_timesteps    | 897000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0486  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 179500   |\n",
      "|    time_elapsed       | 4837     |\n",
      "|    total_timesteps    | 897500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.23     |\n",
      "|    value_loss         | 1.44     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 179600   |\n",
      "|    time_elapsed       | 4839     |\n",
      "|    total_timesteps    | 898000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0493  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 179700   |\n",
      "|    time_elapsed       | 4842     |\n",
      "|    total_timesteps    | 898500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.28     |\n",
      "|    value_loss         | 0.88     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 179800   |\n",
      "|    time_elapsed       | 4844     |\n",
      "|    total_timesteps    | 899000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0402  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 179900   |\n",
      "|    time_elapsed       | 4847     |\n",
      "|    total_timesteps    | 899500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "Eval num_timesteps=900000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 900000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 542      |\n",
      "|    ep_rew_mean     | 19.5     |\n",
      "| time/              |          |\n",
      "|    fps             | 185      |\n",
      "|    iterations      | 180000   |\n",
      "|    time_elapsed    | 4860     |\n",
      "|    total_timesteps | 900000   |\n",
      "---------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 540       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 180100    |\n",
      "|    time_elapsed       | 4863      |\n",
      "|    total_timesteps    | 900500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0484   |\n",
      "|    value_loss         | 0.00205   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 180200   |\n",
      "|    time_elapsed       | 4865     |\n",
      "|    total_timesteps    | 901000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0666  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 180300   |\n",
      "|    time_elapsed       | 4868     |\n",
      "|    total_timesteps    | 901500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0455  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 180400   |\n",
      "|    time_elapsed       | 4870     |\n",
      "|    total_timesteps    | 902000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0594  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 180500   |\n",
      "|    time_elapsed       | 4873     |\n",
      "|    total_timesteps    | 902500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.538    |\n",
      "|    value_loss         | 0.525    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 180600   |\n",
      "|    time_elapsed       | 4875     |\n",
      "|    total_timesteps    | 903000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0679  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 180700   |\n",
      "|    time_elapsed       | 4878     |\n",
      "|    total_timesteps    | 903500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 180800   |\n",
      "|    time_elapsed       | 4881     |\n",
      "|    total_timesteps    | 904000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.047   |\n",
      "|    value_loss         | 0.00174  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 180900   |\n",
      "|    time_elapsed       | 4883     |\n",
      "|    total_timesteps    | 904500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 181000   |\n",
      "|    time_elapsed       | 4886     |\n",
      "|    total_timesteps    | 905000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.268   |\n",
      "|    value_loss         | 0.327    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 181100   |\n",
      "|    time_elapsed       | 4888     |\n",
      "|    total_timesteps    | 905500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0495  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 181200   |\n",
      "|    time_elapsed       | 4891     |\n",
      "|    total_timesteps    | 906000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.039   |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 181300   |\n",
      "|    time_elapsed       | 4894     |\n",
      "|    total_timesteps    | 906500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0586  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 181400   |\n",
      "|    time_elapsed       | 4896     |\n",
      "|    total_timesteps    | 907000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0399  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 181500   |\n",
      "|    time_elapsed       | 4899     |\n",
      "|    total_timesteps    | 907500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0441  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 19.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 181600    |\n",
      "|    time_elapsed       | 4901      |\n",
      "|    total_timesteps    | 908000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0605   |\n",
      "|    value_loss         | 0.00184   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 181700   |\n",
      "|    time_elapsed       | 4904     |\n",
      "|    total_timesteps    | 908500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0418  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 181800   |\n",
      "|    time_elapsed       | 4907     |\n",
      "|    total_timesteps    | 909000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0539  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 181900   |\n",
      "|    time_elapsed       | 4909     |\n",
      "|    total_timesteps    | 909500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0468  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 182000   |\n",
      "|    time_elapsed       | 4912     |\n",
      "|    total_timesteps    | 910000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0404  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 182100   |\n",
      "|    time_elapsed       | 4915     |\n",
      "|    total_timesteps    | 910500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.87     |\n",
      "|    value_loss         | 0.528    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 182200   |\n",
      "|    time_elapsed       | 4917     |\n",
      "|    total_timesteps    | 911000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0422  |\n",
      "|    value_loss         | 0.00174  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 182300   |\n",
      "|    time_elapsed       | 4920     |\n",
      "|    total_timesteps    | 911500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.598    |\n",
      "|    value_loss         | 0.527    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 182400   |\n",
      "|    time_elapsed       | 4922     |\n",
      "|    total_timesteps    | 912000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0525  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 182500   |\n",
      "|    time_elapsed       | 4925     |\n",
      "|    total_timesteps    | 912500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0645  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 543       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 182600    |\n",
      "|    time_elapsed       | 4927      |\n",
      "|    total_timesteps    | 913000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.29     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0386   |\n",
      "|    value_loss         | 0.00183   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 19.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 182700    |\n",
      "|    time_elapsed       | 4930      |\n",
      "|    total_timesteps    | 913500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.3      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0622   |\n",
      "|    value_loss         | 0.00168   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 182800   |\n",
      "|    time_elapsed       | 4932     |\n",
      "|    total_timesteps    | 914000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0456  |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 182900   |\n",
      "|    time_elapsed       | 4935     |\n",
      "|    total_timesteps    | 914500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0374  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 183000   |\n",
      "|    time_elapsed       | 4938     |\n",
      "|    total_timesteps    | 915000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.054   |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 183100   |\n",
      "|    time_elapsed       | 4940     |\n",
      "|    total_timesteps    | 915500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0532  |\n",
      "|    value_loss         | 0.00175  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 183200   |\n",
      "|    time_elapsed       | 4943     |\n",
      "|    total_timesteps    | 916000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0354  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 183300   |\n",
      "|    time_elapsed       | 4945     |\n",
      "|    total_timesteps    | 916500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0379  |\n",
      "|    value_loss         | 0.00174  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 183400   |\n",
      "|    time_elapsed       | 4948     |\n",
      "|    total_timesteps    | 917000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.042   |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 183500   |\n",
      "|    time_elapsed       | 4951     |\n",
      "|    total_timesteps    | 917500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0466  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 183600    |\n",
      "|    time_elapsed       | 4953      |\n",
      "|    total_timesteps    | 918000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0559   |\n",
      "|    value_loss         | 0.002     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 183700   |\n",
      "|    time_elapsed       | 4956     |\n",
      "|    total_timesteps    | 918500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0715  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 183800   |\n",
      "|    time_elapsed       | 4958     |\n",
      "|    total_timesteps    | 919000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0544  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 533       |\n",
      "|    ep_rew_mean        | 18.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 183900    |\n",
      "|    time_elapsed       | 4961      |\n",
      "|    total_timesteps    | 919500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.135     |\n",
      "|    value_loss         | 0.175     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 184000   |\n",
      "|    time_elapsed       | 4963     |\n",
      "|    total_timesteps    | 920000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 184100   |\n",
      "|    time_elapsed       | 4966     |\n",
      "|    total_timesteps    | 920500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 184200   |\n",
      "|    time_elapsed       | 4969     |\n",
      "|    total_timesteps    | 921000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0462  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 184300   |\n",
      "|    time_elapsed       | 4971     |\n",
      "|    total_timesteps    | 921500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0489  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 184400   |\n",
      "|    time_elapsed       | 4974     |\n",
      "|    total_timesteps    | 922000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0439  |\n",
      "|    value_loss         | 0.00175  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 184500   |\n",
      "|    time_elapsed       | 4976     |\n",
      "|    total_timesteps    | 922500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0643  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 184600   |\n",
      "|    time_elapsed       | 4979     |\n",
      "|    total_timesteps    | 923000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0535  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 184700   |\n",
      "|    time_elapsed       | 4981     |\n",
      "|    total_timesteps    | 923500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.553    |\n",
      "|    value_loss         | 0.527    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 184800   |\n",
      "|    time_elapsed       | 4984     |\n",
      "|    total_timesteps    | 924000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0585  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 184900   |\n",
      "|    time_elapsed       | 4986     |\n",
      "|    total_timesteps    | 924500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.04    |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 185000   |\n",
      "|    time_elapsed       | 4989     |\n",
      "|    total_timesteps    | 925000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0577  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 185100   |\n",
      "|    time_elapsed       | 4992     |\n",
      "|    total_timesteps    | 925500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0392  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 185200   |\n",
      "|    time_elapsed       | 4994     |\n",
      "|    total_timesteps    | 926000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.49     |\n",
      "|    value_loss         | 1.83     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 185300    |\n",
      "|    time_elapsed       | 4997      |\n",
      "|    total_timesteps    | 926500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.28     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.07     |\n",
      "|    value_loss         | 0.0019    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 185400   |\n",
      "|    time_elapsed       | 4999     |\n",
      "|    total_timesteps    | 927000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0463  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 185500   |\n",
      "|    time_elapsed       | 5002     |\n",
      "|    total_timesteps    | 927500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0503  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 185600   |\n",
      "|    time_elapsed       | 5004     |\n",
      "|    total_timesteps    | 928000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0608  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 185700   |\n",
      "|    time_elapsed       | 5007     |\n",
      "|    total_timesteps    | 928500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0721  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 185800   |\n",
      "|    time_elapsed       | 5009     |\n",
      "|    total_timesteps    | 929000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.3      |\n",
      "|    value_loss         | 1.83     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 185900    |\n",
      "|    time_elapsed       | 5012      |\n",
      "|    total_timesteps    | 929500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.29      |\n",
      "|    value_loss         | 0.881     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 186000   |\n",
      "|    time_elapsed       | 5015     |\n",
      "|    total_timesteps    | 930000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -1.49    |\n",
      "|    value_loss         | 1.19     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 186100   |\n",
      "|    time_elapsed       | 5017     |\n",
      "|    total_timesteps    | 930500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.051   |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 186200   |\n",
      "|    time_elapsed       | 5020     |\n",
      "|    total_timesteps    | 931000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0608  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 186300   |\n",
      "|    time_elapsed       | 5022     |\n",
      "|    total_timesteps    | 931500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0465  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 186400   |\n",
      "|    time_elapsed       | 5025     |\n",
      "|    total_timesteps    | 932000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0452  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 186500   |\n",
      "|    time_elapsed       | 5028     |\n",
      "|    total_timesteps    | 932500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0457  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 186600   |\n",
      "|    time_elapsed       | 5030     |\n",
      "|    total_timesteps    | 933000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.046   |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 186700    |\n",
      "|    time_elapsed       | 5033      |\n",
      "|    total_timesteps    | 933500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0398   |\n",
      "|    value_loss         | 0.00196   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 186800   |\n",
      "|    time_elapsed       | 5035     |\n",
      "|    total_timesteps    | 934000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0548  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 186900   |\n",
      "|    time_elapsed       | 5038     |\n",
      "|    total_timesteps    | 934500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0658  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 187000   |\n",
      "|    time_elapsed       | 5040     |\n",
      "|    total_timesteps    | 935000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0397  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 187100   |\n",
      "|    time_elapsed       | 5043     |\n",
      "|    total_timesteps    | 935500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0606  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 187200   |\n",
      "|    time_elapsed       | 5045     |\n",
      "|    total_timesteps    | 936000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.02     |\n",
      "|    value_loss         | 0.523    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 187300   |\n",
      "|    time_elapsed       | 5048     |\n",
      "|    total_timesteps    | 936500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0669  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 187400   |\n",
      "|    time_elapsed       | 5051     |\n",
      "|    total_timesteps    | 937000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0534  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 187500   |\n",
      "|    time_elapsed       | 5053     |\n",
      "|    total_timesteps    | 937500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0507  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 187600   |\n",
      "|    time_elapsed       | 5056     |\n",
      "|    total_timesteps    | 938000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.554    |\n",
      "|    value_loss         | 0.349    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 187700   |\n",
      "|    time_elapsed       | 5059     |\n",
      "|    total_timesteps    | 938500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0484  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 187800   |\n",
      "|    time_elapsed       | 5061     |\n",
      "|    total_timesteps    | 939000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.04    |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 187900   |\n",
      "|    time_elapsed       | 5064     |\n",
      "|    total_timesteps    | 939500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0552  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 188000   |\n",
      "|    time_elapsed       | 5066     |\n",
      "|    total_timesteps    | 940000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0346  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 188100   |\n",
      "|    time_elapsed       | 5069     |\n",
      "|    total_timesteps    | 940500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0572  |\n",
      "|    value_loss         | 0.00238  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 188200   |\n",
      "|    time_elapsed       | 5071     |\n",
      "|    total_timesteps    | 941000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.082   |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 549      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 188300   |\n",
      "|    time_elapsed       | 5074     |\n",
      "|    total_timesteps    | 941500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.072   |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 188400   |\n",
      "|    time_elapsed       | 5077     |\n",
      "|    total_timesteps    | 942000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0805  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 188500   |\n",
      "|    time_elapsed       | 5079     |\n",
      "|    total_timesteps    | 942500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.062   |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 188600   |\n",
      "|    time_elapsed       | 5082     |\n",
      "|    total_timesteps    | 943000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0576  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 550      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 188700   |\n",
      "|    time_elapsed       | 5084     |\n",
      "|    total_timesteps    | 943500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.87     |\n",
      "|    value_loss         | 2.56     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 550      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 188800   |\n",
      "|    time_elapsed       | 5087     |\n",
      "|    total_timesteps    | 944000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.065   |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 549      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 188900   |\n",
      "|    time_elapsed       | 5089     |\n",
      "|    total_timesteps    | 944500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.69     |\n",
      "|    value_loss         | 1.44     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 549      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 189000   |\n",
      "|    time_elapsed       | 5092     |\n",
      "|    total_timesteps    | 945000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | nan      |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -2.05    |\n",
      "|    value_loss         | 1.94     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 189100   |\n",
      "|    time_elapsed       | 5094     |\n",
      "|    total_timesteps    | 945500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.785    |\n",
      "|    value_loss         | 0.528    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 189200   |\n",
      "|    time_elapsed       | 5097     |\n",
      "|    total_timesteps    | 946000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.765    |\n",
      "|    value_loss         | 0.705    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 189300   |\n",
      "|    time_elapsed       | 5100     |\n",
      "|    total_timesteps    | 946500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0695  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 189400   |\n",
      "|    time_elapsed       | 5102     |\n",
      "|    total_timesteps    | 947000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0493  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 189500   |\n",
      "|    time_elapsed       | 5105     |\n",
      "|    total_timesteps    | 947500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0415  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 549      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 189600   |\n",
      "|    time_elapsed       | 5107     |\n",
      "|    total_timesteps    | 948000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.047   |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 550      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 189700   |\n",
      "|    time_elapsed       | 5110     |\n",
      "|    total_timesteps    | 948500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 549      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 189800   |\n",
      "|    time_elapsed       | 5112     |\n",
      "|    total_timesteps    | 949000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0673  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 189900   |\n",
      "|    time_elapsed       | 5115     |\n",
      "|    total_timesteps    | 949500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.1      |\n",
      "|    value_loss         | 0.889    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 190000   |\n",
      "|    time_elapsed       | 5117     |\n",
      "|    total_timesteps    | 950000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.367    |\n",
      "|    value_loss         | 0.352    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 548       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 190100    |\n",
      "|    time_elapsed       | 5120      |\n",
      "|    total_timesteps    | 950500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.28     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0677   |\n",
      "|    value_loss         | 0.00189   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 190200   |\n",
      "|    time_elapsed       | 5122     |\n",
      "|    total_timesteps    | 951000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0688  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 190300   |\n",
      "|    time_elapsed       | 5125     |\n",
      "|    total_timesteps    | 951500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.307    |\n",
      "|    value_loss         | 0.349    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 190400   |\n",
      "|    time_elapsed       | 5128     |\n",
      "|    total_timesteps    | 952000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0495  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 549      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 190500   |\n",
      "|    time_elapsed       | 5130     |\n",
      "|    total_timesteps    | 952500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0471  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 190600   |\n",
      "|    time_elapsed       | 5133     |\n",
      "|    total_timesteps    | 953000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.567    |\n",
      "|    value_loss         | 0.35     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 190700   |\n",
      "|    time_elapsed       | 5135     |\n",
      "|    total_timesteps    | 953500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.926    |\n",
      "|    value_loss         | 0.703    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 190800   |\n",
      "|    time_elapsed       | 5138     |\n",
      "|    total_timesteps    | 954000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.716    |\n",
      "|    value_loss         | 0.525    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 190900   |\n",
      "|    time_elapsed       | 5140     |\n",
      "|    total_timesteps    | 954500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.192    |\n",
      "|    value_loss         | 0.175    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 191000   |\n",
      "|    time_elapsed       | 5143     |\n",
      "|    total_timesteps    | 955000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0438  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 191100   |\n",
      "|    time_elapsed       | 5145     |\n",
      "|    total_timesteps    | 955500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0472  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 191200   |\n",
      "|    time_elapsed       | 5148     |\n",
      "|    total_timesteps    | 956000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0457  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 191300   |\n",
      "|    time_elapsed       | 5151     |\n",
      "|    total_timesteps    | 956500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0597  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 191400   |\n",
      "|    time_elapsed       | 5153     |\n",
      "|    total_timesteps    | 957000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0426  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 191500   |\n",
      "|    time_elapsed       | 5156     |\n",
      "|    total_timesteps    | 957500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0528  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 191600   |\n",
      "|    time_elapsed       | 5158     |\n",
      "|    total_timesteps    | 958000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0413  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 549      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 191700   |\n",
      "|    time_elapsed       | 5161     |\n",
      "|    total_timesteps    | 958500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.459    |\n",
      "|    value_loss         | 0.526    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 550      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 191800   |\n",
      "|    time_elapsed       | 5164     |\n",
      "|    total_timesteps    | 959000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0544  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 550      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 191900   |\n",
      "|    time_elapsed       | 5166     |\n",
      "|    total_timesteps    | 959500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0481  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 192000   |\n",
      "|    time_elapsed       | 5169     |\n",
      "|    total_timesteps    | 960000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.13     |\n",
      "|    value_loss         | 0.883    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 547       |\n",
      "|    ep_rew_mean        | 19.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 192100    |\n",
      "|    time_elapsed       | 5171      |\n",
      "|    total_timesteps    | 960500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.037    |\n",
      "|    value_loss         | 0.00199   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 192200   |\n",
      "|    time_elapsed       | 5174     |\n",
      "|    total_timesteps    | 961000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0388  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 192300   |\n",
      "|    time_elapsed       | 5176     |\n",
      "|    total_timesteps    | 961500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0568  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 192400   |\n",
      "|    time_elapsed       | 5179     |\n",
      "|    total_timesteps    | 962000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0579  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 547       |\n",
      "|    ep_rew_mean        | 20        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 192500    |\n",
      "|    time_elapsed       | 5182      |\n",
      "|    total_timesteps    | 962500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0371   |\n",
      "|    value_loss         | 0.0022    |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 547       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 192600    |\n",
      "|    time_elapsed       | 5184      |\n",
      "|    total_timesteps    | 963000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0489   |\n",
      "|    value_loss         | 0.00211   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 192700   |\n",
      "|    time_elapsed       | 5187     |\n",
      "|    total_timesteps    | 963500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0479  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 192800   |\n",
      "|    time_elapsed       | 5189     |\n",
      "|    total_timesteps    | 964000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0694  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 192900    |\n",
      "|    time_elapsed       | 5192      |\n",
      "|    total_timesteps    | 964500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0453   |\n",
      "|    value_loss         | 0.00235   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 193000   |\n",
      "|    time_elapsed       | 5194     |\n",
      "|    total_timesteps    | 965000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0501  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 193100   |\n",
      "|    time_elapsed       | 5197     |\n",
      "|    total_timesteps    | 965500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0585  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 542       |\n",
      "|    ep_rew_mean        | 19.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 193200    |\n",
      "|    time_elapsed       | 5200      |\n",
      "|    total_timesteps    | 966000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0638   |\n",
      "|    value_loss         | 0.00202   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 193300   |\n",
      "|    time_elapsed       | 5202     |\n",
      "|    total_timesteps    | 966500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0637  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 193400   |\n",
      "|    time_elapsed       | 5205     |\n",
      "|    total_timesteps    | 967000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.524    |\n",
      "|    value_loss         | 0.526    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 193500   |\n",
      "|    time_elapsed       | 5207     |\n",
      "|    total_timesteps    | 967500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0589  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 193600   |\n",
      "|    time_elapsed       | 5210     |\n",
      "|    total_timesteps    | 968000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0562  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 193700   |\n",
      "|    time_elapsed       | 5212     |\n",
      "|    total_timesteps    | 968500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0616  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 193800   |\n",
      "|    time_elapsed       | 5215     |\n",
      "|    total_timesteps    | 969000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.055   |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 193900   |\n",
      "|    time_elapsed       | 5218     |\n",
      "|    total_timesteps    | 969500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0516  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 194000   |\n",
      "|    time_elapsed       | 5220     |\n",
      "|    total_timesteps    | 970000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0393  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 194100   |\n",
      "|    time_elapsed       | 5223     |\n",
      "|    total_timesteps    | 970500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0574  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 194200   |\n",
      "|    time_elapsed       | 5225     |\n",
      "|    total_timesteps    | 971000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0445  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 194300   |\n",
      "|    time_elapsed       | 5228     |\n",
      "|    total_timesteps    | 971500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.05    |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 194400   |\n",
      "|    time_elapsed       | 5230     |\n",
      "|    total_timesteps    | 972000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0735  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 194500   |\n",
      "|    time_elapsed       | 5233     |\n",
      "|    total_timesteps    | 972500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0894  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 542       |\n",
      "|    ep_rew_mean        | 20.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 194600    |\n",
      "|    time_elapsed       | 5235      |\n",
      "|    total_timesteps    | 973000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0514   |\n",
      "|    value_loss         | 0.00227   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 194700   |\n",
      "|    time_elapsed       | 5238     |\n",
      "|    total_timesteps    | 973500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0565  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 194800   |\n",
      "|    time_elapsed       | 5241     |\n",
      "|    total_timesteps    | 974000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.047   |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 543       |\n",
      "|    ep_rew_mean        | 20.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 194900    |\n",
      "|    time_elapsed       | 5243      |\n",
      "|    total_timesteps    | 974500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0585   |\n",
      "|    value_loss         | 0.00217   |\n",
      "-------------------------------------\n",
      "Eval num_timesteps=975000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 975000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.259   |\n",
      "|    value_loss         | 0.371    |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 544      |\n",
      "|    ep_rew_mean     | 20.3     |\n",
      "| time/              |          |\n",
      "|    fps             | 185      |\n",
      "|    iterations      | 195000   |\n",
      "|    time_elapsed    | 5256     |\n",
      "|    total_timesteps | 975000   |\n",
      "---------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 20.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 195100    |\n",
      "|    time_elapsed       | 5259      |\n",
      "|    total_timesteps    | 975500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0563   |\n",
      "|    value_loss         | 0.00205   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 195200   |\n",
      "|    time_elapsed       | 5261     |\n",
      "|    total_timesteps    | 976000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0444  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 195300   |\n",
      "|    time_elapsed       | 5264     |\n",
      "|    total_timesteps    | 976500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0678  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 195400   |\n",
      "|    time_elapsed       | 5267     |\n",
      "|    total_timesteps    | 977000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.292    |\n",
      "|    value_loss         | 0.349    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 195500   |\n",
      "|    time_elapsed       | 5269     |\n",
      "|    total_timesteps    | 977500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0531  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 543       |\n",
      "|    ep_rew_mean        | 20.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 195600    |\n",
      "|    time_elapsed       | 5272      |\n",
      "|    total_timesteps    | 978000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0504   |\n",
      "|    value_loss         | 0.00189   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 195700   |\n",
      "|    time_elapsed       | 5274     |\n",
      "|    total_timesteps    | 978500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0444  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 195800   |\n",
      "|    time_elapsed       | 5277     |\n",
      "|    total_timesteps    | 979000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0514  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 20.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 195900    |\n",
      "|    time_elapsed       | 5280      |\n",
      "|    total_timesteps    | 979500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0603   |\n",
      "|    value_loss         | 0.0021    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 196000   |\n",
      "|    time_elapsed       | 5282     |\n",
      "|    total_timesteps    | 980000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0374  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 196100   |\n",
      "|    time_elapsed       | 5285     |\n",
      "|    total_timesteps    | 980500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0499  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 196200   |\n",
      "|    time_elapsed       | 5287     |\n",
      "|    total_timesteps    | 981000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.038   |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 196300   |\n",
      "|    time_elapsed       | 5290     |\n",
      "|    total_timesteps    | 981500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0526  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 540       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 196400    |\n",
      "|    time_elapsed       | 5292      |\n",
      "|    total_timesteps    | 982000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0397   |\n",
      "|    value_loss         | 0.00181   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 196500   |\n",
      "|    time_elapsed       | 5295     |\n",
      "|    total_timesteps    | 982500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0692  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 540       |\n",
      "|    ep_rew_mean        | 20        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 196600    |\n",
      "|    time_elapsed       | 5298      |\n",
      "|    total_timesteps    | 983000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0384   |\n",
      "|    value_loss         | 0.00187   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 196700   |\n",
      "|    time_elapsed       | 5300     |\n",
      "|    total_timesteps    | 983500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.54     |\n",
      "|    value_loss         | 0.53     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 196800   |\n",
      "|    time_elapsed       | 5303     |\n",
      "|    total_timesteps    | 984000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.065   |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 196900   |\n",
      "|    time_elapsed       | 5306     |\n",
      "|    total_timesteps    | 984500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0526  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 197000   |\n",
      "|    time_elapsed       | 5308     |\n",
      "|    total_timesteps    | 985000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0412  |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 197100   |\n",
      "|    time_elapsed       | 5311     |\n",
      "|    total_timesteps    | 985500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.932    |\n",
      "|    value_loss         | 1.27     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 197200   |\n",
      "|    time_elapsed       | 5313     |\n",
      "|    total_timesteps    | 986000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0384  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 197300   |\n",
      "|    time_elapsed       | 5316     |\n",
      "|    total_timesteps    | 986500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.039   |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 540       |\n",
      "|    ep_rew_mean        | 20        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 197400    |\n",
      "|    time_elapsed       | 5319      |\n",
      "|    total_timesteps    | 987000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.398     |\n",
      "|    value_loss         | 0.175     |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 197500    |\n",
      "|    time_elapsed       | 5321      |\n",
      "|    total_timesteps    | 987500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0443   |\n",
      "|    value_loss         | 0.00203   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 197600   |\n",
      "|    time_elapsed       | 5324     |\n",
      "|    total_timesteps    | 988000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0581  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 197700   |\n",
      "|    time_elapsed       | 5326     |\n",
      "|    total_timesteps    | 988500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0511  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 197800   |\n",
      "|    time_elapsed       | 5329     |\n",
      "|    total_timesteps    | 989000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.496    |\n",
      "|    value_loss         | 0.348    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 540       |\n",
      "|    ep_rew_mean        | 20        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 197900    |\n",
      "|    time_elapsed       | 5332      |\n",
      "|    total_timesteps    | 989500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0596   |\n",
      "|    value_loss         | 0.00215   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 198000   |\n",
      "|    time_elapsed       | 5334     |\n",
      "|    total_timesteps    | 990000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0666  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 198100   |\n",
      "|    time_elapsed       | 5337     |\n",
      "|    total_timesteps    | 990500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0478  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 198200   |\n",
      "|    time_elapsed       | 5339     |\n",
      "|    total_timesteps    | 991000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.046   |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 198300   |\n",
      "|    time_elapsed       | 5342     |\n",
      "|    total_timesteps    | 991500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0416  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 198400   |\n",
      "|    time_elapsed       | 5345     |\n",
      "|    total_timesteps    | 992000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0503  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 198500   |\n",
      "|    time_elapsed       | 5347     |\n",
      "|    total_timesteps    | 992500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0555  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 198600   |\n",
      "|    time_elapsed       | 5350     |\n",
      "|    total_timesteps    | 993000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0523  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 19.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 198700    |\n",
      "|    time_elapsed       | 5352      |\n",
      "|    total_timesteps    | 993500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0415   |\n",
      "|    value_loss         | 0.00193   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 198800   |\n",
      "|    time_elapsed       | 5355     |\n",
      "|    total_timesteps    | 994000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0533  |\n",
      "|    value_loss         | 0.00171  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 198900   |\n",
      "|    time_elapsed       | 5358     |\n",
      "|    total_timesteps    | 994500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.045   |\n",
      "|    value_loss         | 0.00168  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 536       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 199000    |\n",
      "|    time_elapsed       | 5360      |\n",
      "|    total_timesteps    | 995000    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.145     |\n",
      "|    value_loss         | 0.177     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 199100   |\n",
      "|    time_elapsed       | 5363     |\n",
      "|    total_timesteps    | 995500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.359    |\n",
      "|    value_loss         | 0.353    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 199200   |\n",
      "|    time_elapsed       | 5365     |\n",
      "|    total_timesteps    | 996000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.291   |\n",
      "|    value_loss         | 0.319    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 199300   |\n",
      "|    time_elapsed       | 5368     |\n",
      "|    total_timesteps    | 996500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0373  |\n",
      "|    value_loss         | 0.00171  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 199400   |\n",
      "|    time_elapsed       | 5371     |\n",
      "|    total_timesteps    | 997000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.741    |\n",
      "|    value_loss         | 0.709    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 199500   |\n",
      "|    time_elapsed       | 5373     |\n",
      "|    total_timesteps    | 997500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0382  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 199600   |\n",
      "|    time_elapsed       | 5376     |\n",
      "|    total_timesteps    | 998000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0419  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 199700    |\n",
      "|    time_elapsed       | 5379      |\n",
      "|    total_timesteps    | 998500    |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0378   |\n",
      "|    value_loss         | 0.0019    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 199800   |\n",
      "|    time_elapsed       | 5381     |\n",
      "|    total_timesteps    | 999000   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0643  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 199900   |\n",
      "|    time_elapsed       | 5384     |\n",
      "|    total_timesteps    | 999500   |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0387  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 200000    |\n",
      "|    time_elapsed       | 5386      |\n",
      "|    total_timesteps    | 1000000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.577     |\n",
      "|    value_loss         | 0.35      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 200100   |\n",
      "|    time_elapsed       | 5389     |\n",
      "|    total_timesteps    | 1000500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.039   |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 200200   |\n",
      "|    time_elapsed       | 5391     |\n",
      "|    total_timesteps    | 1001000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.47     |\n",
      "|    value_loss         | 0.523    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 200300   |\n",
      "|    time_elapsed       | 5394     |\n",
      "|    total_timesteps    | 1001500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0385  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 19.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 200400    |\n",
      "|    time_elapsed       | 5397      |\n",
      "|    total_timesteps    | 1002000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.043    |\n",
      "|    value_loss         | 0.00209   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 200500   |\n",
      "|    time_elapsed       | 5399     |\n",
      "|    total_timesteps    | 1002500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0445  |\n",
      "|    value_loss         | 0.00239  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 200600   |\n",
      "|    time_elapsed       | 5402     |\n",
      "|    total_timesteps    | 1003000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0701  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 200700   |\n",
      "|    time_elapsed       | 5404     |\n",
      "|    total_timesteps    | 1003500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0507  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 200800   |\n",
      "|    time_elapsed       | 5407     |\n",
      "|    total_timesteps    | 1004000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.043   |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 200900   |\n",
      "|    time_elapsed       | 5409     |\n",
      "|    total_timesteps    | 1004500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.038   |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 201000   |\n",
      "|    time_elapsed       | 5412     |\n",
      "|    total_timesteps    | 1005000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0528  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 19.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 201100    |\n",
      "|    time_elapsed       | 5415      |\n",
      "|    total_timesteps    | 1005500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.182     |\n",
      "|    value_loss         | 0.175     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 201200   |\n",
      "|    time_elapsed       | 5417     |\n",
      "|    total_timesteps    | 1006000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0501  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 201300   |\n",
      "|    time_elapsed       | 5420     |\n",
      "|    total_timesteps    | 1006500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0655  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 201400   |\n",
      "|    time_elapsed       | 5422     |\n",
      "|    total_timesteps    | 1007000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0499  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 201500   |\n",
      "|    time_elapsed       | 5425     |\n",
      "|    total_timesteps    | 1007500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.052   |\n",
      "|    value_loss         | 0.00179  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 201600   |\n",
      "|    time_elapsed       | 5427     |\n",
      "|    total_timesteps    | 1008000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0427  |\n",
      "|    value_loss         | 0.00174  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 201700   |\n",
      "|    time_elapsed       | 5430     |\n",
      "|    total_timesteps    | 1008500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 201800   |\n",
      "|    time_elapsed       | 5432     |\n",
      "|    total_timesteps    | 1009000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0333  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 533       |\n",
      "|    ep_rew_mean        | 19.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 201900    |\n",
      "|    time_elapsed       | 5435      |\n",
      "|    total_timesteps    | 1009500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.28     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0399   |\n",
      "|    value_loss         | 0.00169   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 19.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 202000    |\n",
      "|    time_elapsed       | 5438      |\n",
      "|    total_timesteps    | 1010000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.28     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0462   |\n",
      "|    value_loss         | 0.00173   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 202100   |\n",
      "|    time_elapsed       | 5440     |\n",
      "|    total_timesteps    | 1010500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | nan      |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -1.26    |\n",
      "|    value_loss         | 1.56     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 202200   |\n",
      "|    time_elapsed       | 5443     |\n",
      "|    total_timesteps    | 1011000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 202300   |\n",
      "|    time_elapsed       | 5445     |\n",
      "|    total_timesteps    | 1011500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0505  |\n",
      "|    value_loss         | 0.00167  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 202400   |\n",
      "|    time_elapsed       | 5448     |\n",
      "|    total_timesteps    | 1012000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0599  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 202500   |\n",
      "|    time_elapsed       | 5451     |\n",
      "|    total_timesteps    | 1012500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0493  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 202600   |\n",
      "|    time_elapsed       | 5453     |\n",
      "|    total_timesteps    | 1013000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0494  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 202700   |\n",
      "|    time_elapsed       | 5456     |\n",
      "|    total_timesteps    | 1013500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0575  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 202800   |\n",
      "|    time_elapsed       | 5459     |\n",
      "|    total_timesteps    | 1014000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0429  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 202900   |\n",
      "|    time_elapsed       | 5461     |\n",
      "|    total_timesteps    | 1014500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0404  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 203000   |\n",
      "|    time_elapsed       | 5464     |\n",
      "|    total_timesteps    | 1015000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0485  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 203100   |\n",
      "|    time_elapsed       | 5466     |\n",
      "|    total_timesteps    | 1015500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.053   |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 203200   |\n",
      "|    time_elapsed       | 5469     |\n",
      "|    total_timesteps    | 1016000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0507  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 203300    |\n",
      "|    time_elapsed       | 5472      |\n",
      "|    total_timesteps    | 1016500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0548   |\n",
      "|    value_loss         | 0.0019    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 203400   |\n",
      "|    time_elapsed       | 5474     |\n",
      "|    total_timesteps    | 1017000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0427  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 203500   |\n",
      "|    time_elapsed       | 5477     |\n",
      "|    total_timesteps    | 1017500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0371  |\n",
      "|    value_loss         | 0.00179  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 203600   |\n",
      "|    time_elapsed       | 5479     |\n",
      "|    total_timesteps    | 1018000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.47     |\n",
      "|    value_loss         | 1.45     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 203700   |\n",
      "|    time_elapsed       | 5482     |\n",
      "|    total_timesteps    | 1018500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0445  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 203800   |\n",
      "|    time_elapsed       | 5485     |\n",
      "|    total_timesteps    | 1019000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.052   |\n",
      "|    value_loss         | 0.00157  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 203900   |\n",
      "|    time_elapsed       | 5487     |\n",
      "|    total_timesteps    | 1019500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0457  |\n",
      "|    value_loss         | 0.00143  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 204000   |\n",
      "|    time_elapsed       | 5490     |\n",
      "|    total_timesteps    | 1020000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 2.38e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.00145  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 204100   |\n",
      "|    time_elapsed       | 5492     |\n",
      "|    total_timesteps    | 1020500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.31    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0448  |\n",
      "|    value_loss         | 0.00151  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 204200   |\n",
      "|    time_elapsed       | 5495     |\n",
      "|    total_timesteps    | 1021000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0559  |\n",
      "|    value_loss         | 0.00154  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 204300   |\n",
      "|    time_elapsed       | 5498     |\n",
      "|    total_timesteps    | 1021500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.3     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.11     |\n",
      "|    value_loss         | 0.712    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 204400   |\n",
      "|    time_elapsed       | 5500     |\n",
      "|    total_timesteps    | 1022000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0481  |\n",
      "|    value_loss         | 0.00172  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 204500   |\n",
      "|    time_elapsed       | 5503     |\n",
      "|    total_timesteps    | 1022500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0583  |\n",
      "|    value_loss         | 0.00172  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 204600   |\n",
      "|    time_elapsed       | 5505     |\n",
      "|    total_timesteps    | 1023000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0542  |\n",
      "|    value_loss         | 0.00172  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 204700    |\n",
      "|    time_elapsed       | 5508      |\n",
      "|    total_timesteps    | 1023500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.28     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0489   |\n",
      "|    value_loss         | 0.00178   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 204800   |\n",
      "|    time_elapsed       | 5511     |\n",
      "|    total_timesteps    | 1024000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.371    |\n",
      "|    value_loss         | 0.351    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 204900    |\n",
      "|    time_elapsed       | 5513      |\n",
      "|    total_timesteps    | 1024500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0524   |\n",
      "|    value_loss         | 0.00198   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 205000   |\n",
      "|    time_elapsed       | 5516     |\n",
      "|    total_timesteps    | 1025000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0421  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 205100   |\n",
      "|    time_elapsed       | 5519     |\n",
      "|    total_timesteps    | 1025500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0393  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 205200   |\n",
      "|    time_elapsed       | 5521     |\n",
      "|    total_timesteps    | 1026000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0693  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 205300   |\n",
      "|    time_elapsed       | 5524     |\n",
      "|    total_timesteps    | 1026500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0535  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 205400   |\n",
      "|    time_elapsed       | 5526     |\n",
      "|    total_timesteps    | 1027000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0495  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 205500   |\n",
      "|    time_elapsed       | 5529     |\n",
      "|    total_timesteps    | 1027500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0604  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 205600   |\n",
      "|    time_elapsed       | 5532     |\n",
      "|    total_timesteps    | 1028000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0514  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 205700   |\n",
      "|    time_elapsed       | 5534     |\n",
      "|    total_timesteps    | 1028500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0492  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 205800   |\n",
      "|    time_elapsed       | 5537     |\n",
      "|    total_timesteps    | 1029000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0516  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 205900   |\n",
      "|    time_elapsed       | 5540     |\n",
      "|    total_timesteps    | 1029500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0626  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 206000   |\n",
      "|    time_elapsed       | 5542     |\n",
      "|    total_timesteps    | 1030000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 206100   |\n",
      "|    time_elapsed       | 5545     |\n",
      "|    total_timesteps    | 1030500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.046   |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 206200   |\n",
      "|    time_elapsed       | 5547     |\n",
      "|    total_timesteps    | 1031000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0516  |\n",
      "|    value_loss         | 0.00193  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 206300   |\n",
      "|    time_elapsed       | 5550     |\n",
      "|    total_timesteps    | 1031500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0562  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 206400   |\n",
      "|    time_elapsed       | 5553     |\n",
      "|    total_timesteps    | 1032000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0493  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 206500   |\n",
      "|    time_elapsed       | 5555     |\n",
      "|    total_timesteps    | 1032500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.29    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.309    |\n",
      "|    value_loss         | 0.351    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 206600    |\n",
      "|    time_elapsed       | 5558      |\n",
      "|    total_timesteps    | 1033000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.28     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0576   |\n",
      "|    value_loss         | 0.00216   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 206700   |\n",
      "|    time_elapsed       | 5560     |\n",
      "|    total_timesteps    | 1033500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0699  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 206800   |\n",
      "|    time_elapsed       | 5563     |\n",
      "|    total_timesteps    | 1034000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0513  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 206900   |\n",
      "|    time_elapsed       | 5566     |\n",
      "|    total_timesteps    | 1034500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0684  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 207000   |\n",
      "|    time_elapsed       | 5568     |\n",
      "|    total_timesteps    | 1035000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.051   |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 207100   |\n",
      "|    time_elapsed       | 5571     |\n",
      "|    total_timesteps    | 1035500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0452  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 207200   |\n",
      "|    time_elapsed       | 5573     |\n",
      "|    total_timesteps    | 1036000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0611  |\n",
      "|    value_loss         | 0.00243  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 19.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 207300    |\n",
      "|    time_elapsed       | 5576      |\n",
      "|    total_timesteps    | 1036500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0682   |\n",
      "|    value_loss         | 0.00228   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 207400   |\n",
      "|    time_elapsed       | 5578     |\n",
      "|    total_timesteps    | 1037000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0687  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 207500   |\n",
      "|    time_elapsed       | 5581     |\n",
      "|    total_timesteps    | 1037500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.28    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 207600   |\n",
      "|    time_elapsed       | 5584     |\n",
      "|    total_timesteps    | 1038000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0737  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 207700   |\n",
      "|    time_elapsed       | 5586     |\n",
      "|    total_timesteps    | 1038500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0474  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 207800   |\n",
      "|    time_elapsed       | 5589     |\n",
      "|    total_timesteps    | 1039000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0468  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 207900   |\n",
      "|    time_elapsed       | 5591     |\n",
      "|    total_timesteps    | 1039500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0818  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 208000   |\n",
      "|    time_elapsed       | 5594     |\n",
      "|    total_timesteps    | 1040000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.289    |\n",
      "|    value_loss         | 0.347    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 208100   |\n",
      "|    time_elapsed       | 5597     |\n",
      "|    total_timesteps    | 1040500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0449  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 208200   |\n",
      "|    time_elapsed       | 5599     |\n",
      "|    total_timesteps    | 1041000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0571  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 208300   |\n",
      "|    time_elapsed       | 5602     |\n",
      "|    total_timesteps    | 1041500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.058   |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 208400   |\n",
      "|    time_elapsed       | 5604     |\n",
      "|    total_timesteps    | 1042000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0582  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 208500   |\n",
      "|    time_elapsed       | 5607     |\n",
      "|    total_timesteps    | 1042500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0646  |\n",
      "|    value_loss         | 0.00248  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 208600   |\n",
      "|    time_elapsed       | 5609     |\n",
      "|    total_timesteps    | 1043000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0659  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 208700   |\n",
      "|    time_elapsed       | 5612     |\n",
      "|    total_timesteps    | 1043500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0483  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 208800   |\n",
      "|    time_elapsed       | 5615     |\n",
      "|    total_timesteps    | 1044000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0457  |\n",
      "|    value_loss         | 0.00238  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 208900   |\n",
      "|    time_elapsed       | 5617     |\n",
      "|    total_timesteps    | 1044500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0567  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 209000   |\n",
      "|    time_elapsed       | 5620     |\n",
      "|    total_timesteps    | 1045000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 209100   |\n",
      "|    time_elapsed       | 5622     |\n",
      "|    total_timesteps    | 1045500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0352  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 209200   |\n",
      "|    time_elapsed       | 5625     |\n",
      "|    total_timesteps    | 1046000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.455    |\n",
      "|    value_loss         | 0.523    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 209300   |\n",
      "|    time_elapsed       | 5628     |\n",
      "|    total_timesteps    | 1046500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0656  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 209400   |\n",
      "|    time_elapsed       | 5630     |\n",
      "|    total_timesteps    | 1047000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0462  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 209500    |\n",
      "|    time_elapsed       | 5633      |\n",
      "|    total_timesteps    | 1047500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0507   |\n",
      "|    value_loss         | 0.00228   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 209600   |\n",
      "|    time_elapsed       | 5635     |\n",
      "|    total_timesteps    | 1048000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0786  |\n",
      "|    value_loss         | 0.00239  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 209700   |\n",
      "|    time_elapsed       | 5638     |\n",
      "|    total_timesteps    | 1048500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0535  |\n",
      "|    value_loss         | 0.0025   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 209800   |\n",
      "|    time_elapsed       | 5641     |\n",
      "|    total_timesteps    | 1049000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0681  |\n",
      "|    value_loss         | 0.00238  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 209900   |\n",
      "|    time_elapsed       | 5643     |\n",
      "|    total_timesteps    | 1049500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.63     |\n",
      "|    value_loss         | 1.43     |\n",
      "------------------------------------\n",
      "Eval num_timesteps=1050000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 1050000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0679  |\n",
      "|    value_loss         | 0.00263  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 538      |\n",
      "|    ep_rew_mean     | 19.3     |\n",
      "| time/              |          |\n",
      "|    fps             | 185      |\n",
      "|    iterations      | 210000   |\n",
      "|    time_elapsed    | 5657     |\n",
      "|    total_timesteps | 1050000  |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 210100   |\n",
      "|    time_elapsed       | 5659     |\n",
      "|    total_timesteps    | 1050500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0673  |\n",
      "|    value_loss         | 0.00257  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 210200   |\n",
      "|    time_elapsed       | 5662     |\n",
      "|    total_timesteps    | 1051000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0531  |\n",
      "|    value_loss         | 0.00265  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 210300   |\n",
      "|    time_elapsed       | 5664     |\n",
      "|    total_timesteps    | 1051500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0856  |\n",
      "|    value_loss         | 0.00251  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 210400   |\n",
      "|    time_elapsed       | 5667     |\n",
      "|    total_timesteps    | 1052000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0741  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 210500   |\n",
      "|    time_elapsed       | 5670     |\n",
      "|    total_timesteps    | 1052500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.2      |\n",
      "|    value_loss         | 0.696    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 210600   |\n",
      "|    time_elapsed       | 5672     |\n",
      "|    total_timesteps    | 1053000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.283   |\n",
      "|    value_loss         | 0.421    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 210700    |\n",
      "|    time_elapsed       | 5675      |\n",
      "|    total_timesteps    | 1053500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.359     |\n",
      "|    value_loss         | 0.347     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 210800   |\n",
      "|    time_elapsed       | 5677     |\n",
      "|    total_timesteps    | 1054000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.507   |\n",
      "|    value_loss         | 0.513    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 210900   |\n",
      "|    time_elapsed       | 5680     |\n",
      "|    total_timesteps    | 1054500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0381  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 211000   |\n",
      "|    time_elapsed       | 5683     |\n",
      "|    total_timesteps    | 1055000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0625  |\n",
      "|    value_loss         | 0.00251  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 211100   |\n",
      "|    time_elapsed       | 5685     |\n",
      "|    total_timesteps    | 1055500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0482  |\n",
      "|    value_loss         | 0.00243  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 211200   |\n",
      "|    time_elapsed       | 5688     |\n",
      "|    total_timesteps    | 1056000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0728  |\n",
      "|    value_loss         | 0.00257  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 211300   |\n",
      "|    time_elapsed       | 5690     |\n",
      "|    total_timesteps    | 1056500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0424  |\n",
      "|    value_loss         | 0.00244  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 211400   |\n",
      "|    time_elapsed       | 5693     |\n",
      "|    total_timesteps    | 1057000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0428  |\n",
      "|    value_loss         | 0.00251  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 211500   |\n",
      "|    time_elapsed       | 5696     |\n",
      "|    total_timesteps    | 1057500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.064   |\n",
      "|    value_loss         | 0.00252  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 211600   |\n",
      "|    time_elapsed       | 5698     |\n",
      "|    total_timesteps    | 1058000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0768  |\n",
      "|    value_loss         | 0.00254  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 211700   |\n",
      "|    time_elapsed       | 5701     |\n",
      "|    total_timesteps    | 1058500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.825   |\n",
      "|    value_loss         | 1.44     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 536       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 211800    |\n",
      "|    time_elapsed       | 5704      |\n",
      "|    total_timesteps    | 1059000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0494   |\n",
      "|    value_loss         | 0.0025    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 211900   |\n",
      "|    time_elapsed       | 5706     |\n",
      "|    total_timesteps    | 1059500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0584  |\n",
      "|    value_loss         | 0.00257  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 212000   |\n",
      "|    time_elapsed       | 5709     |\n",
      "|    total_timesteps    | 1060000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0534  |\n",
      "|    value_loss         | 0.0025   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 212100   |\n",
      "|    time_elapsed       | 5711     |\n",
      "|    total_timesteps    | 1060500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.046   |\n",
      "|    value_loss         | 0.0026   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 212200   |\n",
      "|    time_elapsed       | 5714     |\n",
      "|    total_timesteps    | 1061000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0726  |\n",
      "|    value_loss         | 0.00256  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 212300   |\n",
      "|    time_elapsed       | 5716     |\n",
      "|    total_timesteps    | 1061500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0485  |\n",
      "|    value_loss         | 0.00276  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 212400   |\n",
      "|    time_elapsed       | 5719     |\n",
      "|    total_timesteps    | 1062000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.071   |\n",
      "|    value_loss         | 0.00272  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 212500   |\n",
      "|    time_elapsed       | 5722     |\n",
      "|    total_timesteps    | 1062500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0485  |\n",
      "|    value_loss         | 0.00276  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 212600   |\n",
      "|    time_elapsed       | 5724     |\n",
      "|    total_timesteps    | 1063000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.514    |\n",
      "|    value_loss         | 0.341    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 212700   |\n",
      "|    time_elapsed       | 5727     |\n",
      "|    total_timesteps    | 1063500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.746    |\n",
      "|    value_loss         | 0.515    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 212800   |\n",
      "|    time_elapsed       | 5729     |\n",
      "|    total_timesteps    | 1064000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.131    |\n",
      "|    value_loss         | 0.171    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 212900   |\n",
      "|    time_elapsed       | 5732     |\n",
      "|    total_timesteps    | 1064500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0698  |\n",
      "|    value_loss         | 0.00276  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 213000   |\n",
      "|    time_elapsed       | 5735     |\n",
      "|    total_timesteps    | 1065000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0649  |\n",
      "|    value_loss         | 0.0028   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 213100   |\n",
      "|    time_elapsed       | 5737     |\n",
      "|    total_timesteps    | 1065500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.064   |\n",
      "|    value_loss         | 0.00304  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 19.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 213200    |\n",
      "|    time_elapsed       | 5740      |\n",
      "|    total_timesteps    | 1066000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0597   |\n",
      "|    value_loss         | 0.00283   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 213300   |\n",
      "|    time_elapsed       | 5742     |\n",
      "|    total_timesteps    | 1066500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.934   |\n",
      "|    value_loss         | 1.54     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 213400   |\n",
      "|    time_elapsed       | 5745     |\n",
      "|    total_timesteps    | 1067000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0583  |\n",
      "|    value_loss         | 0.00271  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 213500   |\n",
      "|    time_elapsed       | 5747     |\n",
      "|    total_timesteps    | 1067500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0562  |\n",
      "|    value_loss         | 0.00279  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 213600   |\n",
      "|    time_elapsed       | 5750     |\n",
      "|    total_timesteps    | 1068000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0827  |\n",
      "|    value_loss         | 0.00253  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 213700   |\n",
      "|    time_elapsed       | 5753     |\n",
      "|    total_timesteps    | 1068500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0642  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 542       |\n",
      "|    ep_rew_mean        | 19.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 213800    |\n",
      "|    time_elapsed       | 5755      |\n",
      "|    total_timesteps    | 1069000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0597   |\n",
      "|    value_loss         | 0.00262   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 213900   |\n",
      "|    time_elapsed       | 5758     |\n",
      "|    total_timesteps    | 1069500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0541  |\n",
      "|    value_loss         | 0.00259  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 214000   |\n",
      "|    time_elapsed       | 5760     |\n",
      "|    total_timesteps    | 1070000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0626  |\n",
      "|    value_loss         | 0.00259  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 214100   |\n",
      "|    time_elapsed       | 5763     |\n",
      "|    total_timesteps    | 1070500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 2.38e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0418  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 542       |\n",
      "|    ep_rew_mean        | 19.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 214200    |\n",
      "|    time_elapsed       | 5766      |\n",
      "|    total_timesteps    | 1071000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0454   |\n",
      "|    value_loss         | 0.00254   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 214300   |\n",
      "|    time_elapsed       | 5768     |\n",
      "|    total_timesteps    | 1071500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0472  |\n",
      "|    value_loss         | 0.00256  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 214400   |\n",
      "|    time_elapsed       | 5771     |\n",
      "|    total_timesteps    | 1072000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 2.38e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.14     |\n",
      "|    value_loss         | 1.43     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 214500   |\n",
      "|    time_elapsed       | 5773     |\n",
      "|    total_timesteps    | 1072500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0494  |\n",
      "|    value_loss         | 0.00263  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 214600   |\n",
      "|    time_elapsed       | 5776     |\n",
      "|    total_timesteps    | 1073000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0683  |\n",
      "|    value_loss         | 0.00266  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 214700   |\n",
      "|    time_elapsed       | 5778     |\n",
      "|    total_timesteps    | 1073500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0579  |\n",
      "|    value_loss         | 0.00252  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 214800   |\n",
      "|    time_elapsed       | 5781     |\n",
      "|    total_timesteps    | 1074000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0459  |\n",
      "|    value_loss         | 0.00262  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 214900   |\n",
      "|    time_elapsed       | 5784     |\n",
      "|    total_timesteps    | 1074500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0606  |\n",
      "|    value_loss         | 0.00257  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 215000   |\n",
      "|    time_elapsed       | 5786     |\n",
      "|    total_timesteps    | 1075000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0664  |\n",
      "|    value_loss         | 0.00261  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 215100   |\n",
      "|    time_elapsed       | 5789     |\n",
      "|    total_timesteps    | 1075500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0466  |\n",
      "|    value_loss         | 0.00257  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 545       |\n",
      "|    ep_rew_mean        | 20.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 215200    |\n",
      "|    time_elapsed       | 5791      |\n",
      "|    total_timesteps    | 1076000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.606     |\n",
      "|    value_loss         | 0.344     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 215300   |\n",
      "|    time_elapsed       | 5794     |\n",
      "|    total_timesteps    | 1076500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0708  |\n",
      "|    value_loss         | 0.00275  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 215400   |\n",
      "|    time_elapsed       | 5797     |\n",
      "|    total_timesteps    | 1077000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0538  |\n",
      "|    value_loss         | 0.00294  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 215500   |\n",
      "|    time_elapsed       | 5799     |\n",
      "|    total_timesteps    | 1077500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0632  |\n",
      "|    value_loss         | 0.00295  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 215600   |\n",
      "|    time_elapsed       | 5802     |\n",
      "|    total_timesteps    | 1078000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.07     |\n",
      "|    value_loss         | 0.688    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 215700   |\n",
      "|    time_elapsed       | 5804     |\n",
      "|    total_timesteps    | 1078500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0835  |\n",
      "|    value_loss         | 0.00307  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 215800   |\n",
      "|    time_elapsed       | 5807     |\n",
      "|    total_timesteps    | 1079000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.836    |\n",
      "|    value_loss         | 0.69     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 215900   |\n",
      "|    time_elapsed       | 5809     |\n",
      "|    total_timesteps    | 1079500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0491  |\n",
      "|    value_loss         | 0.00285  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 20.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 216000    |\n",
      "|    time_elapsed       | 5812      |\n",
      "|    total_timesteps    | 1080000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.34      |\n",
      "|    value_loss         | 0.87      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 216100   |\n",
      "|    time_elapsed       | 5815     |\n",
      "|    total_timesteps    | 1080500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0492  |\n",
      "|    value_loss         | 0.00284  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 20.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 216200    |\n",
      "|    time_elapsed       | 5817      |\n",
      "|    total_timesteps    | 1081000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0421   |\n",
      "|    value_loss         | 0.00279   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 216300   |\n",
      "|    time_elapsed       | 5820     |\n",
      "|    total_timesteps    | 1081500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0625  |\n",
      "|    value_loss         | 0.003    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 216400   |\n",
      "|    time_elapsed       | 5823     |\n",
      "|    total_timesteps    | 1082000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00294  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 216500   |\n",
      "|    time_elapsed       | 5825     |\n",
      "|    total_timesteps    | 1082500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.934    |\n",
      "|    value_loss         | 0.691    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 216600   |\n",
      "|    time_elapsed       | 5828     |\n",
      "|    total_timesteps    | 1083000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.315    |\n",
      "|    value_loss         | 0.172    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 216700   |\n",
      "|    time_elapsed       | 5830     |\n",
      "|    total_timesteps    | 1083500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0458  |\n",
      "|    value_loss         | 0.00283  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 546       |\n",
      "|    ep_rew_mean        | 20.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 216800    |\n",
      "|    time_elapsed       | 5833      |\n",
      "|    total_timesteps    | 1084000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.312     |\n",
      "|    value_loss         | 0.171     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 216900   |\n",
      "|    time_elapsed       | 5835     |\n",
      "|    total_timesteps    | 1084500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0626  |\n",
      "|    value_loss         | 0.0027   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 217000   |\n",
      "|    time_elapsed       | 5838     |\n",
      "|    total_timesteps    | 1085000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0588  |\n",
      "|    value_loss         | 0.00259  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 217100   |\n",
      "|    time_elapsed       | 5840     |\n",
      "|    total_timesteps    | 1085500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.975    |\n",
      "|    value_loss         | 0.516    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 217200   |\n",
      "|    time_elapsed       | 5843     |\n",
      "|    total_timesteps    | 1086000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.24     |\n",
      "|    value_loss         | 0.872    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 217300   |\n",
      "|    time_elapsed       | 5846     |\n",
      "|    total_timesteps    | 1086500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.123    |\n",
      "|    value_loss         | 0.172    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 217400   |\n",
      "|    time_elapsed       | 5848     |\n",
      "|    total_timesteps    | 1087000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0683  |\n",
      "|    value_loss         | 0.00275  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 217500   |\n",
      "|    time_elapsed       | 5851     |\n",
      "|    total_timesteps    | 1087500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0597  |\n",
      "|    value_loss         | 0.00265  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 20.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 217600    |\n",
      "|    time_elapsed       | 5854      |\n",
      "|    total_timesteps    | 1088000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0558   |\n",
      "|    value_loss         | 0.00247   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 20.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 217700    |\n",
      "|    time_elapsed       | 5856      |\n",
      "|    total_timesteps    | 1088500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.05     |\n",
      "|    value_loss         | 0.00261   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 217800   |\n",
      "|    time_elapsed       | 5859     |\n",
      "|    total_timesteps    | 1089000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0556  |\n",
      "|    value_loss         | 0.00259  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 217900   |\n",
      "|    time_elapsed       | 5861     |\n",
      "|    total_timesteps    | 1089500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0612  |\n",
      "|    value_loss         | 0.00244  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 218000   |\n",
      "|    time_elapsed       | 5864     |\n",
      "|    total_timesteps    | 1090000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0977  |\n",
      "|    value_loss         | 0.00261  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 545       |\n",
      "|    ep_rew_mean        | 20.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 218100    |\n",
      "|    time_elapsed       | 5867      |\n",
      "|    total_timesteps    | 1090500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0665   |\n",
      "|    value_loss         | 0.00254   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 218200   |\n",
      "|    time_elapsed       | 5869     |\n",
      "|    total_timesteps    | 1091000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.657    |\n",
      "|    value_loss         | 0.52     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 218300   |\n",
      "|    time_elapsed       | 5872     |\n",
      "|    total_timesteps    | 1091500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.078   |\n",
      "|    value_loss         | 0.00249  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 218400   |\n",
      "|    time_elapsed       | 5874     |\n",
      "|    total_timesteps    | 1092000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.068   |\n",
      "|    value_loss         | 0.00241  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 218500   |\n",
      "|    time_elapsed       | 5877     |\n",
      "|    total_timesteps    | 1092500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.32     |\n",
      "|    value_loss         | 0.173    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 218600   |\n",
      "|    time_elapsed       | 5879     |\n",
      "|    total_timesteps    | 1093000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.04    |\n",
      "|    value_loss         | 0.00245  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 218700   |\n",
      "|    time_elapsed       | 5882     |\n",
      "|    total_timesteps    | 1093500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0448  |\n",
      "|    value_loss         | 0.00249  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 218800   |\n",
      "|    time_elapsed       | 5885     |\n",
      "|    total_timesteps    | 1094000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0552  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 218900   |\n",
      "|    time_elapsed       | 5887     |\n",
      "|    total_timesteps    | 1094500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0585  |\n",
      "|    value_loss         | 0.00248  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 545       |\n",
      "|    ep_rew_mean        | 20.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 219000    |\n",
      "|    time_elapsed       | 5890      |\n",
      "|    total_timesteps    | 1095000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0595   |\n",
      "|    value_loss         | 0.0025    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 219100   |\n",
      "|    time_elapsed       | 5892     |\n",
      "|    total_timesteps    | 1095500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.575    |\n",
      "|    value_loss         | 0.517    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 219200   |\n",
      "|    time_elapsed       | 5895     |\n",
      "|    total_timesteps    | 1096000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0471  |\n",
      "|    value_loss         | 0.00262  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 219300   |\n",
      "|    time_elapsed       | 5897     |\n",
      "|    total_timesteps    | 1096500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.554    |\n",
      "|    value_loss         | 0.344    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 219400   |\n",
      "|    time_elapsed       | 5900     |\n",
      "|    total_timesteps    | 1097000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0577  |\n",
      "|    value_loss         | 0.00259  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 219500   |\n",
      "|    time_elapsed       | 5902     |\n",
      "|    total_timesteps    | 1097500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0429  |\n",
      "|    value_loss         | 0.00248  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 219600   |\n",
      "|    time_elapsed       | 5905     |\n",
      "|    total_timesteps    | 1098000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0492  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 219700   |\n",
      "|    time_elapsed       | 5908     |\n",
      "|    total_timesteps    | 1098500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.00234  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 219800   |\n",
      "|    time_elapsed       | 5910     |\n",
      "|    total_timesteps    | 1099000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0734  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 219900   |\n",
      "|    time_elapsed       | 5913     |\n",
      "|    total_timesteps    | 1099500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0438  |\n",
      "|    value_loss         | 0.00249  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 220000   |\n",
      "|    time_elapsed       | 5915     |\n",
      "|    total_timesteps    | 1100000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0465  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 220100   |\n",
      "|    time_elapsed       | 5918     |\n",
      "|    total_timesteps    | 1100500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.06    |\n",
      "|    value_loss         | 0.00251  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 220200   |\n",
      "|    time_elapsed       | 5920     |\n",
      "|    total_timesteps    | 1101000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0616  |\n",
      "|    value_loss         | 0.00252  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 547       |\n",
      "|    ep_rew_mean        | 21.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 220300    |\n",
      "|    time_elapsed       | 5923      |\n",
      "|    total_timesteps    | 1101500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0418   |\n",
      "|    value_loss         | 0.00255   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 220400   |\n",
      "|    time_elapsed       | 5926     |\n",
      "|    total_timesteps    | 1102000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.791    |\n",
      "|    value_loss         | 0.693    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 549      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 220500   |\n",
      "|    time_elapsed       | 5928     |\n",
      "|    total_timesteps    | 1102500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.835    |\n",
      "|    value_loss         | 0.695    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 220600   |\n",
      "|    time_elapsed       | 5931     |\n",
      "|    total_timesteps    | 1103000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.86     |\n",
      "|    value_loss         | 0.876    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 548       |\n",
      "|    ep_rew_mean        | 21.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 220700    |\n",
      "|    time_elapsed       | 5933      |\n",
      "|    total_timesteps    | 1103500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.26     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.769     |\n",
      "|    value_loss         | 0.52      |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 548       |\n",
      "|    ep_rew_mean        | 21        |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 220800    |\n",
      "|    time_elapsed       | 5936      |\n",
      "|    total_timesteps    | 1104000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.356     |\n",
      "|    value_loss         | 0.346     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 220900   |\n",
      "|    time_elapsed       | 5939     |\n",
      "|    total_timesteps    | 1104500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.064   |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 221000   |\n",
      "|    time_elapsed       | 5941     |\n",
      "|    total_timesteps    | 1105000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.3      |\n",
      "|    value_loss         | 1.43     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 221100   |\n",
      "|    time_elapsed       | 5944     |\n",
      "|    total_timesteps    | 1105500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0612  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 221200   |\n",
      "|    time_elapsed       | 5946     |\n",
      "|    total_timesteps    | 1106000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0432  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 547       |\n",
      "|    ep_rew_mean        | 20.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 221300    |\n",
      "|    time_elapsed       | 5949      |\n",
      "|    total_timesteps    | 1106500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.27     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.795     |\n",
      "|    value_loss         | 0.7       |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 221400   |\n",
      "|    time_elapsed       | 5951     |\n",
      "|    total_timesteps    | 1107000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.71     |\n",
      "|    value_loss         | 2.38     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 221500   |\n",
      "|    time_elapsed       | 5954     |\n",
      "|    total_timesteps    | 1107500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0703  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 221600   |\n",
      "|    time_elapsed       | 5957     |\n",
      "|    total_timesteps    | 1108000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0625  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 221700   |\n",
      "|    time_elapsed       | 5959     |\n",
      "|    total_timesteps    | 1108500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0603  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 221800   |\n",
      "|    time_elapsed       | 5962     |\n",
      "|    total_timesteps    | 1109000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.27    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.17     |\n",
      "|    value_loss         | 1.26     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 221900   |\n",
      "|    time_elapsed       | 5964     |\n",
      "|    total_timesteps    | 1109500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0507  |\n",
      "|    value_loss         | 0.00245  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 543       |\n",
      "|    ep_rew_mean        | 20.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 222000    |\n",
      "|    time_elapsed       | 5967      |\n",
      "|    total_timesteps    | 1110000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.25     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0613   |\n",
      "|    value_loss         | 0.00248   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 222100   |\n",
      "|    time_elapsed       | 5970     |\n",
      "|    total_timesteps    | 1110500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.16     |\n",
      "|    value_loss         | 0.874    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 222200   |\n",
      "|    time_elapsed       | 5972     |\n",
      "|    total_timesteps    | 1111000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0563  |\n",
      "|    value_loss         | 0.00263  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 222300   |\n",
      "|    time_elapsed       | 5975     |\n",
      "|    total_timesteps    | 1111500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0462  |\n",
      "|    value_loss         | 0.00268  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 222400   |\n",
      "|    time_elapsed       | 5977     |\n",
      "|    total_timesteps    | 1112000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00271  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 222500   |\n",
      "|    time_elapsed       | 5980     |\n",
      "|    total_timesteps    | 1112500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0662  |\n",
      "|    value_loss         | 0.00271  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 222600   |\n",
      "|    time_elapsed       | 5983     |\n",
      "|    total_timesteps    | 1113000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0704  |\n",
      "|    value_loss         | 0.00272  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 222700   |\n",
      "|    time_elapsed       | 5985     |\n",
      "|    total_timesteps    | 1113500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0477  |\n",
      "|    value_loss         | 0.00256  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 222800   |\n",
      "|    time_elapsed       | 5988     |\n",
      "|    total_timesteps    | 1114000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0697  |\n",
      "|    value_loss         | 0.00264  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 222900   |\n",
      "|    time_elapsed       | 5990     |\n",
      "|    total_timesteps    | 1114500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.344    |\n",
      "|    value_loss         | 0.172    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 223000   |\n",
      "|    time_elapsed       | 5993     |\n",
      "|    total_timesteps    | 1115000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.073   |\n",
      "|    value_loss         | 0.00259  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 223100   |\n",
      "|    time_elapsed       | 5996     |\n",
      "|    total_timesteps    | 1115500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0508  |\n",
      "|    value_loss         | 0.00253  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 223200   |\n",
      "|    time_elapsed       | 5998     |\n",
      "|    total_timesteps    | 1116000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.29     |\n",
      "|    value_loss         | 1.43     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 223300   |\n",
      "|    time_elapsed       | 6001     |\n",
      "|    total_timesteps    | 1116500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.044   |\n",
      "|    value_loss         | 0.00249  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 223400   |\n",
      "|    time_elapsed       | 6003     |\n",
      "|    total_timesteps    | 1117000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0748  |\n",
      "|    value_loss         | 0.00257  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 223500   |\n",
      "|    time_elapsed       | 6006     |\n",
      "|    total_timesteps    | 1117500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0501  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 543       |\n",
      "|    ep_rew_mean        | 20.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 223600    |\n",
      "|    time_elapsed       | 6009      |\n",
      "|    total_timesteps    | 1118000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0428   |\n",
      "|    value_loss         | 0.00241   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 223700   |\n",
      "|    time_elapsed       | 6011     |\n",
      "|    total_timesteps    | 1118500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0667  |\n",
      "|    value_loss         | 0.0025   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 223800   |\n",
      "|    time_elapsed       | 6014     |\n",
      "|    total_timesteps    | 1119000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0605  |\n",
      "|    value_loss         | 0.00245  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 20.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 223900    |\n",
      "|    time_elapsed       | 6016      |\n",
      "|    total_timesteps    | 1119500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.124     |\n",
      "|    value_loss         | 0.172     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 224000   |\n",
      "|    time_elapsed       | 6019     |\n",
      "|    total_timesteps    | 1120000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0373  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 224100   |\n",
      "|    time_elapsed       | 6021     |\n",
      "|    total_timesteps    | 1120500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0643  |\n",
      "|    value_loss         | 0.00254  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 224200   |\n",
      "|    time_elapsed       | 6024     |\n",
      "|    total_timesteps    | 1121000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0443  |\n",
      "|    value_loss         | 0.00251  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 224300   |\n",
      "|    time_elapsed       | 6026     |\n",
      "|    total_timesteps    | 1121500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0607  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 224400   |\n",
      "|    time_elapsed       | 6029     |\n",
      "|    total_timesteps    | 1122000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 224500   |\n",
      "|    time_elapsed       | 6032     |\n",
      "|    total_timesteps    | 1122500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0472  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 224600   |\n",
      "|    time_elapsed       | 6034     |\n",
      "|    total_timesteps    | 1123000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0587  |\n",
      "|    value_loss         | 0.00249  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 224700   |\n",
      "|    time_elapsed       | 6037     |\n",
      "|    total_timesteps    | 1123500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0572  |\n",
      "|    value_loss         | 0.00256  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 224800   |\n",
      "|    time_elapsed       | 6039     |\n",
      "|    total_timesteps    | 1124000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.044   |\n",
      "|    value_loss         | 0.00259  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 224900   |\n",
      "|    time_elapsed       | 6042     |\n",
      "|    total_timesteps    | 1124500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0407  |\n",
      "|    value_loss         | 0.00268  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=1125000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 1125000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0505  |\n",
      "|    value_loss         | 0.00282  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 540      |\n",
      "|    ep_rew_mean     | 20.7     |\n",
      "| time/              |          |\n",
      "|    fps             | 185      |\n",
      "|    iterations      | 225000   |\n",
      "|    time_elapsed    | 6056     |\n",
      "|    total_timesteps | 1125000  |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 225100   |\n",
      "|    time_elapsed       | 6061     |\n",
      "|    total_timesteps    | 1125500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0514  |\n",
      "|    value_loss         | 0.00288  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 225200   |\n",
      "|    time_elapsed       | 6063     |\n",
      "|    total_timesteps    | 1126000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0768  |\n",
      "|    value_loss         | 0.0028   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 225300   |\n",
      "|    time_elapsed       | 6066     |\n",
      "|    total_timesteps    | 1126500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.11    |\n",
      "|    value_loss         | 0.00284  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 225400   |\n",
      "|    time_elapsed       | 6069     |\n",
      "|    total_timesteps    | 1127000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0466  |\n",
      "|    value_loss         | 0.00275  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 542       |\n",
      "|    ep_rew_mean        | 20.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 225500    |\n",
      "|    time_elapsed       | 6071      |\n",
      "|    total_timesteps    | 1127500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0623   |\n",
      "|    value_loss         | 0.00267   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 225600   |\n",
      "|    time_elapsed       | 6074     |\n",
      "|    total_timesteps    | 1128000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0676  |\n",
      "|    value_loss         | 0.00298  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 225700   |\n",
      "|    time_elapsed       | 6076     |\n",
      "|    total_timesteps    | 1128500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.061   |\n",
      "|    value_loss         | 0.00297  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 225800   |\n",
      "|    time_elapsed       | 6079     |\n",
      "|    total_timesteps    | 1129000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0632  |\n",
      "|    value_loss         | 0.00298  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 225900   |\n",
      "|    time_elapsed       | 6081     |\n",
      "|    total_timesteps    | 1129500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.485    |\n",
      "|    value_loss         | 0.512    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 226000   |\n",
      "|    time_elapsed       | 6084     |\n",
      "|    total_timesteps    | 1130000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0712  |\n",
      "|    value_loss         | 0.00303  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 226100   |\n",
      "|    time_elapsed       | 6087     |\n",
      "|    total_timesteps    | 1130500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0774  |\n",
      "|    value_loss         | 0.00297  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 226200   |\n",
      "|    time_elapsed       | 6089     |\n",
      "|    total_timesteps    | 1131000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0428  |\n",
      "|    value_loss         | 0.00301  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 226300   |\n",
      "|    time_elapsed       | 6092     |\n",
      "|    total_timesteps    | 1131500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0537  |\n",
      "|    value_loss         | 0.00293  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 20.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 226400    |\n",
      "|    time_elapsed       | 6094      |\n",
      "|    total_timesteps    | 1132000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0522   |\n",
      "|    value_loss         | 0.00273   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 20.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 226500    |\n",
      "|    time_elapsed       | 6097      |\n",
      "|    total_timesteps    | 1132500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.969    |\n",
      "|    value_loss         | 1.54      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 226600   |\n",
      "|    time_elapsed       | 6099     |\n",
      "|    total_timesteps    | 1133000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.55     |\n",
      "|    value_loss         | 0.874    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 226700   |\n",
      "|    time_elapsed       | 6102     |\n",
      "|    total_timesteps    | 1133500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.04     |\n",
      "|    value_loss         | 2.54     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 226800   |\n",
      "|    time_elapsed       | 6105     |\n",
      "|    total_timesteps    | 1134000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0846  |\n",
      "|    value_loss         | 0.00258  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 226900   |\n",
      "|    time_elapsed       | 6107     |\n",
      "|    total_timesteps    | 1134500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0538  |\n",
      "|    value_loss         | 0.0025   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 227000   |\n",
      "|    time_elapsed       | 6110     |\n",
      "|    total_timesteps    | 1135000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0386  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 227100   |\n",
      "|    time_elapsed       | 6112     |\n",
      "|    total_timesteps    | 1135500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.597    |\n",
      "|    value_loss         | 0.345    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 227200   |\n",
      "|    time_elapsed       | 6115     |\n",
      "|    total_timesteps    | 1136000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.00238  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 20.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 227300    |\n",
      "|    time_elapsed       | 6118      |\n",
      "|    total_timesteps    | 1136500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0729   |\n",
      "|    value_loss         | 0.00236   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 227400   |\n",
      "|    time_elapsed       | 6120     |\n",
      "|    total_timesteps    | 1137000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | nan      |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -1.68    |\n",
      "|    value_loss         | 2.17     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 227500   |\n",
      "|    time_elapsed       | 6123     |\n",
      "|    total_timesteps    | 1137500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0384  |\n",
      "|    value_loss         | 0.00244  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 227600   |\n",
      "|    time_elapsed       | 6125     |\n",
      "|    total_timesteps    | 1138000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0574  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 227700   |\n",
      "|    time_elapsed       | 6128     |\n",
      "|    total_timesteps    | 1138500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0736  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 20.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 227800    |\n",
      "|    time_elapsed       | 6130      |\n",
      "|    total_timesteps    | 1139000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0379   |\n",
      "|    value_loss         | 0.00246   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 227900   |\n",
      "|    time_elapsed       | 6133     |\n",
      "|    total_timesteps    | 1139500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.095    |\n",
      "|    value_loss         | 0.173    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 228000   |\n",
      "|    time_elapsed       | 6136     |\n",
      "|    total_timesteps    | 1140000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0486  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 20.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 228100    |\n",
      "|    time_elapsed       | 6138      |\n",
      "|    total_timesteps    | 1140500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0516   |\n",
      "|    value_loss         | 0.00237   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 20.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 228200    |\n",
      "|    time_elapsed       | 6141      |\n",
      "|    total_timesteps    | 1141000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.041    |\n",
      "|    value_loss         | 0.00243   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 228300   |\n",
      "|    time_elapsed       | 6143     |\n",
      "|    total_timesteps    | 1141500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0597  |\n",
      "|    value_loss         | 0.00241  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 228400   |\n",
      "|    time_elapsed       | 6146     |\n",
      "|    total_timesteps    | 1142000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0378  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 228500   |\n",
      "|    time_elapsed       | 6148     |\n",
      "|    total_timesteps    | 1142500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0605  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 228600   |\n",
      "|    time_elapsed       | 6151     |\n",
      "|    total_timesteps    | 1143000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0555  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 228700   |\n",
      "|    time_elapsed       | 6154     |\n",
      "|    total_timesteps    | 1143500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.061   |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 228800   |\n",
      "|    time_elapsed       | 6156     |\n",
      "|    total_timesteps    | 1144000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0388  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 228900   |\n",
      "|    time_elapsed       | 6159     |\n",
      "|    total_timesteps    | 1144500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0578  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 229000   |\n",
      "|    time_elapsed       | 6161     |\n",
      "|    total_timesteps    | 1145000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0526  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 229100   |\n",
      "|    time_elapsed       | 6164     |\n",
      "|    total_timesteps    | 1145500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0422  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 229200   |\n",
      "|    time_elapsed       | 6166     |\n",
      "|    total_timesteps    | 1146000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0448  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 229300   |\n",
      "|    time_elapsed       | 6169     |\n",
      "|    total_timesteps    | 1146500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.938    |\n",
      "|    value_loss         | 0.524    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 229400   |\n",
      "|    time_elapsed       | 6172     |\n",
      "|    total_timesteps    | 1147000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0501  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 229500   |\n",
      "|    time_elapsed       | 6174     |\n",
      "|    total_timesteps    | 1147500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0536  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 229600   |\n",
      "|    time_elapsed       | 6177     |\n",
      "|    total_timesteps    | 1148000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0552  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 229700   |\n",
      "|    time_elapsed       | 6179     |\n",
      "|    total_timesteps    | 1148500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0314  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 229800   |\n",
      "|    time_elapsed       | 6182     |\n",
      "|    total_timesteps    | 1149000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0527  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 527       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 229900    |\n",
      "|    time_elapsed       | 6185      |\n",
      "|    total_timesteps    | 1149500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0465   |\n",
      "|    value_loss         | 0.00218   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 230000   |\n",
      "|    time_elapsed       | 6187     |\n",
      "|    total_timesteps    | 1150000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0464  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 230100   |\n",
      "|    time_elapsed       | 6190     |\n",
      "|    total_timesteps    | 1150500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0502  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 230200   |\n",
      "|    time_elapsed       | 6192     |\n",
      "|    total_timesteps    | 1151000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0531  |\n",
      "|    value_loss         | 0.00235  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 230300   |\n",
      "|    time_elapsed       | 6195     |\n",
      "|    total_timesteps    | 1151500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0444  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 230400   |\n",
      "|    time_elapsed       | 6197     |\n",
      "|    total_timesteps    | 1152000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0725  |\n",
      "|    value_loss         | 0.00245  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 230500   |\n",
      "|    time_elapsed       | 6200     |\n",
      "|    total_timesteps    | 1152500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0835  |\n",
      "|    value_loss         | 0.00243  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 230600   |\n",
      "|    time_elapsed       | 6202     |\n",
      "|    total_timesteps    | 1153000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0444  |\n",
      "|    value_loss         | 0.00263  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 230700   |\n",
      "|    time_elapsed       | 6205     |\n",
      "|    total_timesteps    | 1153500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0492  |\n",
      "|    value_loss         | 0.00244  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 230800   |\n",
      "|    time_elapsed       | 6207     |\n",
      "|    total_timesteps    | 1154000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.049   |\n",
      "|    value_loss         | 0.00245  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 230900   |\n",
      "|    time_elapsed       | 6210     |\n",
      "|    total_timesteps    | 1154500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0487  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 231000   |\n",
      "|    time_elapsed       | 6213     |\n",
      "|    total_timesteps    | 1155000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0648  |\n",
      "|    value_loss         | 0.00268  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 529       |\n",
      "|    ep_rew_mean        | 19.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 231100    |\n",
      "|    time_elapsed       | 6215      |\n",
      "|    total_timesteps    | 1155500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0542   |\n",
      "|    value_loss         | 0.00273   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 231200   |\n",
      "|    time_elapsed       | 6218     |\n",
      "|    total_timesteps    | 1156000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0436  |\n",
      "|    value_loss         | 0.00269  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 231300   |\n",
      "|    time_elapsed       | 6220     |\n",
      "|    total_timesteps    | 1156500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.55     |\n",
      "|    value_loss         | 1.25     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 231400   |\n",
      "|    time_elapsed       | 6223     |\n",
      "|    total_timesteps    | 1157000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0472  |\n",
      "|    value_loss         | 0.00262  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 231500   |\n",
      "|    time_elapsed       | 6226     |\n",
      "|    total_timesteps    | 1157500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0492  |\n",
      "|    value_loss         | 0.00258  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 231600   |\n",
      "|    time_elapsed       | 6228     |\n",
      "|    total_timesteps    | 1158000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0684  |\n",
      "|    value_loss         | 0.0026   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 231700   |\n",
      "|    time_elapsed       | 6231     |\n",
      "|    total_timesteps    | 1158500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.425    |\n",
      "|    value_loss         | 0.345    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 231800   |\n",
      "|    time_elapsed       | 6233     |\n",
      "|    total_timesteps    | 1159000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.041   |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 231900   |\n",
      "|    time_elapsed       | 6236     |\n",
      "|    total_timesteps    | 1159500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0731  |\n",
      "|    value_loss         | 0.00242  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 232000   |\n",
      "|    time_elapsed       | 6238     |\n",
      "|    total_timesteps    | 1160000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0387  |\n",
      "|    value_loss         | 0.00244  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 232100   |\n",
      "|    time_elapsed       | 6241     |\n",
      "|    total_timesteps    | 1160500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0501  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 529       |\n",
      "|    ep_rew_mean        | 19.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 232200    |\n",
      "|    time_elapsed       | 6244      |\n",
      "|    total_timesteps    | 1161000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.066    |\n",
      "|    value_loss         | 0.00251   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 232300   |\n",
      "|    time_elapsed       | 6246     |\n",
      "|    total_timesteps    | 1161500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0551  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 232400   |\n",
      "|    time_elapsed       | 6249     |\n",
      "|    total_timesteps    | 1162000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0476  |\n",
      "|    value_loss         | 0.00251  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 531       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 232500    |\n",
      "|    time_elapsed       | 6251      |\n",
      "|    total_timesteps    | 1162500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0372   |\n",
      "|    value_loss         | 0.00276   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 232600   |\n",
      "|    time_elapsed       | 6254     |\n",
      "|    total_timesteps    | 1163000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.31     |\n",
      "|    value_loss         | 3.1      |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 232700   |\n",
      "|    time_elapsed       | 6257     |\n",
      "|    total_timesteps    | 1163500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0734  |\n",
      "|    value_loss         | 0.00262  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 232800   |\n",
      "|    time_elapsed       | 6259     |\n",
      "|    total_timesteps    | 1164000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0386  |\n",
      "|    value_loss         | 0.0026   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 232900   |\n",
      "|    time_elapsed       | 6262     |\n",
      "|    total_timesteps    | 1164500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0918  |\n",
      "|    value_loss         | 0.00266  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 233000   |\n",
      "|    time_elapsed       | 6264     |\n",
      "|    total_timesteps    | 1165000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.054   |\n",
      "|    value_loss         | 0.00254  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 233100   |\n",
      "|    time_elapsed       | 6267     |\n",
      "|    total_timesteps    | 1165500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0469  |\n",
      "|    value_loss         | 0.00254  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 233200   |\n",
      "|    time_elapsed       | 6269     |\n",
      "|    total_timesteps    | 1166000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0349  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 233300   |\n",
      "|    time_elapsed       | 6272     |\n",
      "|    total_timesteps    | 1166500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0385  |\n",
      "|    value_loss         | 0.00248  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 233400   |\n",
      "|    time_elapsed       | 6275     |\n",
      "|    total_timesteps    | 1167000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0574  |\n",
      "|    value_loss         | 0.00249  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 233500   |\n",
      "|    time_elapsed       | 6277     |\n",
      "|    total_timesteps    | 1167500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0548  |\n",
      "|    value_loss         | 0.00238  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 233600   |\n",
      "|    time_elapsed       | 6280     |\n",
      "|    total_timesteps    | 1168000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0409  |\n",
      "|    value_loss         | 0.0025   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 233700   |\n",
      "|    time_elapsed       | 6283     |\n",
      "|    total_timesteps    | 1168500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.34     |\n",
      "|    value_loss         | 0.875    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 233800   |\n",
      "|    time_elapsed       | 6285     |\n",
      "|    total_timesteps    | 1169000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0563  |\n",
      "|    value_loss         | 0.00253  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 233900   |\n",
      "|    time_elapsed       | 6288     |\n",
      "|    total_timesteps    | 1169500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0518  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 234000   |\n",
      "|    time_elapsed       | 6290     |\n",
      "|    total_timesteps    | 1170000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.819    |\n",
      "|    value_loss         | 0.52     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 234100   |\n",
      "|    time_elapsed       | 6293     |\n",
      "|    total_timesteps    | 1170500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.672    |\n",
      "|    value_loss         | 0.517    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 234200   |\n",
      "|    time_elapsed       | 6295     |\n",
      "|    total_timesteps    | 1171000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0442  |\n",
      "|    value_loss         | 0.00284  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 234300   |\n",
      "|    time_elapsed       | 6298     |\n",
      "|    total_timesteps    | 1171500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0906  |\n",
      "|    value_loss         | 0.00272  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 234400   |\n",
      "|    time_elapsed       | 6300     |\n",
      "|    total_timesteps    | 1172000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.05     |\n",
      "|    value_loss         | 0.908    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 234500   |\n",
      "|    time_elapsed       | 6303     |\n",
      "|    total_timesteps    | 1172500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0889  |\n",
      "|    value_loss         | 0.00264  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 234600   |\n",
      "|    time_elapsed       | 6306     |\n",
      "|    total_timesteps    | 1173000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0557  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 234700   |\n",
      "|    time_elapsed       | 6308     |\n",
      "|    total_timesteps    | 1173500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0925  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 529       |\n",
      "|    ep_rew_mean        | 19.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 234800    |\n",
      "|    time_elapsed       | 6311      |\n",
      "|    total_timesteps    | 1174000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0415   |\n",
      "|    value_loss         | 0.00261   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 234900   |\n",
      "|    time_elapsed       | 6313     |\n",
      "|    total_timesteps    | 1174500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0498  |\n",
      "|    value_loss         | 0.00272  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 235000   |\n",
      "|    time_elapsed       | 6316     |\n",
      "|    total_timesteps    | 1175000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0629  |\n",
      "|    value_loss         | 0.00283  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 235100   |\n",
      "|    time_elapsed       | 6318     |\n",
      "|    total_timesteps    | 1175500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.066   |\n",
      "|    value_loss         | 0.00277  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 235200   |\n",
      "|    time_elapsed       | 6321     |\n",
      "|    total_timesteps    | 1176000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0602  |\n",
      "|    value_loss         | 0.00274  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 235300   |\n",
      "|    time_elapsed       | 6324     |\n",
      "|    total_timesteps    | 1176500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.14     |\n",
      "|    value_loss         | 3.1      |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 20.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 235400    |\n",
      "|    time_elapsed       | 6326      |\n",
      "|    total_timesteps    | 1177000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0761   |\n",
      "|    value_loss         | 0.00269   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 235500   |\n",
      "|    time_elapsed       | 6329     |\n",
      "|    total_timesteps    | 1177500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.06    |\n",
      "|    value_loss         | 0.00262  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 235600    |\n",
      "|    time_elapsed       | 6331      |\n",
      "|    total_timesteps    | 1178000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0426   |\n",
      "|    value_loss         | 0.00259   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 235700   |\n",
      "|    time_elapsed       | 6334     |\n",
      "|    total_timesteps    | 1178500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0606  |\n",
      "|    value_loss         | 0.00285  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 235800   |\n",
      "|    time_elapsed       | 6337     |\n",
      "|    total_timesteps    | 1179000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0442  |\n",
      "|    value_loss         | 0.0029   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 235900   |\n",
      "|    time_elapsed       | 6339     |\n",
      "|    total_timesteps    | 1179500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.856    |\n",
      "|    value_loss         | 0.513    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 236000   |\n",
      "|    time_elapsed       | 6342     |\n",
      "|    total_timesteps    | 1180000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0832  |\n",
      "|    value_loss         | 0.00288  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 20.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 236100    |\n",
      "|    time_elapsed       | 6344      |\n",
      "|    total_timesteps    | 1180500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.03      |\n",
      "|    value_loss         | 0.869     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 236200   |\n",
      "|    time_elapsed       | 6347     |\n",
      "|    total_timesteps    | 1181000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0536  |\n",
      "|    value_loss         | 0.00307  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 236300   |\n",
      "|    time_elapsed       | 6349     |\n",
      "|    total_timesteps    | 1181500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0496  |\n",
      "|    value_loss         | 0.00281  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 236400   |\n",
      "|    time_elapsed       | 6352     |\n",
      "|    total_timesteps    | 1182000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0817  |\n",
      "|    value_loss         | 0.00293  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 236500   |\n",
      "|    time_elapsed       | 6355     |\n",
      "|    total_timesteps    | 1182500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0747  |\n",
      "|    value_loss         | 0.00277  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 19.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 236600    |\n",
      "|    time_elapsed       | 6357      |\n",
      "|    total_timesteps    | 1183000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0497   |\n",
      "|    value_loss         | 0.00262   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 236700   |\n",
      "|    time_elapsed       | 6360     |\n",
      "|    total_timesteps    | 1183500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0428  |\n",
      "|    value_loss         | 0.00257  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 236800   |\n",
      "|    time_elapsed       | 6363     |\n",
      "|    total_timesteps    | 1184000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0499  |\n",
      "|    value_loss         | 0.00264  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 236900   |\n",
      "|    time_elapsed       | 6365     |\n",
      "|    total_timesteps    | 1184500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.063   |\n",
      "|    value_loss         | 0.0027   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 237000   |\n",
      "|    time_elapsed       | 6368     |\n",
      "|    total_timesteps    | 1185000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.566    |\n",
      "|    value_loss         | 0.517    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 529       |\n",
      "|    ep_rew_mean        | 19.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 237100    |\n",
      "|    time_elapsed       | 6370      |\n",
      "|    total_timesteps    | 1185500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0369   |\n",
      "|    value_loss         | 0.00261   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 237200   |\n",
      "|    time_elapsed       | 6373     |\n",
      "|    total_timesteps    | 1186000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.03     |\n",
      "|    value_loss         | 0.875    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 237300   |\n",
      "|    time_elapsed       | 6375     |\n",
      "|    total_timesteps    | 1186500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.062   |\n",
      "|    value_loss         | 0.00264  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 237400   |\n",
      "|    time_elapsed       | 6378     |\n",
      "|    total_timesteps    | 1187000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0454  |\n",
      "|    value_loss         | 0.00257  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 20       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 237500   |\n",
      "|    time_elapsed       | 6381     |\n",
      "|    total_timesteps    | 1187500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0602  |\n",
      "|    value_loss         | 0.00274  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 20.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 237600    |\n",
      "|    time_elapsed       | 6383      |\n",
      "|    total_timesteps    | 1188000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.078    |\n",
      "|    value_loss         | 0.00271   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 237700   |\n",
      "|    time_elapsed       | 6386     |\n",
      "|    total_timesteps    | 1188500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0764  |\n",
      "|    value_loss         | 0.00268  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 237800   |\n",
      "|    time_elapsed       | 6388     |\n",
      "|    total_timesteps    | 1189000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0463  |\n",
      "|    value_loss         | 0.00287  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 237900   |\n",
      "|    time_elapsed       | 6391     |\n",
      "|    total_timesteps    | 1189500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.2      |\n",
      "|    value_loss         | 0.171    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 238000   |\n",
      "|    time_elapsed       | 6393     |\n",
      "|    total_timesteps    | 1190000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.343    |\n",
      "|    value_loss         | 0.343    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 238100   |\n",
      "|    time_elapsed       | 6396     |\n",
      "|    total_timesteps    | 1190500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0677  |\n",
      "|    value_loss         | 0.00269  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 238200   |\n",
      "|    time_elapsed       | 6399     |\n",
      "|    total_timesteps    | 1191000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0546  |\n",
      "|    value_loss         | 0.00276  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 20.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 238300    |\n",
      "|    time_elapsed       | 6401      |\n",
      "|    total_timesteps    | 1191500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0362   |\n",
      "|    value_loss         | 0.00265   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 238400   |\n",
      "|    time_elapsed       | 6404     |\n",
      "|    total_timesteps    | 1192000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.263    |\n",
      "|    value_loss         | 0.343    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 238500   |\n",
      "|    time_elapsed       | 6406     |\n",
      "|    total_timesteps    | 1192500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0427  |\n",
      "|    value_loss         | 0.00261  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 238600   |\n",
      "|    time_elapsed       | 6409     |\n",
      "|    total_timesteps    | 1193000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.964    |\n",
      "|    value_loss         | 1.25     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 238700   |\n",
      "|    time_elapsed       | 6412     |\n",
      "|    total_timesteps    | 1193500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0501  |\n",
      "|    value_loss         | 0.00281  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 238800   |\n",
      "|    time_elapsed       | 6414     |\n",
      "|    total_timesteps    | 1194000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0624  |\n",
      "|    value_loss         | 0.00266  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 238900   |\n",
      "|    time_elapsed       | 6417     |\n",
      "|    total_timesteps    | 1194500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0751  |\n",
      "|    value_loss         | 0.00266  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 239000   |\n",
      "|    time_elapsed       | 6419     |\n",
      "|    total_timesteps    | 1195000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0614  |\n",
      "|    value_loss         | 0.00279  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 239100   |\n",
      "|    time_elapsed       | 6422     |\n",
      "|    total_timesteps    | 1195500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0401  |\n",
      "|    value_loss         | 0.00275  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 239200   |\n",
      "|    time_elapsed       | 6424     |\n",
      "|    total_timesteps    | 1196000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.391    |\n",
      "|    value_loss         | 0.343    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 239300   |\n",
      "|    time_elapsed       | 6427     |\n",
      "|    total_timesteps    | 1196500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0648  |\n",
      "|    value_loss         | 0.00267  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 239400   |\n",
      "|    time_elapsed       | 6430     |\n",
      "|    total_timesteps    | 1197000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0691  |\n",
      "|    value_loss         | 0.00271  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 239500   |\n",
      "|    time_elapsed       | 6432     |\n",
      "|    total_timesteps    | 1197500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0455  |\n",
      "|    value_loss         | 0.00274  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 20.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 239600    |\n",
      "|    time_elapsed       | 6435      |\n",
      "|    total_timesteps    | 1198000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.062    |\n",
      "|    value_loss         | 0.00272   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 239700   |\n",
      "|    time_elapsed       | 6437     |\n",
      "|    total_timesteps    | 1198500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0427  |\n",
      "|    value_loss         | 0.00269  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 239800   |\n",
      "|    time_elapsed       | 6440     |\n",
      "|    total_timesteps    | 1199000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0467  |\n",
      "|    value_loss         | 0.00276  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 239900   |\n",
      "|    time_elapsed       | 6443     |\n",
      "|    total_timesteps    | 1199500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0705  |\n",
      "|    value_loss         | 0.0026   |\n",
      "------------------------------------\n",
      "Eval num_timesteps=1200000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 1200000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0479  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 539      |\n",
      "|    ep_rew_mean     | 20.7     |\n",
      "| time/              |          |\n",
      "|    fps             | 185      |\n",
      "|    iterations      | 240000   |\n",
      "|    time_elapsed    | 6456     |\n",
      "|    total_timesteps | 1200000  |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 240100   |\n",
      "|    time_elapsed       | 6458     |\n",
      "|    total_timesteps    | 1200500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0541  |\n",
      "|    value_loss         | 0.00258  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 240200   |\n",
      "|    time_elapsed       | 6461     |\n",
      "|    total_timesteps    | 1201000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0552  |\n",
      "|    value_loss         | 0.00266  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 240300   |\n",
      "|    time_elapsed       | 6463     |\n",
      "|    total_timesteps    | 1201500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0614  |\n",
      "|    value_loss         | 0.00271  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 240400   |\n",
      "|    time_elapsed       | 6466     |\n",
      "|    total_timesteps    | 1202000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.066   |\n",
      "|    value_loss         | 0.00253  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 240500   |\n",
      "|    time_elapsed       | 6469     |\n",
      "|    total_timesteps    | 1202500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.26     |\n",
      "|    value_loss         | 1.98     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 240600   |\n",
      "|    time_elapsed       | 6471     |\n",
      "|    total_timesteps    | 1203000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.712    |\n",
      "|    value_loss         | 0.692    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 240700   |\n",
      "|    time_elapsed       | 6474     |\n",
      "|    total_timesteps    | 1203500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0537  |\n",
      "|    value_loss         | 0.00262  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 240800   |\n",
      "|    time_elapsed       | 6476     |\n",
      "|    total_timesteps    | 1204000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.073   |\n",
      "|    value_loss         | 0.00266  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 240900   |\n",
      "|    time_elapsed       | 6479     |\n",
      "|    total_timesteps    | 1204500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 241000   |\n",
      "|    time_elapsed       | 6481     |\n",
      "|    total_timesteps    | 1205000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0582  |\n",
      "|    value_loss         | 0.00254  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 241100   |\n",
      "|    time_elapsed       | 6484     |\n",
      "|    total_timesteps    | 1205500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0678  |\n",
      "|    value_loss         | 0.00266  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 241200   |\n",
      "|    time_elapsed       | 6487     |\n",
      "|    total_timesteps    | 1206000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.357    |\n",
      "|    value_loss         | 0.171    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 241300   |\n",
      "|    time_elapsed       | 6489     |\n",
      "|    total_timesteps    | 1206500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.076   |\n",
      "|    value_loss         | 0.00279  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 241400   |\n",
      "|    time_elapsed       | 6492     |\n",
      "|    total_timesteps    | 1207000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0563  |\n",
      "|    value_loss         | 0.00281  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 241500   |\n",
      "|    time_elapsed       | 6494     |\n",
      "|    total_timesteps    | 1207500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0492  |\n",
      "|    value_loss         | 0.003    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 241600   |\n",
      "|    time_elapsed       | 6497     |\n",
      "|    total_timesteps    | 1208000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0494  |\n",
      "|    value_loss         | 0.00287  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 241700   |\n",
      "|    time_elapsed       | 6500     |\n",
      "|    total_timesteps    | 1208500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0454  |\n",
      "|    value_loss         | 0.00269  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 241800   |\n",
      "|    time_elapsed       | 6502     |\n",
      "|    total_timesteps    | 1209000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0524  |\n",
      "|    value_loss         | 0.00262  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 241900   |\n",
      "|    time_elapsed       | 6505     |\n",
      "|    total_timesteps    | 1209500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00286  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 242000   |\n",
      "|    time_elapsed       | 6507     |\n",
      "|    total_timesteps    | 1210000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0556  |\n",
      "|    value_loss         | 0.00287  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 242100   |\n",
      "|    time_elapsed       | 6510     |\n",
      "|    total_timesteps    | 1210500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.48     |\n",
      "|    value_loss         | 1.42     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 242200   |\n",
      "|    time_elapsed       | 6512     |\n",
      "|    total_timesteps    | 1211000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.19     |\n",
      "|    value_loss         | 1.07     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 242300   |\n",
      "|    time_elapsed       | 6515     |\n",
      "|    total_timesteps    | 1211500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0443  |\n",
      "|    value_loss         | 0.00275  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 242400   |\n",
      "|    time_elapsed       | 6518     |\n",
      "|    total_timesteps    | 1212000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.305    |\n",
      "|    value_loss         | 0.342    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 242500   |\n",
      "|    time_elapsed       | 6520     |\n",
      "|    total_timesteps    | 1212500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0674  |\n",
      "|    value_loss         | 0.00283  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 242600   |\n",
      "|    time_elapsed       | 6523     |\n",
      "|    total_timesteps    | 1213000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0455  |\n",
      "|    value_loss         | 0.00283  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 242700   |\n",
      "|    time_elapsed       | 6526     |\n",
      "|    total_timesteps    | 1213500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0766  |\n",
      "|    value_loss         | 0.00281  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 242800   |\n",
      "|    time_elapsed       | 6528     |\n",
      "|    total_timesteps    | 1214000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0491  |\n",
      "|    value_loss         | 0.00272  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 242900   |\n",
      "|    time_elapsed       | 6531     |\n",
      "|    total_timesteps    | 1214500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0632  |\n",
      "|    value_loss         | 0.00299  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 243000   |\n",
      "|    time_elapsed       | 6533     |\n",
      "|    total_timesteps    | 1215000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0697  |\n",
      "|    value_loss         | 0.00279  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 243100   |\n",
      "|    time_elapsed       | 6536     |\n",
      "|    total_timesteps    | 1215500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0692  |\n",
      "|    value_loss         | 0.00284  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 243200   |\n",
      "|    time_elapsed       | 6539     |\n",
      "|    total_timesteps    | 1216000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.00278  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 243300   |\n",
      "|    time_elapsed       | 6541     |\n",
      "|    total_timesteps    | 1216500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0459  |\n",
      "|    value_loss         | 0.0028   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 243400   |\n",
      "|    time_elapsed       | 6544     |\n",
      "|    total_timesteps    | 1217000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0499  |\n",
      "|    value_loss         | 0.00279  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 21.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 185       |\n",
      "|    iterations         | 243500    |\n",
      "|    time_elapsed       | 6546      |\n",
      "|    total_timesteps    | 1217500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0759   |\n",
      "|    value_loss         | 0.00297   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 243600   |\n",
      "|    time_elapsed       | 6549     |\n",
      "|    total_timesteps    | 1218000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0549  |\n",
      "|    value_loss         | 0.00304  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 243700   |\n",
      "|    time_elapsed       | 6552     |\n",
      "|    total_timesteps    | 1218500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0781  |\n",
      "|    value_loss         | 0.00299  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 243800   |\n",
      "|    time_elapsed       | 6554     |\n",
      "|    total_timesteps    | 1219000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0995  |\n",
      "|    value_loss         | 0.00289  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 243900   |\n",
      "|    time_elapsed       | 6557     |\n",
      "|    total_timesteps    | 1219500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.00282  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 244000   |\n",
      "|    time_elapsed       | 6560     |\n",
      "|    total_timesteps    | 1220000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0531  |\n",
      "|    value_loss         | 0.00281  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 244100   |\n",
      "|    time_elapsed       | 6562     |\n",
      "|    total_timesteps    | 1220500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.313    |\n",
      "|    value_loss         | 0.342    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 244200   |\n",
      "|    time_elapsed       | 6565     |\n",
      "|    total_timesteps    | 1221000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0661  |\n",
      "|    value_loss         | 0.00295  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 244300   |\n",
      "|    time_elapsed       | 6567     |\n",
      "|    total_timesteps    | 1221500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.932   |\n",
      "|    value_loss         | 1.61     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 244400   |\n",
      "|    time_elapsed       | 6570     |\n",
      "|    total_timesteps    | 1222000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0461  |\n",
      "|    value_loss         | 0.00283  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 244500   |\n",
      "|    time_elapsed       | 6572     |\n",
      "|    total_timesteps    | 1222500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.25     |\n",
      "|    value_loss         | 1.98     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 244600   |\n",
      "|    time_elapsed       | 6575     |\n",
      "|    total_timesteps    | 1223000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0582  |\n",
      "|    value_loss         | 0.00301  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 244700   |\n",
      "|    time_elapsed       | 6578     |\n",
      "|    total_timesteps    | 1223500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.00301  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 244800   |\n",
      "|    time_elapsed       | 6580     |\n",
      "|    total_timesteps    | 1224000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0674  |\n",
      "|    value_loss         | 0.00286  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 244900   |\n",
      "|    time_elapsed       | 6583     |\n",
      "|    total_timesteps    | 1224500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0479  |\n",
      "|    value_loss         | 0.00294  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 245000   |\n",
      "|    time_elapsed       | 6586     |\n",
      "|    total_timesteps    | 1225000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.151    |\n",
      "|    value_loss         | 0.17     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 245100   |\n",
      "|    time_elapsed       | 6588     |\n",
      "|    total_timesteps    | 1225500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0626  |\n",
      "|    value_loss         | 0.00279  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 245200   |\n",
      "|    time_elapsed       | 6591     |\n",
      "|    total_timesteps    | 1226000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.00285  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 245300   |\n",
      "|    time_elapsed       | 6594     |\n",
      "|    total_timesteps    | 1226500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00283  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 21.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 245400    |\n",
      "|    time_elapsed       | 6596      |\n",
      "|    total_timesteps    | 1227000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0507   |\n",
      "|    value_loss         | 0.00293   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 245500   |\n",
      "|    time_elapsed       | 6599     |\n",
      "|    total_timesteps    | 1227500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0539  |\n",
      "|    value_loss         | 0.00297  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 245600   |\n",
      "|    time_elapsed       | 6602     |\n",
      "|    total_timesteps    | 1228000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0588  |\n",
      "|    value_loss         | 0.00288  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 245700   |\n",
      "|    time_elapsed       | 6604     |\n",
      "|    total_timesteps    | 1228500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0593  |\n",
      "|    value_loss         | 0.00288  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 245800   |\n",
      "|    time_elapsed       | 6607     |\n",
      "|    total_timesteps    | 1229000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0666  |\n",
      "|    value_loss         | 0.00291  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 245900   |\n",
      "|    time_elapsed       | 6609     |\n",
      "|    total_timesteps    | 1229500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0555  |\n",
      "|    value_loss         | 0.00271  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 246000   |\n",
      "|    time_elapsed       | 6612     |\n",
      "|    total_timesteps    | 1230000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0525  |\n",
      "|    value_loss         | 0.00268  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 246100   |\n",
      "|    time_elapsed       | 6615     |\n",
      "|    total_timesteps    | 1230500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0664  |\n",
      "|    value_loss         | 0.00274  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 246200   |\n",
      "|    time_elapsed       | 6617     |\n",
      "|    total_timesteps    | 1231000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.477    |\n",
      "|    value_loss         | 0.517    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 246300   |\n",
      "|    time_elapsed       | 6620     |\n",
      "|    total_timesteps    | 1231500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.052   |\n",
      "|    value_loss         | 0.00278  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 246400   |\n",
      "|    time_elapsed       | 6622     |\n",
      "|    total_timesteps    | 1232000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0559  |\n",
      "|    value_loss         | 0.00258  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 246500   |\n",
      "|    time_elapsed       | 6625     |\n",
      "|    total_timesteps    | 1232500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0593  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 533       |\n",
      "|    ep_rew_mean        | 21.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 246600    |\n",
      "|    time_elapsed       | 6628      |\n",
      "|    total_timesteps    | 1233000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0473   |\n",
      "|    value_loss         | 0.00256   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 246700   |\n",
      "|    time_elapsed       | 6630     |\n",
      "|    total_timesteps    | 1233500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.041   |\n",
      "|    value_loss         | 0.00251  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 246800   |\n",
      "|    time_elapsed       | 6633     |\n",
      "|    total_timesteps    | 1234000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0605  |\n",
      "|    value_loss         | 0.00256  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 246900   |\n",
      "|    time_elapsed       | 6635     |\n",
      "|    total_timesteps    | 1234500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0582  |\n",
      "|    value_loss         | 0.00244  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 247000   |\n",
      "|    time_elapsed       | 6638     |\n",
      "|    total_timesteps    | 1235000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0749  |\n",
      "|    value_loss         | 0.00255  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 247100   |\n",
      "|    time_elapsed       | 6641     |\n",
      "|    total_timesteps    | 1235500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.853    |\n",
      "|    value_loss         | 1.25     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 247200   |\n",
      "|    time_elapsed       | 6643     |\n",
      "|    total_timesteps    | 1236000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0673  |\n",
      "|    value_loss         | 0.00248  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 247300   |\n",
      "|    time_elapsed       | 6646     |\n",
      "|    total_timesteps    | 1236500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.053   |\n",
      "|    value_loss         | 0.00258  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 21.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 247400   |\n",
      "|    time_elapsed       | 6648     |\n",
      "|    total_timesteps    | 1237000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0727  |\n",
      "|    value_loss         | 0.00256  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 247500   |\n",
      "|    time_elapsed       | 6651     |\n",
      "|    total_timesteps    | 1237500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0421  |\n",
      "|    value_loss         | 0.00259  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 247600   |\n",
      "|    time_elapsed       | 6653     |\n",
      "|    total_timesteps    | 1238000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0514  |\n",
      "|    value_loss         | 0.00277  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 247700   |\n",
      "|    time_elapsed       | 6656     |\n",
      "|    total_timesteps    | 1238500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0682  |\n",
      "|    value_loss         | 0.00291  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 247800   |\n",
      "|    time_elapsed       | 6659     |\n",
      "|    total_timesteps    | 1239000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0573  |\n",
      "|    value_loss         | 0.00279  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 247900   |\n",
      "|    time_elapsed       | 6661     |\n",
      "|    total_timesteps    | 1239500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.579    |\n",
      "|    value_loss         | 0.342    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 248000   |\n",
      "|    time_elapsed       | 6664     |\n",
      "|    total_timesteps    | 1240000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 2.38e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00284  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 248100   |\n",
      "|    time_elapsed       | 6666     |\n",
      "|    total_timesteps    | 1240500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0659  |\n",
      "|    value_loss         | 0.00286  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 248200   |\n",
      "|    time_elapsed       | 6669     |\n",
      "|    total_timesteps    | 1241000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0673  |\n",
      "|    value_loss         | 0.00288  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 248300   |\n",
      "|    time_elapsed       | 6671     |\n",
      "|    total_timesteps    | 1241500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0512  |\n",
      "|    value_loss         | 0.00281  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 21.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 248400    |\n",
      "|    time_elapsed       | 6674      |\n",
      "|    total_timesteps    | 1242000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.533     |\n",
      "|    value_loss         | 0.341     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 248500   |\n",
      "|    time_elapsed       | 6677     |\n",
      "|    total_timesteps    | 1242500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0908  |\n",
      "|    value_loss         | 0.00297  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 248600   |\n",
      "|    time_elapsed       | 6679     |\n",
      "|    total_timesteps    | 1243000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0567  |\n",
      "|    value_loss         | 0.00283  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 248700   |\n",
      "|    time_elapsed       | 6682     |\n",
      "|    total_timesteps    | 1243500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0683  |\n",
      "|    value_loss         | 0.00297  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 248800   |\n",
      "|    time_elapsed       | 6684     |\n",
      "|    total_timesteps    | 1244000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0649  |\n",
      "|    value_loss         | 0.00307  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 21.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 248900    |\n",
      "|    time_elapsed       | 6687      |\n",
      "|    total_timesteps    | 1244500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0769   |\n",
      "|    value_loss         | 0.00303   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 249000   |\n",
      "|    time_elapsed       | 6690     |\n",
      "|    total_timesteps    | 1245000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0425  |\n",
      "|    value_loss         | 0.00288  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 249100   |\n",
      "|    time_elapsed       | 6692     |\n",
      "|    total_timesteps    | 1245500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0617  |\n",
      "|    value_loss         | 0.0028   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 249200   |\n",
      "|    time_elapsed       | 6695     |\n",
      "|    total_timesteps    | 1246000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0483  |\n",
      "|    value_loss         | 0.00284  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 249300   |\n",
      "|    time_elapsed       | 6697     |\n",
      "|    total_timesteps    | 1246500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.47     |\n",
      "|    value_loss         | 1.25     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 249400   |\n",
      "|    time_elapsed       | 6700     |\n",
      "|    total_timesteps    | 1247000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0591  |\n",
      "|    value_loss         | 0.00269  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 249500   |\n",
      "|    time_elapsed       | 6703     |\n",
      "|    total_timesteps    | 1247500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0521  |\n",
      "|    value_loss         | 0.00261  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 249600   |\n",
      "|    time_elapsed       | 6705     |\n",
      "|    total_timesteps    | 1248000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0671  |\n",
      "|    value_loss         | 0.00272  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 249700   |\n",
      "|    time_elapsed       | 6708     |\n",
      "|    total_timesteps    | 1248500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.065   |\n",
      "|    value_loss         | 0.00284  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 249800   |\n",
      "|    time_elapsed       | 6710     |\n",
      "|    total_timesteps    | 1249000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.03     |\n",
      "|    value_loss         | 1.42     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 249900   |\n",
      "|    time_elapsed       | 6713     |\n",
      "|    total_timesteps    | 1249500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | -1.5     |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -1.86    |\n",
      "|    value_loss         | 2.77     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 21.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 250000    |\n",
      "|    time_elapsed       | 6716      |\n",
      "|    total_timesteps    | 1250000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.06     |\n",
      "|    value_loss         | 0.00299   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 250100   |\n",
      "|    time_elapsed       | 6718     |\n",
      "|    total_timesteps    | 1250500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0462  |\n",
      "|    value_loss         | 0.00293  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 250200   |\n",
      "|    time_elapsed       | 6721     |\n",
      "|    total_timesteps    | 1251000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0448  |\n",
      "|    value_loss         | 0.00302  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 21.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 250300    |\n",
      "|    time_elapsed       | 6723      |\n",
      "|    total_timesteps    | 1251500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.063    |\n",
      "|    value_loss         | 0.0029    |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 250400   |\n",
      "|    time_elapsed       | 6726     |\n",
      "|    total_timesteps    | 1252000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0476  |\n",
      "|    value_loss         | 0.00288  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 250500   |\n",
      "|    time_elapsed       | 6728     |\n",
      "|    total_timesteps    | 1252500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.327    |\n",
      "|    value_loss         | 0.341    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 250600   |\n",
      "|    time_elapsed       | 6731     |\n",
      "|    total_timesteps    | 1253000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0596  |\n",
      "|    value_loss         | 0.00302  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 250700   |\n",
      "|    time_elapsed       | 6734     |\n",
      "|    total_timesteps    | 1253500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0631  |\n",
      "|    value_loss         | 0.00287  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 250800   |\n",
      "|    time_elapsed       | 6736     |\n",
      "|    total_timesteps    | 1254000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0455  |\n",
      "|    value_loss         | 0.00288  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 250900   |\n",
      "|    time_elapsed       | 6739     |\n",
      "|    total_timesteps    | 1254500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0418  |\n",
      "|    value_loss         | 0.00288  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 21.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 251000    |\n",
      "|    time_elapsed       | 6741      |\n",
      "|    total_timesteps    | 1255000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0573   |\n",
      "|    value_loss         | 0.00271   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 251100   |\n",
      "|    time_elapsed       | 6744     |\n",
      "|    total_timesteps    | 1255500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0798  |\n",
      "|    value_loss         | 0.00259  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 251200   |\n",
      "|    time_elapsed       | 6747     |\n",
      "|    total_timesteps    | 1256000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.11     |\n",
      "|    value_loss         | 0.694    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 251300   |\n",
      "|    time_elapsed       | 6749     |\n",
      "|    total_timesteps    | 1256500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0876  |\n",
      "|    value_loss         | 0.00274  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 251400   |\n",
      "|    time_elapsed       | 6752     |\n",
      "|    total_timesteps    | 1257000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0577  |\n",
      "|    value_loss         | 0.00282  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 251500   |\n",
      "|    time_elapsed       | 6754     |\n",
      "|    total_timesteps    | 1257500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.259    |\n",
      "|    value_loss         | 0.341    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 251600   |\n",
      "|    time_elapsed       | 6757     |\n",
      "|    total_timesteps    | 1258000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0617  |\n",
      "|    value_loss         | 0.00287  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 251700   |\n",
      "|    time_elapsed       | 6760     |\n",
      "|    total_timesteps    | 1258500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0422  |\n",
      "|    value_loss         | 0.00289  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 251800   |\n",
      "|    time_elapsed       | 6762     |\n",
      "|    total_timesteps    | 1259000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0659  |\n",
      "|    value_loss         | 0.00301  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 251900   |\n",
      "|    time_elapsed       | 6765     |\n",
      "|    total_timesteps    | 1259500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0614  |\n",
      "|    value_loss         | 0.00289  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 21.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 252000   |\n",
      "|    time_elapsed       | 6767     |\n",
      "|    total_timesteps    | 1260000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0628  |\n",
      "|    value_loss         | 0.00272  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 21.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 252100    |\n",
      "|    time_elapsed       | 6770      |\n",
      "|    total_timesteps    | 1260500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0815   |\n",
      "|    value_loss         | 0.00251   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 252200   |\n",
      "|    time_elapsed       | 6773     |\n",
      "|    total_timesteps    | 1261000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.934    |\n",
      "|    value_loss         | 1.25     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 252300   |\n",
      "|    time_elapsed       | 6775     |\n",
      "|    total_timesteps    | 1261500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0731  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 252400   |\n",
      "|    time_elapsed       | 6778     |\n",
      "|    total_timesteps    | 1262000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.358    |\n",
      "|    value_loss         | 0.346    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 252500   |\n",
      "|    time_elapsed       | 6780     |\n",
      "|    total_timesteps    | 1262500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0603  |\n",
      "|    value_loss         | 0.00243  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 252600   |\n",
      "|    time_elapsed       | 6783     |\n",
      "|    total_timesteps    | 1263000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0656  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 252700   |\n",
      "|    time_elapsed       | 6785     |\n",
      "|    total_timesteps    | 1263500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0605  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 252800   |\n",
      "|    time_elapsed       | 6788     |\n",
      "|    total_timesteps    | 1264000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.315    |\n",
      "|    value_loss         | 0.173    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 252900   |\n",
      "|    time_elapsed       | 6790     |\n",
      "|    total_timesteps    | 1264500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0765  |\n",
      "|    value_loss         | 0.00254  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 253000   |\n",
      "|    time_elapsed       | 6793     |\n",
      "|    total_timesteps    | 1265000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0425  |\n",
      "|    value_loss         | 0.00264  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 253100   |\n",
      "|    time_elapsed       | 6796     |\n",
      "|    total_timesteps    | 1265500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0429  |\n",
      "|    value_loss         | 0.0027   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 253200   |\n",
      "|    time_elapsed       | 6798     |\n",
      "|    total_timesteps    | 1266000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0841  |\n",
      "|    value_loss         | 0.00261  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 253300   |\n",
      "|    time_elapsed       | 6801     |\n",
      "|    total_timesteps    | 1266500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0705  |\n",
      "|    value_loss         | 0.00272  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 253400   |\n",
      "|    time_elapsed       | 6803     |\n",
      "|    total_timesteps    | 1267000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0622  |\n",
      "|    value_loss         | 0.00283  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 253500   |\n",
      "|    time_elapsed       | 6806     |\n",
      "|    total_timesteps    | 1267500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.044   |\n",
      "|    value_loss         | 0.00284  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 253600   |\n",
      "|    time_elapsed       | 6808     |\n",
      "|    total_timesteps    | 1268000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0472  |\n",
      "|    value_loss         | 0.00285  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 253700   |\n",
      "|    time_elapsed       | 6811     |\n",
      "|    total_timesteps    | 1268500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.386    |\n",
      "|    value_loss         | 0.516    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 253800   |\n",
      "|    time_elapsed       | 6814     |\n",
      "|    total_timesteps    | 1269000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.055   |\n",
      "|    value_loss         | 0.00266  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 21.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 253900   |\n",
      "|    time_elapsed       | 6816     |\n",
      "|    total_timesteps    | 1269500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0634  |\n",
      "|    value_loss         | 0.00264  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 254000   |\n",
      "|    time_elapsed       | 6819     |\n",
      "|    total_timesteps    | 1270000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0363  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 21.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 254100   |\n",
      "|    time_elapsed       | 6821     |\n",
      "|    total_timesteps    | 1270500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0576  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 21.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 254200   |\n",
      "|    time_elapsed       | 6824     |\n",
      "|    total_timesteps    | 1271000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0497  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 254300   |\n",
      "|    time_elapsed       | 6826     |\n",
      "|    total_timesteps    | 1271500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0429  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 254400   |\n",
      "|    time_elapsed       | 6829     |\n",
      "|    total_timesteps    | 1272000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.707    |\n",
      "|    value_loss         | 0.523    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 254500   |\n",
      "|    time_elapsed       | 6831     |\n",
      "|    total_timesteps    | 1272500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0444  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 254600   |\n",
      "|    time_elapsed       | 6834     |\n",
      "|    total_timesteps    | 1273000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0554  |\n",
      "|    value_loss         | 0.00234  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 254700   |\n",
      "|    time_elapsed       | 6837     |\n",
      "|    total_timesteps    | 1273500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0534  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 254800   |\n",
      "|    time_elapsed       | 6839     |\n",
      "|    total_timesteps    | 1274000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0468  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 21.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 254900   |\n",
      "|    time_elapsed       | 6842     |\n",
      "|    total_timesteps    | 1274500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0352  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=1275000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "-------------------------------------\n",
      "| eval/                 |           |\n",
      "|    mean_ep_length     | 420       |\n",
      "|    mean_reward        | 1         |\n",
      "| time/                 |           |\n",
      "|    total_timesteps    | 1275000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 2.16      |\n",
      "|    value_loss         | 2.38      |\n",
      "-------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 543      |\n",
      "|    ep_rew_mean     | 21.2     |\n",
      "| time/              |          |\n",
      "|    fps             | 185      |\n",
      "|    iterations      | 255000   |\n",
      "|    time_elapsed    | 6855     |\n",
      "|    total_timesteps | 1275000  |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 255100   |\n",
      "|    time_elapsed       | 6858     |\n",
      "|    total_timesteps    | 1275500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0712  |\n",
      "|    value_loss         | 0.0025   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 21.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 255200   |\n",
      "|    time_elapsed       | 6860     |\n",
      "|    total_timesteps    | 1276000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.048   |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 21       |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 255300   |\n",
      "|    time_elapsed       | 6863     |\n",
      "|    total_timesteps    | 1276500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0456  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 185      |\n",
      "|    iterations         | 255400   |\n",
      "|    time_elapsed       | 6865     |\n",
      "|    total_timesteps    | 1277000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 255500   |\n",
      "|    time_elapsed       | 6868     |\n",
      "|    total_timesteps    | 1277500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0469  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 255600   |\n",
      "|    time_elapsed       | 6870     |\n",
      "|    total_timesteps    | 1278000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 255700   |\n",
      "|    time_elapsed       | 6873     |\n",
      "|    total_timesteps    | 1278500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0707  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 255800   |\n",
      "|    time_elapsed       | 6875     |\n",
      "|    total_timesteps    | 1279000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 255900   |\n",
      "|    time_elapsed       | 6878     |\n",
      "|    total_timesteps    | 1279500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0497  |\n",
      "|    value_loss         | 0.00182  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 256000   |\n",
      "|    time_elapsed       | 6880     |\n",
      "|    total_timesteps    | 1280000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0436  |\n",
      "|    value_loss         | 0.00192  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 256100   |\n",
      "|    time_elapsed       | 6883     |\n",
      "|    total_timesteps    | 1280500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.26    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0376  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 256200   |\n",
      "|    time_elapsed       | 6886     |\n",
      "|    total_timesteps    | 1281000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.365    |\n",
      "|    value_loss         | 0.351    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 256300   |\n",
      "|    time_elapsed       | 6888     |\n",
      "|    total_timesteps    | 1281500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0461  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 256400   |\n",
      "|    time_elapsed       | 6891     |\n",
      "|    total_timesteps    | 1282000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.043   |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 256500   |\n",
      "|    time_elapsed       | 6893     |\n",
      "|    total_timesteps    | 1282500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0624  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 256600   |\n",
      "|    time_elapsed       | 6896     |\n",
      "|    total_timesteps    | 1283000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0788  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 256700   |\n",
      "|    time_elapsed       | 6899     |\n",
      "|    total_timesteps    | 1283500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0766  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 256800   |\n",
      "|    time_elapsed       | 6901     |\n",
      "|    total_timesteps    | 1284000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0737  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 256900   |\n",
      "|    time_elapsed       | 6904     |\n",
      "|    total_timesteps    | 1284500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0697  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 542      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 257000   |\n",
      "|    time_elapsed       | 6906     |\n",
      "|    total_timesteps    | 1285000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0497  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 257100   |\n",
      "|    time_elapsed       | 6909     |\n",
      "|    total_timesteps    | 1285500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0701  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 257200   |\n",
      "|    time_elapsed       | 6912     |\n",
      "|    total_timesteps    | 1286000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0402  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 257300   |\n",
      "|    time_elapsed       | 6914     |\n",
      "|    total_timesteps    | 1286500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0392  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 257400   |\n",
      "|    time_elapsed       | 6917     |\n",
      "|    total_timesteps    | 1287000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.724    |\n",
      "|    value_loss         | 0.525    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 257500   |\n",
      "|    time_elapsed       | 6919     |\n",
      "|    total_timesteps    | 1287500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.039   |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 546       |\n",
      "|    ep_rew_mean        | 20.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 257600    |\n",
      "|    time_elapsed       | 6922      |\n",
      "|    total_timesteps    | 1288000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.107     |\n",
      "|    value_loss         | 0.174     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 257700   |\n",
      "|    time_elapsed       | 6924     |\n",
      "|    total_timesteps    | 1288500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0377  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 257800   |\n",
      "|    time_elapsed       | 6927     |\n",
      "|    total_timesteps    | 1289000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.801    |\n",
      "|    value_loss         | 0.524    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 547       |\n",
      "|    ep_rew_mean        | 20.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 257900    |\n",
      "|    time_elapsed       | 6930      |\n",
      "|    total_timesteps    | 1289500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0731   |\n",
      "|    value_loss         | 0.00215   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 258000   |\n",
      "|    time_elapsed       | 6932     |\n",
      "|    total_timesteps    | 1290000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.09     |\n",
      "|    value_loss         | 0.701    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 258100   |\n",
      "|    time_elapsed       | 6935     |\n",
      "|    total_timesteps    | 1290500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0772  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 258200   |\n",
      "|    time_elapsed       | 6937     |\n",
      "|    total_timesteps    | 1291000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.063   |\n",
      "|    value_loss         | 0.00243  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 258300   |\n",
      "|    time_elapsed       | 6940     |\n",
      "|    total_timesteps    | 1291500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0552  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 258400   |\n",
      "|    time_elapsed       | 6942     |\n",
      "|    total_timesteps    | 1292000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0515  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 258500   |\n",
      "|    time_elapsed       | 6945     |\n",
      "|    total_timesteps    | 1292500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 258600   |\n",
      "|    time_elapsed       | 6947     |\n",
      "|    total_timesteps    | 1293000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0535  |\n",
      "|    value_loss         | 0.00242  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 258700   |\n",
      "|    time_elapsed       | 6950     |\n",
      "|    total_timesteps    | 1293500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.067   |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 544      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 258800   |\n",
      "|    time_elapsed       | 6953     |\n",
      "|    total_timesteps    | 1294000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0772  |\n",
      "|    value_loss         | 0.00235  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 20.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 258900    |\n",
      "|    time_elapsed       | 6955      |\n",
      "|    total_timesteps    | 1294500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0639   |\n",
      "|    value_loss         | 0.00244   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 259000   |\n",
      "|    time_elapsed       | 6958     |\n",
      "|    total_timesteps    | 1295000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0476  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 259100   |\n",
      "|    time_elapsed       | 6960     |\n",
      "|    total_timesteps    | 1295500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0627  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 259200   |\n",
      "|    time_elapsed       | 6963     |\n",
      "|    total_timesteps    | 1296000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0392  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 259300   |\n",
      "|    time_elapsed       | 6965     |\n",
      "|    total_timesteps    | 1296500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0763  |\n",
      "|    value_loss         | 0.00249  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 549      |\n",
      "|    ep_rew_mean        | 20.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 259400   |\n",
      "|    time_elapsed       | 6968     |\n",
      "|    total_timesteps    | 1297000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0415  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 259500   |\n",
      "|    time_elapsed       | 6970     |\n",
      "|    total_timesteps    | 1297500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0515  |\n",
      "|    value_loss         | 0.00241  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 259600   |\n",
      "|    time_elapsed       | 6973     |\n",
      "|    total_timesteps    | 1298000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0519  |\n",
      "|    value_loss         | 0.00235  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 259700   |\n",
      "|    time_elapsed       | 6975     |\n",
      "|    total_timesteps    | 1298500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0559  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 259800   |\n",
      "|    time_elapsed       | 6978     |\n",
      "|    total_timesteps    | 1299000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0466  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 546      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 259900   |\n",
      "|    time_elapsed       | 6981     |\n",
      "|    total_timesteps    | 1299500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0421  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 260000   |\n",
      "|    time_elapsed       | 6983     |\n",
      "|    total_timesteps    | 1300000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0571  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 260100   |\n",
      "|    time_elapsed       | 6986     |\n",
      "|    total_timesteps    | 1300500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0531  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 548       |\n",
      "|    ep_rew_mean        | 20.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 260200    |\n",
      "|    time_elapsed       | 6988      |\n",
      "|    total_timesteps    | 1301000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0583   |\n",
      "|    value_loss         | 0.00221   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 260300   |\n",
      "|    time_elapsed       | 6991     |\n",
      "|    total_timesteps    | 1301500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.46     |\n",
      "|    value_loss         | 2.56     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 260400   |\n",
      "|    time_elapsed       | 6993     |\n",
      "|    total_timesteps    | 1302000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0305  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 260500   |\n",
      "|    time_elapsed       | 6996     |\n",
      "|    total_timesteps    | 1302500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.249    |\n",
      "|    value_loss         | 0.348    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 548      |\n",
      "|    ep_rew_mean        | 20.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 260600   |\n",
      "|    time_elapsed       | 6998     |\n",
      "|    total_timesteps    | 1303000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0387  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 547      |\n",
      "|    ep_rew_mean        | 20.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 260700   |\n",
      "|    time_elapsed       | 7001     |\n",
      "|    total_timesteps    | 1303500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0534  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 19.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 260800   |\n",
      "|    time_elapsed       | 7004     |\n",
      "|    total_timesteps    | 1304000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.47     |\n",
      "|    value_loss         | 0.349    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 260900   |\n",
      "|    time_elapsed       | 7006     |\n",
      "|    total_timesteps    | 1304500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 545      |\n",
      "|    ep_rew_mean        | 19.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 261000   |\n",
      "|    time_elapsed       | 7009     |\n",
      "|    total_timesteps    | 1305000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.112    |\n",
      "|    value_loss         | 0.175    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 544       |\n",
      "|    ep_rew_mean        | 19.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 261100    |\n",
      "|    time_elapsed       | 7011      |\n",
      "|    total_timesteps    | 1305500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0495   |\n",
      "|    value_loss         | 0.00195   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 261200   |\n",
      "|    time_elapsed       | 7014     |\n",
      "|    total_timesteps    | 1306000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0381  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 543      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 261300   |\n",
      "|    time_elapsed       | 7016     |\n",
      "|    total_timesteps    | 1306500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.22     |\n",
      "|    value_loss         | 0.886    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 261400   |\n",
      "|    time_elapsed       | 7019     |\n",
      "|    total_timesteps    | 1307000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.055   |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 261500   |\n",
      "|    time_elapsed       | 7022     |\n",
      "|    total_timesteps    | 1307500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0511  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 540       |\n",
      "|    ep_rew_mean        | 19.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 261600    |\n",
      "|    time_elapsed       | 7024      |\n",
      "|    total_timesteps    | 1308000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.949     |\n",
      "|    value_loss         | 0.704     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 261700   |\n",
      "|    time_elapsed       | 7027     |\n",
      "|    total_timesteps    | 1308500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.3      |\n",
      "|    value_loss         | 0.883    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 261800   |\n",
      "|    time_elapsed       | 7029     |\n",
      "|    total_timesteps    | 1309000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0575  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 261900   |\n",
      "|    time_elapsed       | 7032     |\n",
      "|    total_timesteps    | 1309500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0363  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 262000   |\n",
      "|    time_elapsed       | 7034     |\n",
      "|    total_timesteps    | 1310000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 262100   |\n",
      "|    time_elapsed       | 7037     |\n",
      "|    total_timesteps    | 1310500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.23     |\n",
      "|    value_loss         | 0.88     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 262200   |\n",
      "|    time_elapsed       | 7039     |\n",
      "|    total_timesteps    | 1311000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0606  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 262300   |\n",
      "|    time_elapsed       | 7042     |\n",
      "|    total_timesteps    | 1311500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 262400   |\n",
      "|    time_elapsed       | 7044     |\n",
      "|    total_timesteps    | 1312000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.814    |\n",
      "|    value_loss         | 0.527    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 262500   |\n",
      "|    time_elapsed       | 7047     |\n",
      "|    total_timesteps    | 1312500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0843  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 262600   |\n",
      "|    time_elapsed       | 7050     |\n",
      "|    total_timesteps    | 1313000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0533  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 262700   |\n",
      "|    time_elapsed       | 7052     |\n",
      "|    total_timesteps    | 1313500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0435  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 262800    |\n",
      "|    time_elapsed       | 7055      |\n",
      "|    total_timesteps    | 1314000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0416   |\n",
      "|    value_loss         | 0.00226   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 262900   |\n",
      "|    time_elapsed       | 7057     |\n",
      "|    total_timesteps    | 1314500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0323  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 263000   |\n",
      "|    time_elapsed       | 7060     |\n",
      "|    total_timesteps    | 1315000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0443  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 263100   |\n",
      "|    time_elapsed       | 7062     |\n",
      "|    total_timesteps    | 1315500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0476  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 263200   |\n",
      "|    time_elapsed       | 7065     |\n",
      "|    total_timesteps    | 1316000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0337  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 263300   |\n",
      "|    time_elapsed       | 7068     |\n",
      "|    total_timesteps    | 1316500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0373  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 263400   |\n",
      "|    time_elapsed       | 7070     |\n",
      "|    total_timesteps    | 1317000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0541  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 263500   |\n",
      "|    time_elapsed       | 7073     |\n",
      "|    total_timesteps    | 1317500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 263600   |\n",
      "|    time_elapsed       | 7075     |\n",
      "|    total_timesteps    | 1318000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0394  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 263700   |\n",
      "|    time_elapsed       | 7078     |\n",
      "|    total_timesteps    | 1318500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.24     |\n",
      "|    value_loss         | 0.883    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 263800   |\n",
      "|    time_elapsed       | 7080     |\n",
      "|    total_timesteps    | 1319000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0548  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 263900   |\n",
      "|    time_elapsed       | 7083     |\n",
      "|    total_timesteps    | 1319500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0669  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 264000   |\n",
      "|    time_elapsed       | 7085     |\n",
      "|    total_timesteps    | 1320000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.669    |\n",
      "|    value_loss         | 0.35     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 264100   |\n",
      "|    time_elapsed       | 7088     |\n",
      "|    total_timesteps    | 1320500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0547  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 264200   |\n",
      "|    time_elapsed       | 7090     |\n",
      "|    total_timesteps    | 1321000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0334  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 264300   |\n",
      "|    time_elapsed       | 7093     |\n",
      "|    total_timesteps    | 1321500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0614  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 264400   |\n",
      "|    time_elapsed       | 7096     |\n",
      "|    total_timesteps    | 1322000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0534  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 264500   |\n",
      "|    time_elapsed       | 7098     |\n",
      "|    total_timesteps    | 1322500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0495  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 531       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 264600    |\n",
      "|    time_elapsed       | 7101      |\n",
      "|    total_timesteps    | 1323000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.17     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0511   |\n",
      "|    value_loss         | 0.00256   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 264700   |\n",
      "|    time_elapsed       | 7103     |\n",
      "|    total_timesteps    | 1323500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0404  |\n",
      "|    value_loss         | 0.00248  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 264800    |\n",
      "|    time_elapsed       | 7106      |\n",
      "|    total_timesteps    | 1324000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.17     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0411   |\n",
      "|    value_loss         | 0.00248   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 264900   |\n",
      "|    time_elapsed       | 7109     |\n",
      "|    total_timesteps    | 1324500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0396  |\n",
      "|    value_loss         | 0.00247  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 265000   |\n",
      "|    time_elapsed       | 7111     |\n",
      "|    total_timesteps    | 1325000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0718  |\n",
      "|    value_loss         | 0.00243  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 265100    |\n",
      "|    time_elapsed       | 7114      |\n",
      "|    total_timesteps    | 1325500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0595   |\n",
      "|    value_loss         | 0.00228   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 265200   |\n",
      "|    time_elapsed       | 7116     |\n",
      "|    total_timesteps    | 1326000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0373  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 265300   |\n",
      "|    time_elapsed       | 7119     |\n",
      "|    total_timesteps    | 1326500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.05    |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 265400   |\n",
      "|    time_elapsed       | 7121     |\n",
      "|    total_timesteps    | 1327000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0708  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 265500    |\n",
      "|    time_elapsed       | 7124      |\n",
      "|    total_timesteps    | 1327500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.528     |\n",
      "|    value_loss         | 0.349     |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 265600    |\n",
      "|    time_elapsed       | 7127      |\n",
      "|    total_timesteps    | 1328000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.372     |\n",
      "|    value_loss         | 0.528     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 265700   |\n",
      "|    time_elapsed       | 7129     |\n",
      "|    total_timesteps    | 1328500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 265800   |\n",
      "|    time_elapsed       | 7132     |\n",
      "|    total_timesteps    | 1329000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.2      |\n",
      "|    value_loss         | 2.01     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 265900   |\n",
      "|    time_elapsed       | 7134     |\n",
      "|    total_timesteps    | 1329500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0318  |\n",
      "|    value_loss         | 0.00177  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 266000   |\n",
      "|    time_elapsed       | 7137     |\n",
      "|    total_timesteps    | 1330000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0369  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 266100   |\n",
      "|    time_elapsed       | 7139     |\n",
      "|    total_timesteps    | 1330500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0347  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 266200   |\n",
      "|    time_elapsed       | 7142     |\n",
      "|    total_timesteps    | 1331000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0257  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 266300   |\n",
      "|    time_elapsed       | 7145     |\n",
      "|    total_timesteps    | 1331500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0823  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 266400   |\n",
      "|    time_elapsed       | 7147     |\n",
      "|    total_timesteps    | 1332000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0474  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 266500   |\n",
      "|    time_elapsed       | 7150     |\n",
      "|    total_timesteps    | 1332500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0334  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 266600    |\n",
      "|    time_elapsed       | 7152      |\n",
      "|    total_timesteps    | 1333000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0282   |\n",
      "|    value_loss         | 0.00197   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 266700   |\n",
      "|    time_elapsed       | 7155     |\n",
      "|    total_timesteps    | 1333500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0303  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 266800   |\n",
      "|    time_elapsed       | 7158     |\n",
      "|    total_timesteps    | 1334000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0551  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 266900   |\n",
      "|    time_elapsed       | 7160     |\n",
      "|    total_timesteps    | 1334500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0514  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 267000   |\n",
      "|    time_elapsed       | 7163     |\n",
      "|    total_timesteps    | 1335000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0718  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 267100   |\n",
      "|    time_elapsed       | 7165     |\n",
      "|    total_timesteps    | 1335500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.747    |\n",
      "|    value_loss         | 0.527    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 267200   |\n",
      "|    time_elapsed       | 7168     |\n",
      "|    total_timesteps    | 1336000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0432  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 267300   |\n",
      "|    time_elapsed       | 7170     |\n",
      "|    total_timesteps    | 1336500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0531  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 18.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 267400    |\n",
      "|    time_elapsed       | 7173      |\n",
      "|    total_timesteps    | 1337000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0537   |\n",
      "|    value_loss         | 0.00196   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 267500   |\n",
      "|    time_elapsed       | 7175     |\n",
      "|    total_timesteps    | 1337500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0261  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 267600   |\n",
      "|    time_elapsed       | 7178     |\n",
      "|    total_timesteps    | 1338000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.06    |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 267700   |\n",
      "|    time_elapsed       | 7180     |\n",
      "|    total_timesteps    | 1338500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0475  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 267800   |\n",
      "|    time_elapsed       | 7183     |\n",
      "|    total_timesteps    | 1339000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0356  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 267900   |\n",
      "|    time_elapsed       | 7186     |\n",
      "|    total_timesteps    | 1339500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0263  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 268000   |\n",
      "|    time_elapsed       | 7188     |\n",
      "|    total_timesteps    | 1340000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0472  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 268100    |\n",
      "|    time_elapsed       | 7191      |\n",
      "|    total_timesteps    | 1340500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0454   |\n",
      "|    value_loss         | 0.00201   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 268200   |\n",
      "|    time_elapsed       | 7194     |\n",
      "|    total_timesteps    | 1341000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0543  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 268300   |\n",
      "|    time_elapsed       | 7196     |\n",
      "|    total_timesteps    | 1341500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0356  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 268400   |\n",
      "|    time_elapsed       | 7199     |\n",
      "|    total_timesteps    | 1342000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0664  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 268500   |\n",
      "|    time_elapsed       | 7201     |\n",
      "|    total_timesteps    | 1342500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.245    |\n",
      "|    value_loss         | 0.176    |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.4      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 268600    |\n",
      "|    time_elapsed       | 7204      |\n",
      "|    total_timesteps    | 1343000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0497   |\n",
      "|    value_loss         | 0.00184   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 268700   |\n",
      "|    time_elapsed       | 7207     |\n",
      "|    total_timesteps    | 1343500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0479  |\n",
      "|    value_loss         | 0.00177  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 18.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 268800    |\n",
      "|    time_elapsed       | 7209      |\n",
      "|    total_timesteps    | 1344000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0387   |\n",
      "|    value_loss         | 0.00184   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 268900   |\n",
      "|    time_elapsed       | 7212     |\n",
      "|    total_timesteps    | 1344500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.802    |\n",
      "|    value_loss         | 0.707    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 269000   |\n",
      "|    time_elapsed       | 7214     |\n",
      "|    total_timesteps    | 1345000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0628  |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 269100   |\n",
      "|    time_elapsed       | 7217     |\n",
      "|    total_timesteps    | 1345500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 269200   |\n",
      "|    time_elapsed       | 7219     |\n",
      "|    total_timesteps    | 1346000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0538  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 269300   |\n",
      "|    time_elapsed       | 7222     |\n",
      "|    total_timesteps    | 1346500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.617    |\n",
      "|    value_loss         | 0.351    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 269400   |\n",
      "|    time_elapsed       | 7224     |\n",
      "|    total_timesteps    | 1347000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.957    |\n",
      "|    value_loss         | 0.707    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 269500   |\n",
      "|    time_elapsed       | 7227     |\n",
      "|    total_timesteps    | 1347500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0445  |\n",
      "|    value_loss         | 0.00185  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 269600   |\n",
      "|    time_elapsed       | 7230     |\n",
      "|    total_timesteps    | 1348000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0473  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 269700   |\n",
      "|    time_elapsed       | 7232     |\n",
      "|    total_timesteps    | 1348500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0463  |\n",
      "|    value_loss         | 0.00176  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 269800   |\n",
      "|    time_elapsed       | 7235     |\n",
      "|    total_timesteps    | 1349000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0373  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 269900   |\n",
      "|    time_elapsed       | 7237     |\n",
      "|    total_timesteps    | 1349500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0393  |\n",
      "|    value_loss         | 0.00181  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=1350000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 1350000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0497  |\n",
      "|    value_loss         | 0.00173  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 525      |\n",
      "|    ep_rew_mean     | 17.6     |\n",
      "| time/              |          |\n",
      "|    fps             | 186      |\n",
      "|    iterations      | 270000   |\n",
      "|    time_elapsed    | 7250     |\n",
      "|    total_timesteps | 1350000  |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 270100   |\n",
      "|    time_elapsed       | 7253     |\n",
      "|    total_timesteps    | 1350500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0555  |\n",
      "|    value_loss         | 0.00178  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 524      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 270200   |\n",
      "|    time_elapsed       | 7255     |\n",
      "|    total_timesteps    | 1351000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0348  |\n",
      "|    value_loss         | 0.0017   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 270300   |\n",
      "|    time_elapsed       | 7258     |\n",
      "|    total_timesteps    | 1351500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0448  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 525      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 270400   |\n",
      "|    time_elapsed       | 7261     |\n",
      "|    total_timesteps    | 1352000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0513  |\n",
      "|    value_loss         | 0.00184  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 270500   |\n",
      "|    time_elapsed       | 7263     |\n",
      "|    total_timesteps    | 1352500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0407  |\n",
      "|    value_loss         | 0.00183  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 270600   |\n",
      "|    time_elapsed       | 7266     |\n",
      "|    total_timesteps    | 1353000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0652  |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 270700   |\n",
      "|    time_elapsed       | 7268     |\n",
      "|    total_timesteps    | 1353500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0609  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 270800   |\n",
      "|    time_elapsed       | 7271     |\n",
      "|    total_timesteps    | 1354000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0572  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 270900   |\n",
      "|    time_elapsed       | 7273     |\n",
      "|    total_timesteps    | 1354500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0641  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 271000   |\n",
      "|    time_elapsed       | 7276     |\n",
      "|    total_timesteps    | 1355000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0532  |\n",
      "|    value_loss         | 0.00202  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 526       |\n",
      "|    ep_rew_mean        | 17.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 271100    |\n",
      "|    time_elapsed       | 7278      |\n",
      "|    total_timesteps    | 1355500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0457   |\n",
      "|    value_loss         | 0.00199   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 271200   |\n",
      "|    time_elapsed       | 7281     |\n",
      "|    total_timesteps    | 1356000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0471  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 527       |\n",
      "|    ep_rew_mean        | 17.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 271300    |\n",
      "|    time_elapsed       | 7284      |\n",
      "|    total_timesteps    | 1356500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.912     |\n",
      "|    value_loss         | 0.883     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 271400   |\n",
      "|    time_elapsed       | 7286     |\n",
      "|    total_timesteps    | 1357000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0547  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 527      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 271500   |\n",
      "|    time_elapsed       | 7289     |\n",
      "|    total_timesteps    | 1357500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0709  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 271600   |\n",
      "|    time_elapsed       | 7291     |\n",
      "|    total_timesteps    | 1358000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0592  |\n",
      "|    value_loss         | 0.00191  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 526      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 271700   |\n",
      "|    time_elapsed       | 7294     |\n",
      "|    total_timesteps    | 1358500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0386  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 528      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 271800   |\n",
      "|    time_elapsed       | 7297     |\n",
      "|    total_timesteps    | 1359000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0539  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 271900   |\n",
      "|    time_elapsed       | 7299     |\n",
      "|    total_timesteps    | 1359500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0483  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 272000   |\n",
      "|    time_elapsed       | 7302     |\n",
      "|    total_timesteps    | 1360000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0406  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 272100   |\n",
      "|    time_elapsed       | 7304     |\n",
      "|    total_timesteps    | 1360500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0471  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 272200   |\n",
      "|    time_elapsed       | 7307     |\n",
      "|    total_timesteps    | 1361000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.825    |\n",
      "|    value_loss         | 1.26     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 272300    |\n",
      "|    time_elapsed       | 7309      |\n",
      "|    total_timesteps    | 1361500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.626     |\n",
      "|    value_loss         | 0.527     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 272400   |\n",
      "|    time_elapsed       | 7312     |\n",
      "|    total_timesteps    | 1362000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0545  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 272500   |\n",
      "|    time_elapsed       | 7315     |\n",
      "|    total_timesteps    | 1362500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0368  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 272600   |\n",
      "|    time_elapsed       | 7317     |\n",
      "|    total_timesteps    | 1363000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0422  |\n",
      "|    value_loss         | 0.00196  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 272700   |\n",
      "|    time_elapsed       | 7320     |\n",
      "|    total_timesteps    | 1363500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.25    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0429  |\n",
      "|    value_loss         | 0.00187  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 272800   |\n",
      "|    time_elapsed       | 7322     |\n",
      "|    total_timesteps    | 1364000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0438  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 272900   |\n",
      "|    time_elapsed       | 7325     |\n",
      "|    total_timesteps    | 1364500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0473  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 273000   |\n",
      "|    time_elapsed       | 7327     |\n",
      "|    total_timesteps    | 1365000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0721  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 273100   |\n",
      "|    time_elapsed       | 7330     |\n",
      "|    total_timesteps    | 1365500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.566    |\n",
      "|    value_loss         | 0.348    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 273200   |\n",
      "|    time_elapsed       | 7333     |\n",
      "|    total_timesteps    | 1366000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0359  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 273300   |\n",
      "|    time_elapsed       | 7335     |\n",
      "|    total_timesteps    | 1366500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 2.98e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.213    |\n",
      "|    value_loss         | 0.174    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 273400   |\n",
      "|    time_elapsed       | 7338     |\n",
      "|    total_timesteps    | 1367000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0423  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 273500   |\n",
      "|    time_elapsed       | 7340     |\n",
      "|    total_timesteps    | 1367500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0572  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 273600   |\n",
      "|    time_elapsed       | 7343     |\n",
      "|    total_timesteps    | 1368000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0417  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 273700   |\n",
      "|    time_elapsed       | 7346     |\n",
      "|    total_timesteps    | 1368500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0608  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 18.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 273800    |\n",
      "|    time_elapsed       | 7348      |\n",
      "|    total_timesteps    | 1369000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0546   |\n",
      "|    value_loss         | 0.00225   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 273900   |\n",
      "|    time_elapsed       | 7351     |\n",
      "|    total_timesteps    | 1369500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.39     |\n",
      "|    value_loss         | 1.99     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 274000   |\n",
      "|    time_elapsed       | 7353     |\n",
      "|    total_timesteps    | 1370000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0402  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 274100   |\n",
      "|    time_elapsed       | 7356     |\n",
      "|    total_timesteps    | 1370500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0715  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 274200   |\n",
      "|    time_elapsed       | 7358     |\n",
      "|    total_timesteps    | 1371000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0683  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 274300   |\n",
      "|    time_elapsed       | 7361     |\n",
      "|    total_timesteps    | 1371500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0559  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 274400   |\n",
      "|    time_elapsed       | 7363     |\n",
      "|    total_timesteps    | 1372000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0337  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 274500   |\n",
      "|    time_elapsed       | 7366     |\n",
      "|    total_timesteps    | 1372500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0596  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 274600   |\n",
      "|    time_elapsed       | 7368     |\n",
      "|    total_timesteps    | 1373000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0661  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 274700   |\n",
      "|    time_elapsed       | 7371     |\n",
      "|    total_timesteps    | 1373500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.43     |\n",
      "|    value_loss         | 0.882    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 274800   |\n",
      "|    time_elapsed       | 7374     |\n",
      "|    total_timesteps    | 1374000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.061   |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 274900   |\n",
      "|    time_elapsed       | 7376     |\n",
      "|    total_timesteps    | 1374500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0393  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 275000   |\n",
      "|    time_elapsed       | 7379     |\n",
      "|    total_timesteps    | 1375000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.059   |\n",
      "|    value_loss         | 0.0018   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 275100   |\n",
      "|    time_elapsed       | 7381     |\n",
      "|    total_timesteps    | 1375500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0425  |\n",
      "|    value_loss         | 0.00189  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 275200   |\n",
      "|    time_elapsed       | 7384     |\n",
      "|    total_timesteps    | 1376000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0596  |\n",
      "|    value_loss         | 0.00186  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 17.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 275300   |\n",
      "|    time_elapsed       | 7387     |\n",
      "|    total_timesteps    | 1376500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0522  |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 275400   |\n",
      "|    time_elapsed       | 7389     |\n",
      "|    total_timesteps    | 1377000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0454  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 17.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 275500   |\n",
      "|    time_elapsed       | 7392     |\n",
      "|    total_timesteps    | 1377500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0511  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 275600   |\n",
      "|    time_elapsed       | 7394     |\n",
      "|    total_timesteps    | 1378000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0656  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 17.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 275700   |\n",
      "|    time_elapsed       | 7397     |\n",
      "|    total_timesteps    | 1378500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00188  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 531       |\n",
      "|    ep_rew_mean        | 17.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 275800    |\n",
      "|    time_elapsed       | 7400      |\n",
      "|    total_timesteps    | 1379000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0618   |\n",
      "|    value_loss         | 0.00191   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 17.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 275900    |\n",
      "|    time_elapsed       | 7402      |\n",
      "|    total_timesteps    | 1379500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0408   |\n",
      "|    value_loss         | 0.00199   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 17.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 276000   |\n",
      "|    time_elapsed       | 7405     |\n",
      "|    total_timesteps    | 1380000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0345  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 17.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 276100    |\n",
      "|    time_elapsed       | 7407      |\n",
      "|    total_timesteps    | 1380500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0549   |\n",
      "|    value_loss         | 0.00215   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 276200   |\n",
      "|    time_elapsed       | 7410     |\n",
      "|    total_timesteps    | 1381000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0722  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 276300   |\n",
      "|    time_elapsed       | 7412     |\n",
      "|    total_timesteps    | 1381500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0395  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 276400   |\n",
      "|    time_elapsed       | 7415     |\n",
      "|    total_timesteps    | 1382000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0399  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 276500   |\n",
      "|    time_elapsed       | 7418     |\n",
      "|    total_timesteps    | 1382500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0343  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 276600   |\n",
      "|    time_elapsed       | 7420     |\n",
      "|    total_timesteps    | 1383000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0366  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 276700   |\n",
      "|    time_elapsed       | 7423     |\n",
      "|    total_timesteps    | 1383500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.047   |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 276800   |\n",
      "|    time_elapsed       | 7425     |\n",
      "|    total_timesteps    | 1384000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0557  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 276900   |\n",
      "|    time_elapsed       | 7428     |\n",
      "|    total_timesteps    | 1384500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.03     |\n",
      "|    value_loss         | 1.82     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 277000   |\n",
      "|    time_elapsed       | 7430     |\n",
      "|    total_timesteps    | 1385000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0286  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 277100   |\n",
      "|    time_elapsed       | 7433     |\n",
      "|    total_timesteps    | 1385500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0449  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 277200   |\n",
      "|    time_elapsed       | 7436     |\n",
      "|    total_timesteps    | 1386000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0421  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 277300   |\n",
      "|    time_elapsed       | 7438     |\n",
      "|    total_timesteps    | 1386500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.217   |\n",
      "|    value_loss         | 0.372    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 277400   |\n",
      "|    time_elapsed       | 7441     |\n",
      "|    total_timesteps    | 1387000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0543  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 277500   |\n",
      "|    time_elapsed       | 7443     |\n",
      "|    total_timesteps    | 1387500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.759    |\n",
      "|    value_loss         | 0.7      |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 277600   |\n",
      "|    time_elapsed       | 7446     |\n",
      "|    total_timesteps    | 1388000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0389  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 277700   |\n",
      "|    time_elapsed       | 7448     |\n",
      "|    total_timesteps    | 1388500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0295  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 277800   |\n",
      "|    time_elapsed       | 7451     |\n",
      "|    total_timesteps    | 1389000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.105    |\n",
      "|    value_loss         | 0.174    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 277900   |\n",
      "|    time_elapsed       | 7453     |\n",
      "|    total_timesteps    | 1389500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0368  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 278000   |\n",
      "|    time_elapsed       | 7456     |\n",
      "|    total_timesteps    | 1390000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0609  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 278100   |\n",
      "|    time_elapsed       | 7459     |\n",
      "|    total_timesteps    | 1390500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0777  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 278200   |\n",
      "|    time_elapsed       | 7461     |\n",
      "|    total_timesteps    | 1391000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 278300   |\n",
      "|    time_elapsed       | 7464     |\n",
      "|    total_timesteps    | 1391500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0684  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 278400   |\n",
      "|    time_elapsed       | 7466     |\n",
      "|    total_timesteps    | 1392000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0707  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 278500   |\n",
      "|    time_elapsed       | 7469     |\n",
      "|    total_timesteps    | 1392500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0572  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 278600   |\n",
      "|    time_elapsed       | 7471     |\n",
      "|    total_timesteps    | 1393000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.51     |\n",
      "|    value_loss         | 2.38     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 278700   |\n",
      "|    time_elapsed       | 7474     |\n",
      "|    total_timesteps    | 1393500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 18.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 278800    |\n",
      "|    time_elapsed       | 7477      |\n",
      "|    total_timesteps    | 1394000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.058    |\n",
      "|    value_loss         | 0.00228   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 278900   |\n",
      "|    time_elapsed       | 7479     |\n",
      "|    total_timesteps    | 1394500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.051   |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 279000   |\n",
      "|    time_elapsed       | 7482     |\n",
      "|    total_timesteps    | 1395000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0418  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 279100   |\n",
      "|    time_elapsed       | 7484     |\n",
      "|    total_timesteps    | 1395500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0442  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 279200   |\n",
      "|    time_elapsed       | 7487     |\n",
      "|    total_timesteps    | 1396000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0385  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 279300   |\n",
      "|    time_elapsed       | 7490     |\n",
      "|    total_timesteps    | 1396500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0553  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 531       |\n",
      "|    ep_rew_mean        | 18.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 279400    |\n",
      "|    time_elapsed       | 7492      |\n",
      "|    total_timesteps    | 1397000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0652   |\n",
      "|    value_loss         | 0.00209   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 279500   |\n",
      "|    time_elapsed       | 7495     |\n",
      "|    total_timesteps    | 1397500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0607  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 279600   |\n",
      "|    time_elapsed       | 7497     |\n",
      "|    total_timesteps    | 1398000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0594  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 279700   |\n",
      "|    time_elapsed       | 7500     |\n",
      "|    total_timesteps    | 1398500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0663  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 279800   |\n",
      "|    time_elapsed       | 7502     |\n",
      "|    total_timesteps    | 1399000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.061   |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 279900   |\n",
      "|    time_elapsed       | 7505     |\n",
      "|    total_timesteps    | 1399500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0527  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 280000   |\n",
      "|    time_elapsed       | 7508     |\n",
      "|    total_timesteps    | 1400000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.056   |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 280100   |\n",
      "|    time_elapsed       | 7510     |\n",
      "|    total_timesteps    | 1400500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0384  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 533       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 280200    |\n",
      "|    time_elapsed       | 7513      |\n",
      "|    total_timesteps    | 1401000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.7       |\n",
      "|    value_loss         | 0.524     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 280300   |\n",
      "|    time_elapsed       | 7515     |\n",
      "|    total_timesteps    | 1401500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0622  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 280400   |\n",
      "|    time_elapsed       | 7518     |\n",
      "|    total_timesteps    | 1402000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0351  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 280500   |\n",
      "|    time_elapsed       | 7520     |\n",
      "|    total_timesteps    | 1402500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0631  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 280600   |\n",
      "|    time_elapsed       | 7523     |\n",
      "|    total_timesteps    | 1403000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0552  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 280700   |\n",
      "|    time_elapsed       | 7526     |\n",
      "|    total_timesteps    | 1403500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0459  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 280800   |\n",
      "|    time_elapsed       | 7528     |\n",
      "|    total_timesteps    | 1404000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0648  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 280900   |\n",
      "|    time_elapsed       | 7531     |\n",
      "|    total_timesteps    | 1404500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0482  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 281000   |\n",
      "|    time_elapsed       | 7533     |\n",
      "|    total_timesteps    | 1405000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0591  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 281100   |\n",
      "|    time_elapsed       | 7536     |\n",
      "|    total_timesteps    | 1405500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0525  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 281200   |\n",
      "|    time_elapsed       | 7538     |\n",
      "|    total_timesteps    | 1406000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0685  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 281300    |\n",
      "|    time_elapsed       | 7541      |\n",
      "|    total_timesteps    | 1406500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0699   |\n",
      "|    value_loss         | 0.00237   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 281400   |\n",
      "|    time_elapsed       | 7543     |\n",
      "|    total_timesteps    | 1407000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0779  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 281500   |\n",
      "|    time_elapsed       | 7546     |\n",
      "|    total_timesteps    | 1407500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.545    |\n",
      "|    value_loss         | 0.347    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 281600   |\n",
      "|    time_elapsed       | 7548     |\n",
      "|    total_timesteps    | 1408000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0369  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 281700   |\n",
      "|    time_elapsed       | 7551     |\n",
      "|    total_timesteps    | 1408500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.115   |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 281800   |\n",
      "|    time_elapsed       | 7554     |\n",
      "|    total_timesteps    | 1409000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0563  |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 281900   |\n",
      "|    time_elapsed       | 7556     |\n",
      "|    total_timesteps    | 1409500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.063   |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 533       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 282000    |\n",
      "|    time_elapsed       | 7559      |\n",
      "|    total_timesteps    | 1410000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0324   |\n",
      "|    value_loss         | 0.00185   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 282100   |\n",
      "|    time_elapsed       | 7561     |\n",
      "|    total_timesteps    | 1410500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0494  |\n",
      "|    value_loss         | 0.00199  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 282200   |\n",
      "|    time_elapsed       | 7564     |\n",
      "|    total_timesteps    | 1411000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0441  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 282300   |\n",
      "|    time_elapsed       | 7566     |\n",
      "|    total_timesteps    | 1411500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0658  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 282400   |\n",
      "|    time_elapsed       | 7569     |\n",
      "|    total_timesteps    | 1412000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0617  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 282500   |\n",
      "|    time_elapsed       | 7571     |\n",
      "|    total_timesteps    | 1412500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0364  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 282600   |\n",
      "|    time_elapsed       | 7574     |\n",
      "|    total_timesteps    | 1413000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.792    |\n",
      "|    value_loss         | 0.88     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 282700   |\n",
      "|    time_elapsed       | 7577     |\n",
      "|    total_timesteps    | 1413500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0318  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 282800    |\n",
      "|    time_elapsed       | 7579      |\n",
      "|    total_timesteps    | 1414000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0721   |\n",
      "|    value_loss         | 0.00228   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 282900   |\n",
      "|    time_elapsed       | 7582     |\n",
      "|    total_timesteps    | 1414500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0341  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 283000   |\n",
      "|    time_elapsed       | 7584     |\n",
      "|    total_timesteps    | 1415000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0583  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 283100   |\n",
      "|    time_elapsed       | 7587     |\n",
      "|    total_timesteps    | 1415500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.32     |\n",
      "|    value_loss         | 1.09     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 283200   |\n",
      "|    time_elapsed       | 7589     |\n",
      "|    total_timesteps    | 1416000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0436  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 283300   |\n",
      "|    time_elapsed       | 7592     |\n",
      "|    total_timesteps    | 1416500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0781  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 283400   |\n",
      "|    time_elapsed       | 7595     |\n",
      "|    total_timesteps    | 1417000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0629  |\n",
      "|    value_loss         | 0.00252  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 283500   |\n",
      "|    time_elapsed       | 7597     |\n",
      "|    total_timesteps    | 1417500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0749   |\n",
      "|    value_loss         | 0.173    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 283600   |\n",
      "|    time_elapsed       | 7600     |\n",
      "|    total_timesteps    | 1418000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.07     |\n",
      "|    value_loss         | 3.67     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 283700   |\n",
      "|    time_elapsed       | 7602     |\n",
      "|    total_timesteps    | 1418500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0381  |\n",
      "|    value_loss         | 0.00235  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 283800   |\n",
      "|    time_elapsed       | 7605     |\n",
      "|    total_timesteps    | 1419000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0686  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 283900   |\n",
      "|    time_elapsed       | 7607     |\n",
      "|    total_timesteps    | 1419500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.874    |\n",
      "|    value_loss         | 0.702    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 284000   |\n",
      "|    time_elapsed       | 7610     |\n",
      "|    total_timesteps    | 1420000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0571  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 284100   |\n",
      "|    time_elapsed       | 7612     |\n",
      "|    total_timesteps    | 1420500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0463  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 284200   |\n",
      "|    time_elapsed       | 7615     |\n",
      "|    total_timesteps    | 1421000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0544  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 284300    |\n",
      "|    time_elapsed       | 7618      |\n",
      "|    total_timesteps    | 1421500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0683   |\n",
      "|    value_loss         | 0.00216   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 284400   |\n",
      "|    time_elapsed       | 7620     |\n",
      "|    total_timesteps    | 1422000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0419  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 284500   |\n",
      "|    time_elapsed       | 7623     |\n",
      "|    total_timesteps    | 1422500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0431  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 284600   |\n",
      "|    time_elapsed       | 7625     |\n",
      "|    total_timesteps    | 1423000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0593  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 284700   |\n",
      "|    time_elapsed       | 7628     |\n",
      "|    total_timesteps    | 1423500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0527  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 284800   |\n",
      "|    time_elapsed       | 7631     |\n",
      "|    total_timesteps    | 1424000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0679  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 284900   |\n",
      "|    time_elapsed       | 7633     |\n",
      "|    total_timesteps    | 1424500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0575  |\n",
      "|    value_loss         | 0.00239  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=1425000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 1425000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0584  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 539      |\n",
      "|    ep_rew_mean     | 19.2     |\n",
      "| time/              |          |\n",
      "|    fps             | 186      |\n",
      "|    iterations      | 285000   |\n",
      "|    time_elapsed    | 7646     |\n",
      "|    total_timesteps | 1425000  |\n",
      "---------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 285100   |\n",
      "|    time_elapsed       | 7649     |\n",
      "|    total_timesteps    | 1425500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0447  |\n",
      "|    value_loss         | 0.00235  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 285200   |\n",
      "|    time_elapsed       | 7652     |\n",
      "|    total_timesteps    | 1426000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0802  |\n",
      "|    value_loss         | 0.00226  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 285300   |\n",
      "|    time_elapsed       | 7654     |\n",
      "|    total_timesteps    | 1426500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0401  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 285400   |\n",
      "|    time_elapsed       | 7657     |\n",
      "|    total_timesteps    | 1427000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0522  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 285500   |\n",
      "|    time_elapsed       | 7659     |\n",
      "|    total_timesteps    | 1427500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0397  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 285600   |\n",
      "|    time_elapsed       | 7662     |\n",
      "|    total_timesteps    | 1428000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0484  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 19.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 285700    |\n",
      "|    time_elapsed       | 7664      |\n",
      "|    total_timesteps    | 1428500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.22     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0605   |\n",
      "|    value_loss         | 0.00217   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 285800   |\n",
      "|    time_elapsed       | 7667     |\n",
      "|    total_timesteps    | 1429000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0578  |\n",
      "|    value_loss         | 0.00204  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 285900   |\n",
      "|    time_elapsed       | 7669     |\n",
      "|    total_timesteps    | 1429500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0555  |\n",
      "|    value_loss         | 0.00212  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 286000   |\n",
      "|    time_elapsed       | 7672     |\n",
      "|    total_timesteps    | 1430000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.47     |\n",
      "|    value_loss         | 1.44     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 286100   |\n",
      "|    time_elapsed       | 7675     |\n",
      "|    total_timesteps    | 1430500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0604  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 286200   |\n",
      "|    time_elapsed       | 7677     |\n",
      "|    total_timesteps    | 1431000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0788  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 286300   |\n",
      "|    time_elapsed       | 7680     |\n",
      "|    total_timesteps    | 1431500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0434  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 286400   |\n",
      "|    time_elapsed       | 7682     |\n",
      "|    total_timesteps    | 1432000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.46     |\n",
      "|    value_loss         | 1.99     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 286500   |\n",
      "|    time_elapsed       | 7685     |\n",
      "|    total_timesteps    | 1432500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.49     |\n",
      "|    value_loss         | 0.52     |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 19.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 286600    |\n",
      "|    time_elapsed       | 7687      |\n",
      "|    total_timesteps    | 1433000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0419   |\n",
      "|    value_loss         | 0.00232   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 541       |\n",
      "|    ep_rew_mean        | 19.5      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 286700    |\n",
      "|    time_elapsed       | 7690      |\n",
      "|    total_timesteps    | 1433500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0466   |\n",
      "|    value_loss         | 0.00217   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 541      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 286800   |\n",
      "|    time_elapsed       | 7692     |\n",
      "|    total_timesteps    | 1434000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.729    |\n",
      "|    value_loss         | 0.525    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 286900   |\n",
      "|    time_elapsed       | 7695     |\n",
      "|    total_timesteps    | 1434500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.48     |\n",
      "|    value_loss         | 2.56     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 287000   |\n",
      "|    time_elapsed       | 7698     |\n",
      "|    total_timesteps    | 1435000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0397  |\n",
      "|    value_loss         | 0.0019   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 539       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 287100    |\n",
      "|    time_elapsed       | 7700      |\n",
      "|    total_timesteps    | 1435500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.404     |\n",
      "|    value_loss         | 0.176     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 287200   |\n",
      "|    time_elapsed       | 7703     |\n",
      "|    total_timesteps    | 1436000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0585  |\n",
      "|    value_loss         | 0.00195  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 287300   |\n",
      "|    time_elapsed       | 7705     |\n",
      "|    total_timesteps    | 1436500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0488  |\n",
      "|    value_loss         | 0.00197  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 287400   |\n",
      "|    time_elapsed       | 7708     |\n",
      "|    total_timesteps    | 1437000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0863  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 287500   |\n",
      "|    time_elapsed       | 7710     |\n",
      "|    total_timesteps    | 1437500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0702  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 540       |\n",
      "|    ep_rew_mean        | 19.2      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 287600    |\n",
      "|    time_elapsed       | 7713      |\n",
      "|    total_timesteps    | 1438000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.23     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0421   |\n",
      "|    value_loss         | 0.00209   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 287700   |\n",
      "|    time_elapsed       | 7716     |\n",
      "|    total_timesteps    | 1438500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0569  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 287800   |\n",
      "|    time_elapsed       | 7718     |\n",
      "|    total_timesteps    | 1439000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0896   |\n",
      "|    value_loss         | 0.174    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 287900   |\n",
      "|    time_elapsed       | 7721     |\n",
      "|    total_timesteps    | 1439500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0617  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 288000   |\n",
      "|    time_elapsed       | 7723     |\n",
      "|    total_timesteps    | 1440000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0564  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 288100   |\n",
      "|    time_elapsed       | 7726     |\n",
      "|    total_timesteps    | 1440500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 1.79e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0522  |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 288200   |\n",
      "|    time_elapsed       | 7728     |\n",
      "|    total_timesteps    | 1441000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0449  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 288300   |\n",
      "|    time_elapsed       | 7731     |\n",
      "|    total_timesteps    | 1441500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0622  |\n",
      "|    value_loss         | 0.00222  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 288400    |\n",
      "|    time_elapsed       | 7734      |\n",
      "|    total_timesteps    | 1442000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.24     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.039    |\n",
      "|    value_loss         | 0.00214   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 288500   |\n",
      "|    time_elapsed       | 7736     |\n",
      "|    total_timesteps    | 1442500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.24    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0516  |\n",
      "|    value_loss         | 0.00206  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 288600   |\n",
      "|    time_elapsed       | 7739     |\n",
      "|    total_timesteps    | 1443000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.23    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.55     |\n",
      "|    value_loss         | 2.56     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 288700   |\n",
      "|    time_elapsed       | 7741     |\n",
      "|    total_timesteps    | 1443500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0543  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 288800   |\n",
      "|    time_elapsed       | 7744     |\n",
      "|    total_timesteps    | 1444000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0514  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 288900   |\n",
      "|    time_elapsed       | 7746     |\n",
      "|    total_timesteps    | 1444500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.84     |\n",
      "|    value_loss         | 0.702    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 289000   |\n",
      "|    time_elapsed       | 7749     |\n",
      "|    total_timesteps    | 1445000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0679  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 289100   |\n",
      "|    time_elapsed       | 7751     |\n",
      "|    total_timesteps    | 1445500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0654  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 289200   |\n",
      "|    time_elapsed       | 7754     |\n",
      "|    total_timesteps    | 1446000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0603  |\n",
      "|    value_loss         | 0.00203  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 289300   |\n",
      "|    time_elapsed       | 7757     |\n",
      "|    total_timesteps    | 1446500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.039   |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 289400   |\n",
      "|    time_elapsed       | 7759     |\n",
      "|    total_timesteps    | 1447000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.033   |\n",
      "|    value_loss         | 0.00198  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 289500    |\n",
      "|    time_elapsed       | 7762      |\n",
      "|    total_timesteps    | 1447500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 2.21      |\n",
      "|    value_loss         | 2.56      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 289600   |\n",
      "|    time_elapsed       | 7764     |\n",
      "|    total_timesteps    | 1448000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0435  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 289700   |\n",
      "|    time_elapsed       | 7767     |\n",
      "|    total_timesteps    | 1448500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0665  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 289800   |\n",
      "|    time_elapsed       | 7770     |\n",
      "|    total_timesteps    | 1449000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.492    |\n",
      "|    value_loss         | 0.525    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 289900   |\n",
      "|    time_elapsed       | 7772     |\n",
      "|    total_timesteps    | 1449500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0448  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 290000   |\n",
      "|    time_elapsed       | 7775     |\n",
      "|    total_timesteps    | 1450000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0419  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 290100   |\n",
      "|    time_elapsed       | 7777     |\n",
      "|    total_timesteps    | 1450500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0776  |\n",
      "|    value_loss         | 0.002    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 290200   |\n",
      "|    time_elapsed       | 7780     |\n",
      "|    total_timesteps    | 1451000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0583  |\n",
      "|    value_loss         | 0.00194  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 531       |\n",
      "|    ep_rew_mean        | 18.8      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 290300    |\n",
      "|    time_elapsed       | 7782      |\n",
      "|    total_timesteps    | 1451500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0674   |\n",
      "|    value_loss         | 0.00208   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 290400   |\n",
      "|    time_elapsed       | 7785     |\n",
      "|    total_timesteps    | 1452000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0449  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 290500   |\n",
      "|    time_elapsed       | 7787     |\n",
      "|    total_timesteps    | 1452500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0437  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 533       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 290600    |\n",
      "|    time_elapsed       | 7790      |\n",
      "|    total_timesteps    | 1453000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0492   |\n",
      "|    value_loss         | 0.00217   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 290700   |\n",
      "|    time_elapsed       | 7793     |\n",
      "|    total_timesteps    | 1453500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.039   |\n",
      "|    value_loss         | 0.00214  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 290800   |\n",
      "|    time_elapsed       | 7795     |\n",
      "|    total_timesteps    | 1454000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0569  |\n",
      "|    value_loss         | 0.00208  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 290900   |\n",
      "|    time_elapsed       | 7798     |\n",
      "|    total_timesteps    | 1454500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0611  |\n",
      "|    value_loss         | 0.00219  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 291000   |\n",
      "|    time_elapsed       | 7800     |\n",
      "|    total_timesteps    | 1455000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0552  |\n",
      "|    value_loss         | 0.00225  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 291100   |\n",
      "|    time_elapsed       | 7803     |\n",
      "|    total_timesteps    | 1455500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.051   |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 291200    |\n",
      "|    time_elapsed       | 7806      |\n",
      "|    total_timesteps    | 1456000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0501   |\n",
      "|    value_loss         | 0.00218   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 291300   |\n",
      "|    time_elapsed       | 7808     |\n",
      "|    total_timesteps    | 1456500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.189    |\n",
      "|    value_loss         | 0.174    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 291400   |\n",
      "|    time_elapsed       | 7811     |\n",
      "|    total_timesteps    | 1457000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0567  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 291500   |\n",
      "|    time_elapsed       | 7813     |\n",
      "|    total_timesteps    | 1457500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0392  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 533       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 291600    |\n",
      "|    time_elapsed       | 7816      |\n",
      "|    total_timesteps    | 1458000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0487   |\n",
      "|    value_loss         | 0.00212   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 291700   |\n",
      "|    time_elapsed       | 7818     |\n",
      "|    total_timesteps    | 1458500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0639  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 291800   |\n",
      "|    time_elapsed       | 7821     |\n",
      "|    total_timesteps    | 1459000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0354  |\n",
      "|    value_loss         | 0.00209  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 530       |\n",
      "|    ep_rew_mean        | 18.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 291900    |\n",
      "|    time_elapsed       | 7824      |\n",
      "|    total_timesteps    | 1459500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0348   |\n",
      "|    value_loss         | 0.00229   |\n",
      "-------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 532       |\n",
      "|    ep_rew_mean        | 18.7      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 292000    |\n",
      "|    time_elapsed       | 7826      |\n",
      "|    total_timesteps    | 1460000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0463   |\n",
      "|    value_loss         | 0.00223   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.7     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 292100   |\n",
      "|    time_elapsed       | 7829     |\n",
      "|    total_timesteps    | 1460500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0294  |\n",
      "|    value_loss         | 0.00201  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 292200   |\n",
      "|    time_elapsed       | 7832     |\n",
      "|    total_timesteps    | 1461000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0407  |\n",
      "|    value_loss         | 0.00223  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 292300   |\n",
      "|    time_elapsed       | 7834     |\n",
      "|    total_timesteps    | 1461500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00218  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 533       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 292400    |\n",
      "|    time_elapsed       | 7837      |\n",
      "|    total_timesteps    | 1462000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.62      |\n",
      "|    value_loss         | 0.346     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 292500   |\n",
      "|    time_elapsed       | 7839     |\n",
      "|    total_timesteps    | 1462500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0326  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 292600   |\n",
      "|    time_elapsed       | 7842     |\n",
      "|    total_timesteps    | 1463000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.585    |\n",
      "|    value_loss         | 0.523    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 292700   |\n",
      "|    time_elapsed       | 7844     |\n",
      "|    total_timesteps    | 1463500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0659  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 292800    |\n",
      "|    time_elapsed       | 7847      |\n",
      "|    total_timesteps    | 1464000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 1.04      |\n",
      "|    value_loss         | 1.99      |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 292900   |\n",
      "|    time_elapsed       | 7850     |\n",
      "|    total_timesteps    | 1464500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.41     |\n",
      "|    value_loss         | 2.55     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 293000   |\n",
      "|    time_elapsed       | 7852     |\n",
      "|    total_timesteps    | 1465000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00215  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 293100   |\n",
      "|    time_elapsed       | 7855     |\n",
      "|    total_timesteps    | 1465500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0566  |\n",
      "|    value_loss         | 0.00228  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 293200   |\n",
      "|    time_elapsed       | 7857     |\n",
      "|    total_timesteps    | 1466000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -1.07    |\n",
      "|    value_loss         | 1.29     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 293300   |\n",
      "|    time_elapsed       | 7860     |\n",
      "|    total_timesteps    | 1466500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.066   |\n",
      "|    value_loss         | 0.00216  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 293400   |\n",
      "|    time_elapsed       | 7862     |\n",
      "|    total_timesteps    | 1467000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0413  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 293500   |\n",
      "|    time_elapsed       | 7865     |\n",
      "|    total_timesteps    | 1467500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.036   |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 293600   |\n",
      "|    time_elapsed       | 7868     |\n",
      "|    total_timesteps    | 1468000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0307  |\n",
      "|    value_loss         | 0.00234  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 293700   |\n",
      "|    time_elapsed       | 7870     |\n",
      "|    total_timesteps    | 1468500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0433  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 293800   |\n",
      "|    time_elapsed       | 7873     |\n",
      "|    total_timesteps    | 1469000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0448  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 293900   |\n",
      "|    time_elapsed       | 7875     |\n",
      "|    total_timesteps    | 1469500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.048   |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 294000   |\n",
      "|    time_elapsed       | 7878     |\n",
      "|    total_timesteps    | 1470000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0485  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 294100   |\n",
      "|    time_elapsed       | 7880     |\n",
      "|    total_timesteps    | 1470500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0305  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 294200   |\n",
      "|    time_elapsed       | 7883     |\n",
      "|    total_timesteps    | 1471000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0351  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 529      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 294300   |\n",
      "|    time_elapsed       | 7885     |\n",
      "|    total_timesteps    | 1471500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.86     |\n",
      "|    value_loss         | 1.99     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 294400   |\n",
      "|    time_elapsed       | 7888     |\n",
      "|    total_timesteps    | 1472000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0571  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 530      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 294500   |\n",
      "|    time_elapsed       | 7890     |\n",
      "|    total_timesteps    | 1472500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0446  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 531      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 294600   |\n",
      "|    time_elapsed       | 7893     |\n",
      "|    total_timesteps    | 1473000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0673  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 532      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 294700   |\n",
      "|    time_elapsed       | 7895     |\n",
      "|    total_timesteps    | 1473500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0308  |\n",
      "|    value_loss         | 0.00244  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 534       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 294800    |\n",
      "|    time_elapsed       | 7898      |\n",
      "|    total_timesteps    | 1474000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.17     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0333   |\n",
      "|    value_loss         | 0.00236   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 294900   |\n",
      "|    time_elapsed       | 7900     |\n",
      "|    total_timesteps    | 1474500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.038   |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 295000   |\n",
      "|    time_elapsed       | 7903     |\n",
      "|    total_timesteps    | 1475000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0351  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 295100   |\n",
      "|    time_elapsed       | 7905     |\n",
      "|    total_timesteps    | 1475500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.17    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0572  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 295200   |\n",
      "|    time_elapsed       | 7908     |\n",
      "|    total_timesteps    | 1476000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0328  |\n",
      "|    value_loss         | 0.00224  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 295300   |\n",
      "|    time_elapsed       | 7911     |\n",
      "|    total_timesteps    | 1476500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.04     |\n",
      "|    value_loss         | 0.879    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 295400   |\n",
      "|    time_elapsed       | 7913     |\n",
      "|    total_timesteps    | 1477000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 2.42     |\n",
      "|    value_loss         | 2.55     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 295500   |\n",
      "|    time_elapsed       | 7916     |\n",
      "|    total_timesteps    | 1477500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0477  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 533       |\n",
      "|    ep_rew_mean        | 19        |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 295600    |\n",
      "|    time_elapsed       | 7918      |\n",
      "|    total_timesteps    | 1478000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.18     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.043    |\n",
      "|    value_loss         | 0.00233   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 295700   |\n",
      "|    time_elapsed       | 7921     |\n",
      "|    total_timesteps    | 1478500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0462  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 295800   |\n",
      "|    time_elapsed       | 7924     |\n",
      "|    total_timesteps    | 1479000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0371  |\n",
      "|    value_loss         | 0.00237  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 295900   |\n",
      "|    time_elapsed       | 7926     |\n",
      "|    total_timesteps    | 1479500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.623    |\n",
      "|    value_loss         | 0.698    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 296000   |\n",
      "|    time_elapsed       | 7929     |\n",
      "|    total_timesteps    | 1480000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.055   |\n",
      "|    value_loss         | 0.00243  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 535       |\n",
      "|    ep_rew_mean        | 19.1      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 296100    |\n",
      "|    time_elapsed       | 7931      |\n",
      "|    total_timesteps    | 1480500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -2.38e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | 0.173     |\n",
      "|    value_loss         | 0.173     |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 296200   |\n",
      "|    time_elapsed       | 7934     |\n",
      "|    total_timesteps    | 1481000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.0989   |\n",
      "|    value_loss         | 0.174    |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 296300   |\n",
      "|    time_elapsed       | 7936     |\n",
      "|    total_timesteps    | 1481500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0536  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 296400   |\n",
      "|    time_elapsed       | 7939     |\n",
      "|    total_timesteps    | 1482000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0529  |\n",
      "|    value_loss         | 0.00242  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 296500   |\n",
      "|    time_elapsed       | 7941     |\n",
      "|    total_timesteps    | 1482500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0526  |\n",
      "|    value_loss         | 0.00238  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 296600   |\n",
      "|    time_elapsed       | 7944     |\n",
      "|    total_timesteps    | 1483000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0451  |\n",
      "|    value_loss         | 0.00238  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 540      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 296700   |\n",
      "|    time_elapsed       | 7946     |\n",
      "|    total_timesteps    | 1483500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.18    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0509  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 296800   |\n",
      "|    time_elapsed       | 7949     |\n",
      "|    total_timesteps    | 1484000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0459  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19       |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 296900   |\n",
      "|    time_elapsed       | 7951     |\n",
      "|    total_timesteps    | 1484500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0698  |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 535      |\n",
      "|    ep_rew_mean        | 18.9     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 297000   |\n",
      "|    time_elapsed       | 7954     |\n",
      "|    total_timesteps    | 1485000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0551  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 297100   |\n",
      "|    time_elapsed       | 7956     |\n",
      "|    total_timesteps    | 1485500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0499  |\n",
      "|    value_loss         | 0.0022   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 533      |\n",
      "|    ep_rew_mean        | 18.8     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 297200   |\n",
      "|    time_elapsed       | 7959     |\n",
      "|    total_timesteps    | 1486000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0389  |\n",
      "|    value_loss         | 0.00235  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 533       |\n",
      "|    ep_rew_mean        | 18.9      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 297300    |\n",
      "|    time_elapsed       | 7961      |\n",
      "|    total_timesteps    | 1486500   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.2      |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0308   |\n",
      "|    value_loss         | 0.00223   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 297400   |\n",
      "|    time_elapsed       | 7964     |\n",
      "|    total_timesteps    | 1487000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0384  |\n",
      "|    value_loss         | 0.0023   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 534      |\n",
      "|    ep_rew_mean        | 19.1     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 297500   |\n",
      "|    time_elapsed       | 7967     |\n",
      "|    total_timesteps    | 1487500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.19    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0588  |\n",
      "|    value_loss         | 0.00233  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 537       |\n",
      "|    ep_rew_mean        | 19.3      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 297600    |\n",
      "|    time_elapsed       | 7969      |\n",
      "|    total_timesteps    | 1488000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.19     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0604   |\n",
      "|    value_loss         | 0.00228   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 297700   |\n",
      "|    time_elapsed       | 7972     |\n",
      "|    total_timesteps    | 1488500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.03    |\n",
      "|    value_loss         | 0.00221  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 297800   |\n",
      "|    time_elapsed       | 7974     |\n",
      "|    total_timesteps    | 1489000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.2     |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0633  |\n",
      "|    value_loss         | 0.0021   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 297900   |\n",
      "|    time_elapsed       | 7977     |\n",
      "|    total_timesteps    | 1489500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0375  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 298000   |\n",
      "|    time_elapsed       | 7979     |\n",
      "|    total_timesteps    | 1490000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 5.96e-08 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0642  |\n",
      "|    value_loss         | 0.00211  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 298100   |\n",
      "|    time_elapsed       | 7982     |\n",
      "|    total_timesteps    | 1490500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0365  |\n",
      "|    value_loss         | 0.00217  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 298200   |\n",
      "|    time_elapsed       | 7984     |\n",
      "|    total_timesteps    | 1491000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0611  |\n",
      "|    value_loss         | 0.00205  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.2     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 298300   |\n",
      "|    time_elapsed       | 7987     |\n",
      "|    total_timesteps    | 1491500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0579  |\n",
      "|    value_loss         | 0.00207  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 298400   |\n",
      "|    time_elapsed       | 7989     |\n",
      "|    total_timesteps    | 1492000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 1.1      |\n",
      "|    value_loss         | 0.7      |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 298500   |\n",
      "|    time_elapsed       | 7992     |\n",
      "|    total_timesteps    | 1492500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.066   |\n",
      "|    value_loss         | 0.00235  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.3     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 298600   |\n",
      "|    time_elapsed       | 7994     |\n",
      "|    total_timesteps    | 1493000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0333  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 298700   |\n",
      "|    time_elapsed       | 7997     |\n",
      "|    total_timesteps    | 1493500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0579  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.4     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 298800   |\n",
      "|    time_elapsed       | 7999     |\n",
      "|    total_timesteps    | 1494000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0378  |\n",
      "|    value_loss         | 0.0024   |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 298900   |\n",
      "|    time_elapsed       | 8002     |\n",
      "|    total_timesteps    | 1494500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0378  |\n",
      "|    value_loss         | 0.00245  |\n",
      "------------------------------------\n",
      "-------------------------------------\n",
      "| rollout/              |           |\n",
      "|    ep_len_mean        | 538       |\n",
      "|    ep_rew_mean        | 19.6      |\n",
      "| time/                 |           |\n",
      "|    fps                | 186       |\n",
      "|    iterations         | 299000    |\n",
      "|    time_elapsed       | 8004      |\n",
      "|    total_timesteps    | 1495000   |\n",
      "| train/                |           |\n",
      "|    entropy_loss       | -1.21     |\n",
      "|    explained_variance | -1.19e-07 |\n",
      "|    learning_rate      | 0.0007    |\n",
      "|    policy_loss        | -0.0581   |\n",
      "|    value_loss         | 0.00248   |\n",
      "-------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 299100   |\n",
      "|    time_elapsed       | 8007     |\n",
      "|    total_timesteps    | 1495500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0561  |\n",
      "|    value_loss         | 0.00246  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 538      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 299200   |\n",
      "|    time_elapsed       | 8010     |\n",
      "|    total_timesteps    | 1496000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0771  |\n",
      "|    value_loss         | 0.00249  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 299300   |\n",
      "|    time_elapsed       | 8012     |\n",
      "|    total_timesteps    | 1496500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0361  |\n",
      "|    value_loss         | 0.00245  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 299400   |\n",
      "|    time_elapsed       | 8014     |\n",
      "|    total_timesteps    | 1497000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 1.19e-07 |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0504  |\n",
      "|    value_loss         | 0.00232  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 299500   |\n",
      "|    time_elapsed       | 8017     |\n",
      "|    total_timesteps    | 1497500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | 0.963    |\n",
      "|    value_loss         | 0.88     |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 299600   |\n",
      "|    time_elapsed       | 8019     |\n",
      "|    total_timesteps    | 1498000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0533  |\n",
      "|    value_loss         | 0.00229  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 537      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 299700   |\n",
      "|    time_elapsed       | 8022     |\n",
      "|    total_timesteps    | 1498500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0393  |\n",
      "|    value_loss         | 0.00227  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 536      |\n",
      "|    ep_rew_mean        | 19.5     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 299800   |\n",
      "|    time_elapsed       | 8024     |\n",
      "|    total_timesteps    | 1499000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0409  |\n",
      "|    value_loss         | 0.00231  |\n",
      "------------------------------------\n",
      "------------------------------------\n",
      "| rollout/              |          |\n",
      "|    ep_len_mean        | 539      |\n",
      "|    ep_rew_mean        | 19.6     |\n",
      "| time/                 |          |\n",
      "|    fps                | 186      |\n",
      "|    iterations         | 299900   |\n",
      "|    time_elapsed       | 8027     |\n",
      "|    total_timesteps    | 1499500  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.21    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0649  |\n",
      "|    value_loss         | 0.00236  |\n",
      "------------------------------------\n",
      "Eval num_timesteps=1500000, episode_reward=1.00 +/- 0.00\n",
      "Episode length: 420.00 +/- 0.00\n",
      "------------------------------------\n",
      "| eval/                 |          |\n",
      "|    mean_ep_length     | 420      |\n",
      "|    mean_reward        | 1        |\n",
      "| time/                 |          |\n",
      "|    total_timesteps    | 1500000  |\n",
      "| train/                |          |\n",
      "|    entropy_loss       | -1.22    |\n",
      "|    explained_variance | 0        |\n",
      "|    learning_rate      | 0.0007   |\n",
      "|    policy_loss        | -0.0315  |\n",
      "|    value_loss         | 0.00213  |\n",
      "------------------------------------\n",
      "---------------------------------\n",
      "| rollout/           |          |\n",
      "|    ep_len_mean     | 541      |\n",
      "|    ep_rew_mean     | 19.7     |\n",
      "| time/              |          |\n",
      "|    fps             | 186      |\n",
      "|    iterations      | 300000   |\n",
      "|    time_elapsed    | 8041     |\n",
      "|    total_timesteps | 1500000  |\n",
      "---------------------------------\n"
     ]
    },
    {
     "data": {
      "text/plain": [
       "<stable_baselines3.a2c.a2c.A2C at 0x7a2662f85390>"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Train the model\n",
    "model.learn(total_timesteps=NUM_TIMESTEPS, callback=callback_list, tb_log_name=\"./tb/\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "7f8c4c28",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-05-14T16:53:33.124854Z",
     "iopub.status.busy": "2024-05-14T16:53:33.123624Z",
     "iopub.status.idle": "2024-05-14T16:53:33.541447Z",
     "shell.execute_reply": "2024-05-14T16:53:33.540411Z"
    },
    "papermill": {
     "duration": 0.724264,
     "end_time": "2024-05-14T16:53:33.543838",
     "exception": false,
     "start_time": "2024-05-14T16:53:32.819574",
     "status": "completed"
    },
    "tags": []
   },
   "outputs": [],
   "source": [
    "# Save the model and policy for future loading and training\n",
    "model.save(MODEL_FILE_NAME)\n",
    "model.policy.save(POLICY_FILE_NAME)"
   ]
  }
 ],
 "metadata": {
  "kaggle": {
   "accelerator": "nvidiaTeslaT4",
   "dataSources": [],
   "dockerImageVersionId": 30699,
   "isGpuEnabled": true,
   "isInternetEnabled": true,
   "language": "python",
   "sourceType": "notebook"
  },
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.13"
  },
  "papermill": {
   "default_parameters": {},
   "duration": 8131.216961,
   "end_time": "2024-05-14T16:53:36.392099",
   "environment_variables": {},
   "exception": null,
   "input_path": "__notebook__.ipynb",
   "output_path": "__notebook__.ipynb",
   "parameters": {},
   "start_time": "2024-05-14T14:38:05.175138",
   "version": "2.5.0"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}