diff --git "a/AntBullet.ipynb" "b/AntBullet.ipynb"
new file mode 100644--- /dev/null
+++ "b/AntBullet.ipynb"
@@ -0,0 +1,8260 @@
+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "provenance": []
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    },
+    "accelerator": "GPU",
+    "gpuClass": "standard",
+    "widgets": {
+      "application/vnd.jupyter.widget-state+json": {
+        "156c5533e16243a7bda1e84f80f5114e": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "VBoxModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "VBoxModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "VBoxView",
+            "box_style": "",
+            "children": [
+              "IPY_MODEL_a00a11e622d44f97a332fd474ce466cd",
+              "IPY_MODEL_2b6fb2c35de748c08c963729d8e420ce",
+              "IPY_MODEL_6b0b5d0652954f6788de81be2aed4a91",
+              "IPY_MODEL_c2e98a3f69eb4567a59bfc3b2dc75d09",
+              "IPY_MODEL_4f9c9bf144f24505ae9d7f37a2e08469"
+            ],
+            "layout": "IPY_MODEL_c0c745264866433d9a23bace3f6942ca"
+          }
+        },
+        "a00a11e622d44f97a332fd474ce466cd": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_6b327d9a12d04092a0c35e22641749f6",
+            "placeholder": "​",
+            "style": "IPY_MODEL_605f13ce1adb4ec19fb28be89862662f",
+            "value": "<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.svg\nalt='Hugging Face'> <br> Copy a token from <a\nhref=\"https://huggingface.co/settings/tokens\" target=\"_blank\">your Hugging Face\ntokens page</a> and paste it below. <br> Immediately click login after copying\nyour token or it might be stored in plain text in this notebook file. </center>"
+          }
+        },
+        "2b6fb2c35de748c08c963729d8e420ce": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "PasswordModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "PasswordModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "PasswordView",
+            "continuous_update": true,
+            "description": "Token:",
+            "description_tooltip": null,
+            "disabled": false,
+            "layout": "IPY_MODEL_3458c418bf9e4790b3bb58eb411afa84",
+            "placeholder": "​",
+            "style": "IPY_MODEL_ec672f86dbe54f779c83a55e124d3529",
+            "value": ""
+          }
+        },
+        "6b0b5d0652954f6788de81be2aed4a91": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "CheckboxModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "CheckboxModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "CheckboxView",
+            "description": "Add token as git credential?",
+            "description_tooltip": null,
+            "disabled": false,
+            "indent": true,
+            "layout": "IPY_MODEL_487a8dfceb5d4c0c961920dd87f6c3dc",
+            "style": "IPY_MODEL_6006287334cb4569b285b532feeb1bac",
+            "value": true
+          }
+        },
+        "c2e98a3f69eb4567a59bfc3b2dc75d09": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "ButtonModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "ButtonModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "ButtonView",
+            "button_style": "",
+            "description": "Login",
+            "disabled": false,
+            "icon": "",
+            "layout": "IPY_MODEL_3cb0781eaf4d40f192bd3c0e9b0e7754",
+            "style": "IPY_MODEL_e89bd84972124556842d0b8b88c53c82",
+            "tooltip": ""
+          }
+        },
+        "4f9c9bf144f24505ae9d7f37a2e08469": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_9044266c2ffd42caa0fbca6a6c0cfe1c",
+            "placeholder": "​",
+            "style": "IPY_MODEL_59d495c7bac64601b8290f2b91a5f95a",
+            "value": "\n<b>Pro Tip:</b> If you don't already have one, you can create a dedicated\n'notebooks' token with 'write' access, that you can then easily reuse for all\nnotebooks. </center>"
+          }
+        },
+        "c0c745264866433d9a23bace3f6942ca": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": "center",
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": "flex",
+            "flex": null,
+            "flex_flow": "column",
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": "50%"
+          }
+        },
+        "6b327d9a12d04092a0c35e22641749f6": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "605f13ce1adb4ec19fb28be89862662f": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "3458c418bf9e4790b3bb58eb411afa84": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "ec672f86dbe54f779c83a55e124d3529": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "487a8dfceb5d4c0c961920dd87f6c3dc": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "6006287334cb4569b285b532feeb1bac": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "3cb0781eaf4d40f192bd3c0e9b0e7754": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "e89bd84972124556842d0b8b88c53c82": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "ButtonStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "ButtonStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "button_color": null,
+            "font_weight": ""
+          }
+        },
+        "9044266c2ffd42caa0fbca6a6c0cfe1c": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "59d495c7bac64601b8290f2b91a5f95a": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "3f0e1549af384b5eaaf8d0e0947ffa63": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HBoxModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HBoxModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HBoxView",
+            "box_style": "",
+            "children": [
+              "IPY_MODEL_2469c6a556f646ce948ebaf91538b6f9",
+              "IPY_MODEL_edd595ea0bcb4405babbd89ce001b713",
+              "IPY_MODEL_32befdf329704957a799f02d4b567809"
+            ],
+            "layout": "IPY_MODEL_20705240642b484e9d3600c1e1b59fd4"
+          }
+        },
+        "2469c6a556f646ce948ebaf91538b6f9": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_4df6f9ecc994445e869d4f166b993275",
+            "placeholder": "​",
+            "style": "IPY_MODEL_630be75737424612b4548699931d42a1",
+            "value": "policy.optimizer.pth: 100%"
+          }
+        },
+        "edd595ea0bcb4405babbd89ce001b713": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "FloatProgressModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "FloatProgressModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "ProgressView",
+            "bar_style": "success",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_25ed9665e62541ccb2cb7c54abc9893a",
+            "max": 56190,
+            "min": 0,
+            "orientation": "horizontal",
+            "style": "IPY_MODEL_f2bb94fa4b1f45a4b6a3b2733f286ee0",
+            "value": 56190
+          }
+        },
+        "32befdf329704957a799f02d4b567809": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_e9ee36a505784dffb619f0a371e1f30a",
+            "placeholder": "​",
+            "style": "IPY_MODEL_dd9c3c14cdc047608c52232da0922fbf",
+            "value": " 56.2k/56.2k [00:01&lt;00:00, 19.8kB/s]"
+          }
+        },
+        "20705240642b484e9d3600c1e1b59fd4": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "4df6f9ecc994445e869d4f166b993275": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "630be75737424612b4548699931d42a1": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "25ed9665e62541ccb2cb7c54abc9893a": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "f2bb94fa4b1f45a4b6a3b2733f286ee0": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "ProgressStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "ProgressStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "bar_color": null,
+            "description_width": ""
+          }
+        },
+        "e9ee36a505784dffb619f0a371e1f30a": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "dd9c3c14cdc047608c52232da0922fbf": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "dbdf621979244bc884d5978a717964ec": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HBoxModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HBoxModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HBoxView",
+            "box_style": "",
+            "children": [
+              "IPY_MODEL_2a0d9775e20848af8b1dd2d816c29c83",
+              "IPY_MODEL_95aa8c1e9a16422d80c39b58a6f41be2",
+              "IPY_MODEL_b517ca6b785e4f3da25f0ac3479baf27"
+            ],
+            "layout": "IPY_MODEL_13e80013881248a596b2f5e66ded6b78"
+          }
+        },
+        "2a0d9775e20848af8b1dd2d816c29c83": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_91956ea4266f4f569b213216f4152b4a",
+            "placeholder": "​",
+            "style": "IPY_MODEL_3c32343528234482b6074b484eabf35b",
+            "value": "policy.pth: 100%"
+          }
+        },
+        "95aa8c1e9a16422d80c39b58a6f41be2": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "FloatProgressModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "FloatProgressModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "ProgressView",
+            "bar_style": "success",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_ff3776982a9f447d9358034b6173810b",
+            "max": 56958,
+            "min": 0,
+            "orientation": "horizontal",
+            "style": "IPY_MODEL_9beb866c18d642c09026f72b7162f705",
+            "value": 56958
+          }
+        },
+        "b517ca6b785e4f3da25f0ac3479baf27": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_dc4d21ed062441189ade718a1637ce15",
+            "placeholder": "​",
+            "style": "IPY_MODEL_d5dc4b70fddf44b69380a621dd07776f",
+            "value": " 57.0k/57.0k [00:01&lt;00:00, 21.3kB/s]"
+          }
+        },
+        "13e80013881248a596b2f5e66ded6b78": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "91956ea4266f4f569b213216f4152b4a": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "3c32343528234482b6074b484eabf35b": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "ff3776982a9f447d9358034b6173810b": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "9beb866c18d642c09026f72b7162f705": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "ProgressStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "ProgressStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "bar_color": null,
+            "description_width": ""
+          }
+        },
+        "dc4d21ed062441189ade718a1637ce15": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "d5dc4b70fddf44b69380a621dd07776f": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "0b1acf65b5d54bb2b7139d3ec608b1dc": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HBoxModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HBoxModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HBoxView",
+            "box_style": "",
+            "children": [
+              "IPY_MODEL_8f49d8154ba141439baff19887525f58",
+              "IPY_MODEL_adc728f4a9a34defbca502e64ecbd6bd",
+              "IPY_MODEL_c8ac80f0d8a540f2a0f10f2c1de7120e"
+            ],
+            "layout": "IPY_MODEL_ab9d88cffbe44792b4f33f48a35ea207"
+          }
+        },
+        "8f49d8154ba141439baff19887525f58": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_0da068b4a75d4eba823d4b1524d383b9",
+            "placeholder": "​",
+            "style": "IPY_MODEL_db4ed7c243ff44779319129275047d19",
+            "value": "Upload 5 LFS files: 100%"
+          }
+        },
+        "adc728f4a9a34defbca502e64ecbd6bd": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "FloatProgressModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "FloatProgressModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "ProgressView",
+            "bar_style": "success",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_a77ed51197ef4c8698000cd6486031ec",
+            "max": 5,
+            "min": 0,
+            "orientation": "horizontal",
+            "style": "IPY_MODEL_72f5f757970c42e9acfa251a43c78d29",
+            "value": 5
+          }
+        },
+        "c8ac80f0d8a540f2a0f10f2c1de7120e": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_b723acd11a59442a935c4bf48bd08cc2",
+            "placeholder": "​",
+            "style": "IPY_MODEL_ee40cee766c140f997d5d2e0df1791de",
+            "value": " 5/5 [00:01&lt;00:00,  3.93it/s]"
+          }
+        },
+        "ab9d88cffbe44792b4f33f48a35ea207": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "0da068b4a75d4eba823d4b1524d383b9": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "db4ed7c243ff44779319129275047d19": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "a77ed51197ef4c8698000cd6486031ec": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "72f5f757970c42e9acfa251a43c78d29": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "ProgressStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "ProgressStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "bar_color": null,
+            "description_width": ""
+          }
+        },
+        "b723acd11a59442a935c4bf48bd08cc2": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "ee40cee766c140f997d5d2e0df1791de": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "4c6ab63c95874d1e807d4b9d13ecbe71": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HBoxModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HBoxModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HBoxView",
+            "box_style": "",
+            "children": [
+              "IPY_MODEL_46b2a515f62743f38e36bd34f3c4c25d",
+              "IPY_MODEL_5027a441cf3f462baecc84aa26d9aaa9",
+              "IPY_MODEL_65af073891b745749747b04a1109e3a7"
+            ],
+            "layout": "IPY_MODEL_5101355a7838441b86f3afe843d479b3"
+          }
+        },
+        "46b2a515f62743f38e36bd34f3c4c25d": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_3a13164d7885436a8cc75f174ad1a800",
+            "placeholder": "​",
+            "style": "IPY_MODEL_31f4fc6dc22a47829f44408249d4d106",
+            "value": "a2c-AntBulletEnv-v0.zip: 100%"
+          }
+        },
+        "5027a441cf3f462baecc84aa26d9aaa9": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "FloatProgressModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "FloatProgressModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "ProgressView",
+            "bar_style": "success",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_84df193e14c04a2286852ee3994de7ef",
+            "max": 129266,
+            "min": 0,
+            "orientation": "horizontal",
+            "style": "IPY_MODEL_c7fcb03dc92e4e5b85d29e57fc36b6c7",
+            "value": 129266
+          }
+        },
+        "65af073891b745749747b04a1109e3a7": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_b9bd6fdb316b46d1974c63deb3d592f3",
+            "placeholder": "​",
+            "style": "IPY_MODEL_ff3f469eff2148c192e618cfdf5af008",
+            "value": " 129k/129k [00:01&lt;00:00, 20.5kB/s]"
+          }
+        },
+        "5101355a7838441b86f3afe843d479b3": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "3a13164d7885436a8cc75f174ad1a800": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "31f4fc6dc22a47829f44408249d4d106": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "84df193e14c04a2286852ee3994de7ef": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "c7fcb03dc92e4e5b85d29e57fc36b6c7": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "ProgressStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "ProgressStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "bar_color": null,
+            "description_width": ""
+          }
+        },
+        "b9bd6fdb316b46d1974c63deb3d592f3": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "ff3f469eff2148c192e618cfdf5af008": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "f228987c7fc64d30ba7c2f9d0ae971ab": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HBoxModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HBoxModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HBoxView",
+            "box_style": "",
+            "children": [
+              "IPY_MODEL_052da86de60c4d42b9ff3443ae2167fd",
+              "IPY_MODEL_8c5c76524e354e2da1155e0d2d16f14e",
+              "IPY_MODEL_85a94779b184457d88483a0c653b6865"
+            ],
+            "layout": "IPY_MODEL_ba7239084fee470db29a8410cba7a859"
+          }
+        },
+        "052da86de60c4d42b9ff3443ae2167fd": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_273e4cb1ebc24a438700a8acb626453b",
+            "placeholder": "​",
+            "style": "IPY_MODEL_e8fb69888ba3487c9fa62449cbc665e8",
+            "value": "pytorch_variables.pth: 100%"
+          }
+        },
+        "8c5c76524e354e2da1155e0d2d16f14e": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "FloatProgressModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "FloatProgressModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "ProgressView",
+            "bar_style": "success",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_0010ce3516404b229534792c804a2108",
+            "max": 431,
+            "min": 0,
+            "orientation": "horizontal",
+            "style": "IPY_MODEL_ec031f4349804865bf1a43c6a439f3ce",
+            "value": 431
+          }
+        },
+        "85a94779b184457d88483a0c653b6865": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_f1ea5d94c4fd4da7b9dbddf4baf51858",
+            "placeholder": "​",
+            "style": "IPY_MODEL_0342b70c06d54475aec9a096678976e8",
+            "value": " 431/431 [00:01&lt;00:00, 1.18kB/s]"
+          }
+        },
+        "ba7239084fee470db29a8410cba7a859": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "273e4cb1ebc24a438700a8acb626453b": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "e8fb69888ba3487c9fa62449cbc665e8": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "0010ce3516404b229534792c804a2108": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "ec031f4349804865bf1a43c6a439f3ce": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "ProgressStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "ProgressStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "bar_color": null,
+            "description_width": ""
+          }
+        },
+        "f1ea5d94c4fd4da7b9dbddf4baf51858": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "0342b70c06d54475aec9a096678976e8": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "70550b80f84f4c2c8a78507f4d4b7d7d": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HBoxModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HBoxModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HBoxView",
+            "box_style": "",
+            "children": [
+              "IPY_MODEL_68b0a8b98bc64437b21321bc81ecabda",
+              "IPY_MODEL_76792056dc8e41b8b429dbaedcc8b959",
+              "IPY_MODEL_21dfca4be5ec4153a0092408c4cd8008"
+            ],
+            "layout": "IPY_MODEL_ae165b0638e44c7c8e4ed2883ad54780"
+          }
+        },
+        "68b0a8b98bc64437b21321bc81ecabda": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_457a90c53184449cb84aac8566a0c5ee",
+            "placeholder": "​",
+            "style": "IPY_MODEL_f65d8a0e537e42aeb05ad14d01736838",
+            "value": "vec_normalize.pkl: 100%"
+          }
+        },
+        "76792056dc8e41b8b429dbaedcc8b959": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "FloatProgressModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "FloatProgressModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "ProgressView",
+            "bar_style": "success",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_893f301fae2d407b88fa5222b33960e8",
+            "max": 2123,
+            "min": 0,
+            "orientation": "horizontal",
+            "style": "IPY_MODEL_e890edf0b0db4e29b6bae6e255e7ea60",
+            "value": 2123
+          }
+        },
+        "21dfca4be5ec4153a0092408c4cd8008": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "HTMLModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_a3f2601e95cc46fba98c2b831a90c590",
+            "placeholder": "​",
+            "style": "IPY_MODEL_cb1b15ddb2aa4cc7b4816fbff9c264ec",
+            "value": " 2.12k/2.12k [00:00&lt;00:00, 5.56kB/s]"
+          }
+        },
+        "ae165b0638e44c7c8e4ed2883ad54780": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "457a90c53184449cb84aac8566a0c5ee": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "f65d8a0e537e42aeb05ad14d01736838": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "893f301fae2d407b88fa5222b33960e8": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "e890edf0b0db4e29b6bae6e255e7ea60": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "ProgressStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "ProgressStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "bar_color": null,
+            "description_width": ""
+          }
+        },
+        "a3f2601e95cc46fba98c2b831a90c590": {
+          "model_module": "@jupyter-widgets/base",
+          "model_name": "LayoutModel",
+          "model_module_version": "1.2.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "cb1b15ddb2aa4cc7b4816fbff9c264ec": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_name": "DescriptionStyleModel",
+          "model_module_version": "1.5.0",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        }
+      }
+    }
+  },
+  "cells": [
+    {
+      "cell_type": "code",
+      "execution_count": 1,
+      "metadata": {
+        "id": "4JySv-QmLKk3"
+      },
+      "outputs": [],
+      "source": [
+        "%%capture\n",
+        "!apt install python-opengl\n",
+        "!apt install ffmpeg\n",
+        "!apt install xvfb\n",
+        "!pip3 install pyvirtualdisplay"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# Virtual display\n",
+        "from pyvirtualdisplay import Display\n",
+        "\n",
+        "virtual_display = Display(visible=0, size=(1400, 900))\n",
+        "virtual_display.start()"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "BJStvsI2LZPn",
+        "outputId": "c4533443-5f6c-4782-b640-82bb5dbf46af"
+      },
+      "execution_count": 2,
+      "outputs": [
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "<pyvirtualdisplay.display.Display at 0x7f21e34a7b80>"
+            ]
+          },
+          "metadata": {},
+          "execution_count": 2
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# Install the specific setuptools version required to install the dependencies\n",
+        "!pip install setuptools==65.5.0"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "H3Kw1GLcNmLr",
+        "outputId": "f2a02585-d9df-4ef5-d650-25e351dfd5e0"
+      },
+      "execution_count": 3,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\n",
+            "Collecting setuptools==65.5.0\n",
+            "  Downloading setuptools-65.5.0-py3-none-any.whl (1.2 MB)\n",
+            "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m1.2/1.2 MB\u001b[0m \u001b[31m27.0 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
+            "\u001b[?25hInstalling collected packages: setuptools\n",
+            "  Attempting uninstall: setuptools\n",
+            "    Found existing installation: setuptools 67.6.0\n",
+            "    Uninstalling setuptools-67.6.0:\n",
+            "      Successfully uninstalled setuptools-67.6.0\n",
+            "\u001b[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.\n",
+            "ipython 7.9.0 requires jedi>=0.10, which is not installed.\n",
+            "cvxpy 1.3.1 requires setuptools>65.5.1, but you have setuptools 65.5.0 which is incompatible.\u001b[0m\u001b[31m\n",
+            "\u001b[0mSuccessfully installed setuptools-65.5.0\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "!pip install -r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "kzMsxtsvLbe1",
+        "outputId": "23da9ca2-7ccf-4be4-8ad6-4af99a6db5e3"
+      },
+      "execution_count": 4,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\n",
+            "Collecting stable-baselines3[extra]\n",
+            "  Downloading stable_baselines3-1.7.0-py3-none-any.whl (171 kB)\n",
+            "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m171.8/171.8 KB\u001b[0m \u001b[31m11.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
+            "\u001b[?25hCollecting huggingface_sb3\n",
+            "  Downloading huggingface_sb3-2.2.4-py3-none-any.whl (9.4 kB)\n",
+            "Collecting panda_gym==2.0.0\n",
+            "  Downloading panda_gym-2.0.0-py3-none-any.whl (26 kB)\n",
+            "Collecting pyglet==1.5.1\n",
+            "  Downloading pyglet-1.5.1-py2.py3-none-any.whl (1.0 MB)\n",
+            "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m1.0/1.0 MB\u001b[0m \u001b[31m60.2 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
+            "\u001b[?25hRequirement already satisfied: scipy in /usr/local/lib/python3.9/dist-packages (from panda_gym==2.0.0->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 3)) (1.10.1)\n",
+            "Collecting pybullet\n",
+            "  Downloading pybullet-3.2.5-cp39-cp39-manylinux_2_5_x86_64.manylinux1_x86_64.whl (91.7 MB)\n",
+            "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m91.7/91.7 MB\u001b[0m \u001b[31m9.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
+            "\u001b[?25hRequirement already satisfied: numpy in /usr/local/lib/python3.9/dist-packages (from panda_gym==2.0.0->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 3)) (1.22.4)\n",
+            "Requirement already satisfied: gym in /usr/local/lib/python3.9/dist-packages (from panda_gym==2.0.0->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 3)) (0.25.2)\n",
+            "Requirement already satisfied: pandas in /usr/local/lib/python3.9/dist-packages (from stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (1.4.4)\n",
+            "Requirement already satisfied: cloudpickle in /usr/local/lib/python3.9/dist-packages (from stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2.2.1)\n",
+            "Requirement already satisfied: matplotlib in /usr/local/lib/python3.9/dist-packages (from stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (3.7.1)\n",
+            "Collecting importlib-metadata~=4.13\n",
+            "  Downloading importlib_metadata-4.13.0-py3-none-any.whl (23 kB)\n",
+            "Requirement already satisfied: torch>=1.11 in /usr/local/lib/python3.9/dist-packages (from stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (1.13.1+cu116)\n",
+            "Collecting gym\n",
+            "  Downloading gym-0.21.0.tar.gz (1.5 MB)\n",
+            "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m1.5/1.5 MB\u001b[0m \u001b[31m70.1 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
+            "\u001b[?25h  Preparing metadata (setup.py) ... \u001b[?25l\u001b[?25hdone\n",
+            "Requirement already satisfied: pillow in /usr/local/lib/python3.9/dist-packages (from stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (8.4.0)\n",
+            "Requirement already satisfied: opencv-python in /usr/local/lib/python3.9/dist-packages (from stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (4.7.0.72)\n",
+            "Collecting ale-py==0.7.4\n",
+            "  Downloading ale_py-0.7.4-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.6 MB)\n",
+            "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m1.6/1.6 MB\u001b[0m \u001b[31m85.1 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
+            "\u001b[?25hCollecting autorom[accept-rom-license]~=0.4.2\n",
+            "  Downloading AutoROM-0.4.2-py3-none-any.whl (16 kB)\n",
+            "Requirement already satisfied: tqdm in /usr/local/lib/python3.9/dist-packages (from stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (4.65.0)\n",
+            "Requirement already satisfied: tensorboard>=2.9.1 in /usr/local/lib/python3.9/dist-packages (from stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2.11.2)\n",
+            "Requirement already satisfied: rich in /usr/local/lib/python3.9/dist-packages (from stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (13.3.2)\n",
+            "Requirement already satisfied: psutil in /usr/local/lib/python3.9/dist-packages (from stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (5.9.4)\n",
+            "Requirement already satisfied: importlib-resources in /usr/local/lib/python3.9/dist-packages (from ale-py==0.7.4->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (5.12.0)\n",
+            "Requirement already satisfied: wasabi in /usr/local/lib/python3.9/dist-packages (from huggingface_sb3->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 2)) (1.1.1)\n",
+            "Collecting huggingface-hub~=0.8\n",
+            "  Downloading huggingface_hub-0.13.3-py3-none-any.whl (199 kB)\n",
+            "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m199.8/199.8 KB\u001b[0m \u001b[31m29.0 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
+            "\u001b[?25hRequirement already satisfied: pyyaml~=6.0 in /usr/local/lib/python3.9/dist-packages (from huggingface_sb3->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 2)) (6.0)\n",
+            "Requirement already satisfied: click in /usr/local/lib/python3.9/dist-packages (from autorom[accept-rom-license]~=0.4.2->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (8.1.3)\n",
+            "Requirement already satisfied: requests in /usr/local/lib/python3.9/dist-packages (from autorom[accept-rom-license]~=0.4.2->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2.27.1)\n",
+            "Collecting AutoROM.accept-rom-license\n",
+            "  Downloading AutoROM.accept-rom-license-0.6.0.tar.gz (434 kB)\n",
+            "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m434.7/434.7 KB\u001b[0m \u001b[31m50.4 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
+            "\u001b[?25h  Installing build dependencies ... \u001b[?25l\u001b[?25hdone\n",
+            "  Getting requirements to build wheel ... \u001b[?25l\u001b[?25hdone\n",
+            "  Preparing metadata (pyproject.toml) ... \u001b[?25l\u001b[?25hdone\n",
+            "Requirement already satisfied: packaging>=20.9 in /usr/local/lib/python3.9/dist-packages (from huggingface-hub~=0.8->huggingface_sb3->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 2)) (23.0)\n",
+            "Requirement already satisfied: filelock in /usr/local/lib/python3.9/dist-packages (from huggingface-hub~=0.8->huggingface_sb3->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 2)) (3.10.2)\n",
+            "Requirement already satisfied: typing-extensions>=3.7.4.3 in /usr/local/lib/python3.9/dist-packages (from huggingface-hub~=0.8->huggingface_sb3->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 2)) (4.5.0)\n",
+            "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.9/dist-packages (from importlib-metadata~=4.13->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (3.15.0)\n",
+            "Requirement already satisfied: google-auth-oauthlib<0.5,>=0.4.1 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (0.4.6)\n",
+            "Requirement already satisfied: setuptools>=41.0.0 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (65.5.0)\n",
+            "Requirement already satisfied: wheel>=0.26 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (0.40.0)\n",
+            "Requirement already satisfied: tensorboard-plugin-wit>=1.6.0 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (1.8.1)\n",
+            "Requirement already satisfied: markdown>=2.6.8 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (3.4.3)\n",
+            "Requirement already satisfied: grpcio>=1.24.3 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (1.51.3)\n",
+            "Requirement already satisfied: absl-py>=0.4 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (1.4.0)\n",
+            "Requirement already satisfied: werkzeug>=1.0.1 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2.2.3)\n",
+            "Requirement already satisfied: google-auth<3,>=1.6.3 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2.16.2)\n",
+            "Requirement already satisfied: protobuf<4,>=3.9.2 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (3.19.6)\n",
+            "Requirement already satisfied: tensorboard-data-server<0.7.0,>=0.6.0 in /usr/local/lib/python3.9/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (0.6.1)\n",
+            "Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.9/dist-packages (from matplotlib->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2.8.2)\n",
+            "Requirement already satisfied: kiwisolver>=1.0.1 in /usr/local/lib/python3.9/dist-packages (from matplotlib->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (1.4.4)\n",
+            "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.9/dist-packages (from matplotlib->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (3.0.9)\n",
+            "Requirement already satisfied: contourpy>=1.0.1 in /usr/local/lib/python3.9/dist-packages (from matplotlib->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (1.0.7)\n",
+            "Requirement already satisfied: fonttools>=4.22.0 in /usr/local/lib/python3.9/dist-packages (from matplotlib->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (4.39.2)\n",
+            "Requirement already satisfied: cycler>=0.10 in /usr/local/lib/python3.9/dist-packages (from matplotlib->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (0.11.0)\n",
+            "Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.9/dist-packages (from pandas->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2022.7.1)\n",
+            "Requirement already satisfied: pygments<3.0.0,>=2.13.0 in /usr/local/lib/python3.9/dist-packages (from rich->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2.14.0)\n",
+            "Requirement already satisfied: markdown-it-py<3.0.0,>=2.2.0 in /usr/local/lib/python3.9/dist-packages (from rich->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2.2.0)\n",
+            "Requirement already satisfied: six>=1.9.0 in /usr/local/lib/python3.9/dist-packages (from google-auth<3,>=1.6.3->tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (1.16.0)\n",
+            "Requirement already satisfied: rsa<5,>=3.1.4 in /usr/local/lib/python3.9/dist-packages (from google-auth<3,>=1.6.3->tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (4.9)\n",
+            "Requirement already satisfied: pyasn1-modules>=0.2.1 in /usr/local/lib/python3.9/dist-packages (from google-auth<3,>=1.6.3->tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (0.2.8)\n",
+            "Requirement already satisfied: cachetools<6.0,>=2.0.0 in /usr/local/lib/python3.9/dist-packages (from google-auth<3,>=1.6.3->tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (5.3.0)\n",
+            "Requirement already satisfied: requests-oauthlib>=0.7.0 in /usr/local/lib/python3.9/dist-packages (from google-auth-oauthlib<0.5,>=0.4.1->tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (1.3.1)\n",
+            "Requirement already satisfied: mdurl~=0.1 in /usr/local/lib/python3.9/dist-packages (from markdown-it-py<3.0.0,>=2.2.0->rich->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (0.1.2)\n",
+            "Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.9/dist-packages (from requests->autorom[accept-rom-license]~=0.4.2->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2022.12.7)\n",
+            "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.9/dist-packages (from requests->autorom[accept-rom-license]~=0.4.2->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (1.26.15)\n",
+            "Requirement already satisfied: charset-normalizer~=2.0.0 in /usr/local/lib/python3.9/dist-packages (from requests->autorom[accept-rom-license]~=0.4.2->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2.0.12)\n",
+            "Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.9/dist-packages (from requests->autorom[accept-rom-license]~=0.4.2->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (3.4)\n",
+            "Requirement already satisfied: MarkupSafe>=2.1.1 in /usr/local/lib/python3.9/dist-packages (from werkzeug>=1.0.1->tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (2.1.2)\n",
+            "Collecting libtorrent\n",
+            "  Downloading libtorrent-2.0.7-cp39-cp39-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (8.6 MB)\n",
+            "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m8.6/8.6 MB\u001b[0m \u001b[31m69.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
+            "\u001b[?25hRequirement already satisfied: pyasn1<0.5.0,>=0.4.6 in /usr/local/lib/python3.9/dist-packages (from pyasn1-modules>=0.2.1->google-auth<3,>=1.6.3->tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (0.4.8)\n",
+            "Requirement already satisfied: oauthlib>=3.0.0 in /usr/local/lib/python3.9/dist-packages (from requests-oauthlib>=0.7.0->google-auth-oauthlib<0.5,>=0.4.1->tensorboard>=2.9.1->stable-baselines3[extra]->-r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit6/requirements-unit6.txt (line 1)) (3.2.2)\n",
+            "Building wheels for collected packages: gym, AutoROM.accept-rom-license\n",
+            "  \u001b[1;31merror\u001b[0m: \u001b[1msubprocess-exited-with-error\u001b[0m\n",
+            "  \n",
+            "  \u001b[31m×\u001b[0m \u001b[32mpython setup.py bdist_wheel\u001b[0m did not run successfully.\n",
+            "  \u001b[31m│\u001b[0m exit code: \u001b[1;36m1\u001b[0m\n",
+            "  \u001b[31m╰─>\u001b[0m See above for output.\n",
+            "  \n",
+            "  \u001b[1;35mnote\u001b[0m: This error originates from a subprocess, and is likely not a problem with pip.\n",
+            "  Building wheel for gym (setup.py) ... \u001b[?25lerror\n",
+            "\u001b[31m  ERROR: Failed building wheel for gym\u001b[0m\u001b[31m\n",
+            "\u001b[0m\u001b[?25h  Running setup.py clean for gym\n",
+            "  Building wheel for AutoROM.accept-rom-license (pyproject.toml) ... \u001b[?25l\u001b[?25hdone\n",
+            "  Created wheel for AutoROM.accept-rom-license: filename=AutoROM.accept_rom_license-0.6.0-py3-none-any.whl size=446686 sha256=df944842c58e6336377dd9d6bb6bb5ea16a04c20626162a3f2d986530f123ef4\n",
+            "  Stored in directory: /root/.cache/pip/wheels/7d/17/c9/c31922a6aaf4ec7ec90eeee5dbc40ffbaafeda64b30a208b72\n",
+            "Successfully built AutoROM.accept-rom-license\n",
+            "Failed to build gym\n",
+            "Installing collected packages: pyglet, pybullet, libtorrent, importlib-metadata, gym, panda_gym, huggingface-hub, AutoROM.accept-rom-license, autorom, ale-py, stable-baselines3, huggingface_sb3\n",
+            "  Attempting uninstall: importlib-metadata\n",
+            "    Found existing installation: importlib-metadata 6.1.0\n",
+            "    Uninstalling importlib-metadata-6.1.0:\n",
+            "      Successfully uninstalled importlib-metadata-6.1.0\n",
+            "  Attempting uninstall: gym\n",
+            "    Found existing installation: gym 0.25.2\n",
+            "    Uninstalling gym-0.25.2:\n",
+            "      Successfully uninstalled gym-0.25.2\n",
+            "  Running setup.py install for gym ... \u001b[?25l\u001b[?25hdone\n",
+            "\u001b[33m  DEPRECATION: gym was installed using the legacy 'setup.py install' method, because a wheel could not be built for it. A possible replacement is to fix the wheel build issue reported above. Discussion can be found at https://github.com/pypa/pip/issues/8368\u001b[0m\u001b[33m\n",
+            "\u001b[0mSuccessfully installed AutoROM.accept-rom-license-0.6.0 ale-py-0.7.4 autorom-0.4.2 gym-0.21.0 huggingface-hub-0.13.3 huggingface_sb3-2.2.4 importlib-metadata-4.13.0 libtorrent-2.0.7 panda_gym-2.0.0 pybullet-3.2.5 pyglet-1.5.1 stable-baselines3-1.7.0\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "import pybullet_envs\n",
+        "import panda_gym\n",
+        "import gym\n",
+        "\n",
+        "import os\n",
+        "\n",
+        "from huggingface_sb3 import load_from_hub, package_to_hub\n",
+        "\n",
+        "from stable_baselines3 import A2C\n",
+        "from stable_baselines3.common.evaluation import evaluate_policy\n",
+        "from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize\n",
+        "from stable_baselines3.common.env_util import make_vec_env\n",
+        "\n",
+        "from huggingface_hub import notebook_login"
+      ],
+      "metadata": {
+        "id": "6IDpBrjKLeaZ"
+      },
+      "execution_count": 5,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "env_id = \"AntBulletEnv-v0\""
+      ],
+      "metadata": {
+        "id": "MusmLipTSMoQ"
+      },
+      "execution_count": 27,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "env = make_vec_env(env_id, n_envs=4)\n",
+        "\n",
+        "env = VecNormalize(env, norm_obs=True, norm_reward=True, clip_obs=10.)\n",
+        "\n",
+        "# Get the state space and action space\n",
+        "s_size = env.observation_space.shape[0]\n",
+        "a_size = env.action_space"
+      ],
+      "metadata": {
+        "id": "QB16uOceSAJk"
+      },
+      "execution_count": 34,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "model = A2C(policy = \"MlpPolicy\",\n",
+        "            env = env,\n",
+        "            gae_lambda = 0.9,\n",
+        "            gamma = 0.99,\n",
+        "            learning_rate = 0.000969,\n",
+        "            max_grad_norm = 0.5,\n",
+        "            n_steps = 8,\n",
+        "            vf_coef = 0.4,\n",
+        "            ent_coef = 0.0,\n",
+        "            policy_kwargs=dict(\n",
+        "            log_std_init=-2, ortho_init=False),\n",
+        "            normalize_advantage=False,\n",
+        "            use_rms_prop= True,\n",
+        "            use_sde= True,\n",
+        "            verbose=1)"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "f_lLTrXnSE8i",
+        "outputId": "884f5e4b-2abf-4788-b063-5284d9b66970"
+      },
+      "execution_count": 11,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "Using cuda device\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "model.learn(3_000_000)"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "2Cpuk5HISTB4",
+        "outputId": "1696f7fa-9c9a-4f31-f35b-de57cc3b79af"
+      },
+      "execution_count": 12,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "\u001b[1;30;43mStreaming output truncated to the last 5000 lines.\u001b[0m\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 66000    |\n",
+            "|    time_elapsed       | 4196     |\n",
+            "|    total_timesteps    | 2112000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.94    |\n",
+            "|    explained_variance | 0.527    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 65999    |\n",
+            "|    policy_loss        | -0.0793  |\n",
+            "|    std                | 0.0439   |\n",
+            "|    value_loss         | 0.00688  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 837      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 66100    |\n",
+            "|    time_elapsed       | 4201     |\n",
+            "|    total_timesteps    | 2115200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.87    |\n",
+            "|    explained_variance | 0.991    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 66099    |\n",
+            "|    policy_loss        | 0.226    |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.00733  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 831      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 66200    |\n",
+            "|    time_elapsed       | 4208     |\n",
+            "|    total_timesteps    | 2118400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.93    |\n",
+            "|    explained_variance | 0.992    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 66199    |\n",
+            "|    policy_loss        | -0.0212  |\n",
+            "|    std                | 0.0439   |\n",
+            "|    value_loss         | 0.00169  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 826      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 66300    |\n",
+            "|    time_elapsed       | 4213     |\n",
+            "|    total_timesteps    | 2121600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.91    |\n",
+            "|    explained_variance | 0.949    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 66299    |\n",
+            "|    policy_loss        | 0.0412   |\n",
+            "|    std                | 0.0439   |\n",
+            "|    value_loss         | 0.00611  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 824      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 66400    |\n",
+            "|    time_elapsed       | 4219     |\n",
+            "|    total_timesteps    | 2124800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.85    |\n",
+            "|    explained_variance | 0.945    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 66399    |\n",
+            "|    policy_loss        | -0.0489  |\n",
+            "|    std                | 0.044    |\n",
+            "|    value_loss         | 0.0159   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 828      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 66500    |\n",
+            "|    time_elapsed       | 4225     |\n",
+            "|    total_timesteps    | 2128000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.88    |\n",
+            "|    explained_variance | 1        |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 66499    |\n",
+            "|    policy_loss        | 0.0185   |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.000218 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 805      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 66600    |\n",
+            "|    time_elapsed       | 4230     |\n",
+            "|    total_timesteps    | 2131200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.6     |\n",
+            "|    explained_variance | 0.983    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 66599    |\n",
+            "|    policy_loss        | -0.0359  |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.00375  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 789      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 66700    |\n",
+            "|    time_elapsed       | 4237     |\n",
+            "|    total_timesteps    | 2134400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.78    |\n",
+            "|    explained_variance | 0.96     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 66699    |\n",
+            "|    policy_loss        | 0.0097   |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.00218  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 783      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 66800    |\n",
+            "|    time_elapsed       | 4243     |\n",
+            "|    total_timesteps    | 2137600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.97    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 66799    |\n",
+            "|    policy_loss        | -0.00205 |\n",
+            "|    std                | 0.0443   |\n",
+            "|    value_loss         | 0.00132  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 766      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 66900    |\n",
+            "|    time_elapsed       | 4249     |\n",
+            "|    total_timesteps    | 2140800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.98    |\n",
+            "|    explained_variance | 0.917    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 66899    |\n",
+            "|    policy_loss        | -0.158   |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.00821  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 759      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 67000    |\n",
+            "|    time_elapsed       | 4257     |\n",
+            "|    total_timesteps    | 2144000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.04    |\n",
+            "|    explained_variance | 0.973    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 66999    |\n",
+            "|    policy_loss        | 0.128    |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.00298  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 728      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 67100    |\n",
+            "|    time_elapsed       | 4262     |\n",
+            "|    total_timesteps    | 2147200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.8     |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 67099    |\n",
+            "|    policy_loss        | -0.0328  |\n",
+            "|    std                | 0.044    |\n",
+            "|    value_loss         | 0.00158  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 958      |\n",
+            "|    ep_rew_mean        | 706      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 67200    |\n",
+            "|    time_elapsed       | 4268     |\n",
+            "|    total_timesteps    | 2150400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.79    |\n",
+            "|    explained_variance | 0.995    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 67199    |\n",
+            "|    policy_loss        | -0.00767 |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.000988 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 955      |\n",
+            "|    ep_rew_mean        | 703      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 67300    |\n",
+            "|    time_elapsed       | 4274     |\n",
+            "|    total_timesteps    | 2153600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.96    |\n",
+            "|    explained_variance | 0.991    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 67299    |\n",
+            "|    policy_loss        | -0.0175  |\n",
+            "|    std                | 0.0437   |\n",
+            "|    value_loss         | 0.0039   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 955      |\n",
+            "|    ep_rew_mean        | 697      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 67400    |\n",
+            "|    time_elapsed       | 4279     |\n",
+            "|    total_timesteps    | 2156800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.82    |\n",
+            "|    explained_variance | 0.676    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 67399    |\n",
+            "|    policy_loss        | -0.055   |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.00452  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 955      |\n",
+            "|    ep_rew_mean        | 694      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 503      |\n",
+            "|    iterations         | 67500    |\n",
+            "|    time_elapsed       | 4286     |\n",
+            "|    total_timesteps    | 2160000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.84    |\n",
+            "|    explained_variance | 0.992    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 67499    |\n",
+            "|    policy_loss        | -0.0122  |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.00669  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 955      |\n",
+            "|    ep_rew_mean        | 683      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 67600    |\n",
+            "|    time_elapsed       | 4291     |\n",
+            "|    total_timesteps    | 2163200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.65    |\n",
+            "|    explained_variance | 0.999    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 67599    |\n",
+            "|    policy_loss        | -0.0261  |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.000684 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 955      |\n",
+            "|    ep_rew_mean        | 678      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 67700    |\n",
+            "|    time_elapsed       | 4296     |\n",
+            "|    total_timesteps    | 2166400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.54    |\n",
+            "|    explained_variance | 0.984    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 67699    |\n",
+            "|    policy_loss        | -0.0906  |\n",
+            "|    std                | 0.0437   |\n",
+            "|    value_loss         | 0.00372  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 668      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 67800    |\n",
+            "|    time_elapsed       | 4303     |\n",
+            "|    total_timesteps    | 2169600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.26    |\n",
+            "|    explained_variance | 0.995    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 67799    |\n",
+            "|    policy_loss        | -0.0175  |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.000976 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 651      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 67900    |\n",
+            "|    time_elapsed       | 4308     |\n",
+            "|    total_timesteps    | 2172800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.5     |\n",
+            "|    explained_variance | 0.817    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 67899    |\n",
+            "|    policy_loss        | 0.068    |\n",
+            "|    std                | 0.0436   |\n",
+            "|    value_loss         | 0.00554  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 648      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 68000    |\n",
+            "|    time_elapsed       | 4315     |\n",
+            "|    total_timesteps    | 2176000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.68    |\n",
+            "|    explained_variance | 0.778    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 67999    |\n",
+            "|    policy_loss        | -0.0073  |\n",
+            "|    std                | 0.0436   |\n",
+            "|    value_loss         | 0.000977 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 626      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 68100    |\n",
+            "|    time_elapsed       | 4322     |\n",
+            "|    total_timesteps    | 2179200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.47    |\n",
+            "|    explained_variance | 0.986    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 68099    |\n",
+            "|    policy_loss        | 0.0278   |\n",
+            "|    std                | 0.0435   |\n",
+            "|    value_loss         | 0.00246  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 621      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 68200    |\n",
+            "|    time_elapsed       | 4327     |\n",
+            "|    total_timesteps    | 2182400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.6     |\n",
+            "|    explained_variance | 0.981    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 68199    |\n",
+            "|    policy_loss        | 0.0259   |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.000482 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 606      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 68300    |\n",
+            "|    time_elapsed       | 4334     |\n",
+            "|    total_timesteps    | 2185600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.57    |\n",
+            "|    explained_variance | 0.985    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 68299    |\n",
+            "|    policy_loss        | 0.0183   |\n",
+            "|    std                | 0.044    |\n",
+            "|    value_loss         | 0.00143  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 605      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 68400    |\n",
+            "|    time_elapsed       | 4340     |\n",
+            "|    total_timesteps    | 2188800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.68    |\n",
+            "|    explained_variance | 0.975    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 68399    |\n",
+            "|    policy_loss        | -0.18    |\n",
+            "|    std                | 0.044    |\n",
+            "|    value_loss         | 0.00996  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 613      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 68500    |\n",
+            "|    time_elapsed       | 4345     |\n",
+            "|    total_timesteps    | 2192000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.47    |\n",
+            "|    explained_variance | 0.98     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 68499    |\n",
+            "|    policy_loss        | 0.0037   |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.000122 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 601      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 68600    |\n",
+            "|    time_elapsed       | 4351     |\n",
+            "|    total_timesteps    | 2195200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.89    |\n",
+            "|    explained_variance | 0.967    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 68599    |\n",
+            "|    policy_loss        | -0.0339  |\n",
+            "|    std                | 0.044    |\n",
+            "|    value_loss         | 0.00105  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 614      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 68700    |\n",
+            "|    time_elapsed       | 4356     |\n",
+            "|    total_timesteps    | 2198400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.42    |\n",
+            "|    explained_variance | 0.964    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 68699    |\n",
+            "|    policy_loss        | 0.0549   |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.00324  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 623      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 68800    |\n",
+            "|    time_elapsed       | 4362     |\n",
+            "|    total_timesteps    | 2201600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.69    |\n",
+            "|    explained_variance | 0.984    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 68799    |\n",
+            "|    policy_loss        | 0.0436   |\n",
+            "|    std                | 0.044    |\n",
+            "|    value_loss         | 0.00112  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 964      |\n",
+            "|    ep_rew_mean        | 626      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 68900    |\n",
+            "|    time_elapsed       | 4368     |\n",
+            "|    total_timesteps    | 2204800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.78    |\n",
+            "|    explained_variance | 0.995    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 68899    |\n",
+            "|    policy_loss        | 0.0282   |\n",
+            "|    std                | 0.0437   |\n",
+            "|    value_loss         | 0.00188  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 637      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 69000    |\n",
+            "|    time_elapsed       | 4373     |\n",
+            "|    total_timesteps    | 2208000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.65    |\n",
+            "|    explained_variance | 0.99     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 68999    |\n",
+            "|    policy_loss        | -0.0223  |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.00153  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 642      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 69100    |\n",
+            "|    time_elapsed       | 4379     |\n",
+            "|    total_timesteps    | 2211200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.69    |\n",
+            "|    explained_variance | 0.901    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 69099    |\n",
+            "|    policy_loss        | -0.0424  |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.0126   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 641      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 69200    |\n",
+            "|    time_elapsed       | 4386     |\n",
+            "|    total_timesteps    | 2214400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.79    |\n",
+            "|    explained_variance | 0.956    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 69199    |\n",
+            "|    policy_loss        | -0.106   |\n",
+            "|    std                | 0.044    |\n",
+            "|    value_loss         | 0.0174   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 652      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 69300    |\n",
+            "|    time_elapsed       | 4392     |\n",
+            "|    total_timesteps    | 2217600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.04    |\n",
+            "|    explained_variance | 0.978    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 69299    |\n",
+            "|    policy_loss        | -0.0494  |\n",
+            "|    std                | 0.0442   |\n",
+            "|    value_loss         | 0.00529  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 658      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 69400    |\n",
+            "|    time_elapsed       | 4399     |\n",
+            "|    total_timesteps    | 2220800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2       |\n",
+            "|    explained_variance | 0.992    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 69399    |\n",
+            "|    policy_loss        | 0.0268   |\n",
+            "|    std                | 0.0442   |\n",
+            "|    value_loss         | 0.0046   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 973      |\n",
+            "|    ep_rew_mean        | 660      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 69500    |\n",
+            "|    time_elapsed       | 4404     |\n",
+            "|    total_timesteps    | 2224000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.54    |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 69499    |\n",
+            "|    policy_loss        | -0.0375  |\n",
+            "|    std                | 0.044    |\n",
+            "|    value_loss         | 0.000709 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 673      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 69600    |\n",
+            "|    time_elapsed       | 4410     |\n",
+            "|    total_timesteps    | 2227200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.85    |\n",
+            "|    explained_variance | 0.994    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 69599    |\n",
+            "|    policy_loss        | -0.0708  |\n",
+            "|    std                | 0.044    |\n",
+            "|    value_loss         | 0.00258  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 683      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 69700    |\n",
+            "|    time_elapsed       | 4416     |\n",
+            "|    total_timesteps    | 2230400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2       |\n",
+            "|    explained_variance | 0.973    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 69699    |\n",
+            "|    policy_loss        | -0.0366  |\n",
+            "|    std                | 0.0444   |\n",
+            "|    value_loss         | 0.000965 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 678      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 69800    |\n",
+            "|    time_elapsed       | 4421     |\n",
+            "|    total_timesteps    | 2233600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.01    |\n",
+            "|    explained_variance | 0.99     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 69799    |\n",
+            "|    policy_loss        | -0.0818  |\n",
+            "|    std                | 0.0444   |\n",
+            "|    value_loss         | 0.00552  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 674      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 69900    |\n",
+            "|    time_elapsed       | 4428     |\n",
+            "|    total_timesteps    | 2236800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.09    |\n",
+            "|    explained_variance | 0.991    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 69899    |\n",
+            "|    policy_loss        | -0.0564  |\n",
+            "|    std                | 0.0446   |\n",
+            "|    value_loss         | 0.00459  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 675      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 70000    |\n",
+            "|    time_elapsed       | 4433     |\n",
+            "|    total_timesteps    | 2240000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.15    |\n",
+            "|    explained_variance | 0.957    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 69999    |\n",
+            "|    policy_loss        | -0.0619  |\n",
+            "|    std                | 0.0448   |\n",
+            "|    value_loss         | 0.0158   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 982      |\n",
+            "|    ep_rew_mean        | 674      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 70100    |\n",
+            "|    time_elapsed       | 4438     |\n",
+            "|    total_timesteps    | 2243200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2       |\n",
+            "|    explained_variance | 0.979    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 70099    |\n",
+            "|    policy_loss        | 0.0759   |\n",
+            "|    std                | 0.0447   |\n",
+            "|    value_loss         | 0.00615  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 683      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 70200    |\n",
+            "|    time_elapsed       | 4447     |\n",
+            "|    total_timesteps    | 2246400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.16    |\n",
+            "|    explained_variance | 0.994    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 70199    |\n",
+            "|    policy_loss        | 0.0403   |\n",
+            "|    std                | 0.0449   |\n",
+            "|    value_loss         | 0.00667  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 988      |\n",
+            "|    ep_rew_mean        | 690      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 70300    |\n",
+            "|    time_elapsed       | 4452     |\n",
+            "|    total_timesteps    | 2249600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.92    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 70299    |\n",
+            "|    policy_loss        | 0.00251  |\n",
+            "|    std                | 0.0448   |\n",
+            "|    value_loss         | 0.00112  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 696      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 70400    |\n",
+            "|    time_elapsed       | 4461     |\n",
+            "|    total_timesteps    | 2252800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.92    |\n",
+            "|    explained_variance | 0.98     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 70399    |\n",
+            "|    policy_loss        | -0.0402  |\n",
+            "|    std                | 0.0448   |\n",
+            "|    value_loss         | 0.00138  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 690      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 70500    |\n",
+            "|    time_elapsed       | 4466     |\n",
+            "|    total_timesteps    | 2256000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.09    |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 70499    |\n",
+            "|    policy_loss        | -0.0369  |\n",
+            "|    std                | 0.0449   |\n",
+            "|    value_loss         | 0.00421  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 694      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 70600    |\n",
+            "|    time_elapsed       | 4471     |\n",
+            "|    total_timesteps    | 2259200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.07    |\n",
+            "|    explained_variance | 0.986    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 70599    |\n",
+            "|    policy_loss        | -0.169   |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.00936  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 700      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 70700    |\n",
+            "|    time_elapsed       | 4478     |\n",
+            "|    total_timesteps    | 2262400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.81    |\n",
+            "|    explained_variance | 0.972    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 70699    |\n",
+            "|    policy_loss        | -0.0917  |\n",
+            "|    std                | 0.0448   |\n",
+            "|    value_loss         | 0.0118   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 709      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 70800    |\n",
+            "|    time_elapsed       | 4483     |\n",
+            "|    total_timesteps    | 2265600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.86    |\n",
+            "|    explained_variance | 0.974    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 70799    |\n",
+            "|    policy_loss        | -0.171   |\n",
+            "|    std                | 0.0446   |\n",
+            "|    value_loss         | 0.00445  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 709      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 70900    |\n",
+            "|    time_elapsed       | 4489     |\n",
+            "|    total_timesteps    | 2268800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.05    |\n",
+            "|    explained_variance | 0.993    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 70899    |\n",
+            "|    policy_loss        | 0.0212   |\n",
+            "|    std                | 0.0447   |\n",
+            "|    value_loss         | 0.00244  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 721      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 71000    |\n",
+            "|    time_elapsed       | 4495     |\n",
+            "|    total_timesteps    | 2272000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.74    |\n",
+            "|    explained_variance | 0.601    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 70999    |\n",
+            "|    policy_loss        | -0.00785 |\n",
+            "|    std                | 0.0449   |\n",
+            "|    value_loss         | 0.00662  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 728      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 71100    |\n",
+            "|    time_elapsed       | 4501     |\n",
+            "|    total_timesteps    | 2275200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.83    |\n",
+            "|    explained_variance | 0.968    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 71099    |\n",
+            "|    policy_loss        | 0.0329   |\n",
+            "|    std                | 0.0449   |\n",
+            "|    value_loss         | 0.00158  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 726      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 71200    |\n",
+            "|    time_elapsed       | 4508     |\n",
+            "|    total_timesteps    | 2278400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.72    |\n",
+            "|    explained_variance | 0.977    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 71199    |\n",
+            "|    policy_loss        | 0.0111   |\n",
+            "|    std                | 0.0449   |\n",
+            "|    value_loss         | 0.00331  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 974      |\n",
+            "|    ep_rew_mean        | 714      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 71300    |\n",
+            "|    time_elapsed       | 4513     |\n",
+            "|    total_timesteps    | 2281600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.03    |\n",
+            "|    explained_variance | 0.993    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 71299    |\n",
+            "|    policy_loss        | 0.0158   |\n",
+            "|    std                | 0.0448   |\n",
+            "|    value_loss         | 0.00219  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 974      |\n",
+            "|    ep_rew_mean        | 714      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 71400    |\n",
+            "|    time_elapsed       | 4518     |\n",
+            "|    total_timesteps    | 2284800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.01    |\n",
+            "|    explained_variance | 0.911    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 71399    |\n",
+            "|    policy_loss        | 0.103    |\n",
+            "|    std                | 0.0449   |\n",
+            "|    value_loss         | 0.00885  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 974      |\n",
+            "|    ep_rew_mean        | 711      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 71500    |\n",
+            "|    time_elapsed       | 4527     |\n",
+            "|    total_timesteps    | 2288000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.06    |\n",
+            "|    explained_variance | 0.98     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 71499    |\n",
+            "|    policy_loss        | -0.00293 |\n",
+            "|    std                | 0.0448   |\n",
+            "|    value_loss         | 0.000287 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 974      |\n",
+            "|    ep_rew_mean        | 703      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 71600    |\n",
+            "|    time_elapsed       | 4532     |\n",
+            "|    total_timesteps    | 2291200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.2     |\n",
+            "|    explained_variance | 0.972    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 71599    |\n",
+            "|    policy_loss        | -0.0277  |\n",
+            "|    std                | 0.0447   |\n",
+            "|    value_loss         | 0.0009   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 974      |\n",
+            "|    ep_rew_mean        | 701      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 71700    |\n",
+            "|    time_elapsed       | 4539     |\n",
+            "|    total_timesteps    | 2294400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.17    |\n",
+            "|    explained_variance | 0.979    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 71699    |\n",
+            "|    policy_loss        | -0.0143  |\n",
+            "|    std                | 0.0444   |\n",
+            "|    value_loss         | 0.000387 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 682      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 71800    |\n",
+            "|    time_elapsed       | 4544     |\n",
+            "|    total_timesteps    | 2297600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.1     |\n",
+            "|    explained_variance | 0.999    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 71799    |\n",
+            "|    policy_loss        | -0.0162  |\n",
+            "|    std                | 0.0443   |\n",
+            "|    value_loss         | 0.000935 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 669      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 71900    |\n",
+            "|    time_elapsed       | 4550     |\n",
+            "|    total_timesteps    | 2300800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.81    |\n",
+            "|    explained_variance | 0.981    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 71899    |\n",
+            "|    policy_loss        | 0.00858  |\n",
+            "|    std                | 0.0444   |\n",
+            "|    value_loss         | 0.0011   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 666      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 72000    |\n",
+            "|    time_elapsed       | 4556     |\n",
+            "|    total_timesteps    | 2304000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.77    |\n",
+            "|    explained_variance | 0.995    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 71999    |\n",
+            "|    policy_loss        | -0.056   |\n",
+            "|    std                | 0.0444   |\n",
+            "|    value_loss         | 0.00265  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 656      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 72100    |\n",
+            "|    time_elapsed       | 4562     |\n",
+            "|    total_timesteps    | 2307200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.04    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 72099    |\n",
+            "|    policy_loss        | 0.00753  |\n",
+            "|    std                | 0.0442   |\n",
+            "|    value_loss         | 0.000321 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 645      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 72200    |\n",
+            "|    time_elapsed       | 4569     |\n",
+            "|    total_timesteps    | 2310400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.86    |\n",
+            "|    explained_variance | 1        |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 72199    |\n",
+            "|    policy_loss        | 0.00274  |\n",
+            "|    std                | 0.0443   |\n",
+            "|    value_loss         | 1.86e-05 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 636      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 72300    |\n",
+            "|    time_elapsed       | 4574     |\n",
+            "|    total_timesteps    | 2313600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.01    |\n",
+            "|    explained_variance | 0.999    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 72299    |\n",
+            "|    policy_loss        | -0.0102  |\n",
+            "|    std                | 0.0442   |\n",
+            "|    value_loss         | 0.000217 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 624      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 72400    |\n",
+            "|    time_elapsed       | 4579     |\n",
+            "|    total_timesteps    | 2316800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.96    |\n",
+            "|    explained_variance | 0.972    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 72399    |\n",
+            "|    policy_loss        | 0.0648   |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.00371  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 618      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 72500    |\n",
+            "|    time_elapsed       | 4586     |\n",
+            "|    total_timesteps    | 2320000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.71    |\n",
+            "|    explained_variance | 0.928    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 72499    |\n",
+            "|    policy_loss        | -0.00488 |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.00173  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 611      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 72600    |\n",
+            "|    time_elapsed       | 4592     |\n",
+            "|    total_timesteps    | 2323200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.38    |\n",
+            "|    explained_variance | 0.983    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 72599    |\n",
+            "|    policy_loss        | -0.0128  |\n",
+            "|    std                | 0.0439   |\n",
+            "|    value_loss         | 0.000409 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 602      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 72700    |\n",
+            "|    time_elapsed       | 4600     |\n",
+            "|    total_timesteps    | 2326400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.73    |\n",
+            "|    explained_variance | 0.978    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 72699    |\n",
+            "|    policy_loss        | -0.0135  |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.000836 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 966      |\n",
+            "|    ep_rew_mean        | 607      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 72800    |\n",
+            "|    time_elapsed       | 4605     |\n",
+            "|    total_timesteps    | 2329600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.9     |\n",
+            "|    explained_variance | 0.999    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 72799    |\n",
+            "|    policy_loss        | 0.0181   |\n",
+            "|    std                | 0.0438   |\n",
+            "|    value_loss         | 0.000441 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 958      |\n",
+            "|    ep_rew_mean        | 597      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 72900    |\n",
+            "|    time_elapsed       | 4611     |\n",
+            "|    total_timesteps    | 2332800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.9     |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 72899    |\n",
+            "|    policy_loss        | -0.0169  |\n",
+            "|    std                | 0.0439   |\n",
+            "|    value_loss         | 0.000832 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 958      |\n",
+            "|    ep_rew_mean        | 594      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 73000    |\n",
+            "|    time_elapsed       | 4618     |\n",
+            "|    total_timesteps    | 2336000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.98    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 72999    |\n",
+            "|    policy_loss        | -0.0223  |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.00108  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 958      |\n",
+            "|    ep_rew_mean        | 597      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 73100    |\n",
+            "|    time_elapsed       | 4623     |\n",
+            "|    total_timesteps    | 2339200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.77    |\n",
+            "|    explained_variance | 0.976    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 73099    |\n",
+            "|    policy_loss        | -0.0312  |\n",
+            "|    std                | 0.0441   |\n",
+            "|    value_loss         | 0.00283  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 958      |\n",
+            "|    ep_rew_mean        | 602      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 73200    |\n",
+            "|    time_elapsed       | 4629     |\n",
+            "|    total_timesteps    | 2342400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.9     |\n",
+            "|    explained_variance | 0.985    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 73199    |\n",
+            "|    policy_loss        | 0.0327   |\n",
+            "|    std                | 0.0443   |\n",
+            "|    value_loss         | 0.000597 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 958      |\n",
+            "|    ep_rew_mean        | 606      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 73300    |\n",
+            "|    time_elapsed       | 4635     |\n",
+            "|    total_timesteps    | 2345600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.99    |\n",
+            "|    explained_variance | 0.898    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 73299    |\n",
+            "|    policy_loss        | -0.0265  |\n",
+            "|    std                | 0.0444   |\n",
+            "|    value_loss         | 0.00135  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 614      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 73400    |\n",
+            "|    time_elapsed       | 4640     |\n",
+            "|    total_timesteps    | 2348800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.03    |\n",
+            "|    explained_variance | 0.988    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 73399    |\n",
+            "|    policy_loss        | 0.0502   |\n",
+            "|    std                | 0.0445   |\n",
+            "|    value_loss         | 0.00135  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 621      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 73500    |\n",
+            "|    time_elapsed       | 4647     |\n",
+            "|    total_timesteps    | 2352000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.12    |\n",
+            "|    explained_variance | 0.893    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 73499    |\n",
+            "|    policy_loss        | 0.0225   |\n",
+            "|    std                | 0.0449   |\n",
+            "|    value_loss         | 0.0071   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 623      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 73600    |\n",
+            "|    time_elapsed       | 4652     |\n",
+            "|    total_timesteps    | 2355200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.73    |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 73599    |\n",
+            "|    policy_loss        | -0.00663 |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.000561 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 623      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 73700    |\n",
+            "|    time_elapsed       | 4658     |\n",
+            "|    total_timesteps    | 2358400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.99    |\n",
+            "|    explained_variance | 0.897    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 73699    |\n",
+            "|    policy_loss        | -0.157   |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.00337  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 625      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 73800    |\n",
+            "|    time_elapsed       | 4666     |\n",
+            "|    total_timesteps    | 2361600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.89    |\n",
+            "|    explained_variance | 0.97     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 73799    |\n",
+            "|    policy_loss        | -0.0149  |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.000912 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 632      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 73900    |\n",
+            "|    time_elapsed       | 4671     |\n",
+            "|    total_timesteps    | 2364800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.88    |\n",
+            "|    explained_variance | 0.995    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 73899    |\n",
+            "|    policy_loss        | -0.0312  |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.0012   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 631      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 74000    |\n",
+            "|    time_elapsed       | 4678     |\n",
+            "|    total_timesteps    | 2368000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.15    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 73999    |\n",
+            "|    policy_loss        | 0.0126   |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.00145  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 626      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 74100    |\n",
+            "|    time_elapsed       | 4684     |\n",
+            "|    total_timesteps    | 2371200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.03    |\n",
+            "|    explained_variance | 0.993    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 74099    |\n",
+            "|    policy_loss        | 0.0358   |\n",
+            "|    std                | 0.0449   |\n",
+            "|    value_loss         | 0.00197  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 629      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 74200    |\n",
+            "|    time_elapsed       | 4689     |\n",
+            "|    total_timesteps    | 2374400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.96    |\n",
+            "|    explained_variance | 0.956    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 74199    |\n",
+            "|    policy_loss        | -0.0295  |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.00385  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 976      |\n",
+            "|    ep_rew_mean        | 640      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 74300    |\n",
+            "|    time_elapsed       | 4696     |\n",
+            "|    total_timesteps    | 2377600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.35    |\n",
+            "|    explained_variance | 0.96     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 74299    |\n",
+            "|    policy_loss        | -0.00894 |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.002    |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 976      |\n",
+            "|    ep_rew_mean        | 646      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 74400    |\n",
+            "|    time_elapsed       | 4701     |\n",
+            "|    total_timesteps    | 2380800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.92    |\n",
+            "|    explained_variance | 0.927    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 74399    |\n",
+            "|    policy_loss        | -0.0588  |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.00165  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 976      |\n",
+            "|    ep_rew_mean        | 654      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 74500    |\n",
+            "|    time_elapsed       | 4707     |\n",
+            "|    total_timesteps    | 2384000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.23    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 74499    |\n",
+            "|    policy_loss        | -0.00752 |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.00116  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 976      |\n",
+            "|    ep_rew_mean        | 658      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 74600    |\n",
+            "|    time_elapsed       | 4713     |\n",
+            "|    total_timesteps    | 2387200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.41    |\n",
+            "|    explained_variance | 0.994    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 74599    |\n",
+            "|    policy_loss        | -0.0517  |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.00112  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 976      |\n",
+            "|    ep_rew_mean        | 667      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 74700    |\n",
+            "|    time_elapsed       | 4720     |\n",
+            "|    total_timesteps    | 2390400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.08    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 74699    |\n",
+            "|    policy_loss        | 0.0289   |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.00301  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 677      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 74800    |\n",
+            "|    time_elapsed       | 4727     |\n",
+            "|    total_timesteps    | 2393600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.41    |\n",
+            "|    explained_variance | 0.991    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 74799    |\n",
+            "|    policy_loss        | 0.0674   |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.0016   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 683      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 74900    |\n",
+            "|    time_elapsed       | 4734     |\n",
+            "|    total_timesteps    | 2396800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.09    |\n",
+            "|    explained_variance | 0.966    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 74899    |\n",
+            "|    policy_loss        | 0.0196   |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.00546  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 691      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 75000    |\n",
+            "|    time_elapsed       | 4741     |\n",
+            "|    total_timesteps    | 2400000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.83    |\n",
+            "|    explained_variance | 0.928    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 74999    |\n",
+            "|    policy_loss        | -0.0283  |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.0036   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 698      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 75100    |\n",
+            "|    time_elapsed       | 4747     |\n",
+            "|    total_timesteps    | 2403200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.15    |\n",
+            "|    explained_variance | 0.888    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 75099    |\n",
+            "|    policy_loss        | 0.00994  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.000885 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 697      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 75200    |\n",
+            "|    time_elapsed       | 4752     |\n",
+            "|    total_timesteps    | 2406400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.19    |\n",
+            "|    explained_variance | 0.981    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 75199    |\n",
+            "|    policy_loss        | 0.00912  |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.00309  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 696      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 75300    |\n",
+            "|    time_elapsed       | 4759     |\n",
+            "|    total_timesteps    | 2409600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.15    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 75299    |\n",
+            "|    policy_loss        | 0.00114  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.000293 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 695      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 75400    |\n",
+            "|    time_elapsed       | 4764     |\n",
+            "|    total_timesteps    | 2412800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.05    |\n",
+            "|    explained_variance | 0.986    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 75399    |\n",
+            "|    policy_loss        | -0.0291  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.00337  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 689      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 75500    |\n",
+            "|    time_elapsed       | 4771     |\n",
+            "|    total_timesteps    | 2416000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.74    |\n",
+            "|    explained_variance | 0.974    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 75499    |\n",
+            "|    policy_loss        | -0.0515  |\n",
+            "|    std                | 0.0454   |\n",
+            "|    value_loss         | 0.00145  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 692      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 75600    |\n",
+            "|    time_elapsed       | 4776     |\n",
+            "|    total_timesteps    | 2419200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2       |\n",
+            "|    explained_variance | 0.992    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 75599    |\n",
+            "|    policy_loss        | 0.0203   |\n",
+            "|    std                | 0.0455   |\n",
+            "|    value_loss         | 0.000651 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 687      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 75700    |\n",
+            "|    time_elapsed       | 4781     |\n",
+            "|    total_timesteps    | 2422400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.4     |\n",
+            "|    explained_variance | 0.842    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 75699    |\n",
+            "|    policy_loss        | 0.00037  |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.000796 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 683      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 75800    |\n",
+            "|    time_elapsed       | 4788     |\n",
+            "|    total_timesteps    | 2425600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.33    |\n",
+            "|    explained_variance | 0.979    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 75799    |\n",
+            "|    policy_loss        | 0.0412   |\n",
+            "|    std                | 0.0454   |\n",
+            "|    value_loss         | 0.00116  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 984      |\n",
+            "|    ep_rew_mean        | 680      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 75900    |\n",
+            "|    time_elapsed       | 4793     |\n",
+            "|    total_timesteps    | 2428800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.24    |\n",
+            "|    explained_variance | 0.987    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 75899    |\n",
+            "|    policy_loss        | 0.00499  |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.000968 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 679      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 76000    |\n",
+            "|    time_elapsed       | 4800     |\n",
+            "|    total_timesteps    | 2432000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.88    |\n",
+            "|    explained_variance | 0.986    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 75999    |\n",
+            "|    policy_loss        | -0.0398  |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.000733 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 678      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 76100    |\n",
+            "|    time_elapsed       | 4808     |\n",
+            "|    total_timesteps    | 2435200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.07    |\n",
+            "|    explained_variance | 0.984    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 76099    |\n",
+            "|    policy_loss        | -0.0276  |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.0017   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 677      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 76200    |\n",
+            "|    time_elapsed       | 4813     |\n",
+            "|    total_timesteps    | 2438400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.24    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 76199    |\n",
+            "|    policy_loss        | 0.0099   |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00137  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 672      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 76300    |\n",
+            "|    time_elapsed       | 4820     |\n",
+            "|    total_timesteps    | 2441600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.45    |\n",
+            "|    explained_variance | 0.993    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 76299    |\n",
+            "|    policy_loss        | 0.00516  |\n",
+            "|    std                | 0.0462   |\n",
+            "|    value_loss         | 0.00299  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 659      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 76400    |\n",
+            "|    time_elapsed       | 4825     |\n",
+            "|    total_timesteps    | 2444800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.15    |\n",
+            "|    explained_variance | 0.986    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 76399    |\n",
+            "|    policy_loss        | 0.0664   |\n",
+            "|    std                | 0.0462   |\n",
+            "|    value_loss         | 0.00139  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 649      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 76500    |\n",
+            "|    time_elapsed       | 4831     |\n",
+            "|    total_timesteps    | 2448000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.17    |\n",
+            "|    explained_variance | 0.979    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 76499    |\n",
+            "|    policy_loss        | -0.0358  |\n",
+            "|    std                | 0.0462   |\n",
+            "|    value_loss         | 0.000589 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 647      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 76600    |\n",
+            "|    time_elapsed       | 4838     |\n",
+            "|    total_timesteps    | 2451200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.82    |\n",
+            "|    explained_variance | 0.983    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 76599    |\n",
+            "|    policy_loss        | 0.0244   |\n",
+            "|    std                | 0.0464   |\n",
+            "|    value_loss         | 0.00211  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 651      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 76700    |\n",
+            "|    time_elapsed       | 4843     |\n",
+            "|    total_timesteps    | 2454400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.22    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 76699    |\n",
+            "|    policy_loss        | -0.0188  |\n",
+            "|    std                | 0.0464   |\n",
+            "|    value_loss         | 0.00134  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 643      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 76800    |\n",
+            "|    time_elapsed       | 4849     |\n",
+            "|    total_timesteps    | 2457600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.84    |\n",
+            "|    explained_variance | 0.967    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 76799    |\n",
+            "|    policy_loss        | -0.0137  |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00131  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 644      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 76900    |\n",
+            "|    time_elapsed       | 4855     |\n",
+            "|    total_timesteps    | 2460800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.87    |\n",
+            "|    explained_variance | 0.984    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 76899    |\n",
+            "|    policy_loss        | 0.0145   |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00126  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 645      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 77000    |\n",
+            "|    time_elapsed       | 4860     |\n",
+            "|    total_timesteps    | 2464000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.91    |\n",
+            "|    explained_variance | 0.98     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 76999    |\n",
+            "|    policy_loss        | 0.0793   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00223  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 642      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 77100    |\n",
+            "|    time_elapsed       | 4867     |\n",
+            "|    total_timesteps    | 2467200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.1     |\n",
+            "|    explained_variance | 0.995    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 77099    |\n",
+            "|    policy_loss        | -0.00609 |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.00114  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 648      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 77200    |\n",
+            "|    time_elapsed       | 4874     |\n",
+            "|    total_timesteps    | 2470400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.17    |\n",
+            "|    explained_variance | 0.988    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 77199    |\n",
+            "|    policy_loss        | 0.000536 |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.000534 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 654      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 77300    |\n",
+            "|    time_elapsed       | 4880     |\n",
+            "|    total_timesteps    | 2473600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.98    |\n",
+            "|    explained_variance | 0.963    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 77299    |\n",
+            "|    policy_loss        | -0.0296  |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00367  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 992      |\n",
+            "|    ep_rew_mean        | 656      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 77400    |\n",
+            "|    time_elapsed       | 4886     |\n",
+            "|    total_timesteps    | 2476800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.42    |\n",
+            "|    explained_variance | 0.976    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 77399    |\n",
+            "|    policy_loss        | -0.0604  |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.0054   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 661      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 77500    |\n",
+            "|    time_elapsed       | 4891     |\n",
+            "|    total_timesteps    | 2480000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.11    |\n",
+            "|    explained_variance | 0.978    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 77499    |\n",
+            "|    policy_loss        | 0.000675 |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.000454 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 653      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 77600    |\n",
+            "|    time_elapsed       | 4898     |\n",
+            "|    total_timesteps    | 2483200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.31    |\n",
+            "|    explained_variance | 0.97     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 77599    |\n",
+            "|    policy_loss        | -0.0277  |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00531  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 648      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 77700    |\n",
+            "|    time_elapsed       | 4904     |\n",
+            "|    total_timesteps    | 2486400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.34    |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 77699    |\n",
+            "|    policy_loss        | 0.0146   |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.00106  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 652      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 77800    |\n",
+            "|    time_elapsed       | 4910     |\n",
+            "|    total_timesteps    | 2489600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.36    |\n",
+            "|    explained_variance | 0.928    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 77799    |\n",
+            "|    policy_loss        | 0.162    |\n",
+            "|    std                | 0.0462   |\n",
+            "|    value_loss         | 0.00722  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 643      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 77900    |\n",
+            "|    time_elapsed       | 4916     |\n",
+            "|    total_timesteps    | 2492800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.25    |\n",
+            "|    explained_variance | 0.943    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 77899    |\n",
+            "|    policy_loss        | 0.0674   |\n",
+            "|    std                | 0.0462   |\n",
+            "|    value_loss         | 0.0043   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 644      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 78000    |\n",
+            "|    time_elapsed       | 4921     |\n",
+            "|    total_timesteps    | 2496000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.69    |\n",
+            "|    explained_variance | 0.609    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 77999    |\n",
+            "|    policy_loss        | 0.0236   |\n",
+            "|    std                | 0.0463   |\n",
+            "|    value_loss         | 0.000692 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 645      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 78100    |\n",
+            "|    time_elapsed       | 4928     |\n",
+            "|    total_timesteps    | 2499200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.03    |\n",
+            "|    explained_variance | 0.975    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 78099    |\n",
+            "|    policy_loss        | 0.00853  |\n",
+            "|    std                | 0.0463   |\n",
+            "|    value_loss         | 0.00125  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 640      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 78200    |\n",
+            "|    time_elapsed       | 4933     |\n",
+            "|    total_timesteps    | 2502400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.16    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 78199    |\n",
+            "|    policy_loss        | -0.0337  |\n",
+            "|    std                | 0.0464   |\n",
+            "|    value_loss         | 0.000615 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 641      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 78300    |\n",
+            "|    time_elapsed       | 4938     |\n",
+            "|    total_timesteps    | 2505600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.41    |\n",
+            "|    explained_variance | 0.963    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 78299    |\n",
+            "|    policy_loss        | -0.103   |\n",
+            "|    std                | 0.0465   |\n",
+            "|    value_loss         | 0.00805  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 649      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 78400    |\n",
+            "|    time_elapsed       | 4947     |\n",
+            "|    total_timesteps    | 2508800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.28    |\n",
+            "|    explained_variance | 0.894    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 78399    |\n",
+            "|    policy_loss        | 0.0147   |\n",
+            "|    std                | 0.0463   |\n",
+            "|    value_loss         | 0.00777  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 643      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 78500    |\n",
+            "|    time_elapsed       | 4952     |\n",
+            "|    total_timesteps    | 2512000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.94    |\n",
+            "|    explained_variance | 0.994    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 78499    |\n",
+            "|    policy_loss        | -0.021   |\n",
+            "|    std                | 0.0465   |\n",
+            "|    value_loss         | 0.00146  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 648      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 78600    |\n",
+            "|    time_elapsed       | 4959     |\n",
+            "|    total_timesteps    | 2515200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.99    |\n",
+            "|    explained_variance | 0.986    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 78599    |\n",
+            "|    policy_loss        | -0.0172  |\n",
+            "|    std                | 0.0466   |\n",
+            "|    value_loss         | 0.000644 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 652      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 78700    |\n",
+            "|    time_elapsed       | 4965     |\n",
+            "|    total_timesteps    | 2518400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2       |\n",
+            "|    explained_variance | 0.919    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 78699    |\n",
+            "|    policy_loss        | 0.0104   |\n",
+            "|    std                | 0.0466   |\n",
+            "|    value_loss         | 0.00124  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 656      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 78800    |\n",
+            "|    time_elapsed       | 4970     |\n",
+            "|    total_timesteps    | 2521600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.2     |\n",
+            "|    explained_variance | 0.964    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 78799    |\n",
+            "|    policy_loss        | -0.167   |\n",
+            "|    std                | 0.0466   |\n",
+            "|    value_loss         | 0.0026   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 661      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 78900    |\n",
+            "|    time_elapsed       | 4977     |\n",
+            "|    total_timesteps    | 2524800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.22    |\n",
+            "|    explained_variance | 0.985    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 78899    |\n",
+            "|    policy_loss        | -0.00343 |\n",
+            "|    std                | 0.0467   |\n",
+            "|    value_loss         | 0.00132  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 665      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 79000    |\n",
+            "|    time_elapsed       | 4983     |\n",
+            "|    total_timesteps    | 2528000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.33    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 78999    |\n",
+            "|    policy_loss        | -0.00256 |\n",
+            "|    std                | 0.0468   |\n",
+            "|    value_loss         | 0.000372 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 669      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 79100    |\n",
+            "|    time_elapsed       | 4990     |\n",
+            "|    total_timesteps    | 2531200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.5     |\n",
+            "|    explained_variance | 0.973    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 79099    |\n",
+            "|    policy_loss        | 0.0551   |\n",
+            "|    std                | 0.0466   |\n",
+            "|    value_loss         | 0.0028   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 673      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 79200    |\n",
+            "|    time_elapsed       | 4997     |\n",
+            "|    total_timesteps    | 2534400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.23    |\n",
+            "|    explained_variance | 0.936    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 79199    |\n",
+            "|    policy_loss        | 0.048    |\n",
+            "|    std                | 0.0467   |\n",
+            "|    value_loss         | 0.000711 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 671      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 79300    |\n",
+            "|    time_elapsed       | 5004     |\n",
+            "|    total_timesteps    | 2537600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.07    |\n",
+            "|    explained_variance | 0.965    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 79299    |\n",
+            "|    policy_loss        | -0.0255  |\n",
+            "|    std                | 0.0466   |\n",
+            "|    value_loss         | 0.000793 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 670      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 79400    |\n",
+            "|    time_elapsed       | 5010     |\n",
+            "|    total_timesteps    | 2540800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.07    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 79399    |\n",
+            "|    policy_loss        | -0.00392 |\n",
+            "|    std                | 0.0464   |\n",
+            "|    value_loss         | 0.000115 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 677      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 79500    |\n",
+            "|    time_elapsed       | 5017     |\n",
+            "|    total_timesteps    | 2544000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.2     |\n",
+            "|    explained_variance | 0.988    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 79499    |\n",
+            "|    policy_loss        | 0.00371  |\n",
+            "|    std                | 0.0465   |\n",
+            "|    value_loss         | 0.00104  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 679      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 79600    |\n",
+            "|    time_elapsed       | 5024     |\n",
+            "|    total_timesteps    | 2547200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.47    |\n",
+            "|    explained_variance | 0.958    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 79599    |\n",
+            "|    policy_loss        | 0.017    |\n",
+            "|    std                | 0.0465   |\n",
+            "|    value_loss         | 0.00114  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 673      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 79700    |\n",
+            "|    time_elapsed       | 5030     |\n",
+            "|    total_timesteps    | 2550400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.29    |\n",
+            "|    explained_variance | 0.962    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 79699    |\n",
+            "|    policy_loss        | 0.121    |\n",
+            "|    std                | 0.0464   |\n",
+            "|    value_loss         | 0.00497  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 668      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 79800    |\n",
+            "|    time_elapsed       | 5037     |\n",
+            "|    total_timesteps    | 2553600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.03    |\n",
+            "|    explained_variance | 0.983    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 79799    |\n",
+            "|    policy_loss        | 0.0309   |\n",
+            "|    std                | 0.0462   |\n",
+            "|    value_loss         | 0.00107  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 668      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 79900    |\n",
+            "|    time_elapsed       | 5042     |\n",
+            "|    total_timesteps    | 2556800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.1     |\n",
+            "|    explained_variance | 0.983    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 79899    |\n",
+            "|    policy_loss        | 0.00469  |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.000984 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 985      |\n",
+            "|    ep_rew_mean        | 666      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 80000    |\n",
+            "|    time_elapsed       | 5048     |\n",
+            "|    total_timesteps    | 2560000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.44    |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 79999    |\n",
+            "|    policy_loss        | 0.0222   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.000477 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 977      |\n",
+            "|    ep_rew_mean        | 654      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 80100    |\n",
+            "|    time_elapsed       | 5055     |\n",
+            "|    total_timesteps    | 2563200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.22    |\n",
+            "|    explained_variance | 0.992    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 80099    |\n",
+            "|    policy_loss        | 0.0219   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.000706 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 638      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 80200    |\n",
+            "|    time_elapsed       | 5061     |\n",
+            "|    total_timesteps    | 2566400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.21    |\n",
+            "|    explained_variance | 0.983    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 80199    |\n",
+            "|    policy_loss        | 0.0332   |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.000815 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 634      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 80300    |\n",
+            "|    time_elapsed       | 5068     |\n",
+            "|    total_timesteps    | 2569600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.6     |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 80299    |\n",
+            "|    policy_loss        | 0.0291   |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.000661 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 634      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 80400    |\n",
+            "|    time_elapsed       | 5074     |\n",
+            "|    total_timesteps    | 2572800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.47    |\n",
+            "|    explained_variance | 0.933    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 80399    |\n",
+            "|    policy_loss        | -0.0324  |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.000976 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 632      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 507      |\n",
+            "|    iterations         | 80500    |\n",
+            "|    time_elapsed       | 5079     |\n",
+            "|    total_timesteps    | 2576000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.22    |\n",
+            "|    explained_variance | 0.901    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 80499    |\n",
+            "|    policy_loss        | 0.0194   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00225  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 639      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 80600    |\n",
+            "|    time_elapsed       | 5089     |\n",
+            "|    total_timesteps    | 2579200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.04    |\n",
+            "|    explained_variance | 0.93     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 80599    |\n",
+            "|    policy_loss        | -0.0439  |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00135  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 643      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 80700    |\n",
+            "|    time_elapsed       | 5094     |\n",
+            "|    total_timesteps    | 2582400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.23    |\n",
+            "|    explained_variance | 0.955    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 80699    |\n",
+            "|    policy_loss        | -0.0186  |\n",
+            "|    std                | 0.0462   |\n",
+            "|    value_loss         | 0.000578 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 643      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 80800    |\n",
+            "|    time_elapsed       | 5102     |\n",
+            "|    total_timesteps    | 2585600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.49    |\n",
+            "|    explained_variance | 0.978    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 80799    |\n",
+            "|    policy_loss        | -0.0176  |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.000558 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 649      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 80900    |\n",
+            "|    time_elapsed       | 5107     |\n",
+            "|    total_timesteps    | 2588800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.46    |\n",
+            "|    explained_variance | 0.924    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 80899    |\n",
+            "|    policy_loss        | -0.0291  |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00048  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 658      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 81000    |\n",
+            "|    time_elapsed       | 5114     |\n",
+            "|    total_timesteps    | 2592000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.37    |\n",
+            "|    explained_variance | 0.952    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 80999    |\n",
+            "|    policy_loss        | -0.0155  |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.000884 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 663      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 81100    |\n",
+            "|    time_elapsed       | 5120     |\n",
+            "|    total_timesteps    | 2595200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.15    |\n",
+            "|    explained_variance | 0.98     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 81099    |\n",
+            "|    policy_loss        | -0.00625 |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00112  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 670      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 81200    |\n",
+            "|    time_elapsed       | 5125     |\n",
+            "|    total_timesteps    | 2598400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.14    |\n",
+            "|    explained_variance | 0.95     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 81199    |\n",
+            "|    policy_loss        | -0.0128  |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00276  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 679      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 81300    |\n",
+            "|    time_elapsed       | 5133     |\n",
+            "|    total_timesteps    | 2601600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.35    |\n",
+            "|    explained_variance | 0.989    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 81299    |\n",
+            "|    policy_loss        | 0.0192   |\n",
+            "|    std                | 0.0463   |\n",
+            "|    value_loss         | 0.000611 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 685      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 81400    |\n",
+            "|    time_elapsed       | 5138     |\n",
+            "|    total_timesteps    | 2604800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.23    |\n",
+            "|    explained_variance | 0.735    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 81399    |\n",
+            "|    policy_loss        | 0.0125   |\n",
+            "|    std                | 0.0463   |\n",
+            "|    value_loss         | 0.00224  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 968      |\n",
+            "|    ep_rew_mean        | 702      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 81500    |\n",
+            "|    time_elapsed       | 5145     |\n",
+            "|    total_timesteps    | 2608000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.5     |\n",
+            "|    explained_variance | 0.981    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 81499    |\n",
+            "|    policy_loss        | -0.0797  |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00138  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 968      |\n",
+            "|    ep_rew_mean        | 710      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 81600    |\n",
+            "|    time_elapsed       | 5151     |\n",
+            "|    total_timesteps    | 2611200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.18    |\n",
+            "|    explained_variance | 0.984    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 81599    |\n",
+            "|    policy_loss        | -0.04    |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00197  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 968      |\n",
+            "|    ep_rew_mean        | 714      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 81700    |\n",
+            "|    time_elapsed       | 5160     |\n",
+            "|    total_timesteps    | 2614400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.2     |\n",
+            "|    explained_variance | 0.938    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 81699    |\n",
+            "|    policy_loss        | -0.00158 |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.00122  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 968      |\n",
+            "|    ep_rew_mean        | 717      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 81800    |\n",
+            "|    time_elapsed       | 5167     |\n",
+            "|    total_timesteps    | 2617600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.44    |\n",
+            "|    explained_variance | 0.654    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 81799    |\n",
+            "|    policy_loss        | 0.0663   |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.00115  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 724      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 81900    |\n",
+            "|    time_elapsed       | 5172     |\n",
+            "|    total_timesteps    | 2620800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.41    |\n",
+            "|    explained_variance | 0.921    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 81899    |\n",
+            "|    policy_loss        | -0.0971  |\n",
+            "|    std                | 0.0456   |\n",
+            "|    value_loss         | 0.00506  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 727      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 82000    |\n",
+            "|    time_elapsed       | 5180     |\n",
+            "|    total_timesteps    | 2624000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.47    |\n",
+            "|    explained_variance | 0.968    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 81999    |\n",
+            "|    policy_loss        | 0.00015  |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00118  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 728      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 82100    |\n",
+            "|    time_elapsed       | 5185     |\n",
+            "|    total_timesteps    | 2627200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.32    |\n",
+            "|    explained_variance | 0.951    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 82099    |\n",
+            "|    policy_loss        | -0.0469  |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00302  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 728      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 82200    |\n",
+            "|    time_elapsed       | 5191     |\n",
+            "|    total_timesteps    | 2630400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.26    |\n",
+            "|    explained_variance | 0.986    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 82199    |\n",
+            "|    policy_loss        | 0.0199   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00141  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 733      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 82300    |\n",
+            "|    time_elapsed       | 5198     |\n",
+            "|    total_timesteps    | 2633600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.46    |\n",
+            "|    explained_variance | 0.888    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 82299    |\n",
+            "|    policy_loss        | 0.0146   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00194  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 736      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 82400    |\n",
+            "|    time_elapsed       | 5203     |\n",
+            "|    total_timesteps    | 2636800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.09    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 82399    |\n",
+            "|    policy_loss        | 0.00343  |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.000222 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 749      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 82500    |\n",
+            "|    time_elapsed       | 5211     |\n",
+            "|    total_timesteps    | 2640000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.49    |\n",
+            "|    explained_variance | 0.925    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 82499    |\n",
+            "|    policy_loss        | 0.0305   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.000452 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 764      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 82600    |\n",
+            "|    time_elapsed       | 5217     |\n",
+            "|    total_timesteps    | 2643200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.04    |\n",
+            "|    explained_variance | 0.979    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 82599    |\n",
+            "|    policy_loss        | -0.00615 |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00259  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 770      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 82700    |\n",
+            "|    time_elapsed       | 5223     |\n",
+            "|    total_timesteps    | 2646400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.25    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 82699    |\n",
+            "|    policy_loss        | 0.0569   |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00166  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 777      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 82800    |\n",
+            "|    time_elapsed       | 5232     |\n",
+            "|    total_timesteps    | 2649600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.33    |\n",
+            "|    explained_variance | 0.966    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 82799    |\n",
+            "|    policy_loss        | -0.0905  |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.00782  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 780      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 82900    |\n",
+            "|    time_elapsed       | 5237     |\n",
+            "|    total_timesteps    | 2652800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.53    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 82899    |\n",
+            "|    policy_loss        | 0.0512   |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00155  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 780      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 83000    |\n",
+            "|    time_elapsed       | 5244     |\n",
+            "|    total_timesteps    | 2656000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.83    |\n",
+            "|    explained_variance | 0.88     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 82999    |\n",
+            "|    policy_loss        | 4.99e-05 |\n",
+            "|    std                | 0.0456   |\n",
+            "|    value_loss         | 0.000611 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 975      |\n",
+            "|    ep_rew_mean        | 781      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 83100    |\n",
+            "|    time_elapsed       | 5250     |\n",
+            "|    total_timesteps    | 2659200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.36    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 83099    |\n",
+            "|    policy_loss        | 0.00422  |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.00108  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 782      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 83200    |\n",
+            "|    time_elapsed       | 5256     |\n",
+            "|    total_timesteps    | 2662400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.2     |\n",
+            "|    explained_variance | 0.991    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 83199    |\n",
+            "|    policy_loss        | 0.0296   |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.00421  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 790      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 83300    |\n",
+            "|    time_elapsed       | 5263     |\n",
+            "|    total_timesteps    | 2665600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.21    |\n",
+            "|    explained_variance | 0.999    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 83299    |\n",
+            "|    policy_loss        | -0.00589 |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.000247 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 800      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 83400    |\n",
+            "|    time_elapsed       | 5269     |\n",
+            "|    total_timesteps    | 2668800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.32    |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 83399    |\n",
+            "|    policy_loss        | 0.0144   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00047  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 808      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 83500    |\n",
+            "|    time_elapsed       | 5278     |\n",
+            "|    total_timesteps    | 2672000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.63    |\n",
+            "|    explained_variance | 0.975    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 83499    |\n",
+            "|    policy_loss        | 0.0669   |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.00132  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 814      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 83600    |\n",
+            "|    time_elapsed       | 5284     |\n",
+            "|    total_timesteps    | 2675200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.56    |\n",
+            "|    explained_variance | 0.978    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 83599    |\n",
+            "|    policy_loss        | -0.0149  |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00345  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 823      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 83700    |\n",
+            "|    time_elapsed       | 5289     |\n",
+            "|    total_timesteps    | 2678400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.34    |\n",
+            "|    explained_variance | 0.995    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 83699    |\n",
+            "|    policy_loss        | -0.082   |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00315  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 828      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 83800    |\n",
+            "|    time_elapsed       | 5299     |\n",
+            "|    total_timesteps    | 2681600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.3     |\n",
+            "|    explained_variance | 0.876    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 83799    |\n",
+            "|    policy_loss        | 0.117    |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.0079   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 832      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 83900    |\n",
+            "|    time_elapsed       | 5305     |\n",
+            "|    total_timesteps    | 2684800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.57    |\n",
+            "|    explained_variance | 0.831    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 83899    |\n",
+            "|    policy_loss        | 0.0369   |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.00323  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 844      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 84000    |\n",
+            "|    time_elapsed       | 5310     |\n",
+            "|    total_timesteps    | 2688000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.57    |\n",
+            "|    explained_variance | -1.31    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 83999    |\n",
+            "|    policy_loss        | 0.0555   |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.0123   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 851      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 84100    |\n",
+            "|    time_elapsed       | 5318     |\n",
+            "|    total_timesteps    | 2691200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.38    |\n",
+            "|    explained_variance | 0.984    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 84099    |\n",
+            "|    policy_loss        | -0.0144  |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00335  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 987      |\n",
+            "|    ep_rew_mean        | 844      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 84200    |\n",
+            "|    time_elapsed       | 5323     |\n",
+            "|    total_timesteps    | 2694400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.37    |\n",
+            "|    explained_variance | 0.967    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 84199    |\n",
+            "|    policy_loss        | -0.0498  |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.0044   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 987      |\n",
+            "|    ep_rew_mean        | 846      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 84300    |\n",
+            "|    time_elapsed       | 5330     |\n",
+            "|    total_timesteps    | 2697600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.52    |\n",
+            "|    explained_variance | 0.967    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 84299    |\n",
+            "|    policy_loss        | 0.0197   |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.0045   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 987      |\n",
+            "|    ep_rew_mean        | 847      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 84400    |\n",
+            "|    time_elapsed       | 5336     |\n",
+            "|    total_timesteps    | 2700800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.35    |\n",
+            "|    explained_variance | 0.797    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 84399    |\n",
+            "|    policy_loss        | 0.0167   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.0208   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 987      |\n",
+            "|    ep_rew_mean        | 831      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 84500    |\n",
+            "|    time_elapsed       | 5342     |\n",
+            "|    total_timesteps    | 2704000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.57    |\n",
+            "|    explained_variance | 0.984    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 84499    |\n",
+            "|    policy_loss        | -0.151   |\n",
+            "|    std                | 0.0462   |\n",
+            "|    value_loss         | 0.00494  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 979      |\n",
+            "|    ep_rew_mean        | 826      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 84600    |\n",
+            "|    time_elapsed       | 5349     |\n",
+            "|    total_timesteps    | 2707200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.19    |\n",
+            "|    explained_variance | 0.999    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 84599    |\n",
+            "|    policy_loss        | 0.00876  |\n",
+            "|    std                | 0.0463   |\n",
+            "|    value_loss         | 0.000718 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 979      |\n",
+            "|    ep_rew_mean        | 817      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 84700    |\n",
+            "|    time_elapsed       | 5355     |\n",
+            "|    total_timesteps    | 2710400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.3     |\n",
+            "|    explained_variance | 0.866    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 84699    |\n",
+            "|    policy_loss        | -0.127   |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.00475  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 979      |\n",
+            "|    ep_rew_mean        | 815      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 506      |\n",
+            "|    iterations         | 84800    |\n",
+            "|    time_elapsed       | 5362     |\n",
+            "|    total_timesteps    | 2713600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.33    |\n",
+            "|    explained_variance | 0.985    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 84799    |\n",
+            "|    policy_loss        | -0.0317  |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00304  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 979      |\n",
+            "|    ep_rew_mean        | 813      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 84900    |\n",
+            "|    time_elapsed       | 5370     |\n",
+            "|    total_timesteps    | 2716800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.48    |\n",
+            "|    explained_variance | 0.977    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 84899    |\n",
+            "|    policy_loss        | -0.13    |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.0041   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 979      |\n",
+            "|    ep_rew_mean        | 812      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 85000    |\n",
+            "|    time_elapsed       | 5375     |\n",
+            "|    total_timesteps    | 2720000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.35    |\n",
+            "|    explained_variance | 0.985    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 84999    |\n",
+            "|    policy_loss        | 0.0279   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00375  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 972      |\n",
+            "|    ep_rew_mean        | 808      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 85100    |\n",
+            "|    time_elapsed       | 5383     |\n",
+            "|    total_timesteps    | 2723200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.31    |\n",
+            "|    explained_variance | 0.959    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 85099    |\n",
+            "|    policy_loss        | 0.0366   |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.00159  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 813      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 85200    |\n",
+            "|    time_elapsed       | 5388     |\n",
+            "|    total_timesteps    | 2726400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.19    |\n",
+            "|    explained_variance | 0.908    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 85199    |\n",
+            "|    policy_loss        | 0.0465   |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.0041   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 814      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 85300    |\n",
+            "|    time_elapsed       | 5395     |\n",
+            "|    total_timesteps    | 2729600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.23    |\n",
+            "|    explained_variance | 0.972    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 85299    |\n",
+            "|    policy_loss        | -0.0234  |\n",
+            "|    std                | 0.0459   |\n",
+            "|    value_loss         | 0.00671  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 818      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 85400    |\n",
+            "|    time_elapsed       | 5401     |\n",
+            "|    total_timesteps    | 2732800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.32    |\n",
+            "|    explained_variance | 0.987    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 85399    |\n",
+            "|    policy_loss        | 0.0138   |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.00312  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 816      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 85500    |\n",
+            "|    time_elapsed       | 5407     |\n",
+            "|    total_timesteps    | 2736000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.3     |\n",
+            "|    explained_variance | 0.803    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 85499    |\n",
+            "|    policy_loss        | -0.00148 |\n",
+            "|    std                | 0.0461   |\n",
+            "|    value_loss         | 0.0131   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 813      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 85600    |\n",
+            "|    time_elapsed       | 5414     |\n",
+            "|    total_timesteps    | 2739200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.27    |\n",
+            "|    explained_variance | 0.989    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 85599    |\n",
+            "|    policy_loss        | -0.038   |\n",
+            "|    std                | 0.0462   |\n",
+            "|    value_loss         | 0.00286  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 809      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 85700    |\n",
+            "|    time_elapsed       | 5420     |\n",
+            "|    total_timesteps    | 2742400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.35    |\n",
+            "|    explained_variance | 0.981    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 85699    |\n",
+            "|    policy_loss        | -0.0368  |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00252  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 809      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 85800    |\n",
+            "|    time_elapsed       | 5427     |\n",
+            "|    total_timesteps    | 2745600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.5     |\n",
+            "|    explained_variance | 0.983    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 85799    |\n",
+            "|    policy_loss        | -0.158   |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00493  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 812      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 85900    |\n",
+            "|    time_elapsed       | 5434     |\n",
+            "|    total_timesteps    | 2748800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.6     |\n",
+            "|    explained_variance | 0.98     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 85899    |\n",
+            "|    policy_loss        | 0.045    |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.0021   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 824      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 86000    |\n",
+            "|    time_elapsed       | 5441     |\n",
+            "|    total_timesteps    | 2752000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.47    |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 85999    |\n",
+            "|    policy_loss        | -0.0604  |\n",
+            "|    std                | 0.046    |\n",
+            "|    value_loss         | 0.00368  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 825      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 86100    |\n",
+            "|    time_elapsed       | 5448     |\n",
+            "|    total_timesteps    | 2755200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.5     |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 86099    |\n",
+            "|    policy_loss        | 0.00828  |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.000604 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 842      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 86200    |\n",
+            "|    time_elapsed       | 5453     |\n",
+            "|    total_timesteps    | 2758400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.41    |\n",
+            "|    explained_variance | 0.892    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 86199    |\n",
+            "|    policy_loss        | 0.195    |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00897  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 963      |\n",
+            "|    ep_rew_mean        | 841      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 86300    |\n",
+            "|    time_elapsed       | 5461     |\n",
+            "|    total_timesteps    | 2761600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.45    |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 86299    |\n",
+            "|    policy_loss        | -0.0102  |\n",
+            "|    std                | 0.0456   |\n",
+            "|    value_loss         | 0.0025   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 955      |\n",
+            "|    ep_rew_mean        | 835      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 86400    |\n",
+            "|    time_elapsed       | 5466     |\n",
+            "|    total_timesteps    | 2764800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.45    |\n",
+            "|    explained_variance | 0.974    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 86399    |\n",
+            "|    policy_loss        | 0.0365   |\n",
+            "|    std                | 0.0455   |\n",
+            "|    value_loss         | 0.00368  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 955      |\n",
+            "|    ep_rew_mean        | 840      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 86500    |\n",
+            "|    time_elapsed       | 5473     |\n",
+            "|    total_timesteps    | 2768000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.54    |\n",
+            "|    explained_variance | 0.986    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 86499    |\n",
+            "|    policy_loss        | -0.0353  |\n",
+            "|    std                | 0.0454   |\n",
+            "|    value_loss         | 0.00285  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 946      |\n",
+            "|    ep_rew_mean        | 835      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 86600    |\n",
+            "|    time_elapsed       | 5479     |\n",
+            "|    total_timesteps    | 2771200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.31    |\n",
+            "|    explained_variance | 0.993    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 86599    |\n",
+            "|    policy_loss        | 0.0261   |\n",
+            "|    std                | 0.0456   |\n",
+            "|    value_loss         | 0.00064  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 946      |\n",
+            "|    ep_rew_mean        | 831      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 86700    |\n",
+            "|    time_elapsed       | 5484     |\n",
+            "|    total_timesteps    | 2774400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.44    |\n",
+            "|    explained_variance | 0.903    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 86699    |\n",
+            "|    policy_loss        | 0.124    |\n",
+            "|    std                | 0.0455   |\n",
+            "|    value_loss         | 0.00328  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 946      |\n",
+            "|    ep_rew_mean        | 825      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 86800    |\n",
+            "|    time_elapsed       | 5492     |\n",
+            "|    total_timesteps    | 2777600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.42    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 86799    |\n",
+            "|    policy_loss        | 0.00271  |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00081  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 946      |\n",
+            "|    ep_rew_mean        | 818      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 86900    |\n",
+            "|    time_elapsed       | 5497     |\n",
+            "|    total_timesteps    | 2780800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.34    |\n",
+            "|    explained_variance | 0.993    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 86899    |\n",
+            "|    policy_loss        | 0.0514   |\n",
+            "|    std                | 0.0456   |\n",
+            "|    value_loss         | 0.000644 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 946      |\n",
+            "|    ep_rew_mean        | 814      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 87000    |\n",
+            "|    time_elapsed       | 5503     |\n",
+            "|    total_timesteps    | 2784000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.35    |\n",
+            "|    explained_variance | 0.917    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 86999    |\n",
+            "|    policy_loss        | -0.0317  |\n",
+            "|    std                | 0.0456   |\n",
+            "|    value_loss         | 0.00273  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 954      |\n",
+            "|    ep_rew_mean        | 820      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 87100    |\n",
+            "|    time_elapsed       | 5512     |\n",
+            "|    total_timesteps    | 2787200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2       |\n",
+            "|    explained_variance | 0.246    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 87099    |\n",
+            "|    policy_loss        | 0.0666   |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.00578  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 827      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 87200    |\n",
+            "|    time_elapsed       | 5517     |\n",
+            "|    total_timesteps    | 2790400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.42    |\n",
+            "|    explained_variance | 0.98     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 87199    |\n",
+            "|    policy_loss        | -0.115   |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00508  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 829      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 87300    |\n",
+            "|    time_elapsed       | 5525     |\n",
+            "|    total_timesteps    | 2793600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.31    |\n",
+            "|    explained_variance | 0.972    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 87299    |\n",
+            "|    policy_loss        | -0.0507  |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.00675  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 829      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 87400    |\n",
+            "|    time_elapsed       | 5530     |\n",
+            "|    total_timesteps    | 2796800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.6     |\n",
+            "|    explained_variance | 0.981    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 87399    |\n",
+            "|    policy_loss        | -0.00794 |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.000538 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 959      |\n",
+            "|    ep_rew_mean        | 842      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 87500    |\n",
+            "|    time_elapsed       | 5536     |\n",
+            "|    total_timesteps    | 2800000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.22    |\n",
+            "|    explained_variance | 0.995    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 87499    |\n",
+            "|    policy_loss        | -0.0881  |\n",
+            "|    std                | 0.0458   |\n",
+            "|    value_loss         | 0.0018   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 859      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 87600    |\n",
+            "|    time_elapsed       | 5543     |\n",
+            "|    total_timesteps    | 2803200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.38    |\n",
+            "|    explained_variance | 0.946    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 87599    |\n",
+            "|    policy_loss        | 0.12     |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.00322  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 878      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 87700    |\n",
+            "|    time_elapsed       | 5549     |\n",
+            "|    total_timesteps    | 2806400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.39    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 87699    |\n",
+            "|    policy_loss        | 0.0364   |\n",
+            "|    std                | 0.0455   |\n",
+            "|    value_loss         | 0.00123  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 885      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 87800    |\n",
+            "|    time_elapsed       | 5558     |\n",
+            "|    total_timesteps    | 2809600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.28    |\n",
+            "|    explained_variance | 0.939    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 87799    |\n",
+            "|    policy_loss        | 0.0629   |\n",
+            "|    std                | 0.0456   |\n",
+            "|    value_loss         | 0.00391  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 885      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 87900    |\n",
+            "|    time_elapsed       | 5564     |\n",
+            "|    total_timesteps    | 2812800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.16    |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 87899    |\n",
+            "|    policy_loss        | -0.0275  |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.000823 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 967      |\n",
+            "|    ep_rew_mean        | 890      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 88000    |\n",
+            "|    time_elapsed       | 5570     |\n",
+            "|    total_timesteps    | 2816000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.2     |\n",
+            "|    explained_variance | 0.954    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 87999    |\n",
+            "|    policy_loss        | 0.0103   |\n",
+            "|    std                | 0.0455   |\n",
+            "|    value_loss         | 0.00163  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 974      |\n",
+            "|    ep_rew_mean        | 904      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 88100    |\n",
+            "|    time_elapsed       | 5578     |\n",
+            "|    total_timesteps    | 2819200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.28    |\n",
+            "|    explained_variance | 0.762    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 88099    |\n",
+            "|    policy_loss        | 0.0709   |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.00434  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 974      |\n",
+            "|    ep_rew_mean        | 912      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 88200    |\n",
+            "|    time_elapsed       | 5584     |\n",
+            "|    total_timesteps    | 2822400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.34    |\n",
+            "|    explained_variance | 0.968    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 88199    |\n",
+            "|    policy_loss        | -0.0723  |\n",
+            "|    std                | 0.0456   |\n",
+            "|    value_loss         | 0.00395  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 928      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 88300    |\n",
+            "|    time_elapsed       | 5592     |\n",
+            "|    total_timesteps    | 2825600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.38    |\n",
+            "|    explained_variance | 0.961    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 88299    |\n",
+            "|    policy_loss        | 0.018    |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.00106  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 929      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 88400    |\n",
+            "|    time_elapsed       | 5597     |\n",
+            "|    total_timesteps    | 2828800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.32    |\n",
+            "|    explained_variance | 0.977    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 88399    |\n",
+            "|    policy_loss        | -0.0332  |\n",
+            "|    std                | 0.0456   |\n",
+            "|    value_loss         | 0.00395  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 938      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 88500    |\n",
+            "|    time_elapsed       | 5604     |\n",
+            "|    total_timesteps    | 2832000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.51    |\n",
+            "|    explained_variance | 0.995    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 88499    |\n",
+            "|    policy_loss        | -0.0108  |\n",
+            "|    std                | 0.0456   |\n",
+            "|    value_loss         | 0.000429 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 943      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 88600    |\n",
+            "|    time_elapsed       | 5610     |\n",
+            "|    total_timesteps    | 2835200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.51    |\n",
+            "|    explained_variance | 0.346    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 88599    |\n",
+            "|    policy_loss        | -0.0781  |\n",
+            "|    std                | 0.0455   |\n",
+            "|    value_loss         | 0.00428  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 956      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 88700    |\n",
+            "|    time_elapsed       | 5616     |\n",
+            "|    total_timesteps    | 2838400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.37    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 88699    |\n",
+            "|    policy_loss        | -0.0178  |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.000451 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 967      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 88800    |\n",
+            "|    time_elapsed       | 5623     |\n",
+            "|    total_timesteps    | 2841600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.4     |\n",
+            "|    explained_variance | 0.989    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 88799    |\n",
+            "|    policy_loss        | 0.112    |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.0015   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 970      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 88900    |\n",
+            "|    time_elapsed       | 5628     |\n",
+            "|    total_timesteps    | 2844800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.57    |\n",
+            "|    explained_variance | 0.992    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 88899    |\n",
+            "|    policy_loss        | 0.153    |\n",
+            "|    std                | 0.0455   |\n",
+            "|    value_loss         | 0.00208  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 975      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 89000    |\n",
+            "|    time_elapsed       | 5635     |\n",
+            "|    total_timesteps    | 2848000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.2     |\n",
+            "|    explained_variance | 0.988    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 88999    |\n",
+            "|    policy_loss        | -0.0193  |\n",
+            "|    std                | 0.0457   |\n",
+            "|    value_loss         | 0.00103  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 976      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 89100    |\n",
+            "|    time_elapsed       | 5641     |\n",
+            "|    total_timesteps    | 2851200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.53    |\n",
+            "|    explained_variance | 0.985    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 89099    |\n",
+            "|    policy_loss        | 0.0608   |\n",
+            "|    std                | 0.0455   |\n",
+            "|    value_loss         | 0.00206  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 972      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 89200    |\n",
+            "|    time_elapsed       | 5648     |\n",
+            "|    total_timesteps    | 2854400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.29    |\n",
+            "|    explained_variance | 0.927    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 89199    |\n",
+            "|    policy_loss        | 0.0164   |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.00159  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 972      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 89300    |\n",
+            "|    time_elapsed       | 5656     |\n",
+            "|    total_timesteps    | 2857600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.55    |\n",
+            "|    explained_variance | 0.952    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 89299    |\n",
+            "|    policy_loss        | -0.0196  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.00075  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 983      |\n",
+            "|    ep_rew_mean        | 975      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 89400    |\n",
+            "|    time_elapsed       | 5662     |\n",
+            "|    total_timesteps    | 2860800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.35    |\n",
+            "|    explained_variance | 0.948    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 89399    |\n",
+            "|    policy_loss        | -0.0291  |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.00151  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 984      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 89500    |\n",
+            "|    time_elapsed       | 5669     |\n",
+            "|    total_timesteps    | 2864000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.29    |\n",
+            "|    explained_variance | 0.993    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 89499    |\n",
+            "|    policy_loss        | 0.0812   |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.00255  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 991      |\n",
+            "|    ep_rew_mean        | 987      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 89600    |\n",
+            "|    time_elapsed       | 5675     |\n",
+            "|    total_timesteps    | 2867200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.31    |\n",
+            "|    explained_variance | 0.939    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 89599    |\n",
+            "|    policy_loss        | 0.0198   |\n",
+            "|    std                | 0.0454   |\n",
+            "|    value_loss         | 0.00282  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 997      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 89700    |\n",
+            "|    time_elapsed       | 5680     |\n",
+            "|    total_timesteps    | 2870400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.23    |\n",
+            "|    explained_variance | 0.987    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 89699    |\n",
+            "|    policy_loss        | -0.00737 |\n",
+            "|    std                | 0.0455   |\n",
+            "|    value_loss         | 0.00201  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 998      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 89800    |\n",
+            "|    time_elapsed       | 5688     |\n",
+            "|    total_timesteps    | 2873600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.28    |\n",
+            "|    explained_variance | 0.963    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 89799    |\n",
+            "|    policy_loss        | -0.0463  |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.00593  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 1e+03    |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 89900    |\n",
+            "|    time_elapsed       | 5693     |\n",
+            "|    total_timesteps    | 2876800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.4     |\n",
+            "|    explained_variance | 0.989    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 89899    |\n",
+            "|    policy_loss        | 0.02     |\n",
+            "|    std                | 0.0455   |\n",
+            "|    value_loss         | 0.000768 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 1.01e+03 |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 90000    |\n",
+            "|    time_elapsed       | 5700     |\n",
+            "|    total_timesteps    | 2880000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.17    |\n",
+            "|    explained_variance | 0.71     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 89999    |\n",
+            "|    policy_loss        | -0.0764  |\n",
+            "|    std                | 0.0454   |\n",
+            "|    value_loss         | 0.00112  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 1.01e+03 |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 90100    |\n",
+            "|    time_elapsed       | 5706     |\n",
+            "|    total_timesteps    | 2883200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.18    |\n",
+            "|    explained_variance | 0.948    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 90099    |\n",
+            "|    policy_loss        | -0.0403  |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.000938 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 1.01e+03 |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 90200    |\n",
+            "|    time_elapsed       | 5712     |\n",
+            "|    total_timesteps    | 2886400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.88    |\n",
+            "|    explained_variance | 0.983    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 90199    |\n",
+            "|    policy_loss        | 0.0222   |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.000431 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 1e+03    |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 90300    |\n",
+            "|    time_elapsed       | 5721     |\n",
+            "|    total_timesteps    | 2889600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.33    |\n",
+            "|    explained_variance | 0.993    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 90299    |\n",
+            "|    policy_loss        | -0.0326  |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.00105  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 1e+03    |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 90400    |\n",
+            "|    time_elapsed       | 5727     |\n",
+            "|    total_timesteps    | 2892800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.19    |\n",
+            "|    explained_variance | 0.882    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 90399    |\n",
+            "|    policy_loss        | -0.0492  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.00534  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 994      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 90500    |\n",
+            "|    time_elapsed       | 5734     |\n",
+            "|    total_timesteps    | 2896000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.86    |\n",
+            "|    explained_variance | 0.983    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 90499    |\n",
+            "|    policy_loss        | 0.00698  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.000371 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 982      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 90600    |\n",
+            "|    time_elapsed       | 5739     |\n",
+            "|    total_timesteps    | 2899200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.17    |\n",
+            "|    explained_variance | 0.977    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 90599    |\n",
+            "|    policy_loss        | 0.0885   |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.00214  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 976      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 90700    |\n",
+            "|    time_elapsed       | 5746     |\n",
+            "|    total_timesteps    | 2902400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.97    |\n",
+            "|    explained_variance | 0.989    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 90699    |\n",
+            "|    policy_loss        | 0.023    |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.000723 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 968      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 90800    |\n",
+            "|    time_elapsed       | 5753     |\n",
+            "|    total_timesteps    | 2905600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.37    |\n",
+            "|    explained_variance | 0.992    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 90799    |\n",
+            "|    policy_loss        | 0.0512   |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.00229  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 966      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 90900    |\n",
+            "|    time_elapsed       | 5758     |\n",
+            "|    total_timesteps    | 2908800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.05    |\n",
+            "|    explained_variance | 0.987    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 90899    |\n",
+            "|    policy_loss        | -0.0913  |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.00713  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 951      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 91000    |\n",
+            "|    time_elapsed       | 5765     |\n",
+            "|    total_timesteps    | 2912000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.69    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 90999    |\n",
+            "|    policy_loss        | -0.0383  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.0011   |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 941      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 91100    |\n",
+            "|    time_elapsed       | 5771     |\n",
+            "|    total_timesteps    | 2915200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.78    |\n",
+            "|    explained_variance | 0.994    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 91099    |\n",
+            "|    policy_loss        | -0.0482  |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.000924 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 934      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 91200    |\n",
+            "|    time_elapsed       | 5777     |\n",
+            "|    total_timesteps    | 2918400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.92    |\n",
+            "|    explained_variance | 0.982    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 91199    |\n",
+            "|    policy_loss        | -0.0108  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.00202  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 930      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 91300    |\n",
+            "|    time_elapsed       | 5783     |\n",
+            "|    total_timesteps    | 2921600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.18    |\n",
+            "|    explained_variance | 0.994    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 91299    |\n",
+            "|    policy_loss        | -0.0333  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.00167  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 928      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 505      |\n",
+            "|    iterations         | 91400    |\n",
+            "|    time_elapsed       | 5790     |\n",
+            "|    total_timesteps    | 2924800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -0.918   |\n",
+            "|    explained_variance | 0.999    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 91399    |\n",
+            "|    policy_loss        | 0.00323  |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.000211 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 919      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 91500    |\n",
+            "|    time_elapsed       | 5799     |\n",
+            "|    total_timesteps    | 2928000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.59    |\n",
+            "|    explained_variance | 0.989    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 91499    |\n",
+            "|    policy_loss        | -0.013   |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.00119  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 917      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 91600    |\n",
+            "|    time_elapsed       | 5804     |\n",
+            "|    total_timesteps    | 2931200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.85    |\n",
+            "|    explained_variance | 0.989    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 91599    |\n",
+            "|    policy_loss        | -0.0168  |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.000953 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 914      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 91700    |\n",
+            "|    time_elapsed       | 5811     |\n",
+            "|    total_timesteps    | 2934400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.82    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 91699    |\n",
+            "|    policy_loss        | 0.0209   |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.000876 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 911      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 91800    |\n",
+            "|    time_elapsed       | 5817     |\n",
+            "|    total_timesteps    | 2937600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.9     |\n",
+            "|    explained_variance | 0.941    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 91799    |\n",
+            "|    policy_loss        | 0.0572   |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.00416  |\n",
+            "------------------------------------\n",
+            "-------------------------------------\n",
+            "| rollout/              |           |\n",
+            "|    ep_len_mean        | 1e+03     |\n",
+            "|    ep_rew_mean        | 909       |\n",
+            "| time/                 |           |\n",
+            "|    fps                | 505       |\n",
+            "|    iterations         | 91900     |\n",
+            "|    time_elapsed       | 5822      |\n",
+            "|    total_timesteps    | 2940800   |\n",
+            "| train/                |           |\n",
+            "|    entropy_loss       | -1.69     |\n",
+            "|    explained_variance | 0.997     |\n",
+            "|    learning_rate      | 0.000969  |\n",
+            "|    n_updates          | 91899     |\n",
+            "|    policy_loss        | -0.000509 |\n",
+            "|    std                | 0.0452    |\n",
+            "|    value_loss         | 0.00194   |\n",
+            "-------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 893      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 92000    |\n",
+            "|    time_elapsed       | 5830     |\n",
+            "|    total_timesteps    | 2944000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.73    |\n",
+            "|    explained_variance | 0.968    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 91999    |\n",
+            "|    policy_loss        | 0.0288   |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.00279  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 886      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 92100    |\n",
+            "|    time_elapsed       | 5837     |\n",
+            "|    total_timesteps    | 2947200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.7     |\n",
+            "|    explained_variance | 1        |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 92099    |\n",
+            "|    policy_loss        | -0.00292 |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.000208 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 879      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 92200    |\n",
+            "|    time_elapsed       | 5844     |\n",
+            "|    total_timesteps    | 2950400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.09    |\n",
+            "|    explained_variance | 0.991    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 92199    |\n",
+            "|    policy_loss        | 0.00187  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.00145  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 883      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 92300    |\n",
+            "|    time_elapsed       | 5850     |\n",
+            "|    total_timesteps    | 2953600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.02    |\n",
+            "|    explained_variance | 0.993    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 92299    |\n",
+            "|    policy_loss        | 0.0321   |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.000984 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 882      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 92400    |\n",
+            "|    time_elapsed       | 5856     |\n",
+            "|    total_timesteps    | 2956800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.84    |\n",
+            "|    explained_variance | 0.991    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 92399    |\n",
+            "|    policy_loss        | -0.0172  |\n",
+            "|    std                | 0.0452   |\n",
+            "|    value_loss         | 0.00167  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 886      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 92500    |\n",
+            "|    time_elapsed       | 5865     |\n",
+            "|    total_timesteps    | 2960000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.04    |\n",
+            "|    explained_variance | 0.992    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 92499    |\n",
+            "|    policy_loss        | -0.00194 |\n",
+            "|    std                | 0.0454   |\n",
+            "|    value_loss         | 0.000335 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 893      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 92600    |\n",
+            "|    time_elapsed       | 5870     |\n",
+            "|    total_timesteps    | 2963200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.17    |\n",
+            "|    explained_variance | 0.598    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 92599    |\n",
+            "|    policy_loss        | -0.0165  |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.000878 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 898      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 92700    |\n",
+            "|    time_elapsed       | 5877     |\n",
+            "|    total_timesteps    | 2966400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.04    |\n",
+            "|    explained_variance | 0.998    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 92699    |\n",
+            "|    policy_loss        | 0.0342   |\n",
+            "|    std                | 0.0451   |\n",
+            "|    value_loss         | 0.000669 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 903      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 92800    |\n",
+            "|    time_elapsed       | 5883     |\n",
+            "|    total_timesteps    | 2969600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.19    |\n",
+            "|    explained_variance | 0.983    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 92799    |\n",
+            "|    policy_loss        | 0.0194   |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.000898 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 907      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 92900    |\n",
+            "|    time_elapsed       | 5889     |\n",
+            "|    total_timesteps    | 2972800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.68    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 92899    |\n",
+            "|    policy_loss        | 0.00115  |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.00192  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 914      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 93000    |\n",
+            "|    time_elapsed       | 5895     |\n",
+            "|    total_timesteps    | 2976000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.96    |\n",
+            "|    explained_variance | 0.999    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 92999    |\n",
+            "|    policy_loss        | -0.0135  |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.000344 |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 915      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 93100    |\n",
+            "|    time_elapsed       | 5901     |\n",
+            "|    total_timesteps    | 2979200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.91    |\n",
+            "|    explained_variance | 0.97     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 93099    |\n",
+            "|    policy_loss        | -0.149   |\n",
+            "|    std                | 0.0454   |\n",
+            "|    value_loss         | 0.00921  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 918      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 93200    |\n",
+            "|    time_elapsed       | 5908     |\n",
+            "|    total_timesteps    | 2982400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.83    |\n",
+            "|    explained_variance | 0.997    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 93199    |\n",
+            "|    policy_loss        | 0.0128   |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.00116  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 916      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 93300    |\n",
+            "|    time_elapsed       | 5913     |\n",
+            "|    total_timesteps    | 2985600  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.22    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 93299    |\n",
+            "|    policy_loss        | 0.064    |\n",
+            "|    std                | 0.0453   |\n",
+            "|    value_loss         | 0.00135  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 919      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 93400    |\n",
+            "|    time_elapsed       | 5919     |\n",
+            "|    total_timesteps    | 2988800  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.18    |\n",
+            "|    explained_variance | 0.99     |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 93399    |\n",
+            "|    policy_loss        | -0.00869 |\n",
+            "|    std                | 0.0449   |\n",
+            "|    value_loss         | 0.00504  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 932      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 93500    |\n",
+            "|    time_elapsed       | 5926     |\n",
+            "|    total_timesteps    | 2992000  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.96    |\n",
+            "|    explained_variance | 0.988    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 93499    |\n",
+            "|    policy_loss        | 0.0199   |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.00329  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 941      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 93600    |\n",
+            "|    time_elapsed       | 5933     |\n",
+            "|    total_timesteps    | 2995200  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -2.18    |\n",
+            "|    explained_variance | 0.982    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 93599    |\n",
+            "|    policy_loss        | 0.05     |\n",
+            "|    std                | 0.045    |\n",
+            "|    value_loss         | 0.00197  |\n",
+            "------------------------------------\n",
+            "------------------------------------\n",
+            "| rollout/              |          |\n",
+            "|    ep_len_mean        | 1e+03    |\n",
+            "|    ep_rew_mean        | 953      |\n",
+            "| time/                 |          |\n",
+            "|    fps                | 504      |\n",
+            "|    iterations         | 93700    |\n",
+            "|    time_elapsed       | 5941     |\n",
+            "|    total_timesteps    | 2998400  |\n",
+            "| train/                |          |\n",
+            "|    entropy_loss       | -1.87    |\n",
+            "|    explained_variance | 0.996    |\n",
+            "|    learning_rate      | 0.000969 |\n",
+            "|    n_updates          | 93699    |\n",
+            "|    policy_loss        | 0.00234  |\n",
+            "|    std                | 0.0449   |\n",
+            "|    value_loss         | 0.0013   |\n",
+            "------------------------------------\n"
+          ]
+        },
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "<stable_baselines3.a2c.a2c.A2C at 0x7f2133c4c430>"
+            ]
+          },
+          "metadata": {},
+          "execution_count": 12
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "notebook_login()\n",
+        "!git config --global credential.helper store"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/",
+          "height": 331,
+          "referenced_widgets": [
+            "156c5533e16243a7bda1e84f80f5114e",
+            "a00a11e622d44f97a332fd474ce466cd",
+            "2b6fb2c35de748c08c963729d8e420ce",
+            "6b0b5d0652954f6788de81be2aed4a91",
+            "c2e98a3f69eb4567a59bfc3b2dc75d09",
+            "4f9c9bf144f24505ae9d7f37a2e08469",
+            "c0c745264866433d9a23bace3f6942ca",
+            "6b327d9a12d04092a0c35e22641749f6",
+            "605f13ce1adb4ec19fb28be89862662f",
+            "3458c418bf9e4790b3bb58eb411afa84",
+            "ec672f86dbe54f779c83a55e124d3529",
+            "487a8dfceb5d4c0c961920dd87f6c3dc",
+            "6006287334cb4569b285b532feeb1bac",
+            "3cb0781eaf4d40f192bd3c0e9b0e7754",
+            "e89bd84972124556842d0b8b88c53c82",
+            "9044266c2ffd42caa0fbca6a6c0cfe1c",
+            "59d495c7bac64601b8290f2b91a5f95a"
+          ]
+        },
+        "id": "EbyyIWRYs-0Z",
+        "outputId": "9e1b9862-51f2-445a-8acb-42b9d7f43b29"
+      },
+      "execution_count": 31,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "Token is valid.\n",
+            "Your token has been saved in your configured git credential helpers (store).\n",
+            "Your token has been saved to /root/.cache/huggingface/token\n",
+            "Login successful\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# Save the model and  VecNormalize statistics when saving the agent\n",
+        "model.save(\"a2c-AntBulletEnv-v0\")\n",
+        "env.save(\"vec_normalize.pkl\")"
+      ],
+      "metadata": {
+        "id": "Bao6xqMOtPEK"
+      },
+      "execution_count": 38,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize\n",
+        "\n",
+        "# Load the saved statistics\n",
+        "eval_env = DummyVecEnv([lambda: gym.make(\"AntBulletEnv-v0\")])\n",
+        "eval_env = VecNormalize.load(\"vec_normalize.pkl\", eval_env)\n",
+        "\n",
+        "#  do not update them at test time\n",
+        "eval_env.training = False\n",
+        "# reward normalization is not needed at test time\n",
+        "eval_env.norm_reward = False\n",
+        "\n",
+        "# Load the agent\n",
+        "model = A2C.load(\"a2c-AntBulletEnv-v0\")\n",
+        "\n",
+        "mean_reward, std_reward = evaluate_policy(model, eval_env)\n",
+        "\n",
+        "print(f\"Mean reward = {mean_reward:.2f} +/- {std_reward:.2f}\")"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "AFwGD_K3zBww",
+        "outputId": "331a209f-8db6-43cb-829f-376e73da9451"
+      },
+      "execution_count": 39,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "Mean reward = 547.70 +/- 111.52\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "package_to_hub(\n",
+        "    model=model,\n",
+        "    model_name=f\"a2c-{env_id}\",\n",
+        "    model_architecture=\"A2C\",\n",
+        "    env_id=env_id,\n",
+        "    eval_env=eval_env,\n",
+        "    repo_id=f\"DrishtiSharma/a2c-{env_id}\", # Change the username\n",
+        "    commit_message=\"Initial commit\",\n",
+        ")"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/",
+          "height": 366,
+          "referenced_widgets": [
+            "3f0e1549af384b5eaaf8d0e0947ffa63",
+            "2469c6a556f646ce948ebaf91538b6f9",
+            "edd595ea0bcb4405babbd89ce001b713",
+            "32befdf329704957a799f02d4b567809",
+            "20705240642b484e9d3600c1e1b59fd4",
+            "4df6f9ecc994445e869d4f166b993275",
+            "630be75737424612b4548699931d42a1",
+            "25ed9665e62541ccb2cb7c54abc9893a",
+            "f2bb94fa4b1f45a4b6a3b2733f286ee0",
+            "e9ee36a505784dffb619f0a371e1f30a",
+            "dd9c3c14cdc047608c52232da0922fbf",
+            "dbdf621979244bc884d5978a717964ec",
+            "2a0d9775e20848af8b1dd2d816c29c83",
+            "95aa8c1e9a16422d80c39b58a6f41be2",
+            "b517ca6b785e4f3da25f0ac3479baf27",
+            "13e80013881248a596b2f5e66ded6b78",
+            "91956ea4266f4f569b213216f4152b4a",
+            "3c32343528234482b6074b484eabf35b",
+            "ff3776982a9f447d9358034b6173810b",
+            "9beb866c18d642c09026f72b7162f705",
+            "dc4d21ed062441189ade718a1637ce15",
+            "d5dc4b70fddf44b69380a621dd07776f",
+            "0b1acf65b5d54bb2b7139d3ec608b1dc",
+            "8f49d8154ba141439baff19887525f58",
+            "adc728f4a9a34defbca502e64ecbd6bd",
+            "c8ac80f0d8a540f2a0f10f2c1de7120e",
+            "ab9d88cffbe44792b4f33f48a35ea207",
+            "0da068b4a75d4eba823d4b1524d383b9",
+            "db4ed7c243ff44779319129275047d19",
+            "a77ed51197ef4c8698000cd6486031ec",
+            "72f5f757970c42e9acfa251a43c78d29",
+            "b723acd11a59442a935c4bf48bd08cc2",
+            "ee40cee766c140f997d5d2e0df1791de",
+            "4c6ab63c95874d1e807d4b9d13ecbe71",
+            "46b2a515f62743f38e36bd34f3c4c25d",
+            "5027a441cf3f462baecc84aa26d9aaa9",
+            "65af073891b745749747b04a1109e3a7",
+            "5101355a7838441b86f3afe843d479b3",
+            "3a13164d7885436a8cc75f174ad1a800",
+            "31f4fc6dc22a47829f44408249d4d106",
+            "84df193e14c04a2286852ee3994de7ef",
+            "c7fcb03dc92e4e5b85d29e57fc36b6c7",
+            "b9bd6fdb316b46d1974c63deb3d592f3",
+            "ff3f469eff2148c192e618cfdf5af008",
+            "f228987c7fc64d30ba7c2f9d0ae971ab",
+            "052da86de60c4d42b9ff3443ae2167fd",
+            "8c5c76524e354e2da1155e0d2d16f14e",
+            "85a94779b184457d88483a0c653b6865",
+            "ba7239084fee470db29a8410cba7a859",
+            "273e4cb1ebc24a438700a8acb626453b",
+            "e8fb69888ba3487c9fa62449cbc665e8",
+            "0010ce3516404b229534792c804a2108",
+            "ec031f4349804865bf1a43c6a439f3ce",
+            "f1ea5d94c4fd4da7b9dbddf4baf51858",
+            "0342b70c06d54475aec9a096678976e8",
+            "70550b80f84f4c2c8a78507f4d4b7d7d",
+            "68b0a8b98bc64437b21321bc81ecabda",
+            "76792056dc8e41b8b429dbaedcc8b959",
+            "21dfca4be5ec4153a0092408c4cd8008",
+            "ae165b0638e44c7c8e4ed2883ad54780",
+            "457a90c53184449cb84aac8566a0c5ee",
+            "f65d8a0e537e42aeb05ad14d01736838",
+            "893f301fae2d407b88fa5222b33960e8",
+            "e890edf0b0db4e29b6bae6e255e7ea60",
+            "a3f2601e95cc46fba98c2b831a90c590",
+            "cb1b15ddb2aa4cc7b4816fbff9c264ec"
+          ]
+        },
+        "id": "5Rf7sQ-UzGkY",
+        "outputId": "da474fc2-986f-4ab5-bd8c-d8eaf91b558a"
+      },
+      "execution_count": 40,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "\u001b[38;5;4mℹ This function will save, evaluate, generate a video of your agent,\n",
+            "create a model card and push everything to the hub. It might take up to 1min.\n",
+            "This is a work in progress: if you encounter a bug, please open an issue.\u001b[0m\n",
+            "Saving video to /tmp/tmpkksh1ofu/-step-0-to-step-1000.mp4\n",
+            "\u001b[38;5;4mℹ Pushing repo DrishtiSharma/a2c-AntBulletEnv-v0 to the Hugging Face\n",
+            "Hub\u001b[0m\n"
+          ]
+        },
+        {
+          "output_type": "display_data",
+          "data": {
+            "text/plain": [
+              "policy.optimizer.pth:   0%|          | 0.00/56.2k [00:00<?, ?B/s]"
+            ],
+            "application/vnd.jupyter.widget-view+json": {
+              "version_major": 2,
+              "version_minor": 0,
+              "model_id": "3f0e1549af384b5eaaf8d0e0947ffa63"
+            }
+          },
+          "metadata": {}
+        },
+        {
+          "output_type": "display_data",
+          "data": {
+            "text/plain": [
+              "policy.pth:   0%|          | 0.00/57.0k [00:00<?, ?B/s]"
+            ],
+            "application/vnd.jupyter.widget-view+json": {
+              "version_major": 2,
+              "version_minor": 0,
+              "model_id": "dbdf621979244bc884d5978a717964ec"
+            }
+          },
+          "metadata": {}
+        },
+        {
+          "output_type": "display_data",
+          "data": {
+            "text/plain": [
+              "Upload 5 LFS files:   0%|          | 0/5 [00:00<?, ?it/s]"
+            ],
+            "application/vnd.jupyter.widget-view+json": {
+              "version_major": 2,
+              "version_minor": 0,
+              "model_id": "0b1acf65b5d54bb2b7139d3ec608b1dc"
+            }
+          },
+          "metadata": {}
+        },
+        {
+          "output_type": "display_data",
+          "data": {
+            "text/plain": [
+              "a2c-AntBulletEnv-v0.zip:   0%|          | 0.00/129k [00:00<?, ?B/s]"
+            ],
+            "application/vnd.jupyter.widget-view+json": {
+              "version_major": 2,
+              "version_minor": 0,
+              "model_id": "4c6ab63c95874d1e807d4b9d13ecbe71"
+            }
+          },
+          "metadata": {}
+        },
+        {
+          "output_type": "display_data",
+          "data": {
+            "text/plain": [
+              "pytorch_variables.pth:   0%|          | 0.00/431 [00:00<?, ?B/s]"
+            ],
+            "application/vnd.jupyter.widget-view+json": {
+              "version_major": 2,
+              "version_minor": 0,
+              "model_id": "f228987c7fc64d30ba7c2f9d0ae971ab"
+            }
+          },
+          "metadata": {}
+        },
+        {
+          "output_type": "display_data",
+          "data": {
+            "text/plain": [
+              "vec_normalize.pkl:   0%|          | 0.00/2.12k [00:00<?, ?B/s]"
+            ],
+            "application/vnd.jupyter.widget-view+json": {
+              "version_major": 2,
+              "version_minor": 0,
+              "model_id": "70550b80f84f4c2c8a78507f4d4b7d7d"
+            }
+          },
+          "metadata": {}
+        },
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "\u001b[38;5;4mℹ Your model is pushed to the Hub. You can view your model here:\n",
+            "https://huggingface.co/DrishtiSharma/a2c-AntBulletEnv-v0/tree/main/\u001b[0m\n"
+          ]
+        },
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "'https://huggingface.co/DrishtiSharma/a2c-AntBulletEnv-v0/tree/main/'"
+            ],
+            "application/vnd.google.colaboratory.intrinsic+json": {
+              "type": "string"
+            }
+          },
+          "metadata": {},
+          "execution_count": 40
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [],
+      "metadata": {
+        "id": "aBbX6kWVzYQ0"
+      },
+      "execution_count": null,
+      "outputs": []
+    }
+  ]
+}
\ No newline at end of file